{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,14]],"date-time":"2026-07-14T19:02:16Z","timestamp":1784055736689,"version":"3.55.0"},"reference-count":62,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015,6]]},"DOI":"10.1109\/cvpr.2015.7298668","type":"proceedings-article","created":{"date-parts":[[2015,10,15]],"date-time":"2015-10-15T22:42:06Z","timestamp":1444948926000},"page":"685-694","source":"Crossref","is-referenced-by-count":602,"title":["Is object localization for free? - Weakly-supervised learning with convolutional neural networks"],"prefix":"10.1109","author":[{"given":"Maxime","family":"Oquab","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Leon","family":"Bottou","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ivan","family":"Laptev","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Josef","family":"Sivic","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126383"},{"key":"ref38","article-title":"Im2text: Describing images using 1 million captioned photographs","author":"ordonez","year":"2011","journal-title":"NIPS"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.4.541"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/0893-6080(90)90044-L"},{"key":"ref31","first-page":"88","article-title":"A time delay neural network architecture for speech recognition","author":"lang","year":"1988","journal-title":"Technical Report CMU-CS"},{"key":"ref30","article-title":"Imagenet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"NIPS"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.222"},{"key":"ref36","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"2014","journal-title":"ECCV"},{"key":"ref35","article-title":"Network in network","author":"lin","year":"2014","journal-title":"arXiv 1312 4400v3"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995523"},{"key":"ref60","article-title":"Visualizing and understanding convolutional networks","author":"zeiler","year":"0","journal-title":"arXiv 1311 2901"},{"key":"ref62","article-title":"Object detectors emerge in deep scene cnns","author":"zhou","year":"2014","journal-title":"CoRR"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-006-9794-4"},{"key":"ref28","article-title":"Integrated segmentation and recognition of hand-printed numerals","author":"keeler","year":"1991","journal-title":"NIPS"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.124"},{"key":"ref29","article-title":"Deep multi-instance transfer learning","author":"kotzias","year":"2014","journal-title":"CoRR"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2007.383011"},{"key":"ref1","year":"2014"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2003.1211479"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.81"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1017\/S026988890999035X"},{"key":"ref24","article-title":"Simultaneous detection and segmentation","author":"hariharan","year":"2014","journal-title":"ECCV"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459266"},{"key":"ref26","article-title":"Analyzing 3d objects in cluttered images","author":"hejrati","year":"2012","journal-title":"NIPS"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459257"},{"key":"ref50","article-title":"On learning to localize objects with minimal supervision","author":"song","year":"2014","journal-title":"ICML"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995330"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995741"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.251"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2005.148"},{"key":"ref56","article-title":"Cnn: Single-label to multi-label","author":"wei","year":"2014","journal-title":"arXiv 1406 6470)"},{"key":"ref55","article-title":"Weakly supervised object localization with latent category learning","author":"wang","year":"2014","journal-title":"ECCV"},{"key":"ref54","article-title":"Multiple instance boosting for object detection","author":"viola","year":"2005","journal-title":"NIPS"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126456"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.214"},{"key":"ref10","article-title":"Torch 7: A matlab-like environment for machine learning","author":"collobert","year":"2011","journal-title":"BigLearn NIPS Workshop"},{"key":"ref11","article-title":"Weakly supervised learning of part-based spatial models for visual object recognition","author":"crandall","year":"2006","journal-title":"ECCV"},{"key":"ref40","article-title":"Untangling Local and Global Deformations in Deep Convolutional Networks for Image Classification and Sliding Window Detection","author":"papandreou","year":"2015","journal-title":"CVPR"},{"key":"ref12","article-title":"Visual categorization with bags of keypoints","author":"csurka","year":"2004","journal-title":"ECCV workshop"},{"key":"ref13","article-title":"Localizing objects while learning their appearance","author":"deselaers","year":"2010","journal-title":"ECCV"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.412"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/2185520.2185597"},{"key":"ref16","article-title":"Decaf: A deep convolutional activation feature for generic visual recognition","author":"donahue","year":"2013","journal-title":"arXiv 1310 1531"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2009.167"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2008.4587597"},{"key":"ref4","article-title":"Simultaneous object detection and ranking with weak supervision","author":"blaschko","year":"2010","journal-title":"NIPS"},{"key":"ref3","article-title":"Self-taught object localization with deep networks","author":"bergamo","year":"2014","journal-title":"CoRR"},{"key":"ref6","article-title":"Return of the devil in the details: Delving deep into convolutional nets","author":"chatfield","year":"2014","journal-title":"arXiv 1405 3531v2"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995659"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2007.383050"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.178"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2003.1238663"},{"key":"ref9","article-title":"Weakly Supervised Object Localization with Multi-fold Multiple Instance Learning","author":"cinbis","year":"2015"},{"key":"ref46","article-title":"Deep inside convolutional networks: Visualising image classification models and saliency maps","author":"simonyan","year":"2013","journal-title":"CoRR"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.219"},{"key":"ref48","article-title":"Discovering object categories in image collections","author":"sivic","year":"2005","journal-title":"ICCV"},{"key":"ref47","article-title":"Unsupervised discovery of mid-level discriminative patches","author":"singh","year":"2012","journal-title":"ECCV"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6248065"},{"key":"ref41","article-title":"Improving the fisher kernel for large-scale image classification","author":"perronnin","year":"2010","journal-title":"ECCV"},{"key":"ref44","article-title":"Overfeat: Integrated recognition, localization and detection using convolutional networks","author":"sermanet","year":"2013","journal-title":"arXiv 1312 6229"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2014.131"}],"event":{"name":"2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","location":"Boston, MA, USA","start":{"date-parts":[[2015,6,7]]},"end":{"date-parts":[[2015,6,12]]}},"container-title":["2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7293313\/7298593\/07298668.pdf?arnumber=7298668","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,3,24]],"date-time":"2017-03-24T21:41:52Z","timestamp":1490391712000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7298668\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,6]]},"references-count":62,"URL":"https:\/\/doi.org\/10.1109\/cvpr.2015.7298668","relation":{},"subject":[],"published":{"date-parts":[[2015,6]]}}}