{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,16]],"date-time":"2026-04-16T14:56:14Z","timestamp":1776351374089,"version":"3.51.2"},"reference-count":51,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2017,12,23]],"date-time":"2017-12-23T00:00:00Z","timestamp":1513987200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2017,12,23]],"date-time":"2017-12-23T00:00:00Z","timestamp":1513987200000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"name":"National Science Foundation","award":["0910908"],"award-info":[{"award-number":["0910908"]}]},{"name":"National Science Foundation","award":["1029430"],"award-info":[{"award-number":["1029430"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2018,10]]},"DOI":"10.1007\/s11263-017-1059-x","type":"journal-article","created":{"date-parts":[[2017,12,23]],"date-time":"2017-12-23T04:46:44Z","timestamp":1514004404000},"page":"1084-1102","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":504,"title":["Top-Down Neural Attention by Excitation Backprop"],"prefix":"10.1007","volume":"126","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9954-6294","authenticated-orcid":false,"given":"Jianming","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Sarah Adel","family":"Bargal","sequence":"additional","affiliation":[]},{"given":"Zhe","family":"Lin","sequence":"additional","affiliation":[]},{"given":"Jonathan","family":"Brandt","sequence":"additional","affiliation":[]},{"given":"Xiaohui","family":"Shen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0711-4313","authenticated-orcid":false,"given":"Stan","family":"Sclaroff","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,12,23]]},"reference":[{"issue":"17","key":"1059_CR1","doi-asserted-by":"publisher","first-page":"6297","DOI":"10.1073\/pnas.84.17.6297","volume":"84","author":"CH Anderson","year":"1987","unstructured":"Anderson, C. H., & Van Essen, D. C. (1987). Shifter circuits: A computational strategy for dynamic aspects of visual processing. Proceedings of the National Academy of Sciences, 84(17), 6297\u20136301.","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"1059_CR2","doi-asserted-by":"crossref","unstructured":"Arbel\u00e1ez, P., Pont-Tuset, J., Barron, J., Marques, F., & Malik, J. (2014). Multiscale combinatorial grouping. In CVPR.","DOI":"10.1109\/CVPR.2014.49"},{"issue":"7","key":"1059_CR3","doi-asserted-by":"publisher","first-page":"e0130140","DOI":"10.1371\/journal.pone.0130140","volume":"10","author":"S Bach","year":"2015","unstructured":"Bach, S., Binder, A., Montavon, G., Klauschen, F., M\u00fcller, K.-R., & Samek, W. (2015). On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation. PloS ONE, 10(7), e0130140.","journal-title":"PloS ONE"},{"issue":"4","key":"1059_CR4","doi-asserted-by":"publisher","first-page":"210","DOI":"10.1016\/j.tins.2011.02.003","volume":"34","author":"F Baluch","year":"2011","unstructured":"Baluch, F., & Itti, L. (2011). Mechanisms of top-down attention. Trends in Neurosciences, 34(4), 210\u2013224.","journal-title":"Trends in Neurosciences"},{"key":"1059_CR5","doi-asserted-by":"crossref","unstructured":"Bazzani, L., Bergamo, A., Anguelov, D. & Torresani, L. (2016). Self-taught object localization with deep networks. In 2016 IEEE winter conference on applications of computer vision (WACV) (pp. 1\u20139). IEEE.","DOI":"10.1109\/WACV.2016.7477688"},{"issue":"10","key":"1059_CR6","doi-asserted-by":"publisher","first-page":"1154","DOI":"10.1016\/j.visres.2008.07.012","volume":"49","author":"DM Beck","year":"2009","unstructured":"Beck, D. M., & Kastner, S. (2009). Top-down and bottom-up mechanisms in biasing competition in the human brain. Vision Research, 49(10), 1154\u20131165.","journal-title":"Vision Research"},{"key":"1059_CR7","doi-asserted-by":"crossref","unstructured":"Cao, C., Liu, X., Yang, Y., Yu, Y., Wang, J., Wang, Z., et\u00a0al. (2015). Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks. In ICCV.","DOI":"10.1109\/ICCV.2015.338"},{"key":"1059_CR8","doi-asserted-by":"crossref","unstructured":"Chatfield, K., Simonyan, K., Vedaldi, A. & \u00a0Zisserman, A. (2014). Return of the devil in the details: Delving deep into convolutional nets. In BMVC.","DOI":"10.5244\/C.28.6"},{"key":"1059_CR9","unstructured":"Clevert, D.-A., Unterthiner, T., & Hochreiter, S. (2016). Fast and accurate deep network learning by exponential linear units (elus). In ICLR."},{"issue":"1373","key":"1059_CR10","doi-asserted-by":"publisher","first-page":"1245","DOI":"10.1098\/rstb.1998.0280","volume":"353","author":"R Desimone","year":"1998","unstructured":"Desimone, R. (1998). Visual attention mediated by biased competition in extrastriate visual cortex. Philosophical Transactions of the Royal Society of London B: Biological Sciences, 353(1373), 1245\u20131255.","journal-title":"Philosophical Transactions of the Royal Society of London B: Biological Sciences"},{"issue":"1","key":"1059_CR11","doi-asserted-by":"publisher","first-page":"193","DOI":"10.1146\/annurev.ne.18.030195.001205","volume":"18","author":"R Desimone","year":"1995","unstructured":"Desimone, R., & Duncan, J. (1995). Neural mechanisms of selective visual attention. Annual Review of Neuroscience, 18(1), 193\u2013222.","journal-title":"Annual Review of Neuroscience"},{"issue":"3","key":"1059_CR12","doi-asserted-by":"publisher","first-page":"34","DOI":"10.1109\/MMUL.2012.26","volume":"19","author":"A Dhall","year":"2012","unstructured":"Dhall, A., Goecke, R., Lucey, S., & Gedeon, T. (2012). Collecting large, richly annotated facial-expression databases from movies. IEEE MultiMedia, 19(3), 34\u201341.","journal-title":"IEEE MultiMedia"},{"issue":"2","key":"1059_CR13","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2010). The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2), 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"key":"1059_CR14","doi-asserted-by":"crossref","unstructured":"Fang, H., Gupta, S., Iandola, F., Srivastava, R.\u00a0K., Deng, L., Doll\u00e1r, P., et\u00a0al. (2015). From captions to visual concepts and back. In CVPR.","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"1059_CR15","unstructured":"Fong, R., & Vedaldi, A. (2017). Interpretable explanations of black boxes by meaningful perturbation. \n                    arXiv:1704.03296\n                    \n                  ."},{"key":"1059_CR16","unstructured":"Gonzalez-Garcia, A., Modolo, D., & Ferrari, V. (2016). Do semantic parts emerge in convolutional neural networks? \n                    arXiv:1607.03738\n                    \n                  ."},{"issue":"3","key":"1059_CR17","doi-asserted-by":"publisher","first-page":"328","DOI":"10.1007\/s11263-014-0713-9","volume":"110","author":"M Guillaumin","year":"2014","unstructured":"Guillaumin, M., K\u00fcttel, D., & Ferrari, V. (2014). Imagenet auto-annotation with segmentation propagation. International Journal of Computer Vision, 110(3), 328\u2013348.","journal-title":"International Journal of Computer Vision"},{"key":"1059_CR18","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S. & Sun, J. (2016). Deep residual learning for image recognition. In CVPR (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"1059_CR19","unstructured":"Huang, W., Bridge, C. P., Noble, J. A., & Zisserman, A. (2017). Temporal heartnet: Towards human-level automatic analysis of fetal cardiac screening video. \n                    arXiv:1707.00665\n                    \n                  ."},{"key":"1059_CR20","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1016\/j.media.2017.07.002","volume":"41","author":"A Jamaludin","year":"2017","unstructured":"Jamaludin, A., Kadir, T., & Zisserman, A. (2017). Spinenet: Automated classification and evidence visualization in spinal mris. Medical Image Analysis, 41, 63\u201373.","journal-title":"Medical Image Analysis"},{"key":"1059_CR21","doi-asserted-by":"crossref","unstructured":"Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., et al. (2014). Caffe: Convolutional architecture for fast feature embedding. In ACM international conference on multimedia.","DOI":"10.1145\/2647868.2654889"},{"key":"1059_CR22","volume-title":"Finite Markov chains","author":"JG Kemeny","year":"1960","unstructured":"Kemeny, J. G., Snell, J. L., et al. (1960). Finite Markov chains. New York: Springer."},{"key":"1059_CR23","unstructured":"Koch, C., & Ullman, S. (1987). Shifts in selective visual attention: Towards the underlying neural circuitry. In L. M. Vaina (Ed.), Matters of intelligence. Synthese library (Studies in epistemology, logic, methodology, and philosophy of science) (vol\u00a0188, pp.\u00a0115\u2013141). Dordrecht: Springer."},{"key":"1059_CR24","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G.\u00a0E. (2012). Imagenet classification with deep convolutional neural networks. In NIPS."},{"key":"1059_CR25","doi-asserted-by":"crossref","unstructured":"Levi, G., & Hassner, T. (2015). Emotion recognition in the wild via convolutional neural networks and mapped binary patterns. In Proceedings of the 2015 ACM on international conference on multimodal interaction (pp. 503\u2013510). ACM.","DOI":"10.1145\/2818346.2830587"},{"key":"1059_CR26","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014). Microsoft COCO: Common objects in context. In ECCV.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"1059_CR27","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In CVPR (pp. 3431\u20133440).","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1059_CR28","doi-asserted-by":"crossref","unstructured":"Oquab, M., Bottou, L., Laptev, I., & Sivic, J. (2015). Is object localization for free?-weakly-supervised learning with convolutional neural networks. In CVPR.","DOI":"10.1109\/CVPR.2015.7298668"},{"key":"1059_CR29","unstructured":"Papandreou, G., Chen, L.-C., Murphy, K., & Yuille, A.\u00a0L. (2015). Weakly-and semi-supervised learning of a dcnn for semantic image segmentation. In ICCV."},{"key":"1059_CR30","doi-asserted-by":"crossref","unstructured":"Pathak, D., Krahenbuhl, P., & Darrell, T. (2015). Constrained convolutional neural networks for weakly supervised segmentation. In ICCV.","DOI":"10.1109\/ICCV.2015.209"},{"key":"1059_CR31","unstructured":"Pinheiro, P. O., & Collobert, R. (2014). Recurrent convolutional neural networks for scene parsing. In ICLR."},{"key":"1059_CR32","doi-asserted-by":"crossref","unstructured":"Pinheiro, P.\u00a0O., & Collobert, R. (2015). From image-level to pixel-level labeling with convolutional networks. In CVPR.","DOI":"10.1109\/CVPR.2015.7298780"},{"key":"1059_CR33","doi-asserted-by":"crossref","unstructured":"Plummer, B.\u00a0A., Wang, L., Cervantes, C.\u00a0M., Caicedo, J.\u00a0C., Hockenmaier, J., & Lazebnik, S. (2015). Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. In CVPR.","DOI":"10.1109\/ICCV.2015.303"},{"issue":"2","key":"1059_CR34","doi-asserted-by":"publisher","first-page":"168","DOI":"10.1016\/j.neuron.2009.01.002","volume":"61","author":"JH Reynolds","year":"2009","unstructured":"Reynolds, J. H., & Heeger, D. J. (2009). The normalization model of attention. Neuron, 61(2), 168\u2013185.","journal-title":"Neuron"},{"issue":"3","key":"1059_CR35","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Hao, S., Krause, J., Satheesh, S., Ma, S., et al. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 115(3), 211\u2013252. \n                    https:\/\/doi.org\/10.1007\/s11263-015-0816-y\n                    \n                  .","journal-title":"International Journal of Computer Vision (IJCV)"},{"key":"1059_CR36","unstructured":"Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2014). Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR."},{"key":"1059_CR37","unstructured":"Simonyan, K., Vedaldi, A., & Zisserman, A. (2014). Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR workshop."},{"key":"1059_CR38","unstructured":"Simonyan, K., & Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In ICLR."},{"key":"1059_CR39","unstructured":"Springenberg, J. T., Dosovitskiy, A., Brox, T., & Riedmiller, M. (2014). Striving for simplicity: The all convolutional net.arXiv preprint. \n                    arXiv:1412.6806\n                    \n                  ."},{"key":"1059_CR40","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., et al. (2015). Going deeper with convolutions. In CVPR.","DOI":"10.1109\/CVPR.2015.7298594"},{"issue":"1","key":"1059_CR41","doi-asserted-by":"publisher","first-page":"97","DOI":"10.1016\/0010-0285(80)90005-5","volume":"12","author":"AM Treisman","year":"1980","unstructured":"Treisman, A. M., & Gelade, G. (1980). A feature-integration theory of attention. Cognitive Psychology, 12(1), 97\u2013136.","journal-title":"Cognitive Psychology"},{"issue":"1","key":"1059_CR42","doi-asserted-by":"publisher","first-page":"507","DOI":"10.1016\/0004-3702(95)00025-9","volume":"78","author":"JK Tsotsos","year":"1995","unstructured":"Tsotsos, J. K., Culhane, S. M., Wai, W. Y. K., Lai, Y., Davis, N., & Nuflo, F. (1995). Modeling visual attention via selective tuning. Artificial Intelligence, 78(1), 507\u2013545.","journal-title":"Artificial Intelligence"},{"issue":"4","key":"1059_CR43","doi-asserted-by":"publisher","first-page":"311","DOI":"10.1162\/jocn.1996.8.4.311","volume":"8","author":"M Usher","year":"1996","unstructured":"Usher, M., & Niebur, E. (1996). Modeling the temporal dynamics of it neurons in visual search: A mechanism for top-down selective attention. Journal of Cognitive Neuroscience, 8(4), 311\u2013327.","journal-title":"Journal of Cognitive Neuroscience"},{"issue":"2","key":"1059_CR44","doi-asserted-by":"publisher","first-page":"202","DOI":"10.3758\/BF03200774","volume":"1","author":"JM Wolfe","year":"1994","unstructured":"Wolfe, J. M. (1994). Guided search 2.0 a revised model of visual search. Psychonomic Bulletin and Review, 1(2), 202\u2013238.","journal-title":"Psychonomic Bulletin and Review"},{"issue":"2","key":"1059_CR45","first-page":"483","volume":"29","author":"JM Wolfe","year":"2003","unstructured":"Wolfe, J. M., Butcher, S. J., Lee, C., & Hyle, M. (2003). Changing your mind: On the contributions of top-down and bottom-up guidance in visual search for feature singletons. Journal of Experimental Psychology: Human Perception and Performance, 29(2), 483.","journal-title":"Journal of Experimental Psychology: Human Perception and Performance"},{"key":"1059_CR46","unstructured":"Yosinski, J., Clune, J., Nguyen, A., Fuchs, T., & Lipson, H. (2015). Understanding neural networks through deep visualization. \n                    arXiv:1506.06579"},{"key":"1059_CR47","doi-asserted-by":"crossref","unstructured":"Zeiler, M.\u00a0D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In ECCV.","DOI":"10.1007\/978-3-319-10590-1_53"},{"key":"1059_CR48","unstructured":"Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2015). Object detectors emerge in deep scene cnns. In ICLR."},{"key":"1059_CR49","doi-asserted-by":"crossref","unstructured":"Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In CVPR.","DOI":"10.1109\/CVPR.2016.319"},{"key":"1059_CR50","unstructured":"Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., & Oliva, A. (2014). Learning deep features for scene recognition using places database. In NIPS."},{"key":"1059_CR51","doi-asserted-by":"crossref","unstructured":"Zitnick, C.\u00a0L., & Doll\u00e1r, P. (2014). Edge boxes: Locating object proposals from edges. In ECCV.","DOI":"10.1007\/978-3-319-10602-1_26"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-017-1059-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-017-1059-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-017-1059-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,5,17]],"date-time":"2020-05-17T07:18:18Z","timestamp":1589699898000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-017-1059-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,12,23]]},"references-count":51,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2018,10]]}},"alternative-id":["1059"],"URL":"https:\/\/doi.org\/10.1007\/s11263-017-1059-x","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,12,23]]},"assertion":[{"value":"25 April 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 November 2017","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 December 2017","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}