{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T16:02:58Z","timestamp":1778083378911,"version":"3.51.4"},"publisher-location":"Cham","reference-count":50,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030012182","type":"print"},{"value":"9783030012199","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-030-01219-9_20","type":"book-chapter","created":{"date-parts":[[2018,10,6]],"date-time":"2018-10-06T10:23:51Z","timestamp":1538821431000},"page":"330-347","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":94,"title":["Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8260-5449","authenticated-orcid":false,"given":"Guojun","family":"Yin","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lu","family":"Sheng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bin","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nenghai","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaogang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3521-6744","authenticated-orcid":false,"given":"Jing","family":"Shao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chen Change","family":"Loy","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,10,7]]},"reference":[{"key":"20_CR1","unstructured":"Alexe, B., Heess, N., Teh, Y.W., Ferrari, V.: Searching for objects driven by context. In: NIPS (2012)"},{"key":"20_CR2","volume-title":"Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit","author":"S Bird","year":"2009","unstructured":"Bird, S., Klein, E., Loper, E.: Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O\u2019Reilly Media Inc., Newton (2009)"},{"key":"20_CR3","doi-asserted-by":"publisher","first-page":"243","DOI":"10.1007\/s11263-011-0507-2","volume":"98","author":"J Carreira","year":"2012","unstructured":"Carreira, J., Li, F., Sminchisescu, C.: Object recognition by sequential figure-ground ranking. IJCV 98, 243\u2013262 (2012)","journal-title":"IJCV"},{"key":"20_CR4","doi-asserted-by":"crossref","unstructured":"Chen, X., Shrivastava, A., Gupta, A.: Neil: Extracting visual knowledge from web data. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.178"},{"key":"20_CR5","doi-asserted-by":"crossref","unstructured":"Choi, M.J., Lim, J.J., Torralba, A., Willsky, A.S.: Exploiting hierarchical context on a large database of object categories. In: CVPR (2010)","DOI":"10.1109\/CVPR.2010.5540221"},{"key":"20_CR6","doi-asserted-by":"crossref","unstructured":"Dai, B., Zhang, Y., Lin, D.: Detecting visual relationships with deep relational networks. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.352"},{"key":"20_CR7","unstructured":"Delaitre, V., Sivic, J., Laptev, I.: Learning person-object interactions for action recognition in still images. In: NIPS (2011)"},{"key":"20_CR8","doi-asserted-by":"crossref","unstructured":"Deng, J., Berg, A.C., Fei-Fei, L.: Hierarchical semantic indexing for large scale image retrieval. In: CVPR, pp. 785\u2013792. IEEE (2011)","DOI":"10.1109\/CVPR.2011.5995516"},{"key":"20_CR9","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"48","DOI":"10.1007\/978-3-319-10590-1_4","volume-title":"Computer Vision \u2013 ECCV 2014","author":"J Deng","year":"2014","unstructured":"Deng, J., et al.: Large-scale object classification using label relation graphs. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8689, pp. 48\u201364. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10590-1_4"},{"key":"20_CR10","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Li, F.F.: ImageNet: a large-scale hierarchical image database. In: CVPR (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"20_CR11","doi-asserted-by":"crossref","unstructured":"Deng, J., Krause, J., Berg, A.C., Li, F.F.: Hedging your bets: optimizing accuracy-specificity trade-offs in large scale visual recognition. In: CVPR, pp. 3450\u20133457. IEEE, June 2012","DOI":"10.1109\/CVPR.2012.6248086"},{"key":"20_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"158","DOI":"10.1007\/978-3-642-33765-9_12","volume-title":"Computer Vision \u2013 ECCV 2012","author":"C Desai","year":"2012","unstructured":"Desai, C., Ramanan, D.: Detecting actions, poses, and objects with relational phraselets. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7575, pp. 158\u2013172. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-33765-9_12"},{"key":"20_CR13","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s11263-011-0439-x","volume":"95","author":"C Desai","year":"2011","unstructured":"Desai, C., Ramanan, D., Fowlkes, C.C.: Discriminative models for multi-class object layout. IJCV 95, 1\u201312 (2011)","journal-title":"IJCV"},{"key":"20_CR14","doi-asserted-by":"crossref","unstructured":"Girshick, R.: Fast R-CNN. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.169"},{"key":"20_CR15","doi-asserted-by":"crossref","unstructured":"Gkioxari, G., Girshick, R., Malik, J.: Contextual action recognition with R* CNN. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.129"},{"key":"20_CR16","doi-asserted-by":"crossref","unstructured":"Guadarrama, S., et al.: YouTube2Text: recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.337"},{"key":"20_CR17","doi-asserted-by":"crossref","unstructured":"Hu, H., Zhou, G.T., Deng, Z., Liao, Z., Mori, G.: Learning structured inference neural networks with label relations. In: CVPR, pp. 2960\u20132968 (2016)","DOI":"10.1109\/CVPR.2016.323"},{"key":"20_CR18","doi-asserted-by":"crossref","unstructured":"Hu, R., Rohrbach, M., Andreas, J., Darrell, T., Saenko, K.: Modeling relationships in referential expressions with compositional modular networks. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.470"},{"key":"20_CR19","doi-asserted-by":"crossref","unstructured":"Jia, Y., et al.: Caffe: convolutional architecture for fast feature embedding. In: ACM MM (2014)","DOI":"10.1145\/2647868.2654889"},{"key":"20_CR20","unstructured":"Karpathy, A., Joulin, A., Li, F.F.: Deep fragment embeddings for bidirectional image sentence mapping. In: NIPS (2014)"},{"key":"20_CR21","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Li, F.F.: Deep visual-semantic alignments for generating image descriptions. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"20_CR22","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. IJCV 123, 32\u201373 (2017)","journal-title":"IJCV"},{"key":"20_CR23","unstructured":"Li, C., Parikh, D., Chen, T.: Extracting adaptive contextual cues from unlabeled regions. In: ICCV (2011)"},{"key":"20_CR24","unstructured":"Li, L.J., Su, H., Fei-Fei, L., Xing, E.P.: Object bank: a high-level image representation for scene classification & semantic feature sparsification. In: NIPS (2010)"},{"key":"20_CR25","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"684","DOI":"10.1007\/978-3-319-46466-4_41","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Y Li","year":"2016","unstructured":"Li, Y., Huang, C., Loy, C.C., Tang, X.: Human attribute recognition by deep hierarchical contexts. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9910, pp. 684\u2013700. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46466-4_41"},{"key":"20_CR26","doi-asserted-by":"crossref","unstructured":"Li, Y., Ouyang, W., Wang, X., Tang, X.: ViP-CNN: Visual phrase guided convolutional neural network. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.766"},{"key":"20_CR27","doi-asserted-by":"crossref","unstructured":"Li, Y., Ouyang, W., Zhou, B., Wang, K., Wang, X.: Scene graph generation from objects, phrases and region captions. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.142"},{"key":"20_CR28","doi-asserted-by":"crossref","unstructured":"Liang, X., Hu, Z., Zhang, H., Gan, C., Xing, E.P.: Recurrent topic-transition GAN for visual paragraph generation. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.364"},{"key":"20_CR29","doi-asserted-by":"crossref","unstructured":"Liang, X., Lee, L., Xing, E.P.: Deep variation-structured reinforcement learning for visual relationship and attribute detection. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.469"},{"key":"20_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"852","DOI":"10.1007\/978-3-319-46448-0_51","volume-title":"Computer Vision \u2013 ECCV 2016","author":"C Lu","year":"2016","unstructured":"Lu, C., Krishna, R., Bernstein, M., Fei-Fei, L.: Visual relationship detection with language priors. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9905, pp. 852\u2013869. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46448-0_51"},{"key":"20_CR31","doi-asserted-by":"crossref","unstructured":"Marszalek, M., Schmid, C.: Semantic hierarchies for visual object recognition. In: CVPR (2007)","DOI":"10.1109\/CVPR.2007.383272"},{"key":"20_CR32","doi-asserted-by":"crossref","unstructured":"Mottaghi, R., et al.: The role of context for object detection and semantic segmentation in the wild. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.119"},{"key":"20_CR33","doi-asserted-by":"crossref","unstructured":"Ordonez, V., Deng, J., Choi, Y., Berg, A.C., Berg, T.L.: From large scale image categorization to entry-level categories. In: ICCV, pp. 2768\u20132775. IEEE (2013)","DOI":"10.1109\/ICCV.2013.344"},{"key":"20_CR34","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"241","DOI":"10.1007\/978-3-642-15561-1_18","volume-title":"Computer Vision \u2013 ECCV 2010","author":"D Park","year":"2010","unstructured":"Park, D., Ramanan, D., Fowlkes, C.: Multiresolution models for object detection. In: Daniilidis, K., Maragos, P., Paragios, N. (eds.) ECCV 2010. LNCS, vol. 6314, pp. 241\u2013254. Springer, Heidelberg (2010). https:\/\/doi.org\/10.1007\/978-3-642-15561-1_18"},{"key":"20_CR35","doi-asserted-by":"crossref","unstructured":"Peyre, J., Laptev, I., Schmid, C., Sivic, J.: Weakly-supervised learning of visual relations. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.554"},{"key":"20_CR36","doi-asserted-by":"crossref","unstructured":"Rabinovich, A., Vedaldi, A., Galleguillos, C., Wiewiora, E., Belongie, S.: Objects in context. In: ICCV (2007)","DOI":"10.1109\/ICCV.2007.4408986"},{"key":"20_CR37","doi-asserted-by":"crossref","unstructured":"Redmon, J., Farhadi, A.: Yolo9000: Better, faster, stronger. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.690"},{"key":"20_CR38","doi-asserted-by":"crossref","unstructured":"Sadeghi, M.A., Farhadi, A.: Recognition using visual phrases. In: CVPR (2011)","DOI":"10.1109\/CVPR.2011.5995711"},{"key":"20_CR39","doi-asserted-by":"crossref","unstructured":"Schuster, S., Krishna, R., Chang, A., Fei-Fei, L., Manning, C.D.: Generating semantically precise scene graphs from textual descriptions for improved image retrieval. In: Proceedings of the Fourth Workshop on Vision and Language (2015)","DOI":"10.18653\/v1\/W15-2812"},{"key":"20_CR40","unstructured":"Seco, N., Veale, T., Hayes, J.: An intrinsic information content metric for semantic similarity in WordNet. In: Proceedings of the 16th European Conference on Artificial Intelligence (2004)"},{"key":"20_CR41","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: arXiv preprint (2014)"},{"key":"20_CR42","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1145\/1666420.1666446","volume":"53","author":"A Torralba","year":"2010","unstructured":"Torralba, A., Murphy, K.P., Freeman, W.T.: Using the forest to see the trees: exploiting context for visual object detection and localization. Commun. ACM 53, 107\u2013114 (2010)","journal-title":"Commun. ACM"},{"key":"20_CR43","doi-asserted-by":"crossref","unstructured":"Wang, J., Markert, K., Everingham, M.: Learning models for object recognition from natural language descriptions. In: BMVC (2009)","DOI":"10.5244\/C.23.2"},{"key":"20_CR44","doi-asserted-by":"crossref","unstructured":"Xu, D., Zhu, Y., Choy, C.B., Fei-Fei, L.: Scene graph generation by iterative message passing. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.330"},{"key":"20_CR45","doi-asserted-by":"crossref","unstructured":"Yatskar, M., Zettlemoyer, L., Farhadi, A.: Situation recognition: visual semantic role labeling for image understanding. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.597"},{"key":"20_CR46","doi-asserted-by":"crossref","unstructured":"Yu, R., Li, A., Morariu, V.I., Davis, L.S.: Visual relationship detection with internal and external linguistic knowledge distillation. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.121"},{"key":"20_CR47","doi-asserted-by":"crossref","unstructured":"Zhang, H., Kyaw, Z., Chang, S.F., Chua, T.S.: Visual translation embedding network for visual relation detection. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.331"},{"key":"20_CR48","doi-asserted-by":"crossref","unstructured":"Zhang, H., Kyaw, Z., Yu, J., Chang, S.F.: PPR-FCN: weakly supervised visual relation detection via parallel pairwise R-FCN. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.454"},{"key":"20_CR49","doi-asserted-by":"crossref","unstructured":"Zhuang, B., Liu, L., Shen, C., Reid, I.: Towards context-aware interaction recognition for visual relationship detection. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.71"},{"key":"20_CR50","doi-asserted-by":"crossref","unstructured":"Zhuang, B., Wu, Q., Shen, C., Reid, I., van den Hengel, A.: Care about you: towards large-scale human-centric visual relationship detection. In: arXiv preprint (2017)","DOI":"10.1609\/aaai.v32i1.12260"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2018"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-01219-9_20","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T18:47:16Z","timestamp":1775242036000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-01219-9_20"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783030012182","9783030012199"],"references-count":50,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-01219-9_20","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"7 October 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Munich","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 September 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 September 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2018.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}