{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T14:04:44Z","timestamp":1772719484935,"version":"3.50.1"},"publisher-location":"Cham","reference-count":84,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031200588","type":"print"},{"value":"9783031200595","type":"electronic"}],"license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022]]},"DOI":"10.1007\/978-3-031-20059-5_38","type":"book-chapter","created":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:02:50Z","timestamp":1666972970000},"page":"662-681","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":22,"title":["Webly Supervised Concept Expansion for\u00a0General Purpose Vision Models"],"prefix":"10.1007","author":[{"given":"Amita","family":"Kamath","sequence":"first","affiliation":[]},{"given":"Christopher","family":"Clark","sequence":"additional","affiliation":[]},{"given":"Tanmay","family":"Gupta","sequence":"additional","affiliation":[]},{"given":"Eric","family":"Kolve","sequence":"additional","affiliation":[]},{"given":"Derek","family":"Hoiem","sequence":"additional","affiliation":[]},{"given":"Aniruddha","family":"Kembhavi","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,10,29]]},"reference":[{"key":"38_CR1","doi-asserted-by":"crossref","unstructured":"Agrawal, H., et al.: Nocaps: novel object captioning at scale. In: International Conference on Computer Vision, pp. 8947\u20138956 (2019)","DOI":"10.1109\/ICCV.2019.00904"},{"key":"38_CR2","doi-asserted-by":"crossref","unstructured":"Anderson, P., et al.: Bottom-up and top-down attention for image captioning and visual question answering. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6077\u20136086 (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"38_CR3","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.279"},{"key":"38_CR4","unstructured":"Brown, T., et al.: Language models are few-shot learners. ArXiv arXiv:2005.14165 (2020)"},{"issue":"3","key":"38_CR5","doi-asserted-by":"publisher","first-page":"904","DOI":"10.3758\/s13428-013-0403-5","volume":"46","author":"M Brysbaert","year":"2013","unstructured":"Brysbaert, M., Warriner, A., Kuperman, V.: Concreteness ratings for 40 thousand generally known English word lemmas. Behav. Res. Methods 46(3), 904\u2013911 (2013). https:\/\/doi.org\/10.3758\/s13428-013-0403-5","journal-title":"Behav. Res. Methods"},{"key":"38_CR6","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. ECCV arXiv:2005.12872 (2020)","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"38_CR7","doi-asserted-by":"crossref","unstructured":"Chao, Y.W., Liu, Y., Liu, X., Zeng, H., Deng, J.: Learning to detect human-object interactions. In: Proceedings of the IEEE Winter Conference on Applications of Computer Vision (2018)","DOI":"10.1109\/WACV.2018.00048"},{"key":"38_CR8","doi-asserted-by":"crossref","unstructured":"Chao, Y.W., Wang, Z., He, Y., Wang, J., Deng, J.: HICO: a benchmark for recognizing human-object interactions in images. In: Proceedings of the IEEE International Conference on Computer Vision (2015)","DOI":"10.1109\/ICCV.2015.122"},{"key":"38_CR9","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"609","DOI":"10.1007\/978-3-642-33712-3_44","volume-title":"Computer Vision \u2013 ECCV 2012","author":"H Chen","year":"2012","unstructured":"Chen, H., Gallagher, A., Girod, B.: Describing clothing by semantic attributes. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7574, pp. 609\u2013623. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-33712-3_44"},{"key":"38_CR10","doi-asserted-by":"crossref","unstructured":"Chen, X., Gupta, A.: Webly supervised learning of convolutional networks. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.168"},{"key":"38_CR11","doi-asserted-by":"crossref","unstructured":"Chen, X., Shrivastava, A., Gupta, A.: NEIL: extracting visual knowledge from web data. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.178"},{"key":"38_CR12","unstructured":"Chen, Y.C., et al.: Uniter: learning universal image-text representations. ArXiv arXiv:1909.11740 (2019)"},{"key":"38_CR13","unstructured":"Cho, J., Lei, J., Tan, H., Bansal, M.: Unifying vision-and-language tasks via text generation. arXiv preprint arXiv:2102.02779 (2021)"},{"key":"38_CR14","doi-asserted-by":"crossref","unstructured":"Divvala, S., Farhadi, A., Guestrin, C.: Learning everything about anything: webly-supervised visual concept learning. In: CVPR (2014)","DOI":"10.1109\/CVPR.2014.412"},{"key":"38_CR15","doi-asserted-by":"crossref","unstructured":"Dong, W., Socher, R., Li-Jia, L., Li, K., Fei-Fei, L.: ImageNet: a large-scale hierarchical image database. In: CVPR (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"38_CR16","unstructured":"Dosovitskiy, A., et al.: An image is worth 16 $$\\times $$ 16 words: transformers for image recognition at scale. ICLR arXiv:2010.11929 (2021)"},{"key":"38_CR17","doi-asserted-by":"crossref","unstructured":"Fang, H., Xie, Y., Shao, D., Lu, C.: Dirv: dense interaction region voting for end-to-end human-object interaction detection. In: AAAI (2021)","DOI":"10.1609\/aaai.v35i2.16217"},{"key":"38_CR18","doi-asserted-by":"crossref","unstructured":"Farhadi, A., Endres, I., Hoiem, D., Forsyth, D.A.: Describing objects by their attributes. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 1778\u20131785 (2009)","DOI":"10.1109\/CVPR.2009.5206772"},{"key":"38_CR19","doi-asserted-by":"crossref","unstructured":"Fergus, R., Fei-Fei, L., Perona, P., Zisserman, A.: Learning object categories from Google\u2019s image search. In: Tenth IEEE International Conference on Computer Vision (ICCV 2005) Volume 1 2, vol. 2, pp. 1816\u20131823 (2005)","DOI":"10.1109\/ICCV.2005.142"},{"key":"38_CR20","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"439","DOI":"10.1007\/978-3-319-10584-0_29","volume-title":"Computer Vision \u2013 ECCV 2014","author":"E Golge","year":"2014","unstructured":"Golge, E., Duygulu, P.: ConceptMap: mining noisy web data for concept learning. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8695, pp. 439\u2013455. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10584-0_29"},{"key":"38_CR21","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the V in VQA matter: elevating the role of image understanding in Visual Question Answering. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.670"},{"key":"38_CR22","unstructured":"Gu, X., Lin, T.Y., Kuo, W., Cui, Y.: Open-vocabulary object detection via vision and language knowledge distillation (2021)"},{"key":"38_CR23","doi-asserted-by":"crossref","unstructured":"Guo, S., et al.: Curriculumnet: weakly supervised learning from large-scale web images. ArXiv arXiv:1808.01097 (2018)","DOI":"10.1007\/978-3-030-01249-6_9"},{"key":"38_CR24","doi-asserted-by":"crossref","unstructured":"Gupta, T., Kamath, A., Kembhavi, A., Hoiem, D.: Towards general purpose vision systems: an end-to-end task-agnostic vision-language architecture. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01591"},{"key":"38_CR25","unstructured":"Gupta, T., Marten, R., Kembhavi, A., Hoiem, D.: Grit: general robust image task benchmark. arXiv preprint arXiv:2204.13653 (2022)"},{"key":"38_CR26","doi-asserted-by":"crossref","unstructured":"Gupta, T., Schwing, A.G., Hoiem, D.: No-frills human-object interaction detection: factorization, layout encodings, and training techniques. In: 2019 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 9676\u20139684 (2019)","DOI":"10.1109\/ICCV.2019.00977"},{"key":"38_CR27","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Dollar, P., Girshick, R.: Mask R-CNN. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"38_CR28","unstructured":"Hoffman, J., et al.: LSDA: large scale detection through adaptation. In: NIPS (2014)"},{"key":"38_CR29","unstructured":"Jaegle, A., et al.: Perceiver IO: a general architecture for structured inputs & outputs. ArXiv arXiv:2107.14795 (2021)"},{"key":"38_CR30","unstructured":"Jaegle, A., Gimeno, F., Brock, A., Zisserman, A., Vinyals, O., Carreira, J.: Perceiver: general perception with iterative attention. In: ICML (2021)"},{"key":"38_CR31","unstructured":"Jia, C., et al.: Scaling up visual and vision-language representation learning with noisy text supervision. In: ICML (2021)"},{"key":"38_CR32","doi-asserted-by":"crossref","unstructured":"Jin, B., Segovia, M.V.O., S\u00fcsstrunk, S.: Webly supervised semantic segmentation. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1705\u20131714 (2017)","DOI":"10.1109\/CVPR.2017.185"},{"key":"38_CR33","doi-asserted-by":"crossref","unstructured":"Kim, B., Lee, J., Kang, J., Kim, E.S., Kim, H.J.: HOTR: end-to-end human-object interaction detection with transformers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2021)","DOI":"10.1109\/CVPR46437.2021.00014"},{"key":"38_CR34","unstructured":"Kim, W., Son, B., Kim, I.: ViLT: vision-and-language transformer without convolution or region supervision. ArXiv arXiv:2102.03334 (2021)"},{"key":"38_CR35","doi-asserted-by":"crossref","unstructured":"Krause, J., et al.: The unreasonable effectiveness of noisy data for fine-grained recognition. ArXiv arXiv:1511.06789 (2016)","DOI":"10.1007\/978-3-319-46487-9_19"},{"key":"38_CR36","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. IJCV 123, 32\u201373 (2017)","journal-title":"IJCV"},{"key":"38_CR37","doi-asserted-by":"crossref","unstructured":"Kumar, N., Berg, A.C., Belhumeur, P.N., Nayar, S.K.: Attribute and simile classifiers for face verification. In: 2009 IEEE 12th International Conference on Computer Vision, pp. 365\u2013372 (2009)","DOI":"10.1109\/ICCV.2009.5459250"},{"key":"38_CR38","unstructured":"Kuznetsova, A., et al.: The Open Images Dataset V4: unified image classification, object detection, and visual relationship detection at scale. arXiv:1811.00982 (2018)"},{"key":"38_CR39","doi-asserted-by":"crossref","unstructured":"Lampert, C.H., Nickisch, H., Harmeling, S.: Learning to detect unseen object classes by between-class attribute transfer. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 951\u2013958 (2009)","DOI":"10.1109\/CVPR.2009.5206594"},{"key":"38_CR40","doi-asserted-by":"publisher","first-page":"147","DOI":"10.1007\/s11263-009-0265-6","volume":"88","author":"LJ Li","year":"2007","unstructured":"Li, L.J., Fei-Fei, L.: Optimol: automatic online picture collection via incremental model learning. Int. J. Comput. Vision 88, 147\u2013168 (2007)","journal-title":"Int. J. Comput. Vision"},{"key":"38_CR41","unstructured":"Li, L.H., Yatskar, M., Yin, D., Hsieh, C., Chang, K.W.: Visualbert: a simple and performant baseline for vision and language. ArXiv arXiv:1908.03557 (2019)"},{"key":"38_CR42","doi-asserted-by":"crossref","unstructured":"Li, Q., Wu, J., Tu, Z.: Harvesting mid-level visual concepts from large-scale internet images. In: 2013 IEEE Conference on Computer Vision and Pattern Recognition, pp. 851\u2013858 (2013)","DOI":"10.1109\/CVPR.2013.115"},{"key":"38_CR43","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1007\/978-3-030-58577-8_8","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Li","year":"2020","unstructured":"Li, X., et al.: Oscar: object-semantics aligned pre-training for vision-language tasks. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12375, pp. 121\u2013137. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_8"},{"key":"38_CR44","doi-asserted-by":"crossref","unstructured":"Liang, K., Guo, Y., Chang, H., Chen, X.: Visual relationship detection with deep structural ranking. In: AAAI (2018)","DOI":"10.1609\/aaai.v32i1.12274"},{"key":"38_CR45","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. ICCV arXiv:2103.14030 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"38_CR46","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In: NeurIPS (2019)"},{"key":"38_CR47","doi-asserted-by":"crossref","unstructured":"Lu, J., Goswami, V., Rohrbach, M., Parikh, D., Lee, S.: 12-in-1: multi-task vision and language representation learning. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10434\u201310443 (2020)","DOI":"10.1109\/CVPR42600.2020.01045"},{"key":"38_CR48","doi-asserted-by":"crossref","unstructured":"Lu, J., Goswami, V., Rohrbach, M., Parikh, D., Lee, S.: 12-in-1: multi-task vision and language representation learning. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01045"},{"key":"38_CR49","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107308","volume":"103","author":"A Luo","year":"2020","unstructured":"Luo, A., Li, X., Yang, F., Jiao, Z., Cheng, H.: Webly-supervised learning for salient object detection. Pattern Recognit. 103, 107308 (2020)","journal-title":"Pattern Recognit."},{"key":"38_CR50","first-page":"2579","volume":"9","author":"L van der Maaten","year":"2008","unstructured":"van der Maaten, L., Hinton, G.E.: Visualizing data using t-SNE. J. Mach. Learn. Res. 9, 2579\u20132605 (2008)","journal-title":"J. Mach. Learn. Res."},{"key":"38_CR51","unstructured":"McCann, B., Keskar, N., Xiong, C., Socher, R.: The natural language decathlon: multitask learning as question answering. ArXiv arXiv:1806.08730 (2018)"},{"key":"38_CR52","doi-asserted-by":"crossref","unstructured":"Niu, L., Tang, Q., Veeraraghavan, A., Sabharwal, A.: Learning from noisy web data with category-level supervision. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7689\u20137698 (2018)","DOI":"10.1109\/CVPR.2018.00802"},{"key":"38_CR53","doi-asserted-by":"crossref","unstructured":"Niu, L., Veeraraghavan, A., Sabharwal, A.: Webly supervised learning meets zero-shot learning: a hybrid approach for fine-grained classification. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7171\u20137180 (2018)","DOI":"10.1109\/CVPR.2018.00749"},{"key":"38_CR54","doi-asserted-by":"crossref","unstructured":"Parikh, D., Grauman, K.: Relative attributes. In: 2011 International Conference on Computer Vision, pp. 503\u2013510 (2011)","DOI":"10.1109\/ICCV.2011.6126281"},{"key":"38_CR55","doi-asserted-by":"crossref","unstructured":"Patterson, G., Hays, J.: Sun attribute database: discovering, annotating, and recognizing scene attributes. In: 2012 IEEE Conference on Computer Vision and Pattern Recognition, pp. 2751\u20132758 (2012)","DOI":"10.1109\/CVPR.2012.6247998"},{"key":"38_CR56","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision (2021)"},{"key":"38_CR57","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In: ICML (2021)"},{"key":"38_CR58","first-page":"140:1","volume":"21","author":"C Raffel","year":"2020","unstructured":"Raffel, C., et al.: Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res. 21, 140:1-140:67 (2020)","journal-title":"J. Mach. Learn. Res."},{"key":"38_CR59","unstructured":"Ramakrishnan, S., Agrawal, A., Lee, S.: Overcoming language priors in visual question answering with adversarial regularization. arXiv preprint arXiv:1810.03649 (2018)"},{"key":"38_CR60","doi-asserted-by":"crossref","unstructured":"Redmon, J., Farhadi, A.: Yolo9000: better, faster, stronger. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6517\u20136525 (2017)","DOI":"10.1109\/CVPR.2017.690"},{"key":"38_CR61","doi-asserted-by":"crossref","unstructured":"Sharma, P., Ding, N., Goodman, S., Soricut, R.: Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning. In: ACL (2018)","DOI":"10.18653\/v1\/P18-1238"},{"key":"38_CR62","unstructured":"Shen, S., et al.: How much can clip benefit vision-and-language tasks? ArXiv arXiv:2107.06383 (2021)"},{"key":"38_CR63","doi-asserted-by":"crossref","unstructured":"Shen, T., Lin, G., Shen, C., Reid, I.D.: Bootstrapping the performance of webly supervised semantic segmentation. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1363\u20131371 (2018)","DOI":"10.1109\/CVPR.2018.00148"},{"key":"38_CR64","doi-asserted-by":"crossref","unstructured":"Shen, Y., et al.: Noise-aware fully webly supervised object detection. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11323\u201311332 (2020)","DOI":"10.1109\/CVPR42600.2020.01134"},{"key":"38_CR65","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"347","DOI":"10.1007\/978-3-030-58536-5_21","volume-title":"Computer Vision \u2013 ECCV 2020","author":"G Sun","year":"2020","unstructured":"Sun, G., Wang, W., Dai, J., Van Gool, L.: Mining cross-image semantics for weakly supervised semantic segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12347, pp. 347\u2013365. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58536-5_21"},{"key":"38_CR66","doi-asserted-by":"crossref","unstructured":"Tan, H.H., Bansal, M.: Lxmert: learning cross-modality encoder representations from transformers. In: EMNLP\/IJCNLP (2019)","DOI":"10.18653\/v1\/D19-1514"},{"key":"38_CR67","doi-asserted-by":"crossref","unstructured":"Uijlings, J.R.R., Popov, S., Ferrari, V.: Revisiting knowledge transfer for training object class detectors. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1101\u20131110 (2018)","DOI":"10.1109\/CVPR.2018.00121"},{"key":"38_CR68","doi-asserted-by":"crossref","unstructured":"Ulutan, O., Iftekhar, A.S.M., Manjunath, B.S.: Vsgnet: spatial attention network for detecting human object interactions using graph convolutions. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13614\u201313623 (2020)","DOI":"10.1109\/CVPR42600.2020.01363"},{"key":"38_CR69","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: Cider: Consensus-based image description evaluation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) pp. 4566\u20134575 (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"38_CR70","doi-asserted-by":"crossref","unstructured":"Vijayanarasimhan, S., Grauman, K.: Keywords to visual categories: multiple-instance learning forweakly supervised object categorization. In: 2008 IEEE Conference on Computer Vision and Pattern Recognition, pp. 1\u20138 (2008)","DOI":"10.1109\/CVPR.2008.4587632"},{"key":"38_CR71","doi-asserted-by":"crossref","unstructured":"Wang, S., Thompson, L., Iyyer, M.: Phrase-Bert: improved phrase embeddings from Bert with an application to corpus exploration. In: EMNLP (2021)","DOI":"10.18653\/v1\/2021.emnlp-main.846"},{"key":"38_CR72","doi-asserted-by":"crossref","unstructured":"Wang, S., Joo, J., Wang, Y., Zhu, S.C.: Weakly supervised learning for attribute localization in outdoor scenes. In: 2013 IEEE Conference on Computer Vision and Pattern Recognition, pp. 3111\u20133118 (2013)","DOI":"10.1109\/CVPR.2013.400"},{"key":"38_CR73","doi-asserted-by":"publisher","first-page":"1919","DOI":"10.1109\/TPAMI.2008.127","volume":"30","author":"XJ Wang","year":"2008","unstructured":"Wang, X.J., Zhang, L., Li, X., Ma, W.Y.: Annotating images by mining image search results. IEEE Trans. Pattern Anal. Mach. Intell. 30, 1919\u20131932 (2008)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"38_CR74","doi-asserted-by":"crossref","unstructured":"Whitehead, S., Wu, H., Ji, H., Feris, R.S., Saenko, K., MIT-IBM, U.: Separating skills and concepts for novel visual question answering. In: 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5628\u20135637 (2021)","DOI":"10.1109\/CVPR46437.2021.00558"},{"key":"38_CR75","doi-asserted-by":"crossref","unstructured":"Wu, Z., Tao, Q., Lin, G., Cai, J.: Exploring bottom-up and top-down cues with attentive learning for webly supervised object detection. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12933\u201312942 (2020)","DOI":"10.1109\/CVPR42600.2020.01295"},{"key":"38_CR76","doi-asserted-by":"crossref","unstructured":"Xu, H., Yan, M., Li, C., Bi, B., Huang, S., Xiao, W., Huang, F.: E2E-VLP: end-to-end vision-language pre-training enhanced by visual learning (2021)","DOI":"10.18653\/v1\/2021.acl-long.42"},{"key":"38_CR77","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"779","DOI":"10.1007\/978-3-030-58598-3_46","volume-title":"Computer Vision \u2013 ECCV 2020","author":"J YANG","year":"2020","unstructured":"YANG, J., et al.: Webly supervised image classification with self-contained confidence. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12353, pp. 779\u2013795. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58598-3_46"},{"key":"38_CR78","doi-asserted-by":"crossref","unstructured":"Yatskar, M., Zettlemoyer, L., Farhadi, A.: Situation recognition: visual semantic role labeling for image understanding. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5534\u20135542 (2016)","DOI":"10.1109\/CVPR.2016.597"},{"key":"38_CR79","doi-asserted-by":"crossref","unstructured":"Zareian, A., Rosa, K.D., Hu, D.H., Chang, S.F.: Open-vocabulary object detection using captions. In: 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14388\u201314397 (2021)","DOI":"10.1109\/CVPR46437.2021.01416"},{"key":"38_CR80","unstructured":"Zhang, A., et al.: Mining the benefits of two-stage and one-stage hoi detection. arXiv preprint arXiv:2108.05077 (2021)"},{"key":"38_CR81","doi-asserted-by":"crossref","unstructured":"Zhang, P., et al.: Vinvl: making visual representations matter in vision-language models. ArXiv arXiv:2101.00529 (2021)","DOI":"10.1109\/CVPR46437.2021.00553"},{"key":"38_CR82","doi-asserted-by":"crossref","unstructured":"Zheng, W., Yan, L., Gou, C., Wang, F.: Webly supervised knowledge embedding model for visual reasoning. 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) pp. 12442\u201312451 (2020)","DOI":"10.1109\/CVPR42600.2020.01246"},{"key":"38_CR83","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"69","DOI":"10.1007\/978-3-030-58565-5_5","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Zhong","year":"2020","unstructured":"Zhong, X., Ding, C., Qu, X., Tao, D.: Polysemy deciphering network for human-object interaction detection. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12365, pp. 69\u201385. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58565-5_5"},{"key":"38_CR84","doi-asserted-by":"crossref","unstructured":"Zou, C., et al.: End-to-end human object interaction detection with hoi transformer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2021)","DOI":"10.1109\/CVPR46437.2021.01165"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2022"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-20059-5_38","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:14:28Z","timestamp":1666973668000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-20059-5_38"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"ISBN":["9783031200588","9783031200595"],"references-count":84,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-20059-5_38","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]},"assertion":[{"value":"29 October 2022","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tel Aviv","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Israel","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 October 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 October 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2022.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"5804","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"1645","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"28% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.21","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.91","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}