{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T10:25:47Z","timestamp":1760955947176,"version":"3.37.3"},"publisher-location":"Cham","reference-count":45,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783030208899"},{"type":"electronic","value":"9783030208905"}],"license":[{"start":{"date-parts":[[2019,1,1]],"date-time":"2019-01-01T00:00:00Z","timestamp":1546300800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019]]},"DOI":"10.1007\/978-3-030-20890-5_16","type":"book-chapter","created":{"date-parts":[[2019,6,1]],"date-time":"2019-06-01T15:18:34Z","timestamp":1559402314000},"page":"241-255","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Aligning Salient Objects to Queries: A Multi-modal and Multi-object Image Retrieval Framework"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6704-6810","authenticated-orcid":false,"given":"Sounak","family":"Dey","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1667-2245","authenticated-orcid":false,"given":"Anjan","family":"Dutta","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5462-8499","authenticated-orcid":false,"given":"Suman K.","family":"Ghosh","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0368-9697","authenticated-orcid":false,"given":"Ernest","family":"Valveny","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4533-4739","authenticated-orcid":false,"given":"Josep","family":"Llad\u00f3s","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5426-2618","authenticated-orcid":false,"given":"Umapada","family":"Pal","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,6,2]]},"reference":[{"key":"16_CR1","first-page":"90","volume":"163","author":"A Das","year":"2017","unstructured":"Das, A., Agrawal, H., Zitnick, L., Parikh, D., Batra, D.: Human attention in visual question answering: do humans and deep networks look at the same regions? CVIU 163, 90\u2013100 (2017)","journal-title":"CVIU"},{"key":"16_CR2","doi-asserted-by":"crossref","unstructured":"Dey, S., Dutta, A., Ghosh, S.K., Valveny, E., Llad\u00f3s, J., Pal, U.: Learning cross-modal deep embeddings for multi-object image retrieval using text and sketch. In: ICPR, pp. 916\u2013921 (2018)","DOI":"10.1109\/ICPR.2018.8545452"},{"issue":"11","key":"16_CR3","first-page":"1624","volume":"17","author":"M Eitz","year":"2011","unstructured":"Eitz, M., Hildebrand, K., Boubekeur, T., Alexa, M.: Sketch-based image retrieval: benchmark and bag-of-features descriptors. IEEE TVCG 17(11), 1624\u20131636 (2011)","journal-title":"IEEE TVCG"},{"key":"16_CR4","unstructured":"Frome, A., et al.: DeViSE: a deep visual-semantic embedding model. In: NIPS, pp. 2121\u20132129 (2013)"},{"key":"16_CR5","doi-asserted-by":"crossref","unstructured":"Gordo, A., Almaz\u00e1n, J., Murray, N., Perronin, F.: LEWIS: latent embeddings for word images and their semantics. In: ICCV, pp. 1242\u20131250 (2015)","DOI":"10.1109\/ICCV.2015.147"},{"key":"16_CR6","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"241","DOI":"10.1007\/978-3-319-46466-4_15","volume-title":"Computer Vision \u2013 ECCV 2016","author":"A Gordo","year":"2016","unstructured":"Gordo, A., Almaz\u00e1n, J., Revaud, J., Larlus, D.: Deep image retrieval: learning global representations for image search. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9910, pp. 241\u2013257. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46466-4_15"},{"key":"16_CR7","doi-asserted-by":"crossref","unstructured":"Gordo, A., Larlus, D.: Beyond instance-level image retrieval: leveraging captions to learn a global visual representation for semantic retrieval. In: CVPR, pp. 5272\u20135281 (2017)","DOI":"10.1109\/CVPR.2017.560"},{"key":"16_CR8","doi-asserted-by":"crossref","unstructured":"Hu, R., Barnard, M., Collomosse, J.: Gradient field descriptor for sketch based retrieval and localization. In: ICIP, pp. 1025\u20131028 (2010)","DOI":"10.1109\/ICIP.2010.5649331"},{"issue":"7","key":"16_CR9","first-page":"790","volume":"117","author":"R Hu","year":"2013","unstructured":"Hu, R., Collomosse, J.: A performance evaluation of gradient field hog descriptor for sketch based image retrieval. CVIU 117(7), 790\u2013806 (2013)","journal-title":"CVIU"},{"key":"16_CR10","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. IJCV 123, 32\u201373 (2017)","journal-title":"IJCV"},{"key":"16_CR11","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: NIPS, pp. 1097\u20131105 (2012)"},{"key":"16_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"129","DOI":"10.1007\/978-3-642-33783-3_10","volume-title":"Computer Vision \u2013 ECCV 2012","author":"T Lan","year":"2012","unstructured":"Lan, T., Yang, W., Wang, Y., Mori, G.: Image retrieval with structured object queries using latent ranking SVM. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7577, pp. 129\u2013142. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-33783-3_10"},{"key":"16_CR13","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"16_CR14","doi-asserted-by":"crossref","unstructured":"Liu, C., Mao, J., Sha, F., Yuille, A.L.: Attention correctness in neural image captioning. In: AAAI, pp. 4176\u20134182 (2017)","DOI":"10.1609\/aaai.v31i1.11197"},{"key":"16_CR15","doi-asserted-by":"crossref","unstructured":"Liu, L., Shen, F., Shen, Y., Liu, X., Shao, L.: Deep sketch hashing: fast free-hand sketch-based image retrieval. In: CVPR, pp. 2862\u20132871 (2017)","DOI":"10.1109\/CVPR.2017.247"},{"key":"16_CR16","doi-asserted-by":"crossref","unstructured":"Lowe, D.G.: Object recognition from local scale-invariant features. In: ICCV, pp. 1150\u20131157 (1999)","DOI":"10.1109\/ICCV.1999.790410"},{"key":"16_CR17","unstructured":"van der Maaten, L., Hinton, G.: Visualizing data using t-SNE. JMLR, 2579\u20132605 (2008)"},{"key":"16_CR18","doi-asserted-by":"crossref","unstructured":"Mai, L., Jin, H., Lin, Z., Fang, C., Brandt, J., Liu, F.: Spatial-semantic image search by visual feature synthesis. In: CVPR, pp. 1121\u20131130 (2017)","DOI":"10.1109\/CVPR.2017.125"},{"key":"16_CR19","unstructured":"Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word representations in vector space. In: ICLR (2013)"},{"key":"16_CR20","unstructured":"Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J.: Distributed representations of words and phrases and their compositionality. In: NIPS, pp. 3111\u20133119 (2013)"},{"issue":"1","key":"16_CR21","first-page":"32","volume":"5","author":"J Munkres","year":"1957","unstructured":"Munkres, J.: Algorithms for the assignment and transportation problems. JSIAM 5(1), 32\u201338 (1957)","journal-title":"JSIAM"},{"key":"16_CR22","doi-asserted-by":"publisher","first-page":"149","DOI":"10.1007\/s11263-016-0924-3","volume":"121","author":"M Paulin","year":"2017","unstructured":"Paulin, M., Mairal, J., Douze, M., Harchaoui, Z., Perronnin, F., Schmid, C.: Convolutional patch representations for image retrieval: an unsupervised approach. IJCV 121, 149\u2013168 (2017)","journal-title":"IJCV"},{"key":"16_CR23","doi-asserted-by":"crossref","unstructured":"Qi, Y., Song, Y.Z., Zhang, H., Liu, J.: Sketch-based image retrieval via siamese convolutional neural network. In: ICIP, pp. 2460\u20132464 (2016)","DOI":"10.1109\/ICIP.2016.7532801"},{"key":"16_CR24","doi-asserted-by":"crossref","unstructured":"Razavian, A.S., Azizpour, H., Sullivan, J., Carlsson, S.: CNN features off-the-shelf: an astounding baseline for recognition. In: CVPRW, pp. 512\u2013519 (2014)","DOI":"10.1109\/CVPRW.2014.131"},{"key":"16_CR25","doi-asserted-by":"crossref","unstructured":"Reed, S., Akata, Z., Lee, H., Schiele, B.: Learning deep representations of fine-grained visual descriptions. In: CVPR, pp. 49\u201358 (2016)","DOI":"10.1109\/CVPR.2016.13"},{"key":"16_CR26","doi-asserted-by":"crossref","unstructured":"Russakovsky, O., et al.: ImageNet large scale visual recognition challenge. IJCV, 211\u2013252 (2015)","DOI":"10.1007\/s11263-015-0816-y"},{"key":"16_CR27","doi-asserted-by":"crossref","unstructured":"Saavedra, J.M.: Sketch based image retrieval using a soft computation of the histogram of edge local orientations (S-HELO). In: ICIP, pp. 2998\u20133002 (2014)","DOI":"10.1109\/ICIP.2014.7025606"},{"key":"16_CR28","first-page":"1","volume":"1","author":"JM Saavedra","year":"2015","unstructured":"Saavedra, J.M., Barrios, J.M., Orand, S.: Sketch based image retrieval using learned keyshapes (LKS). BMVC 1, 1\u201310 (2015)","journal-title":"BMVC"},{"key":"16_CR29","doi-asserted-by":"crossref","unstructured":"Sangkloy, P., Burnell, N., Ham, C., Hays, J.: The sketchy database: learning to retrieve badly drawn bunnies. ACM SIGGRAPH (2016)","DOI":"10.1145\/2897824.2925954"},{"key":"16_CR30","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv abs\/1409.1556 (2014)"},{"key":"16_CR31","doi-asserted-by":"crossref","unstructured":"Singh, S., Hoiem, D., Forsyth, D.: Learning to localize little landmarks. In: CVPR, pp. 260\u2013269 (2016)","DOI":"10.1109\/CVPR.2016.35"},{"key":"16_CR32","doi-asserted-by":"crossref","unstructured":"Stewart, R., Andriluka, M., Ng, A.Y.: End-to-end people detection in crowded scenes. In: CVPR, pp. 2325\u20132333 (2016)","DOI":"10.1109\/CVPR.2016.255"},{"key":"16_CR33","unstructured":"Wang, F., Kang, L., Li, Y.: Sketch-based 3D shape retrieval using convolutional neural networks. In: CVPR, pp. 1875\u20131883 (2015)"},{"key":"16_CR34","doi-asserted-by":"crossref","unstructured":"Wang, J., Yang, Y., Mao, J., Huang, Z., Huang, C., Xu, W.: CNN-RNN: a unified framework for multi-label image classification. In: CVPR, pp. 2285\u20132294 (2016)","DOI":"10.1109\/CVPR.2016.251"},{"key":"16_CR35","unstructured":"Wang, K., Yin, Q., Wang, W., Wu, S., Wang, L.: A comprehensive survey on cross-modal retrieval. arXiv 1607.06215 (2016)"},{"key":"16_CR36","doi-asserted-by":"crossref","unstructured":"Wei, Y., et al.: HCP: a flexible CNN framework for multi-label image classification. In: PAMI, pp. 1901\u20131907 (2016)","DOI":"10.1109\/TPAMI.2015.2491929"},{"key":"16_CR37","doi-asserted-by":"crossref","unstructured":"Xiao, C., Wang, C., Zhang, L., Zhang, L.: Sketch-based image retrieval via shape words. In: ACM ICMR, pp. 571\u2013574 (2015)","DOI":"10.1145\/2671188.2749360"},{"key":"16_CR38","doi-asserted-by":"crossref","unstructured":"Xie, J., Dai, G., Zhu, F., Fang, Y.: Learning barycentric representations of 3D shapes for sketch-based 3D shape retrieval. In: CVPR, pp. 3615\u20133623 (2017)","DOI":"10.1109\/CVPR.2017.385"},{"key":"16_CR39","doi-asserted-by":"crossref","unstructured":"Xu, H., Wang, J., Hua, X.S., Li, S.: Interactive image search by 2D semantic map. In: ACM ICWWW, pp. 1321\u20131324 (2010)","DOI":"10.1145\/1772690.1772912"},{"key":"16_CR40","unstructured":"Xu, K., et al.: Show, attend and tell: neural image caption generation with visual attention. In: ICML (2015)"},{"key":"16_CR41","doi-asserted-by":"crossref","unstructured":"Yang, H., Tianyi Zhou, J., Zhang, Y., Gao, B.B., Wu, J., Cai, J.: Exploit bounding box annotations for multi-label object recognition. In: CVPR, pp. 280\u2013288 (2016)","DOI":"10.1109\/CVPR.2016.37"},{"key":"16_CR42","doi-asserted-by":"crossref","unstructured":"You, Q., Jin, H., Wang, Z., Fang, C., Luo, J.: Image captioning with semantic attention. In: CVPR, pp. 4651\u20134659 (2016)","DOI":"10.1109\/CVPR.2016.503"},{"key":"16_CR43","doi-asserted-by":"crossref","unstructured":"Yu, Q., Liu, F., Song, Y.Z., Xiang, T., Hospedales, T.M., Loy, C.C.: Sketch me that shoe. In: CVPR, pp. 799\u2013807 (2016)","DOI":"10.1109\/CVPR.2016.93"},{"key":"16_CR44","doi-asserted-by":"crossref","unstructured":"Zhu, F., Xie, J., Fang, Y.: Learning cross-domain neural networks for sketch-based 3D shape retrieval. In: AAAI, pp. 3683\u20133689 (2016)","DOI":"10.1609\/aaai.v30i1.10444"},{"key":"16_CR45","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Groth, O., Bernstein, M., Fei-Fei, L.: Visual7w: grounded question answering in images. In: CVPR, pp. 4995\u20135004 (2016)","DOI":"10.1109\/CVPR.2016.540"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2018"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-20890-5_16","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,9,19]],"date-time":"2022-09-19T02:45:46Z","timestamp":1663555546000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-030-20890-5_16"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019]]},"ISBN":["9783030208899","9783030208905"],"references-count":45,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-20890-5_16","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2019]]},"assertion":[{"value":"2 June 2019","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asian Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Perth, WA","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Australia","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2 December 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"6 December 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"accv2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/accv2018.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"Microsoft CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"979","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"274","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"28% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"3","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"2.7","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"No","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}}]}}