{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T21:43:42Z","timestamp":1782423822422,"version":"3.54.5"},"publisher-location":"Cham","reference-count":46,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030012458","type":"print"},{"value":"9783030012465","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-030-01246-5_42","type":"book-chapter","created":{"date-parts":[[2018,10,5]],"date-time":"2018-10-05T16:14:56Z","timestamp":1538756096000},"page":"707-723","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":389,"title":["Deep Cross-Modal Projection Learning for Image-Text Matching"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6005-4989","authenticated-orcid":false,"given":"Ying","family":"Zhang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6668-9758","authenticated-orcid":false,"given":"Huchuan","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2018,10,6]]},"reference":[{"key":"42_CR1","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: ICCV, pp. 2425\u20132433 (2015)","DOI":"10.1109\/ICCV.2015.279"},{"key":"42_CR2","doi-asserted-by":"crossref","unstructured":"Chen, W., Chen, X., Zhang, J., Huang, K.: Beyond triplet loss: a deep quadruplet network for person re-identification. In: CVPR, pp. 1320\u20131329 (2017)","DOI":"10.1109\/CVPR.2017.145"},{"key":"42_CR3","doi-asserted-by":"crossref","unstructured":"Deng, J., Guo, J., Zafeiriou, S.: ArcFace: additive angular margin loss for deep face recognition. arXiv: 1801.07698 (2018)","DOI":"10.1109\/CVPR.2019.00482"},{"key":"42_CR4","unstructured":"Goodfellow, I., Bengio, Y., Courville, A.: Deep Learning. MIT Press (2016). http:\/\/www.deeplearningbook.org"},{"key":"42_CR5","doi-asserted-by":"crossref","unstructured":"Hadsell, R., Chopra, S., LeCun, Y.: Dimensionality reduction by learning an invariant mapping. In: CVPR, pp. 1735\u20131742 (2006)","DOI":"10.1109\/CVPR.2006.100"},{"issue":"2\u20133","key":"42_CR6","doi-asserted-by":"publisher","first-page":"146","DOI":"10.1080\/00437956.1954.11659520","volume":"10","author":"ZS Harris","year":"1954","unstructured":"Harris, Z.S.: Distributional structure. Word 10(2\u20133), 146\u2013162 (1954)","journal-title":"Word"},{"key":"42_CR7","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"42_CR8","unstructured":"Hermans, A., Beyer, L., Leibe, B.: In defense of the triplet loss for person re-identification. arXiv: 1703.07737 (2017)"},{"key":"42_CR9","unstructured":"Howard, A.G., et al.: MobileNets: efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861 (2017)"},{"key":"42_CR10","doi-asserted-by":"crossref","unstructured":"Hu, R., Xu, H., Rohrbach, M., Feng, J., Saenko, K., Darrell, T.: Natural language object retrieval. In: CVPR, pp. 4555\u20134564 (2016)","DOI":"10.1109\/CVPR.2016.493"},{"key":"42_CR11","doi-asserted-by":"crossref","unstructured":"Huang, Y., Wang, W., Wang, L.: Instance-aware image and sentence matching with selective multimodal LSTM. In: CVPR, pp. 7254\u20137262 (2017)","DOI":"10.1109\/CVPR.2017.767"},{"key":"42_CR12","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Li, F.: Deep visual-semantic alignments for generating image descriptions. In: CVPR, pp. 3128\u20133137 (2015)","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"42_CR13","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. arXiv: 1412.6980 (2014)"},{"key":"42_CR14","doi-asserted-by":"crossref","unstructured":"Klein, B., Lev, G., Sadeh, G., Wolf, L.: Associating neural word embeddings with deep image representations using fisher vectors. In: CVPR, pp. 4437\u20134446 (2015)","DOI":"10.1109\/CVPR.2015.7299073"},{"key":"42_CR15","doi-asserted-by":"crossref","unstructured":"Li, S., Xiao, T., Li, H., Yang, W., Wang, X.: Identity-aware textual-visual matching with latent co-attention. In: ICCV, pp. 1908\u20131917 (2017)","DOI":"10.1109\/ICCV.2017.209"},{"key":"42_CR16","doi-asserted-by":"crossref","unstructured":"Li, S., Xiao, T., Li, H., Zhou, B., Yue, D., Wang, X.: Person search with natural language description. In: CVPR, pp. 5187\u20135196 (2017)","DOI":"10.1109\/CVPR.2017.551"},{"key":"42_CR17","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"42_CR18","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"261","DOI":"10.1007\/978-3-319-46475-6_17","volume-title":"Computer Vision \u2013 ECCV 2016","author":"X Lin","year":"2016","unstructured":"Lin, X., Parikh, D.: Leveraging visual question answering for image-caption ranking. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9906, pp. 261\u2013277. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46475-6_17"},{"key":"42_CR19","doi-asserted-by":"crossref","unstructured":"Liu, W., Wen, Y., Yu, Z., Li, M., Raj, B., Song, L.: SphereFace: deep hypersphere embedding for face recognition. In: CVPR, pp. 6738\u20136746 (2017)","DOI":"10.1109\/CVPR.2017.713"},{"key":"42_CR20","unstructured":"Liu, W., Wen, Y., Yu, Z., Yang, M.: Large-margin softmax loss for convolutional neural networks. In: ICML, pp. 507\u2013516 (2016)"},{"key":"42_CR21","doi-asserted-by":"crossref","unstructured":"Liu, Y., Guo, Y., Bakker, E.M., Lew, M.S.: Learning a recurrent residual fusion network for multimodal matching. In: ICCV, pp. 4127\u20134136 (2017)","DOI":"10.1109\/ICCV.2017.442"},{"key":"42_CR22","doi-asserted-by":"crossref","unstructured":"Ma, L., Lu, Z., Shang, L., Li, H.: Multimodal convolutional neural networks for matching image and sentence. In: ICCV, pp. 2623\u20132631 (2015)","DOI":"10.1109\/ICCV.2015.301"},{"key":"42_CR23","unstructured":"Ma, Z., Lu, Y., Foster, D.P.: Finding linear structure in large datasets with scalable canonical correlation analysis. In: ICML, pp. 169\u2013178 (2015)"},{"issue":"1","key":"42_CR24","first-page":"3221","volume":"15","author":"L van der Maaten","year":"2014","unstructured":"van der Maaten, L.: Accelerating t-SNE using tree-based algorithms. J. Mach. Learn. Res. 15(1), 3221\u20133245 (2014)","journal-title":"J. Mach. Learn. Res."},{"key":"42_CR25","unstructured":"Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J.: Distributed representations of words and phrases and their compositionality. In: NIPS, pp. 3111\u20133119 (2013)"},{"key":"42_CR26","doi-asserted-by":"crossref","unstructured":"Nam, H., Ha, J., Kim, J.: Dual attention networks for multimodal reasoning and matching. In: CVPR, pp. 2156\u20132164 (2017)","DOI":"10.1109\/CVPR.2017.232"},{"key":"42_CR27","unstructured":"Ranjan, R., Castillo, C.D., Chellappa, R.: L2-constrained softmax loss for discriminative face verification. arXiv: 1703.09507 (2017)"},{"key":"42_CR28","doi-asserted-by":"crossref","unstructured":"Reed, S.E., Akata, Z., Lee, H., Schiele, B.: Learning deep representations of fine-grained visual descriptions. In: CVPR, pp. 49\u201358 (2016)","DOI":"10.1109\/CVPR.2016.13"},{"key":"42_CR29","doi-asserted-by":"crossref","unstructured":"Schroff, F., Kalenichenko, D., Philbin, J.: FaceNet: a unified embedding for face recognition and clustering. In: CVPR, pp. 815\u2013823 (2015)","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"42_CR30","unstructured":"Sohn, K.: Improved deep metric learning with multi-class N-pair loss objective. In: NIPS, pp. 1849\u20131857 (2016)"},{"key":"42_CR31","doi-asserted-by":"crossref","unstructured":"Song, H.O., Xiang, Y., Jegelka, S., Savarese, S.: Deep metric learning via lifted structured feature embedding. In: CVPR, pp. 4004\u20134012 (2016)","DOI":"10.1109\/CVPR.2016.434"},{"key":"42_CR32","doi-asserted-by":"crossref","unstructured":"Sun, Y., Wang, X., Tang, X.: Deep learning face representation from predicting 10, 000 classes. In: CVPR, pp. 1891\u20131898 (2014)","DOI":"10.1109\/CVPR.2014.244"},{"key":"42_CR33","doi-asserted-by":"crossref","unstructured":"Taigman, Y., Yang, M., Ranzato, M., Wolf, L.: DeepFace: closing the gap to human-level performance in face verification. In: CVPR, pp. 1701\u20131708 (2014)","DOI":"10.1109\/CVPR.2014.220"},{"key":"42_CR34","unstructured":"Ustinova, E., Lempitsky, V.S.: Learning deep embeddings with histogram loss. In: NIPS, pp. 4170\u20134178 (2016)"},{"issue":"4","key":"42_CR35","doi-asserted-by":"publisher","first-page":"652","DOI":"10.1109\/TPAMI.2016.2587640","volume":"39","author":"O Vinyals","year":"2017","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: lessons learned from the 2015 MSCOCO image captioning challenge. PAMI 39(4), 652\u2013663 (2017)","journal-title":"PAMI"},{"key":"42_CR36","unstructured":"Wang, F., Liu, W., Liu, H., Cheng, J.: Additive margin softmax for face verification. arXiv: 1801.05599 (2018)"},{"key":"42_CR37","doi-asserted-by":"crossref","unstructured":"Wang, F., Xiang, X., Cheng, J., Yuille, A.L.: NormFace: L$${}_{\\text{2}}$$ hypersphere embedding for face verification. arXiv: 1704.06369 (2017)","DOI":"10.1145\/3123266.3123359"},{"key":"42_CR38","doi-asserted-by":"crossref","unstructured":"Wang, H., Wang, Y., Zhou, Z., Ji, X., Li, Z., Gong, D., Zhou, J., Liu, W.: CosFace: large margin cosine loss for deep face recognition. arXiv: 1801.09414 (2018)","DOI":"10.1109\/CVPR.2018.00552"},{"key":"42_CR39","doi-asserted-by":"crossref","unstructured":"Wang, L., Li, Y., Lazebnik, S.: Learning deep structure-preserving image-text embeddings. In: CVPR, pp. 5005\u20135013 (2016)","DOI":"10.1109\/CVPR.2016.541"},{"key":"42_CR40","unstructured":"Wang, L., Li, Y., Lazebnik, S.: Learning two-branch neural networks for image-text matching tasks. arXiv: 1704.03470 (2017)"},{"key":"42_CR41","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"499","DOI":"10.1007\/978-3-319-46478-7_31","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Y Wen","year":"2016","unstructured":"Wen, Y., Zhang, K., Li, Z., Qiao, Y.: A discriminative feature learning approach for deep face recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9911, pp. 499\u2013515. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46478-7_31"},{"key":"42_CR42","doi-asserted-by":"crossref","unstructured":"Xiao, T., Li, H., Ouyang, W., Wang, X.: Learning deep feature representations with domain guided dropout for person re-identification. In: CVPR, pp. 1249\u20131258 (2016)","DOI":"10.1109\/CVPR.2016.140"},{"key":"42_CR43","unstructured":"Xu, K., et al.: Show, attend and tell: Neural image caption generation with visual attention. In: ICML, pp. 2048\u20132057 (2015)"},{"key":"42_CR44","doi-asserted-by":"crossref","unstructured":"Yan, F., Mikolajczyk, K.: Deep correlation for matching images and text. In: CVPR, pp. 3441\u20133450 (2015)","DOI":"10.1109\/CVPR.2015.7298966"},{"key":"42_CR45","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","volume":"2","author":"P Young","year":"2014","unstructured":"Young, P., Lai, A., Hodosh, M., Hockenmaier, J.: From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. TACL 2, 67\u201378 (2014)","journal-title":"TACL"},{"key":"42_CR46","unstructured":"Zhou, B., Tian, Y., Sukhbaatar, S., Szlam, A., Fergus, R.: Simple baseline for visual question answering. arXiv: 1512.02167 (2015)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2018"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-01246-5_42","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T18:37:48Z","timestamp":1775241468000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-01246-5_42"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783030012458","9783030012465"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-01246-5_42","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"6 October 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Munich","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 September 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 September 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2018.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}