{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T21:55:34Z","timestamp":1775253334827,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":48,"publisher":"ACM","license":[{"start":{"date-parts":[[2018,10,15]],"date-time":"2018-10-15T00:00:00Z","timestamp":1539561600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2018,10,15]]},"DOI":"10.1145\/3240508.3240535","type":"proceedings-article","created":{"date-parts":[[2018,10,18]],"date-time":"2018-10-18T13:52:08Z","timestamp":1539870728000},"page":"1398-1406","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":49,"title":["Joint Global and Co-Attentive Representation Learning for Image-Sentence Retrieval"],"prefix":"10.1145","author":[{"given":"Shuhui","family":"Wang","sequence":"first","affiliation":[{"name":"Chinese Academy of Sciences, Beijing, China"}]},{"given":"Yangyu","family":"Chen","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences &amp; University of Chinese Academy of Sciences, Beijing, China"}]},{"given":"Junbao","family":"Zhuo","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences &amp; University of Chinese Academy of Sciences, Beijing, China"}]},{"given":"Qingming","family":"Huang","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences &amp; University of Chinese Academy of Sciences, Beijing, China"}]},{"given":"Qi","family":"Tian","sequence":"additional","affiliation":[{"name":"Huawei Noah's Ark Lab &amp; University of Texas at San Antonio, Shenzhen, China"}]}],"member":"320","published-online":{"date-parts":[[2018,10,15]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"G. Andrew R. Arora J. Bilmes and K. Livescu. 2013. Deep Canonical Correlation Analysis. In ICML. 1247--1255. G. Andrew R. Arora J. Bilmes and K. Livescu. 2013. Deep Canonical Correlation Analysis. In ICML. 1247--1255."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"e_1_3_2_1_3_1","volume-title":"NIPS Workshop.","author":"Collobert Ronan","year":"2011","unstructured":"Ronan Collobert , Koray Kavukcuoglu , and Cl\u00e9ment Farabet . 2011 . Torch7: A Matlab-like Environment for Machine Learning. In BigLearn , NIPS Workshop. Ronan Collobert, Koray Kavukcuoglu, and Cl\u00e9ment Farabet. 2011. Torch7: A Matlab-like Environment for Machine Learning. In BigLearn, NIPS Workshop."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2625747"},{"key":"e_1_3_2_1_5_1","volume-title":"Devise: A deep Visual-Semantic Embedding Model. In NIPS. 2121--2129.","author":"Frome A.","year":"2013","unstructured":"A. Frome , G. Corrado , J. Shlens , S. Bengio , J. Dean , and T. Mikolov . 2013 . Devise: A deep Visual-Semantic Embedding Model. In NIPS. 2121--2129. A. Frome, G. Corrado, J. Shlens, S. Bengio, J. Dean, and T. Mikolov. 2013. Devise: A deep Visual-Semantic Embedding Model. In NIPS. 2121--2129."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"crossref","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. 770--778. Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. 770--778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.5555\/2566972.2566993"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2535864"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.219"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-010-5198-3"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"crossref","unstructured":"Qing Yuan Jiang and Wu Jun Li. 2017. Deep Cross-Modal Hashing. In CVPR. 3270--3278. Qing Yuan Jiang and Wu Jun Li. 2017. Deep Cross-Modal Hashing. In CVPR. 3270--3278.","DOI":"10.1109\/CVPR.2017.348"},{"key":"e_1_3_2_1_13_1","unstructured":"Andrej Karpathy Armand Joulin and Fei-Fei Li. 2014. Deep Fragment Embeddings for Bidirectional Image Sentence Mapping NIPS. 1889--1897. Andrej Karpathy Armand Joulin and Fei-Fei Li. 2014. Deep Fragment Embeddings for Bidirectional Image Sentence Mapping NIPS. 1889--1897."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Andrej Karpathy and Fei-Fei Li. 2015. Deep Visual-Semantic Alignments for Generating Image Descriptions CVPR. 3128--3137. Andrej Karpathy and Fei-Fei Li. 2015. Deep Visual-Semantic Alignments for Generating Image Descriptions CVPR. 3128--3137.","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"e_1_3_2_1_15_1","volume-title":"Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation. arXiv preprint arXiv:1411.7399","author":"Klein Benjamin","year":"2014","unstructured":"Benjamin Klein , Guy Lev , Gil Sadeh , and Lior Wolf . 2014. Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation. arXiv preprint arXiv:1411.7399 ( 2014 ). Benjamin Klein, Guy Lev, Gil Sadeh, and Lior Wolf. 2014. Fisher Vectors Derived from Hybrid Gaussian-Laplacian Mixture Models for Image Annotation. arXiv preprint arXiv:1411.7399 (2014)."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Benjamin Klein Guy Lev Gil Sadeh and Lior Wolf. 2015. Associating Neural Word Embeddings with Deep Image Representations Using Fisher Vectors CVPR. 4437--4446. Benjamin Klein Guy Lev Gil Sadeh and Lior Wolf. 2015. Associating Neural Word Embeddings with Deep Image Representations Using Fisher Vectors CVPR. 4437--4446.","DOI":"10.1109\/CVPR.2015.7299073"},{"key":"e_1_3_2_1_17_1","unstructured":"Kevin Lin Dianqi Li Xiaodong He Zhengyou Zhang and Ming-Ting Sun. 2017. Adversarial Ranking for Language Generation. In NIPS. 3155--3165. Kevin Lin Dianqi Li Xiaodong He Zhengyou Zhang and Ming-Ting Sun. 2017. Adversarial Ranking for Language Generation. In NIPS. 3155--3165."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"T. Lin M. Maire S. Belongie J. Hays P. Perona D. Ramanan P. Dollar and C. Zitnick. 2014. Microsoft COCO: Common Objects in Context. In ECCV. 740--755. T. Lin M. Maire S. Belongie J. Hays P. Perona D. Ramanan P. Dollar and C. Zitnick. 2014. Microsoft COCO: Common Objects in Context. In ECCV. 740--755.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"e_1_3_2_1_19_1","unstructured":"Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2016. Hierarchical Question-Image Co-attention for Visual Question Answering. In NIPS. 289--297. Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2016. Hierarchical Question-Image Co-attention for Visual Question Answering. In NIPS. 289--297."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.301"},{"key":"e_1_3_2_1_21_1","volume-title":"Deep Captioning with Multimodal Recurrent Neural Networks (M-RNN). arXiv preprint arXiv:1412.6632","author":"Mao Junhua","year":"2014","unstructured":"Junhua Mao , Wei Xu , Yi Yang , Jiang Wang , Zhiheng Huang , and Alan Yuille . 2014. Deep Captioning with Multimodal Recurrent Neural Networks (M-RNN). arXiv preprint arXiv:1412.6632 ( 2014 ). Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, and Alan Yuille. 2014. Deep Captioning with Multimodal Recurrent Neural Networks (M-RNN). arXiv preprint arXiv:1412.6632 (2014)."},{"key":"e_1_3_2_1_22_1","unstructured":"Hyeonseob Nam Jung-Woo Ha and Jeonghee Kim. 2017. Dual Attention Networks for Multimodal Reasoning and Matching. In CVPR. 299--307. Hyeonseob Nam Jung-Woo Ha and Jeonghee Kim. 2017. Dual Attention Networks for Multimodal Reasoning and Matching. In CVPR. 299--307."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.303"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.466"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/1873951.1873987"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995711"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"crossref","unstructured":"A. Sharma A. Kumar D. Hal and D. Jacobs. 2012. Generalized Multiview Analysis: A Discriminative Latent Space. In CVPR. 2160--2167. A. Sharma A. Kumar D. Hal and D. Jacobs. 2012. Generalized Multiview Analysis: A Discriminative Latent Space. In CVPR. 2160--2167.","DOI":"10.1109\/CVPR.2012.6247923"},{"key":"e_1_3_2_1_28_1","volume-title":"Very Deep Convolutional Networks for Large-scale Image Recognition. arXiv preprint arXiv:1409.1556","author":"Simonyan Karen","year":"2014","unstructured":"Karen Simonyan and Andrew Zisserman . 2014. Very Deep Convolutional Networks for Large-scale Image Recognition. arXiv preprint arXiv:1409.1556 ( 2014 ). Karen Simonyan and Andrew Zisserman. 2014. Very Deep Convolutional Networks for Large-scale Image Recognition. arXiv preprint arXiv:1409.1556 (2014)."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00177"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2713045"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/2463676.2465274"},{"key":"e_1_3_2_1_32_1","volume-title":"Learning Representations for Multimodal Data with Deep Belief Nets ICML Representation Learning Workshop","volume":"79","author":"Srivastava Nitish","year":"2012","unstructured":"Nitish Srivastava and Ruslan Salakhutdinov . 2012 . Learning Representations for Multimodal Data with Deep Belief Nets ICML Representation Learning Workshop , Vol. Vol. 79 . Nitish Srivastava and Ruslan Salakhutdinov. 2012. Learning Representations for Multimodal Data with Deep Belief Nets ICML Representation Learning Workshop, Vol. Vol. 79."},{"key":"e_1_3_2_1_33_1","unstructured":"N. Srivastava and R. Salakhutdinov. 2012. Multimodal Learning with Deep Boltzmann Machines. In NIPS. 2222--2230. N. Srivastava and R. Salakhutdinov. 2012. Multimodal Learning with Deep Boltzmann Machines. In NIPS. 2222--2230."},{"key":"e_1_3_2_1_34_1","volume-title":"Barto","author":"Sutton Richard S.","year":"1998","unstructured":"Richard S. Sutton and Andrew G . Barto . 1998 . Reinforcement Learning : An Introduction. Vol. Vol. 1 . MIT press Cambridge . Richard S. Sutton and Andrew G. Barto. 1998. Reinforcement Learning: An Introduction. Vol. Vol. 1. MIT press Cambridge."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"Christian Szegedy Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke and Andrew Rabinovich. 2015. Going Deeper with Convolutions. In CVPR. 1--9. Christian Szegedy Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke and Andrew Rabinovich. 2015. Going Deeper with Convolutions. In CVPR. 1--9.","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"O. Vinyals A. Toshev S. Bengio and D. Erhan. 2015. Show and Tell: A Neural Image Caption Generator. In CVPR. 3156--3164. O. Vinyals A. Toshev S. Bengio and D. Erhan. 2015. Show and Tell: A Neural Image Caption Generator. In CVPR. 3156--3164.","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.261"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Liwei Wang Yin Li and Svetlana Lazebnik. 2016. Learning Deep Structure-preserving Image-text Embeddings CVPR. 5005--5013. Liwei Wang Yin Li and Svetlana Lazebnik. 2016. Learning Deep Structure-preserving Image-text Embeddings CVPR. 5005--5013.","DOI":"10.1109\/CVPR.2016.541"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Liang Xie Jialie Shen Lei Zhu etal 2016. Online Cross-Modal Hashing for Web Image Retrieval. AAAI. 294--300. Liang Xie Jialie Shen Lei Zhu et al. 2016. Online Cross-Modal Hashing for Web Image Retrieval. AAAI. 294--300.","DOI":"10.1609\/aaai.v30i1.9982"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Huijuan Xu and Kate Saenko. 2016. Ask Attend and Answer: Exploring Question-guided Spatial Attention for Visual Question Answering. In ECCV. 451--466. Huijuan Xu and Kate Saenko. 2016. Ask Attend and Answer: Exploring Question-guided Spatial Attention for Visual Question Answering. In ECCV. 451--466.","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Fei Yan and Krystian Mikolajczyk. 2015. Deep Correlation for Matching Images and Text. In CVPR. 3441--3450. Fei Yan and Krystian Mikolajczyk. 2015. Deep Correlation for Matching Images and Text. In CVPR. 3441--3450.","DOI":"10.1109\/CVPR.2015.7298966"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Erkun Yang Cheng Deng Wei Liu Xianglong Liu Dacheng Tao and Xinbo Gao. 2017. Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval AAAI. 1618--1625. Erkun Yang Cheng Deng Wei Liu Xianglong Liu Dacheng Tao and Xinbo Gao. 2017. Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval AAAI. 1618--1625.","DOI":"10.1609\/aaai.v31i1.10719"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Zichao Yang Xiaodong He Jianfeng Gao Li Deng and Alex Smola. 2016. Stacked Attention Networks for Image Question Answering CVPR. 3441--3450. Zichao Yang Xiaodong He Jianfeng Gao Li Deng and Alex Smola. 2016. Stacked Attention Networks for Image Question Answering CVPR. 3441--3450.","DOI":"10.1109\/CVPR.2016.10"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00166"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2017.06.018"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2749160"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"crossref","unstructured":"Xiaohua Zhai Yuxin Peng and Jianguo Xiao. 2013. Heterogeneous Metric Learning with Joint Graph Regularization for Cross-media Retrieval. In AAAI. 1198--1204. Xiaohua Zhai Yuxin Peng and Jianguo Xiao. 2013. Heterogeneous Metric Learning with Joint Graph Regularization for Cross-media Retrieval. In AAAI. 1198--1204.","DOI":"10.1609\/aaai.v27i1.8464"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.211"}],"event":{"name":"MM '18: ACM Multimedia Conference","location":"Seoul Republic of Korea","acronym":"MM '18","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 26th ACM international conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3240508.3240535","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3240508.3240535","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T20:40:43Z","timestamp":1775248843000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3240508.3240535"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,10,15]]},"references-count":48,"alternative-id":["10.1145\/3240508.3240535","10.1145\/3240508"],"URL":"https:\/\/doi.org\/10.1145\/3240508.3240535","relation":{},"subject":[],"published":{"date-parts":[[2018,10,15]]},"assertion":[{"value":"2018-10-15","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}