{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T04:57:37Z","timestamp":1760245057460,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":56,"publisher":"ACM","license":[{"start":{"date-parts":[[2020,10,12]],"date-time":"2020-10-12T00:00:00Z","timestamp":1602460800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2020,10,12]]},"DOI":"10.1145\/3394171.3414004","type":"proceedings-article","created":{"date-parts":[[2020,10,12]],"date-time":"2020-10-12T12:26:53Z","timestamp":1602505613000},"page":"4153-4161","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":11,"title":["Bridging the Gap between Vision and Language Domains for Improved Image Captioning"],"prefix":"10.1145","author":[{"given":"Fenglin","family":"Liu","sequence":"first","affiliation":[{"name":"Peking University, Shenzhen, China"}]},{"given":"Xian","family":"Wu","sequence":"additional","affiliation":[{"name":"Medical AI Lab Tencent, Beijing, China"}]},{"given":"Shen","family":"Ge","sequence":"additional","affiliation":[{"name":"Medical AI Lab Tencent, Beijing, China"}]},{"given":"Xiaoyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Peking University, Shenzhen, China"}]},{"given":"Wei","family":"Fan","sequence":"additional","affiliation":[{"name":"Medical AI Lab Tencent, Beijing, China"}]},{"given":"Yuexian","family":"Zou","sequence":"additional","affiliation":[{"name":"Peking University, Shenzhen, China"}]}],"member":"320","published-online":{"date-parts":[[2020,10,12]]},"reference":[{"doi-asserted-by":"crossref","unstructured":"Chris Alberti Jeffrey Ling Michael Collins and David Reitter. 2019. Fusion of Detected Objects in Text for Visual Question Answering. In EMNLP.  Chris Alberti Jeffrey Ling Michael Collins and David Reitter. 2019. Fusion of Detected Objects in Text for Visual Question Answering. In EMNLP.","key":"e_1_3_2_2_1_1","DOI":"10.18653\/v1\/D19-1219"},{"key":"e_1_3_2_2_2_1","volume-title":"SPICE: Semantic Propositional Image Caption Evaluation. In ECCV.","author":"Anderson Peter","year":"2016","unstructured":"Peter Anderson , Basura Fernando , Mark Johnson , and Stephen Gould . 2016 . SPICE: Semantic Propositional Image Caption Evaluation. In ECCV. Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. 2016. SPICE: Semantic Propositional Image Caption Evaluation. In ECCV."},{"doi-asserted-by":"crossref","unstructured":"Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould and Lei Zhang. 2018. Bottom-Up and Top-Down Attention for Image Captioning and VQA. In CVPR.  Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould and Lei Zhang. 2018. Bottom-Up and Top-Down Attention for Image Captioning and VQA. In CVPR.","key":"e_1_3_2_2_3_1","DOI":"10.1109\/CVPR.2018.00636"},{"key":"e_1_3_2_2_4_1","volume-title":"VQA: Visual Question Answering. In ICCV.","author":"Antol Stanislaw","year":"2015","unstructured":"Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu , Margaret Mitchell , Dhruv Batra , C. Lawrence Zitnick , and Devi Parikh . 2015 . VQA: Visual Question Answering. In ICCV. Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. 2015. VQA: Visual Question Answering. In ICCV."},{"key":"e_1_3_2_2_5_1","volume-title":"Hinton","author":"Ba Lei Jimmy","year":"2016","unstructured":"Lei Jimmy Ba , Ryan Kiros , and Geoffrey E . Hinton . 2016 . Layer Normalization . arXiv: 1607.06450 (2016). Lei Jimmy Ba, Ryan Kiros, and Geoffrey E. Hinton. 2016. Layer Normalization. arXiv: 1607.06450 (2016)."},{"key":"e_1_3_2_2_6_1","volume-title":"Neural Machine Translation by Jointly Learning to Align and Translate. arXiv: 1409.0473","author":"Bahdanau Dzmitry","year":"2014","unstructured":"Dzmitry Bahdanau , Kyunghyun Cho , and Yoshua Bengio . 2014. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv: 1409.0473 ( 2014 ). Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv: 1409.0473 (2014)."},{"key":"e_1_3_2_2_7_1","volume-title":"METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In ACL Workshop.","author":"Banerjee Satanjeev","year":"2005","unstructured":"Satanjeev Banerjee and Alon Lavie . 2005 . METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In ACL Workshop. Satanjeev Banerjee and Alon Lavie. 2005. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In ACL Workshop."},{"key":"e_1_3_2_2_8_1","volume-title":"Piotr Doll\u00e1 r, and C. Lawrence Zitnick","author":"Chen Xinlei","year":"2015","unstructured":"Xinlei Chen , Hao Fang , Tsung-Yi Lin , Ramakrishna Vedantam , Saurabh Gupta , Piotr Doll\u00e1 r, and C. Lawrence Zitnick . 2015 . Microsoft COCO Captions: Data Collection and Evaluation Server . arXiv: 1504.00325 (2015). Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll\u00e1 r, and C. Lawrence Zitnick. 2015. Microsoft COCO Captions: Data Collection and Evaluation Server. arXiv: 1504.00325 (2015)."},{"key":"e_1_3_2_2_9_1","volume-title":"Li Deng, Piotr Doll\u00e1 r, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C.","author":"Fang Hao","year":"2015","unstructured":"Hao Fang , Saurabh Gupta , Forrest N. Iandola , Rupesh Kumar Srivastava , Li Deng, Piotr Doll\u00e1 r, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick , and Geoffrey Zweig. 2015 . From Captions to Visual Concepts and Back. In CVPR. Hao Fang, Saurabh Gupta, Forrest N. Iandola, Rupesh Kumar Srivastava, Li Deng, Piotr Doll\u00e1 r, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, and Geoffrey Zweig. 2015. From Captions to Visual Concepts and Back. In CVPR."},{"doi-asserted-by":"crossref","unstructured":"Yang Feng Lin Ma Wei Liu and Jiebo Luo. 2019. Unsupervised Image Captioning. In CVPR.  Yang Feng Lin Ma Wei Liu and Jiebo Luo. 2019. Unsupervised Image Captioning. In CVPR.","key":"e_1_3_2_2_10_1","DOI":"10.1109\/CVPR.2019.00425"},{"key":"e_1_3_2_2_11_1","volume-title":"Image Captioning: Transforming Objects into Words. In NeurIPS.","author":"Herdade Simao","year":"2019","unstructured":"Simao Herdade , Armin Kappeler , Kofi Boakye , and Joao Soares . 2019 . Image Captioning: Transforming Objects into Words. In NeurIPS. Simao Herdade, Armin Kappeler, Kofi Boakye, and Joao Soares. 2019. Image Captioning: Transforming Objects into Words. In NeurIPS."},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_12_1","DOI":"10.1162\/neco.1997.9.8.1735"},{"unstructured":"Ting-Hao (Kenneth) Huang Francis Ferraro Nasrin Mostafazadeh Ishan Misra Aishwarya Agrawal Jacob Devlin Ross B. Girshick Xiaodong He Pushmeet Kohli Dhruv Batra C. Lawrence Zitnick Devi Parikh Lucy Vanderwende Michel Galley and Margaret Mitchell. 2016. Visual Storytelling. In HLT-NAACL.  Ting-Hao (Kenneth) Huang Francis Ferraro Nasrin Mostafazadeh Ishan Misra Aishwarya Agrawal Jacob Devlin Ross B. Girshick Xiaodong He Pushmeet Kohli Dhruv Batra C. Lawrence Zitnick Devi Parikh Lucy Vanderwende Michel Galley and Margaret Mitchell. 2016. Visual Storytelling. In HLT-NAACL.","key":"e_1_3_2_2_13_1"},{"doi-asserted-by":"crossref","unstructured":"Wenhao Jiang Lin Ma Yu-Gang Jiang Wei Liu and Tong Zhang. 2018. Recurrent Fusion Network for Image Captioning. In ECCV.  Wenhao Jiang Lin Ma Yu-Gang Jiang Wei Liu and Tong Zhang. 2018. Recurrent Fusion Network for Image Captioning. In ECCV.","key":"e_1_3_2_2_14_1","DOI":"10.1007\/978-3-030-01216-8_31"},{"doi-asserted-by":"crossref","unstructured":"Justin Johnson Andrej Karpathy and Li Fei-Fei. 2016. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. In CVPR.  Justin Johnson Andrej Karpathy and Li Fei-Fei. 2016. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. In CVPR.","key":"e_1_3_2_2_15_1","DOI":"10.1109\/CVPR.2016.494"},{"doi-asserted-by":"crossref","unstructured":"Andrej Karpathy and Fei-Fei Li. 2015. Deep visual-semantic alignments for generating image descriptions. In CVPR.  Andrej Karpathy and Fei-Fei Li. 2015. Deep visual-semantic alignments for generating image descriptions. In CVPR.","key":"e_1_3_2_2_16_1","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"e_1_3_2_2_17_1","volume-title":"Berg","author":"Kazemzadeh Sahar","year":"2014","unstructured":"Sahar Kazemzadeh , Vicente Ordonez , Mark Matten , and Tamara L . Berg . 2014 . ReferItGame: Referring to Objects in Photographs of Natural Scenes. In EMNLP. Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, and Tamara L. Berg. 2014. ReferItGame: Referring to Objects in Photographs of Natural Scenes. In EMNLP."},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_18_1","DOI":"10.1007\/s11263-016-0981-7"},{"doi-asserted-by":"crossref","unstructured":"Alexander Krull Tim-Oliver Buchholz and Florian Jug. 2019. Noise2Void - Learning Denoising From Single Noisy Images. In CVPR.  Alexander Krull Tim-Oliver Buchholz and Florian Jug. 2019. Noise2Void - Learning Denoising From Single Noisy Images. In CVPR.","key":"e_1_3_2_2_19_1","DOI":"10.1109\/CVPR.2019.00223"},{"volume-title":"Entangled Transformer for Image Captioning","author":"Li Guang","unstructured":"Guang Li , Linchao Zhu , Ping Liu , and Yi Yang . 2019. Entangled Transformer for Image Captioning . In ICCV. IEEE , 8927--8936. Guang Li, Linchao Zhu, Ping Liu, and Yi Yang. 2019. Entangled Transformer for Image Captioning. In ICCV. IEEE, 8927--8936.","key":"e_1_3_2_2_20_1"},{"key":"e_1_3_2_2_21_1","volume-title":"Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. arXiv","author":"Li Xiujun","year":"2020","unstructured":"Xiujun Li , Xi Yin , Chunyuan Li , Pengchuan Zhang , Xiaowei Hu , Lei Zhang , Lijuan Wang , Houdong Hu , Li Dong , Furu Wei , Yejin Choi , and Jianfeng Gao . 2020 . Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. arXiv : 2004.06165 (2020). Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, and Jianfeng Gao. 2020. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. arXiv: 2004.06165 (2020)."},{"key":"e_1_3_2_2_22_1","volume-title":"Hovy","author":"Lin Chin-Yew","year":"2003","unstructured":"Chin-Yew Lin and Eduard H . Hovy . 2003 . Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In HLT-NAACL. Chin-Yew Lin and Eduard H. Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In HLT-NAACL."},{"key":"e_1_3_2_2_23_1","volume-title":"Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio.","author":"Lin Zhouhan","year":"2017","unstructured":"Zhouhan Lin , Minwei Feng , C'i cero Nogueira dos Santos , Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. 2017 . A Structured Self-Attentive Sentence Embedding. In ICLR. Zhouhan Lin, Minwei Feng, C'i cero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. 2017. A Structured Self-Attentive Sentence Embedding. In ICLR."},{"unstructured":"Daqing Liu Zheng-Jun Zha Hanwang Zhang Yongdong Zhang and Feng Wu. 2018b. Context-Aware Visual Policy Network for Sequence-Level Image Captioning. In ACMMM.  Daqing Liu Zheng-Jun Zha Hanwang Zhang Yongdong Zhang and Feng Wu. 2018b. Context-Aware Visual Policy Network for Sequence-Level Image Captioning. In ACMMM.","key":"e_1_3_2_2_24_1"},{"unstructured":"Fenglin Liu Meng Gao Tianhao Zhang and Yuexian Zou. 2019 a. Exploring Semantic Relationships for Image Captioning without Parallel Data. In ICDM.  Fenglin Liu Meng Gao Tianhao Zhang and Yuexian Zou. 2019 a. Exploring Semantic Relationships for Image Captioning without Parallel Data. In ICDM.","key":"e_1_3_2_2_25_1"},{"unstructured":"Fenglin Liu Yuanxin Liu Xuancheng Ren Xiaodong He and Xu Sun. 2019 b. Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations. In NeurIPS.  Fenglin Liu Yuanxin Liu Xuancheng Ren Xiaodong He and Xu Sun. 2019 b. Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations. In NeurIPS.","key":"e_1_3_2_2_26_1"},{"unstructured":"Fenglin Liu Xuancheng Ren Yuanxin Liu Kai Lei and Xu Sun. 2019 c. Exploring and Distilling Cross-Modal Information for Image Captioning. In IJCAI.  Fenglin Liu Xuancheng Ren Yuanxin Liu Kai Lei and Xu Sun. 2019 c. Exploring and Distilling Cross-Modal Information for Image Captioning. In IJCAI.","key":"e_1_3_2_2_27_1"},{"unstructured":"Fenglin Liu Xuancheng Ren Yuanxin Liu Houfeng Wang and Xu Sun. 2018a. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions. In EMNLP.  Fenglin Liu Xuancheng Ren Yuanxin Liu Houfeng Wang and Xu Sun. 2018a. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions. In EMNLP.","key":"e_1_3_2_2_28_1"},{"unstructured":"Fenglin Liu Xian Wu Shen Ge Wei Fan and Yuexian Zou. 2020. Federated Learning for Vision-and-Language Grounding Problems. In AAAI.  Fenglin Liu Xian Wu Shen Ge Wei Fan and Yuexian Zou. 2020. Federated Learning for Vision-and-Language Grounding Problems. In AAAI.","key":"e_1_3_2_2_29_1"},{"unstructured":"Jiasen Lu Dhruv Batra Devi Parikh and Stefan Lee. 2019. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. In NeurIPS.  Jiasen Lu Dhruv Batra Devi Parikh and Stefan Lee. 2019. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. In NeurIPS.","key":"e_1_3_2_2_30_1"},{"unstructured":"Jiasen Lu Caiming Xiong Devi Parikh and Richard Socher. 2017. Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning. In CVPR.  Jiasen Lu Caiming Xiong Devi Parikh and Richard Socher. 2017. Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning. In CVPR.","key":"e_1_3_2_2_31_1"},{"unstructured":"Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2018. Neural Baby Talk. In CVPR.  Jiasen Lu Jianwei Yang Dhruv Batra and Devi Parikh. 2018. Neural Baby Talk. In CVPR.","key":"e_1_3_2_2_32_1"},{"unstructured":"Yingwei Pan Ting Yao Houqiang Li and Tao Mei. 2017. Video Captioning with Transferred Semantic Attributes. In CVPR.  Yingwei Pan Ting Yao Houqiang Li and Tao Mei. 2017. Video Captioning with Transferred Semantic Attributes. In CVPR.","key":"e_1_3_2_2_33_1"},{"doi-asserted-by":"crossref","unstructured":"Kishore Papineni Salim Roukos Todd Ward and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In ACL.  Kishore Papineni Salim Roukos Todd Ward and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In ACL.","key":"e_1_3_2_2_34_1","DOI":"10.3115\/1073083.1073135"},{"unstructured":"Shaoqing Ren Kaiming He Ross B. Girshick and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NIPS.  Shaoqing Ren Kaiming He Ross B. Girshick and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NIPS.","key":"e_1_3_2_2_35_1"},{"unstructured":"Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei and Jifeng Dai. 2020. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In ICLR.  Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei and Jifeng Dai. 2020. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In ICLR.","key":"e_1_3_2_2_36_1"},{"key":"e_1_3_2_2_37_1","volume-title":"Carl Vondrick, Kevin Murphy, and Cordelia Schmid.","author":"Sun Chen","year":"2019","unstructured":"Chen Sun , Austin Myers , Carl Vondrick, Kevin Murphy, and Cordelia Schmid. 2019 . VideoBERT: A Joint Model for Video and Language Representation Learning. In ICCV. Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. 2019. VideoBERT: A Joint Model for Video and Language Representation Learning. In ICCV."},{"key":"e_1_3_2_2_38_1","volume-title":"LXMERT: Learning Cross-Modality Encoder Representations from Transformers. In EMNLP.","author":"Tan Hao","year":"2019","unstructured":"Hao Tan and Mohit Bansal . 2019 . LXMERT: Learning Cross-Modality Encoder Representations from Transformers. In EMNLP. Hao Tan and Mohit Bansal. 2019. LXMERT: Learning Cross-Modality Encoder Representations from Transformers. In EMNLP."},{"unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention is All you Need. In NIPS.  Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention is All you Need. In NIPS.","key":"e_1_3_2_2_39_1"},{"doi-asserted-by":"crossref","unstructured":"Ramakrishna Vedantam C. Lawrence Zitnick and Devi Parikh. 2015. CIDEr: Consensus-based image description evaluation. In CVPR.  Ramakrishna Vedantam C. Lawrence Zitnick and Devi Parikh. 2015. CIDEr: Consensus-based image description evaluation. In CVPR.","key":"e_1_3_2_2_40_1","DOI":"10.1109\/CVPR.2015.7299087"},{"doi-asserted-by":"crossref","unstructured":"Oriol Vinyals Alexander Toshev Samy Bengio and Dumitru Erhan. 2015. Show and tell: A neural image caption generator. In CVPR.  Oriol Vinyals Alexander Toshev Samy Bengio and Dumitru Erhan. 2015. Show and tell: A neural image caption generator. In CVPR.","key":"e_1_3_2_2_41_1","DOI":"10.1109\/CVPR.2015.7298935"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_42_1","DOI":"10.1109\/TPAMI.2016.2587640"},{"doi-asserted-by":"crossref","unstructured":"Qi Wu Chunhua Shen Lingqiao Liu Anthony R. Dick and Anton van den Hengel. 2016. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?. In CVPR.  Qi Wu Chunhua Shen Lingqiao Liu Anthony R. Dick and Anton van den Hengel. 2016. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?. In CVPR.","key":"e_1_3_2_2_43_1","DOI":"10.1109\/CVPR.2016.29"},{"unstructured":"Kelvin Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhudinov Rich Zemel and Yoshua Bengio. 2015. Show Attend and Tell: Neural Image Caption Generation with Visual Attention. In ICML.  Kelvin Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhudinov Rich Zemel and Yoshua Bengio. 2015. Show Attend and Tell: Neural Image Caption Generation with Visual Attention. In ICML.","key":"e_1_3_2_2_44_1"},{"doi-asserted-by":"crossref","unstructured":"Linjie Yang Kevin D. Tang Jianchao Yang and Li-Jia Li. 2017. Dense Captioning with Joint Inference and Visual Context. In CVPR.  Linjie Yang Kevin D. Tang Jianchao Yang and Li-Jia Li. 2017. Dense Captioning with Joint Inference and Visual Context. In CVPR.","key":"e_1_3_2_2_45_1","DOI":"10.1109\/CVPR.2017.214"},{"doi-asserted-by":"crossref","unstructured":"Xu Yang Kaihua Tang Hanwang Zhang and Jianfei Cai. 2019. Auto-Encoding Scene Graphs for Image Captioning. In CVPR.  Xu Yang Kaihua Tang Hanwang Zhang and Jianfei Cai. 2019. Auto-Encoding Scene Graphs for Image Captioning. In CVPR.","key":"e_1_3_2_2_46_1","DOI":"10.1109\/CVPR.2019.01094"},{"doi-asserted-by":"crossref","unstructured":"Ting Yao Yingwei Pan Yehao Li and Tao Mei. 2018. Exploring Visual Relationship for Image Captioning. In ECCV.  Ting Yao Yingwei Pan Yehao Li and Tao Mei. 2018. Exploring Visual Relationship for Image Captioning. In ECCV.","key":"e_1_3_2_2_47_1","DOI":"10.1007\/978-3-030-01264-9_42"},{"doi-asserted-by":"crossref","unstructured":"Ting Yao Yingwei Pan Yehao Li and Tao Mei. 2019. Hierarchy Parsing for Image Captioning. In ICCV.  Ting Yao Yingwei Pan Yehao Li and Tao Mei. 2019. Hierarchy Parsing for Image Captioning. In ICCV.","key":"e_1_3_2_2_48_1","DOI":"10.1109\/ICCV.2019.00271"},{"doi-asserted-by":"crossref","unstructured":"Ting Yao Yingwei Pan Yehao Li Zhaofan Qiu and Tao Mei. 2017. Boosting Image Captioning with Attributes. In ICCV.  Ting Yao Yingwei Pan Yehao Li Zhaofan Qiu and Tao Mei. 2017. Boosting Image Captioning with Attributes. In ICCV.","key":"e_1_3_2_2_49_1","DOI":"10.1109\/ICCV.2017.524"},{"unstructured":"Quanzeng You Hailin Jin Zhaowen Wang Chen Fang and Jiebo Luo. 2016. Image Captioning with Semantic Attention. In CVPR.  Quanzeng You Hailin Jin Zhaowen Wang Chen Fang and Jiebo Luo. 2016. Image Captioning with Semantic Attention. In CVPR.","key":"e_1_3_2_2_50_1"},{"key":"e_1_3_2_2_51_1","volume-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL","author":"Young Peter","year":"2014","unstructured":"Peter Young , Alice Lai , Micah Hodosh , and Julia Hockenmaier . 2014. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL ( 2014 ). Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier. 2014. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL (2014)."},{"key":"e_1_3_2_2_52_1","volume-title":"Unsupervised Image Super-Resolution Using Cycle-in-Cycle Generative Adversarial Networks. In CVPR Workshops.","author":"Yuan Yuan","year":"2018","unstructured":"Yuan Yuan , Siyuan Liu , Jiawei Zhang , Yongbing Zhang , Chao Dong , and Liang Lin . 2018 . Unsupervised Image Super-Resolution Using Cycle-in-Cycle Generative Adversarial Networks. In CVPR Workshops. Yuan Yuan, Siyuan Liu, Jiawei Zhang, Yongbing Zhang, Chao Dong, and Liang Lin. 2018. Unsupervised Image Super-Resolution Using Cycle-in-Cycle Generative Adversarial Networks. In CVPR Workshops."},{"key":"e_1_3_2_2_53_1","volume-title":"Viola","author":"Zhang Cha","year":"2006","unstructured":"Cha Zhang , John C. Platt , and Paul A . Viola . 2006 . Multiple Instance Boosting for Object Detection. In NIPS. Cha Zhang, John C. Platt, and Paul A. Viola. 2006. Multiple Instance Boosting for Object Detection. In NIPS."},{"key":"e_1_3_2_2_54_1","volume-title":"Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection. arXiv","author":"Zhao Guangxiang","year":"1912","unstructured":"Guangxiang Zhao , Junyang Lin , Zhiyuan Zhang , Xuancheng Ren , Qi Su , and Xu Sun . 2019. Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection. arXiv : 1912 .11637 (2019). Guangxiang Zhao, Junyang Lin, Zhiyuan Zhang, Xuancheng Ren, Qi Su, and Xu Sun. 2019. Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection. arXiv: 1912.11637 (2019)."},{"doi-asserted-by":"crossref","unstructured":"Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso and Marcus Rohrbach. 2019. Grounded Video Description. In CVPR.  Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso and Marcus Rohrbach. 2019. Grounded Video Description. In CVPR.","key":"e_1_3_2_2_55_1","DOI":"10.1109\/CVPR.2019.00674"},{"doi-asserted-by":"crossref","unstructured":"Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso and Jianfeng Gao. 2020. Unified Vision-Language Pre-Training for Image Captioning and VQA. In AAAI.  Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso and Jianfeng Gao. 2020. Unified Vision-Language Pre-Training for Image Captioning and VQA. In AAAI.","key":"e_1_3_2_2_56_1","DOI":"10.1609\/aaai.v34i07.7005"}],"event":{"sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"acronym":"MM '20","name":"MM '20: The 28th ACM International Conference on Multimedia","location":"Seattle WA USA"},"container-title":["Proceedings of the 28th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3394171.3414004","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3394171.3414004","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T21:32:07Z","timestamp":1750195927000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3394171.3414004"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,10,12]]},"references-count":56,"alternative-id":["10.1145\/3394171.3414004","10.1145\/3394171"],"URL":"https:\/\/doi.org\/10.1145\/3394171.3414004","relation":{},"subject":[],"published":{"date-parts":[[2020,10,12]]},"assertion":[{"value":"2020-10-12","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}