{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,21]],"date-time":"2026-01-21T10:18:11Z","timestamp":1768990691235,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":59,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"CAAI-Huawei MindSpore Open Fund"},{"name":"Fundamental Research Funds for the Central Universities, SCUT","award":["x2rjD2230080"],"award-info":[{"award-number":["x2rjD2230080"]}]},{"DOI":"10.13039\/501100012245","name":"Science and Technology Planning Project of Guangdong Province","doi-asserted-by":"publisher","award":["2020B0101100002"],"award-info":[{"award-number":["2020B0101100002"]}],"id":[{"id":"10.13039\/501100012245","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62076100"],"award-info":[{"award-number":["62076100"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"CCF-Zhipu AI Large Model Fund"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612536","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:27:12Z","timestamp":1698391632000},"page":"5132-5142","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":9,"title":["Deconfounded Visual Question Generation with Causal Inference"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8064-1577","authenticated-orcid":false,"given":"Jiali","family":"Chen","sequence":"first","affiliation":[{"name":"South China University of Technology, Guangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-0037-3656","authenticated-orcid":false,"given":"Zhenjun","family":"Guo","sequence":"additional","affiliation":[{"name":"South China University of Technology, Guangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6833-7879","authenticated-orcid":false,"given":"Jiayuan","family":"Xie","sequence":"additional","affiliation":[{"name":"South China University of Technology, Guangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1767-789X","authenticated-orcid":false,"given":"Yi","family":"Cai","sequence":"additional","affiliation":[{"name":"South China University of Technology, Guangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3370-471X","authenticated-orcid":false,"given":"Qing","family":"Li","sequence":"additional","affiliation":[{"name":"Hong Kong Polytechnic University, Hong Kong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548055"},{"key":"e_1_3_2_2_2_1","volume-title":"The Fourier transform and its applications","author":"Bracewell Ronald Newbold","unstructured":"Ronald Newbold Bracewell and Ronald N Bracewell. 1986. The Fourier transform and its applications. Vol. 31999. McGraw-Hill New York."},{"key":"e_1_3_2_2_3_1","volume-title":"Proc. of NeurIPS, Hugo Larochelle, Marc'Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin (Eds.).","author":"Brown Tom B.","year":"2020","unstructured":"Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. In Proc. of NeurIPS, Hugo Larochelle, Marc'Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin (Eds.)."},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547936"},{"key":"e_1_3_2_2_5_1","volume-title":"Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. CoRR abs\/1412.3555","author":"Chung Junyoung","year":"2014","unstructured":"Junyoung Chung, \u00c7aglar G\u00fcl\u00e7ehre, KyungHyun Cho, and Yoshua Bengio. 2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. CoRR abs\/1412.3555 (2014)."},{"key":"e_1_3_2_2_6_1","volume-title":"Meshed-Memory Transformer for Image Captioning. CoRR abs\/1912.08226","author":"Cornia Marcella","year":"2019","unstructured":"Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara. 2019. M 2 : Meshed-Memory Transformer for Image Captioning. CoRR abs\/1912.08226 (2019)."},{"key":"e_1_3_2_2_7_1","volume-title":"Proc. of ACL Workshop. 376--380","author":"Michael","unstructured":"Michael J. Denkowski and Alon Lavie. 2014. Meteor Universal: Language Specific Translation Evaluation for Any Target Language. In Proc. of ACL Workshop. 376--380."},{"key":"e_1_3_2_2_8_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proc. of NAACL","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proc. of NAACL, Jill Burstein, Christy Doran, and Thamar Solorio (Eds.). Association for Computational Linguistics, 4171--4186."},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"publisher","DOI":"10.1037\/0022-0663.74.2.147"},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/563"},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00511"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_2_14_1","volume-title":"Proc","author":"Huang Jianqiang","unstructured":"Jianqiang Huang, Yu Qin, Jiaxin Qi, Qianru Sun, and Hanwang Zhang. 2022. Deconfounded Visual Grounding. In Proc. of AAAI. AAAI Press, 998--1006."},{"key":"e_1_3_2_2_15_1","volume-title":"Schwing","author":"Jain Unnat","year":"2018","unstructured":"Unnat Jain, Svetlana Lazebnik, and Alexander G. Schwing. 2018. Two Can Play This Game: Visual Dialog With Discriminative Question Generation and Answering. In Proc. of CVPR. Computer Vision Foundation \/ IEEE Computer Society, 5754--5763."},{"key":"e_1_3_2_2_16_1","volume-title":"Proc. of CVPR. IEEE Computer Society, 4565--4574","author":"Johnson Justin","year":"2016","unstructured":"Justin Johnson, Andrej Karpathy, and Li Fei-Fei. 2016. DenseCap: Fully Con- volutional Localization Networks for Dense Captioning. In Proc. of CVPR. IEEE Computer Society, 4565--4574."},{"key":"e_1_3_2_2_17_1","volume-title":"Kingma and Jimmy Ba","author":"Diederik","year":"2015","unstructured":"Diederik P. Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In Proc. of ICLR."},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00211"},{"key":"e_1_3_2_2_19_1","volume-title":"Proc. of ICCE","volume":"670","author":"Kunichika Hidenobu","year":"2004","unstructured":"Hidenobu Kunichika, Tomoki Katayama, Tsukasa Hirashima, and Akira Takeuchi. 2004. Automated question generation methods for intelligent English learning systems and its evaluation. In Proc. of ICCE, Vol. 670."},{"key":"e_1_3_2_2_20_1","volume-title":"Hoi","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven C. H. Hoi. 2023. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. CoRR abs\/2301.12597 (2023)."},{"key":"e_1_3_2_2_21_1","volume-title":"VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs\/1908.03557","author":"Li Liunian Harold","year":"2019","unstructured":"Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. 2019. VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs\/1908.03557 (2019)."},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.5"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00640"},{"key":"e_1_3_2_2_24_1","volume-title":"Proc. of ACL Workshop. 74--81","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. Rouge: A package for automatic evaluation of summaries. In Proc. of ACL Workshop. 74--81."},{"key":"e_1_3_2_2_25_1","volume-title":"Proc. of ECCV, David J","author":"Lin Tsung-Yi","unstructured":"Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll\u00e1r, and C. Lawrence Zitnick. 2014. Microsoft COCO: Common Objects in Context. In Proc. of ECCV, David J. Fleet, Tom\u00e1s Pajdla, Bernt Schiele, and Tinne Tuytelaars (Eds.), Vol. 8693. Springer, 740--755."},{"key":"e_1_3_2_2_26_1","volume-title":"Proc. of AAAI","author":"Liu Hongfei","unstructured":"Hongfei Liu, Jiali Chen, Wenhao Fang, Jiayuan Xie, and Yi Cai. 2023. Category-Guided Visual Question Generation (Student Abstract). In Proc. of AAAI, Brian Williams, Yiling Chen, and Jennifer Neville (Eds.). AAAI Press, 16262--16263."},{"key":"e_1_3_2_2_27_1","volume-title":"Proc. of NAACL, Kristina Toutanova, Anna Rumshisky, Luke Zettlemoyer, Dilek Hakkani-T\u00fcr","author":"Liu Xiao","year":"1928","unstructured":"Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, and Dongyan Zhao. 2021. Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis. In Proc. of NAACL, Kristina Toutanova, Anna Rumshisky, Luke Zettlemoyer, Dilek Hakkani-T\u00fcr, Iz Beltagy, Steven Bethard, Ryan Cotterell, Tanmoy Chakraborty, and Yichao Zhou (Eds.). Association for Computational Linguistics, 1928--1941."},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00331"},{"key":"e_1_3_2_2_29_1","doi-asserted-by":"crossref","unstructured":"Justin Martineau and Tim Finin. 2009. Delta TFIDF: An Improved Feature Space for Sentiment Analysis. In ICWSM Eytan Adar Matthew Hurst Tim Finin Natalie S. Glance Nicolas Nicolov and Belle L. Tseng (Eds.). The AAAI Press.","DOI":"10.1609\/icwsm.v3i1.13979"},{"key":"e_1_3_2_2_30_1","volume-title":"Bermano","author":"Mokady Ron","year":"2021","unstructured":"Ron Mokady, Amir Hertz, and Amit H. Bermano. 2021. ClipCap: CLIP Prefix for Image Captioning. CoRR abs\/2111.09734 (2021)."},{"key":"e_1_3_2_2_31_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1170"},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/PROC.1981.12022"},{"key":"e_1_3_2_2_33_1","volume-title":"Training language models to follow instructions with human feedback. CoRR abs\/2203.02155","author":"Ouyang Long","year":"2022","unstructured":"Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. CoRR abs\/2203.02155 (2022)."},{"key":"e_1_3_2_2_34_1","volume-title":"Proc. of ACL. 311--318","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proc. of ACL. 311--318."},{"key":"e_1_3_2_2_35_1","volume-title":"Namboodiri","author":"Patro Badri N.","year":"2020","unstructured":"Badri N. Patro, Vinod K. Kurmi, Sandeep Kumar, and Vinay P. Namboodiri. 2020. Deep Bayesian Network for Visual Question Generation. In Proc. of WACV. IEEE, 1555--1565."},{"key":"e_1_3_2_2_36_1","unstructured":"Judea Pearl and Dana Mackenzie. 2018. The book of why: the new science of cause and effect. Basic books."},{"key":"e_1_3_2_2_37_1","doi-asserted-by":"publisher","DOI":"10.1068\/p110337"},{"key":"e_1_3_2_2_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01087"},{"key":"e_1_3_2_2_39_1","volume-title":"Proc. of ICML (Proceedings of Machine Learning Research","volume":"8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In Proc. of ICML (Proceedings of Machine Learning Research, Vol. 139), Marina Meila and Tong Zhang (Eds.). PMLR, 8748--8763."},{"key":"e_1_3_2_2_40_1","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei Ilya Sutskever et al. 2019. Language models are unsupervised multitask learners. OpenAI blog 1 8 (2019) 9."},{"key":"e_1_3_2_2_41_1","volume-title":"Proc. of NeurIPS, Corinna Cortes, Neil D","author":"Ren Mengye","unstructured":"Mengye Ren, Ryan Kiros, and Richard S. Zemel. 2015. Exploring Models and Data for Image Question Answering. In Proc. of NeurIPS, Corinna Cortes, Neil D. Lawrence, Daniel D. Lee, Masashi Sugiyama, and Roman Garnett (Eds.). 2953--2961."},{"key":"e_1_3_2_2_42_1","volume-title":"Proc. of NeurIPS, Corinna Cortes, Neil D","author":"Ren Shaoqing","year":"2015","unstructured":"Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In Proc. of NeurIPS, Corinna Cortes, Neil D. Lawrence, Daniel D. Lee, Masashi Sugiyama, and Roman Garnett (Eds.). 91--99."},{"key":"e_1_3_2_2_43_1","doi-asserted-by":"publisher","DOI":"10.1561\/1500000019"},{"key":"e_1_3_2_2_44_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.inlg-1.39"},{"key":"e_1_3_2_2_45_1","volume-title":"Proc. of AAAI","author":"Speer Robyn","unstructured":"Robyn Speer, Joshua Chin, and Catherine Havasi. 2017. ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. In Proc. of AAAI, Satinder Singh and Shaul Markovitch (Eds.). AAAI Press, 4444--4451."},{"key":"e_1_3_2_2_46_1","volume-title":"Motivation and justification: A dual-process model of culture in action. American journal of sociology 114, 6","author":"Vaisey Stephen","year":"2009","unstructured":"Stephen Vaisey. 2009. Motivation and justification: A dual-process model of culture in action. American journal of sociology 114, 6 (2009), 1675--1715."},{"key":"e_1_3_2_2_47_1","volume-title":"Proc. of NeurIPS, Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (Eds.). 5998--6008","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In Proc. of NeurIPS, Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (Eds.). 5998--6008."},{"key":"e_1_3_2_2_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"e_1_3_2_2_49_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.118"},{"key":"e_1_3_2_2_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01077"},{"key":"e_1_3_2_2_51_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3476969"},{"key":"e_1_3_2_2_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3476969"},{"key":"e_1_3_2_2_53_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3189242"},{"key":"e_1_3_2_2_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2018.8486475"},{"key":"e_1_3_2_2_55_1","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2986029"},{"key":"e_1_3_2_2_56_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/592"},{"key":"e_1_3_2_2_57_1","volume-title":"Proc. of ICLR. OpenReview.net.","author":"Zhang Tianyi","year":"2020","unstructured":"Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, and Yoav Artzi. 2020. BERTScore: Evaluating Text Generation with BERT. In Proc. of ICLR. OpenReview.net."},{"key":"e_1_3_2_2_58_1","volume-title":"Proc. of ICML (Proceedings of Machine Learning Research","volume":"26970","author":"Zhao Haiteng","year":"2022","unstructured":"Haiteng Zhao, Chang Ma, Xinshuai Dong, Anh Tuan Luu, Zhi-Hong Deng, and Hanwang Zhang. 2022. Certified Robustness Against Natural Language Attacks by Causal Intervention. In Proc. of ICML (Proceedings of Machine Learning Research, Vol. 162), Kamalika Chaudhuri, Stefanie Jegelka, Le Song, Csaba Szepesv\u00e1ri, Gang Niu, and Sivan Sabato (Eds.). PMLR, 26958--26970."},{"key":"e_1_3_2_2_59_1","volume-title":"BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions. CoRR abs\/2303.06594","author":"Zhu Deyao","year":"2023","unstructured":"Deyao Zhu, Jun Chen, Kilichbek Haydarov, Xiaoqian Shen, Wenxuan Zhang, and Mohamed Elhoseiny. 2023. ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions. CoRR abs\/2303.06594 (2023)."}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","location":"Ottawa ON Canada","acronym":"MM '23","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612536","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612536","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T23:56:59Z","timestamp":1755820619000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612536"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":59,"alternative-id":["10.1145\/3581783.3612536","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612536","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}