{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T07:53:12Z","timestamp":1750233192960,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":31,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,10,27]],"date-time":"2022-10-27T00:00:00Z","timestamp":1666828800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,10,27]]},"DOI":"10.1145\/3579051.3579073","type":"proceedings-article","created":{"date-parts":[[2023,2,14]],"date-time":"2023-02-14T00:19:46Z","timestamp":1676333986000},"page":"115-120","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["Knowledge-Enhanced Visual Question Answering with Multi-modal Joint Guidance"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7940-1189","authenticated-orcid":false,"given":"Jianfeng","family":"Wang","sequence":"first","affiliation":[{"name":"Fudan University, Academy for Engineering and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6505-4566","authenticated-orcid":false,"given":"Anda","family":"Zhang","sequence":"additional","affiliation":[{"name":"Fudan University, Academy for Engineering and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5241-7620","authenticated-orcid":false,"given":"Huifang","family":"Du","sequence":"additional","affiliation":[{"name":"Tongji University, College of Design and Innovation, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3018-3824","authenticated-orcid":false,"given":"Haofen","family":"Wang","sequence":"additional","affiliation":[{"name":"Tongji University, College of Design and Innovation, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3339-8751","authenticated-orcid":false,"given":"Wenqiang","family":"Zhang","sequence":"additional","affiliation":[{"name":"Fudan University, Academy for Engineering and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2023,2,13]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Knowledge-routed visual question reasoning: Challenges for deep representation embedding","author":"Cao Qingxing","year":"2021","unstructured":"Qingxing Cao , Bailin Li , Xiaodan Liang , Keze Wang , and Liang Lin . 2021. Knowledge-routed visual question reasoning: Challenges for deep representation embedding . IEEE Transactions on Neural Networks and Learning Systems ( 2021 ). Qingxing Cao, Bailin Li, Xiaodan Liang, Keze Wang, and Liang Lin. 2021. Knowledge-routed visual question reasoning: Challenges for deep representation embedding. IEEE Transactions on Neural Networks and Learning Systems (2021)."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Akira Fukui Dong\u00a0Huk Park Daylen Yang Anna Rohrbach Trevor Darrell and Marcus Rohrbach. 2016. Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847(2016).  Akira Fukui Dong\u00a0Huk Park Daylen Yang Anna Rohrbach Trevor Darrell and Marcus Rohrbach. 2016. Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847(2016).","DOI":"10.18653\/v1\/D16-1044"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.44"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.01039"},{"key":"e_1_3_2_1_6_1","unstructured":"Weihua Hu Bowen Liu Joseph Gomes Marinka Zitnik Percy Liang Vijay Pande and Jure Leskovec. 2019. Strategies for pre-training graph neural networks. arXiv preprint arXiv:1905.12265(2019).  Weihua Hu Bowen Liu Joseph Gomes Marinka Zitnik Percy Liang Vijay Pande and Jure Leskovec. 2019. Strategies for pre-training graph neural networks. arXiv preprint arXiv:1905.12265(2019)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00686"},{"key":"e_1_3_2_1_8_1","unstructured":"Thomas\u00a0N Kipf and Max Welling. 2016. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907(2016).  Thomas\u00a0N Kipf and Max Welling. 2016. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907(2016)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0981-7"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Weixin Liang Yanhao Jiang and Zixuan Liu. 2021. GraghVQA: language-guided graph neural networks for graph-based visual question answering. arXiv preprint arXiv:2104.10283(2021).  Weixin Liang Yanhao Jiang and Zixuan Liu. 2021. GraghVQA: language-guided graph neural networks for graph-based visual question answering. arXiv preprint arXiv:2104.10283(2021).","DOI":"10.18653\/v1\/2021.maiworkshop-1.12"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i03.5681"},{"key":"e_1_3_2_1_13_1","volume-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems 32","author":"Lu Jiasen","year":"2019","unstructured":"Jiasen Lu , Dhruv Batra , Devi Parikh , and Stefan Lee . 2019 . Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems 32 (2019). Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems 32 (2019)."},{"key":"e_1_3_2_1_14_1","volume-title":"Hierarchical question-image co-attention for visual question answering. Advances in neural information processing systems 29","author":"Lu Jiasen","year":"2016","unstructured":"Jiasen Lu , Jianwei Yang , Dhruv Batra , and Devi Parikh . 2016. Hierarchical question-image co-attention for visual question answering. Advances in neural information processing systems 29 ( 2016 ). Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. 2016. Hierarchical question-image co-attention for visual question answering. Advances in neural information processing systems 29 (2016)."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Man Luo Yankai Zeng Pratyay Banerjee and Chitta Baral. 2021. Weakly-supervised visual-retriever-reader for knowledge-based question answering. arXiv preprint arXiv:2109.04014(2021).  Man Luo Yankai Zeng Pratyay Banerjee and Chitta Baral. 2021. Weakly-supervised visual-retriever-reader for knowledge-based question answering. arXiv preprint arXiv:2109.04014(2021).","DOI":"10.18653\/v1\/2021.emnlp-main.517"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i03.5684"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01389"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00331"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462987"},{"key":"e_1_3_2_1_21_1","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556(2014).  Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556(2014)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11164"},{"key":"e_1_3_2_1_23_1","volume-title":"Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490(2019).","author":"Tan Hao","year":"2019","unstructured":"Hao Tan and Mohit Bansal . 2019 . Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490(2019). Hao Tan and Mohit Bansal. 2019. Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490(2019)."},{"key":"e_1_3_2_1_24_1","volume-title":"Attention is all you need. Advances in neural information processing systems 30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan\u00a0 N Gomez , \u0141ukasz Kaiser , and Illia Polosukhin . 2017. Attention is all you need. Advances in neural information processing systems 30 ( 2017 ). Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan\u00a0N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_2_1_25_1","unstructured":"Petar Veli\u010dkovi\u0107 Guillem Cucurull Arantxa Casanova Adriana Romero Pietro Lio and Yoshua Bengio. 2017. Graph attention networks. arXiv preprint arXiv:1710.10903(2017).  Petar Veli\u010dkovi\u0107 Guillem Cucurull Arantxa Casanova Adriana Romero Pietro Lio and Yoshua Bengio. 2017. Graph attention networks. arXiv preprint arXiv:1710.10903(2017)."},{"key":"e_1_3_2_1_26_1","volume-title":"Fvqa: Fact-based visual question answering","author":"Wang Peng","year":"2017","unstructured":"Peng Wang , Qi Wu , Chunhua Shen , Anthony Dick , and Anton Van Den\u00a0Hengel . 2017 . Fvqa: Fact-based visual question answering . IEEE transactions on pattern analysis and machine intelligence 40, 10(2017), 2413\u20132427. Peng Wang, Qi Wu, Chunhua Shen, Anthony Dick, and Anton Van Den\u00a0Hengel. 2017. Fvqa: Fact-based visual question answering. IEEE transactions on pattern analysis and machine intelligence 40, 10(2017), 2413\u20132427."},{"key":"e_1_3_2_1_27_1","volume-title":"Anton van\u00a0den Hengel, and Anthony Dick","author":"Wang Peng","year":"2015","unstructured":"Peng Wang , Qi Wu , Chunhua Shen , Anton van\u00a0den Hengel, and Anthony Dick . 2015 . Explicit knowledge-based reasoning for visual question answering. arXiv preprint arXiv:1511.02570(2015). Peng Wang, Qi Wu, Chunhua Shen, Anton van\u00a0den Hengel, and Anthony Dick. 2015. Explicit knowledge-based reasoning for visual question answering. arXiv preprint arXiv:1511.02570(2015)."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.500"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"e_1_3_2_1_31_1","volume-title":"Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering","author":"Yu Zhou","year":"2018","unstructured":"Zhou Yu , Jun Yu , Chenchao Xiang , Jianping Fan , and Dacheng Tao . 2018. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering . IEEE transactions on neural networks and learning systems 29, 12( 2018 ), 5947\u20135959. Zhou Yu, Jun Yu, Chenchao Xiang, Jianping Fan, and Dacheng Tao. 2018. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering. IEEE transactions on neural networks and learning systems 29, 12(2018), 5947\u20135959."}],"event":{"name":"IJCKG 2022: 11th International Joint Conference On Knowledge Graphs","acronym":"IJCKG 2022","location":"Hangzhou China"},"container-title":["Proceedings of the 11th International Joint Conference on Knowledge Graphs"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3579051.3579073","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3579051.3579073","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T16:38:05Z","timestamp":1750178285000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3579051.3579073"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,27]]},"references-count":31,"alternative-id":["10.1145\/3579051.3579073","10.1145\/3579051"],"URL":"https:\/\/doi.org\/10.1145\/3579051.3579073","relation":{},"subject":[],"published":{"date-parts":[[2022,10,27]]},"assertion":[{"value":"2023-02-13","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}