{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T08:16:23Z","timestamp":1783152983257,"version":"3.54.6"},"publisher-location":"New York, NY, USA","reference-count":40,"publisher":"ACM","funder":[{"name":"The National Natural Science Foundation of China","award":["62406033"],"award-info":[{"award-number":["62406033"]}]},{"name":"The National Natural Science Foundation of China","award":["62276017"],"award-info":[{"award-number":["62276017"]}]},{"name":"The National Natural Science Foundation of China","award":["U1636211"],"award-info":[{"award-number":["U1636211"]}]},{"name":"The National Natural Science Foundation of China","award":["61672081"],"award-info":[{"award-number":["61672081"]}]},{"name":"The JST CREST","award":["JPMJCR21M2"],"award-info":[{"award-number":["JPMJCR21M2"]}]},{"name":"The State Key Laboratory of Complex & Critical Software Environment","award":["SKLCCSE-2024ZX-18"],"award-info":[{"award-number":["SKLCCSE-2024ZX-18"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,4,13]]},"DOI":"10.1145\/3774904.3792367","type":"proceedings-article","created":{"date-parts":[[2026,4,9]],"date-time":"2026-04-09T21:54:34Z","timestamp":1775771674000},"page":"3881-3892","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["MMTableBench: A Multi-level Multimodal Benchmark for Reasoning and Layout Complexity in Table QA"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-7548-9824","authenticated-orcid":false,"given":"Xianjie","family":"Wu","sequence":"first","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1266-9943","authenticated-orcid":false,"given":"Xiaohang","family":"Xu","sequence":"additional","affiliation":[{"name":"The University of Tokyo, Tokyo, Japan"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-4000-4712","authenticated-orcid":false,"given":"Tingyu","family":"Jiang","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1983-012X","authenticated-orcid":false,"given":"Jian","family":"Yang","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3684-4550","authenticated-orcid":false,"given":"Di","family":"Liang","sequence":"additional","affiliation":[{"name":"Fudan University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1130-8302","authenticated-orcid":false,"given":"Xianfu","family":"Cheng","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-1036-8123","authenticated-orcid":false,"given":"Zhenhe","family":"Wu","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2129-3207","authenticated-orcid":false,"given":"Linzheng","family":"Chai","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4419-4551","authenticated-orcid":false,"given":"Wei","family":"Zhang","sequence":"additional","affiliation":[{"name":"CCSE, Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5183-8538","authenticated-orcid":false,"given":"Jiaheng","family":"Liu","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0064-2906","authenticated-orcid":false,"given":"Ge","family":"Zhang","sequence":"additional","affiliation":[{"name":"M-A-P, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-3641-5332","authenticated-orcid":false,"given":"Bob","family":"Simons","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2488-2787","authenticated-orcid":false,"given":"Tongliang","family":"Li","sequence":"additional","affiliation":[{"name":"Beijing Information Science and Technology University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9603-9713","authenticated-orcid":false,"given":"Zhoujun","family":"Li","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,4,12]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al., 2023. Gpt-4 technical report. CORR (2023)."},{"key":"e_1_3_2_1_2_1","unstructured":"Linzheng Chai Jian Yang Shukai Liu Wei Zhang Liran Wang Ke Jin Tao Sun Congnan Liu Chenchen Zhang Hualei Zhu et al. 2025. Multilingual multimodal software developer for code generation. arXiv preprint arXiv:2507.08719 (2025)."},{"key":"e_1_3_2_1_3_1","volume-title":"Tabfact: A large-scale dataset for table-based fact verification. CoRR","author":"Chen Wenhu","year":"2019","unstructured":"Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou, and William Yang Wang. 2019. Tabfact: A large-scale dataset for table-based fact verification. CoRR (2019)."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.91"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.300"},{"key":"e_1_3_2_1_6_1","volume-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. 24185-24198","author":"Chen Zhe","year":"2024","unstructured":"Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al., 2024. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. 24185-24198."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.78"},{"key":"e_1_3_2_1_8_1","unstructured":"DeepSeek-AI Aixin Liu Bei Feng Bing Xue Bingxuan Wang Bochao Wu Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang et al. 2025. DeepSeek-V3 Technical Report. arXiv:2412.19437 [cs.CL] https:\/\/arxiv.org\/abs\/2412.19437"},{"key":"e_1_3_2_1_9_1","volume-title":"Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks. arXiv:2201.09745","author":"Dong Haoyu","year":"2022","unstructured":"Haoyu Dong, Zhoujun Cheng, Xinyi He, Mengyu Zhou, Anda Zhou, Fan Zhou, Ao Liu, Shi Han, and Dongmei Zhang. 2022. Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks. arXiv:2201.09745"},{"key":"e_1_3_2_1_10_1","unstructured":"Aaron Grattafiori Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian Ahmad Al-Dahle Aiesha Letman Akhil Mathur Alan Schelten Alex Vaughan Amy Yang Angela Fan Anirudh Goyal Anthony Hartshorn et al. 2024. The Llama 3 Herd of Models. arXiv:2407.21783 [cs.AI] https:\/\/arxiv.org\/abs\/2407.21783"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1167"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-19-7596-7_14"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-industry.34"},{"key":"e_1_3_2_1_14_1","unstructured":"Yoonsik Kim et al. 2024. TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains. arXiv:2404.19205 [cs.CV] https:\/\/arxiv.org\/abs\/2404.19205"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.452"},{"key":"e_1_3_2_1_16_1","unstructured":"Fangyu Lei Tongxu Luo Pengqi Yang Weihao Liu Hanwen Liu Jiahe Lei Yiming Huang Yifan Wei Shizhu He Jun Zhao and Kang Liu. 2023. TableQAKit: A Comprehensive and Practical Toolkit for Table-based Question Answering. arXiv:2310.15075"},{"key":"e_1_3_2_1_17_1","unstructured":"Jinyang Li Binyuan Hui Ge Qu Binhua Li Jiaxi Yang Bowen Li Bailin Wang Bowen Qin Rongyu Cao Ruiying Geng et al. 2023. Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls. arXiv preprint arXiv:2305.03111 (2023)."},{"key":"e_1_3_2_1_18_1","volume-title":"Visual instruction tuning. Advances in neural information processing systems","author":"Liu Haotian","year":"2023","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023. Visual instruction tuning. Advances in neural information processing systems, Vol. 36 (2023), 34892-34916."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3007"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00446"},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-1142"},{"key":"e_1_3_2_1_22_1","first-page":"6","volume-title":"MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space. In Findings of the Association for Computational Linguistics: EMNLP 2025","author":"Singh Anshul","year":"2025","unstructured":"Anshul Singh, Chris Biemann, and Jan Strich. 2025. MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space. In Findings of the Association for Computational Linguistics: EMNLP 2025. 19866-19891."},{"key":"e_1_3_2_1_23_1","unstructured":"Aofeng Su Aowen Wang Chao Ye Chen Zhou Ga Zhang Gang Chen Guangcheng Zhu Haobo Wang Haokai Xu Hao Chen Haoze Li Haoxuan Lan Jiaming Tian Jing Yuan Junbo Zhao Junlin Zhou Kaizhe Shou Liangyu Zha Lin Long Liyao Li Pengzuo Wu Qi Zhang Qingyi Huang Saisai Yang Tao Zhang Wentao Ye Wufang Zhu Xiaomeng Hu Xijun Gu Xinjie Sun Xiang Li Yuhang Yang and Zhiqing Xiao. 2024. TableGPT2: A Large Multimodal Model with Tabular Data Integration. arXiv:2411.02059"},{"key":"e_1_3_2_1_24_1","unstructured":"Ting Sun Cheng Cui Yuning Du and Yi Liu. 2025. PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction. arXiv:2503.17213 [cs.CV] https:\/\/arxiv.org\/abs\/2503.17213"},{"key":"e_1_3_2_1_25_1","volume-title":"International Conference on Learning Representations.","author":"Talmor Alon","year":"2021","unstructured":"Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi, and Jonathan Berant. 2021. MultiModalQA: complex question answering over text, tables and images. In International Conference on Learning Representations."},{"key":"e_1_3_2_1_26_1","volume-title":"Juliette Love, Pouya Tafti, L\u00e9onard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, et al.","author":"Team Gemma","year":"2024","unstructured":"Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivi\u00e8re, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, L\u00e9onard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, et al., 2024. Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295"},{"key":"e_1_3_2_1_27_1","volume-title":"Denny Zhou, et al.","author":"Wei Jason","year":"2022","unstructured":"Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al., 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, Vol. 35 (2022), 24824-24837."},{"key":"e_1_3_2_1_28_1","volume-title":"MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions. In ICLR. OpenReview.net.","author":"Wu Jian","year":"2025","unstructured":"Jian Wu, Linyi Yang, Dongyuan Li, Yuliang Ji, Manabu Okumura, and Yue Zhang. 2025b. MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions. In ICLR. OpenReview.net."},{"key":"e_1_3_2_1_29_1","unstructured":"Pengzuo Wu Yuhang Yang Guangcheng Zhu Chao Ye Hong Gu Xu Lu Ruixuan Xiao Bowen Bao Yijing He Liangyu Zha Wentao Ye Junbo Zhao and Haobo Wang. 2025d. RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis. arXiv:2506.13405 [cs.CL] https:\/\/arxiv.org\/abs\/2506.13405"},{"key":"e_1_3_2_1_30_1","volume-title":"Breaking Size Barrier: Enhancing Reasoning for Large-Size Table Question Answering. In DASFAA 2025, Proceedings, Part II. 241\u2013256","author":"Wu Xianjie","year":"2026","unstructured":"Xianjie Wu, Di Liang, Jian Yang, et al., 2026. Breaking Size Barrier: Enhancing Reasoning for Large-Size Table Question Answering. In DASFAA 2025, Proceedings, Part II. 241\u2013256."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i24.34739"},{"key":"e_1_3_2_1_32_1","unstructured":"Zhenhe Wu Jian Yang Jiaheng Liu et al. 2025c. Table-r1: Region-based reinforcement learning for table understanding. arXiv preprint arXiv:2505.12415 (2025)."},{"key":"e_1_3_2_1_33_1","unstructured":"An Yang Baosong Yang Binyuan Hui Bo Zheng Bowen Yu Chang Zhou Chengpeng Li Chengyuan Li Dayiheng Liu Fei Huang et al. 2024. Qwen2 technical report. arXiv preprint arXiv:2407.10671 (2024)."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.335"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"Xuanliang Zhang Dingzirui Wang Longxu Dou Qingfu Zhu and Wanxiang Che. 2024a. A Survey of Table Reasoning with Large Language Models. arXiv:2402.08259","DOI":"10.1007\/s11704-024-40330-z"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"Xiaokang Zhang Jing Zhang Zeyao Ma Yang Li Bohan Zhang Guanlin Li Zijun Yao Kangli Xu Jinchang Zhou Daniel Zhang-Li et al. 2024c. TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios. arXiv preprint arXiv:2403.19318 (2024).","DOI":"10.18653\/v1\/2025.findings-acl.538"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0230"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.493"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.254"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.651"}],"event":{"name":"WWW '26: The ACM Web Conference 2026","location":"Dubai United Arab Emirates","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the ACM Web Conference 2026"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3774904.3792367","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T07:26:58Z","timestamp":1783150018000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3774904.3792367"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,12]]},"references-count":40,"alternative-id":["10.1145\/3774904.3792367","10.1145\/3774904"],"URL":"https:\/\/doi.org\/10.1145\/3774904.3792367","relation":{},"subject":[],"published":{"date-parts":[[2026,4,12]]},"assertion":[{"value":"2026-04-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}