{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T03:27:59Z","timestamp":1777865279137,"version":"3.51.4"},"reference-count":69,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62176026,62473271"],"award-info":[{"award-number":["62176026,62473271"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00311","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"3245-3257","source":"Crossref","is-referenced-by-count":0,"title":["$\\mathcal{F}_{M}$ FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging"],"prefix":"10.1109","author":[{"given":"Zichen","family":"Tang","sequence":"first","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haihong","family":"E","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiacheng","family":"Liu","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhongjun","family":"Yang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rongjin","family":"Li","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zihua","family":"Rong","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haoyang","family":"He","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhuodi","family":"Hao","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinyang","family":"Hu","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kun","family":"Ji","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ziyan","family":"Ma","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mengyuan","family":"Ji","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jun","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chenghao","family":"Ma","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qianhe","family":"Zheng","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yang","family":"Liu","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yiling","family":"Huang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinyi","family":"Hu","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qing","family":"Huang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zijian","family":"Xie","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shiyao","family":"Peng","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"360layoutanalysis","year":"2024"},{"key":"ref2","article-title":"Pixtral large","year":"2024","journal-title":"Mistral AI"},{"key":"ref3","article-title":"Mistral small 3.1","year":"2025","journal-title":"Mistral AI"},{"key":"ref4","article-title":"The llama 4 herd: The beginning of a new era of natively multimodal ai innovation","year":"2025","journal-title":"AI@Meta"},{"key":"ref5","article-title":"Claude 3.7 sonnet and claude code","year":"2025","journal-title":"Anthropic"},{"key":"ref6","article-title":"Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond","author":"Bai","year":"2023","journal-title":"arXiv preprint"},{"key":"ref7","article-title":"Qwen2.5-vl technical report","author":"Bai","year":"2025","journal-title":"arXiv preprint"},{"key":"ref8","article-title":"Sparks of artificial general intelligence: Early experiments with gpt-4","author":"Bubeck","year":"2023","journal-title":"arXiv preprint"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.390"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0850"},{"key":"ref11","article-title":"Evaluating large language models trained on code","author":"Chen","year":"2021","journal-title":"arXiv preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2992"},{"key":"ref13","article-title":"Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks","author":"Chen","year":"2023","journal-title":"Transactions on Machine Learning Research"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.300"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.421"},{"key":"ref16","article-title":"Expanding performance boundaries of open-source multimodal models with model, data, and test-time scaling","author":"Chen","year":"2025","journal-title":"arXiv preprint"},{"key":"ref17","article-title":"Introducing gemma 3: The most capable model you can run on a single gpu or tpu","year":"2025","journal-title":"Google DeepMind"},{"key":"ref18","article-title":"Gemini 2.0: Flash, flash-lite and pro","year":"2025","journal-title":"Google DeepMind"},{"key":"ref19","article-title":"Gemini 2.0 flash thinking","year":"2025","journal-title":"Google DeepMind"},{"key":"ref20","article-title":"Gemini 2.0","year":"2025","journal-title":"Google DeepMind"},{"key":"ref21","article-title":"Deepseek-r1: Incentivizing reasoning capability in 11 ms via reinforcement learning","author":"Guo","year":"2025","journal-title":"arXiv preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.482"},{"key":"ref23","article-title":"Mme: A comprehensive evaluation benchmark for multimodal large language models","author":"Fu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3758230"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.52202\/075280-0242"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4007"},{"key":"ref27","article-title":"Can MLLMs reason in multimodality? EMMA: An enhanced multimodal reasoning benchmark","volume-title":"Forty-second International Conference on Machine Learning","author":"Hao"},{"key":"ref28","article-title":"Unsupervised dense information retrieval with contrastive learning","author":"Izacard","year":"2022","journal-title":"Transactions on Machine Learning Research"},{"key":"ref29","article-title":"Livecodebench: Holistic and contamination free evaluation of large language models for code","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Jain"},{"key":"ref30","article-title":"MME-cot: Benchmarking chain-of-thought in large multimodal models for reasoning quality, robustness, and efficiency","volume-title":"Forty-second International Conference on Machine Learning","author":"Jiang"},{"key":"ref31","article-title":"Scaling laws for neural language models","author":"Kaplan","year":"2020","journal-title":"arXiv preprint"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.452"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01263"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.276"},{"key":"ref35","article-title":"Let\u2019s verify step by step","volume-title":"The Twelfth International Conference on Learning Representations","author":"Lightman"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.70"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.1250"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72658-3_13"},{"key":"ref39","article-title":"Mathvista: Evaluating math reasoning in visual contexts with gpt- 4 v, bard, and other large multimodal models","volume-title":"The Twelfth International Conference on Learning Representations","author":"Lu"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.1426"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.785"},{"key":"ref42","article-title":"GAIA: a benchmark for general AI assistants","volume-title":"The Twelfth International Conference on Learning Representations","author":"Mialon"},{"key":"ref43","article-title":"Position: Levels of AGI for operationalizing progress on the path to AGI","volume-title":"Fortyfirst International Conference on Machine Learning","author":"Morris"},{"key":"ref44","article-title":"Hello gpt-4o","year":"2024","journal-title":"OpenAI"},{"key":"ref45","article-title":"Learning to reason with lms","year":"2024","journal-title":"OpenAI"},{"key":"ref46","article-title":"Openai o1 system card","year":"2024","journal-title":"OpenAI"},{"key":"ref47","article-title":"Openai o1-mini","year":"2024","journal-title":"OpenAI"},{"key":"ref48","article-title":"Openai o3-mini system card","year":"2025","journal-title":"OpenAI"},{"key":"ref49","article-title":"Check your facts and try again: Improving large language models with external knowledge and automated feedback","author":"Peng","year":"2023","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.722"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.312"},{"key":"ref52","article-title":"Detecting pretraining data from large language models","volume-title":"The Twelfth International Conference on Learning Representations","author":"Shi"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.766"},{"key":"ref54","article-title":"Kimi k1.5: Scaling reinforcement learning with 11 ms","author":"Team","year":"2025","journal-title":"arXiv preprint"},{"key":"ref55","article-title":"Qvq: To see the world with wisdom","year":"2024","journal-title":"Qwen Team"},{"key":"ref56","article-title":"Qwq: Reflect deeply on the boundaries of the unknown","year":"2024","journal-title":"Qwen Team"},{"key":"ref57","article-title":"qwen-omni","year":"2025","journal-title":"Qwen Team"},{"key":"ref58","article-title":"Plan*RAG: Efficient test-time planning for retrieval augmented generation","volume-title":"Workshop on Reasoning and Planning for Large Language Models","author":"Verma","year":"2025"},{"key":"ref59","article-title":"Scibench: Evaluating college-level scientific problem-solving abilities of large language models","volume-title":"Forty-first International Conference on Machine Learning","author":"Wang"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1800"},{"key":"ref61","volume-title":"xAI. Models","year":"2024"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1016\/j.patter.2025.101370"},{"key":"ref63","article-title":"Famma: A benchmark for financial domain multilingual multimodal question answering","author":"Xue","year":"2024","journal-title":"arXiv preprint"},{"key":"ref64","article-title":"MM-vet: Evaluating large multimodal models for integrated capabilities","volume-title":"Forty-first International Conference on Machine Learning","author":"Yu"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00913"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.736"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.693"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.852"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.254"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11443294.pdf?arnumber=11443294","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T06:10:18Z","timestamp":1777529418000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11443294\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":69,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00311","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}