{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,18]],"date-time":"2026-02-18T23:21:17Z","timestamp":1771456877534,"version":"3.50.1"},"reference-count":27,"publisher":"Tech Science Press","issue":"2","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["CMC"],"published-print":{"date-parts":[[2025]]},"DOI":"10.32604\/cmc.2025.065421","type":"journal-article","created":{"date-parts":[[2025,6,23]],"date-time":"2025-06-23T03:41:45Z","timestamp":1750650105000},"page":"2905-2933","source":"Crossref","is-referenced-by-count":1,"title":["Rethinking Chart Understanding Using Multimodal Large Language Models"],"prefix":"10.32604","volume":"84","author":[{"given":"Andreea-Maria","family":"Tanas\u0103","sequence":"first","affiliation":[]},{"given":"Simona-Vasilica","family":"Oprea","sequence":"additional","affiliation":[]}],"member":"17807","published-online":{"date-parts":[[2025]]},"reference":[{"key":"ref1","doi-asserted-by":"crossref","first-page":"863","DOI":"10.1038\/s41591-024-02856-4","article-title":"A visual-language foundation model for computational pathology","volume":"30","author":"Lu","year":"2024","journal-title":"Nat Med"},{"key":"ref2","doi-asserted-by":"crossref","first-page":"107497","DOI":"10.1016\/j.aap.2024.107497","article-title":"Integrating visual large language model and reasoning chain for driver behavior analysis and risk assessment","volume":"198","author":"Zhang","year":"2024","journal-title":"Accid Anal Prev"},{"key":"ref3","doi-asserted-by":"crossref","first-page":"5625","DOI":"10.1109\/TPAMI.2024.3369699","article-title":"Vision-language models for vision tasks: a survey","volume":"46","author":"Zhang","year":"2024","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref4","unstructured":"Barboule C, Piwowarski B, Chabot Y. Survey on question answering over visually rich documents: methods, challenges, and trends. arXiv:2501.02235. 2025."},{"key":"ref5","unstructured":"Subramani N, Matton A, Greaves M, Lam A. A survey of deep learning approaches for OCR and document understanding. arXiv:2011.13534. 2020."},{"key":"ref6","doi-asserted-by":"crossref","first-page":"392","DOI":"10.1007\/s11263-023-01876-w","article-title":"Transferring vision-language models for visual recognition: a classifier perspective","volume":"132","author":"Wu","year":"2024","journal-title":"Int J Comput Vis"},{"key":"ref7","unstructured":"Devlin J, Chang MW, Lee K, Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805. 2018."},{"key":"ref8","first-page":"1178","article-title":"Visual comparison of language model adaptation","volume":"29","author":"Sevastjanova","year":"2023","journal-title":"IEEE Trans Vis Comput Graph"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"118669","DOI":"10.1016\/j.eswa.2022.118669","article-title":"Image captioning for effective use of language models in knowledge-based visual question answering","volume":"212","author":"Salaberria","year":"2023","journal-title":"Expert Syst Appl"},{"key":"ref10","unstructured":"Al-Shetairy M, Hindy H, Khattab D, Aref MM. Transformers utilization in chart understanding: a review of recent advances & future trends. arXiv:2410.13883. 2024."},{"key":"ref11","doi-asserted-by":"crossref","first-page":"749","DOI":"10.3390\/electronics10060749","article-title":"Line chart understanding with convolutional neural network","volume":"10","author":"Sohn","year":"2021","journal-title":"Electronics"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"77","DOI":"10.1007\/978-3-031-41679-8_5","author":"Ahmed","year":"2023","journal-title":"Document analysis and recognition\u2014ICDAR, 2023"},{"key":"ref13","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is all you need. arXiv:1706.03762. 2017."},{"key":"ref14","unstructured":"Faysse M, Sibille H, Wu T, Omrani B, Viaud G, Hudelot C, et al. ColPali: efficient document retrieval with vision language models. arXiv:2407.01449. 2024."},{"key":"ref15","series-title":"Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)","first-page":"2579","article-title":"LayoutLMv2: multi-modal pre-training for visually-rich document understanding","author":"Xu"},{"key":"ref16","series-title":"Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval","first-page":"2367","article-title":"Robust layout-aware IE for visually rich documents with pre-trained language models","author":"Wei","year":"2020"},{"key":"ref17","series-title":"2023 10th International Conference on Wireless Networks and Mobile Communications (WINCOM)","first-page":"1","article-title":"Visually-rich document understanding: concepts, taxonomy and challenges","author":"Sassioui","year":"2023 Oct 26\u201328"},{"key":"ref18","unstructured":"Ding Y, Lee J, Han SC. Deep learning based visually rich document content understanding: a survey. arXiv:2408.01287. 2024."},{"key":"ref19","series-title":"Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","first-page":"5184","article-title":"VRDU: a benchmark for visually-rich document understanding","author":"Wang","year":"2023"},{"key":"ref20","doi-asserted-by":"crossref","first-page":"76202","DOI":"10.1109\/ACCESS.2023.3298050","article-title":"Automatic chart understanding: a review","volume":"11","author":"Farahani","year":"2023","journal-title":"IEEE Access"},{"key":"ref21","doi-asserted-by":"crossref","first-page":"127223","DOI":"10.1016\/j.neucom.2023.127223","article-title":"Multimodal weighted graph representation for information extraction from visually rich documents","volume":"573","author":"Gbada","year":"2024","journal-title":"Neurocomputing"},{"key":"ref22","series-title":"2023 IEEE International Conference on Big Data (BigData)","first-page":"2247","article-title":"Multimodal large language models: a survey","author":"Wu","year":"2023 Dec 15\u201318"},{"key":"ref23","first-page":"1","article-title":"From detection to application: recent advances in understanding scientific tables and figures","volume":"56","author":"Huang","year":"2024","journal-title":"ACM Comput Surv"},{"key":"ref24","series-title":"2023 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"19428","article-title":"ICL-D3IE: in-context learning with diverse demonstrations updating for document information extraction","author":"He","year":"2023 Oct 1\u20136"},{"key":"ref25","doi-asserted-by":"crossref","first-page":"157","DOI":"10.1162\/tacl_a_00638","article-title":"Lost in the middle: how language models use long contexts","volume":"12","author":"Liu","year":"2024","journal-title":"Trans Assoc Comput Linguist"},{"key":"ref26","unstructured":"Gemini Team. Gemini 1.5: unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530. 2024."},{"key":"ref27","unstructured":"Mallick SB, Korevec K. The next chapter of the Gemini era for developers; 2024 [Internet]. [cited 2025 Jun 5]. Available from: https:\/\/developers.googleblog.com\/en\/the-next-chapter-of-the-gemini-era-for-developers\/."}],"container-title":["Computers, Materials &amp; Continua"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/cdn.techscience.cn\/files\/cmc\/2025\/TSP_CMC-84-2\/TSP_CMC_65421\/TSP_CMC_65421.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T01:52:00Z","timestamp":1763344320000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.techscience.com\/cmc\/v84n2\/62915"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":27,"journal-issue":{"issue":"2","published-online":{"date-parts":[[2025]]},"published-print":{"date-parts":[[2025]]}},"URL":"https:\/\/doi.org\/10.32604\/cmc.2025.065421","relation":{},"ISSN":["1546-2226"],"issn-type":[{"value":"1546-2226","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}