{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T16:02:17Z","timestamp":1780416137292,"version":"3.54.1"},"publisher-location":"Cham","reference-count":35,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032093677","type":"print"},{"value":"9783032093684","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,24]],"date-time":"2025-11-24T00:00:00Z","timestamp":1763942400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,24]],"date-time":"2025-11-24T00:00:00Z","timestamp":1763942400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-09368-4_20","type":"book-chapter","created":{"date-parts":[[2025,11,23]],"date-time":"2025-11-23T18:14:13Z","timestamp":1763921653000},"page":"327-343","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["SCANS: An Efficient Geometric Problem Solver with\u00a0Content-Aware Attention and\u00a0Adaptive Fusion"],"prefix":"10.1007","author":[{"given":"Zhi","family":"Chen","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuhan","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiangdong","family":"Su","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Haoran","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xinxiang","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wei","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guanglai","family":"Gao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2025,11,24]]},"reference":[{"key":"20_CR1","doi-asserted-by":"publisher","unstructured":"Acharya, M., Kafle, K., Kanan, C.: Tallyqa: answering complex counting questions. In: Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence and Thirty-First Innovative Applications of Artificial Intelligence Conference and Ninth AAAI Symposium on Educational Advances in Artificial Intelligence. AAAI Press (2019). https:\/\/doi.org\/10.1609\/aaai.v33i01.33018076","DOI":"10.1609\/aaai.v33i01.33018076"},{"key":"20_CR2","unstructured":"Achiam, J., et\u00a0al.: Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)"},{"key":"20_CR3","doi-asserted-by":"crossref","unstructured":"Anderson, P., et al.: Bottom-up and top-down attention for image captioning and visual question answering (2017)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"20_CR4","unstructured":"Bai, J., et al.: Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond (2023)"},{"key":"20_CR5","unstructured":"Cao, J., Xiao, J.: An augmented benchmark dataset for geometric question answering through dual parallel text encoding. In: Calzolari, N., et al., (eds.) Proceedings of the 29th International Conference on Computational Linguistics, pp. 1511\u20131520. International Committee on Computational Linguistics, Gyeongju, Republic of Korea (Oct 2022)"},{"key":"20_CR6","doi-asserted-by":"crossref","unstructured":"Chen, J., Li, T., Qin, J., Lu, P., Lin, L., Chen, C., Liang, X.: Unigeo: unifying geometry logical reasoning via reformulating mathematical expression. arXiv preprint arXiv:2212.02746 (2022)","DOI":"10.18653\/v1\/2022.emnlp-main.218"},{"key":"20_CR7","doi-asserted-by":"publisher","unstructured":"Chen, J., et al.: GeoQA: A geometric question answering benchmark towards multimodal numerical reasoning. In: Zong, C., Xia, F., Li, W., Navigli, R. (eds.) Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, pp. 513\u2013523. Association for Computational Linguistics, Online (Aug 2021). https:\/\/doi.org\/10.18653\/v1\/2021.findings-acl.46","DOI":"10.18653\/v1\/2021.findings-acl.46"},{"key":"20_CR8","unstructured":"Kim, W., Son, B., Kim, I.: Vilt: vision-and-language transformer without convolution or region supervision. In: Meila, M., Zhang, T. (eds.) Proceedings of the 38th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol.\u00a0139, pp. 5583\u20135594. PMLR (18\u201324 Jul 2021)"},{"key":"20_CR9","first-page":"34892","volume":"36","author":"H Liu","year":"2023","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. Adv. Neural. Inf. Process. Syst. 36, 34892\u201334916 (2023)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"20_CR10","doi-asserted-by":"publisher","unstructured":"Lu, P., et al.: Inter-GPS: Interpretable geometry problem solving with formal language and symbolic reasoning. In: Zong, C., Xia, F., Li, W., Navigli, R. (eds.) Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp. 6774\u20136786. Association for Computational Linguistics, Online (Aug 2021). https:\/\/doi.org\/10.18653\/v1\/2021.acl-long.528","DOI":"10.18653\/v1\/2021.acl-long.528"},{"key":"20_CR11","unstructured":"Lu, P., et al.: Dynamic prompt learning via policy gradient for semi-structured mathematical reasoning. arXiv preprint arXiv:2209.14610 (2022)"},{"issue":"1","key":"20_CR12","doi-asserted-by":"publisher","first-page":"31906","DOI":"10.1038\/s41598-024-83287-6","volume":"14","author":"B Ma","year":"2024","unstructured":"Ma, B., Jian, P., Pan, C., Wang, Y., Ma, W.: A geometric neural solving method based on a diagram text information fusion analysis. Sci. Rep. 14(1), 31906 (2024)","journal-title":"Sci. Rep."},{"key":"20_CR13","unstructured":"Mao, J., Gan, C., Kohli, P., Tenenbaum, J.B., Wu, J.: The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision (2019)"},{"issue":"1","key":"20_CR14","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/0004-3702(75)90013-2","volume":"6","author":"AJ Nevins","year":"1975","unstructured":"Nevins, A.J.: Plane geometry theorem proving using forward chaining. Artif. Intell. 6(1), 1\u201323 (1975)","journal-title":"Artif. Intell."},{"key":"20_CR15","doi-asserted-by":"publisher","unstructured":"Ning, M., Wang, Q.F., Huang, K., Huang, X.: A symbolic characters aware model for solving geometry problems. In: Proceedings of the 31st ACM International Conference on Multimedia, pp. 7767\u20137775. MM \u201923, Association for Computing Machinery, New York, NY, USA (2023). https:\/\/doi.org\/10.1145\/3581783.3612570","DOI":"10.1145\/3581783.3612570"},{"key":"20_CR16","doi-asserted-by":"publisher","unstructured":"Peng, S., Fu, D., Liang, Y., Gao, L., Tang, Z.: GeoDRL: a self-learning framework for geometry problem solving using reinforcement learning in deductive reasoning. In: Rogers, A., Boyd-Graber, J., Okazaki, N. (eds.) Findings of the Association for Computational Linguistics: ACL 2023, pp. 13468\u201313480. Association for Computational Linguistics, Toronto, Canada (Jul 2023). https:\/\/doi.org\/10.18653\/v1\/2023.findings-acl.850","DOI":"10.18653\/v1\/2023.findings-acl.850"},{"key":"20_CR17","doi-asserted-by":"crossref","unstructured":"Perez, E., Strub, F., De\u00a0Vries, H., Dumoulin, V., Courville, A.: Film: Visual reasoning with a general conditioning layer. In: Proceedings of the AAAI conference on artificial intelligence, vol.\u00a032 (2018)","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"20_CR18","doi-asserted-by":"crossref","unstructured":"Sachan, M., Dubey, K., Xing, E.: From textbooks to knowledge: a case study in harvesting axiomatic knowledge from textbooks to solve geometry problems. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp. 773\u2013784 (2017)","DOI":"10.18653\/v1\/D17-1081"},{"key":"20_CR19","unstructured":"Santoro, A., et al.: A simple neural network module for relational reasoning. In: Advances in Neural Information Processing Systems, vol. 30 (2017)"},{"key":"20_CR20","doi-asserted-by":"publisher","unstructured":"Seo, M., Hajishirzi, H., Farhadi, A., Etzioni, O., Malcolm, C.: Solving geometry problems: combining text and diagram interpretation. In: M\u00e0rquez, L., Callison-Burch, C., Su, J. (eds.) Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 1466\u20131476. Association for Computational Linguistics, Lisbon, Portugal (Sept 2015). https:\/\/doi.org\/10.18653\/v1\/D15-1171","DOI":"10.18653\/v1\/D15-1171"},{"key":"20_CR21","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2023.127063","volume":"568","author":"J Su","year":"2024","unstructured":"Su, J., Ahmed, M., Lu, Y., Pan, S., Bo, W., Liu, Y.: Roformer: enhanced transformer with rotary position embedding. Neurocomputing 568, 127063 (2024)","journal-title":"Neurocomputing"},{"key":"20_CR22","doi-asserted-by":"crossref","unstructured":"Tito, R., Karatzas, D., Valveny, E.: Document collection visual question answering. In: International Conference on Document Analysis and Recognition, pp. 778\u2013792. Springer (2021)","DOI":"10.1007\/978-3-030-86331-9_50"},{"issue":"3","key":"20_CR23","first-page":"231","volume":"3","author":"WK Wong","year":"2009","unstructured":"Wong, W.K., et al.: A computer-assisted environment for understanding geometry theorem proving problems and making conjectures. Int. J. Intell. Inf. Database Syst. 3(3), 231\u2013245 (2009)","journal-title":"Int. J. Intell. Inf. Database Syst."},{"key":"20_CR24","doi-asserted-by":"crossref","unstructured":"Wu, W., et al.: E-gps: Explainable geometry problem solving via top-down solver and bottom-up generator. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13828\u201313837 (2024)","DOI":"10.1109\/CVPR52733.2024.01312"},{"key":"20_CR25","unstructured":"Xia, R., et\u00a0al.: Geox: geometric problem solving through unified formalized vision-language pre-training. arXiv preprint arXiv:2412.11863 (2024)"},{"key":"20_CR26","unstructured":"Xiao, T., et al.: Learning to solve geometry problems via simulating human dual-reasoning process. arXiv preprint arXiv:2405.06232 (2024)"},{"key":"20_CR27","doi-asserted-by":"publisher","unstructured":"Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: Layoutlm: pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 1192\u20131200. KDD \u201920, Association for Computing Machinery, New York, NY, USA (2020). https:\/\/doi.org\/10.1145\/3394486.3403172","DOI":"10.1145\/3394486.3403172"},{"key":"20_CR28","doi-asserted-by":"crossref","unstructured":"Ye, Q., et al.: mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13040\u201313051 (2024)","DOI":"10.1109\/CVPR52733.2024.01239"},{"key":"20_CR29","unstructured":"Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., Tenenbaum, J.: Neural-symbolic vqa: Disentangling reasoning from vision and language understanding. In: Bengio, S., Wallach, H., Larochelle, H., Grauman, K., Cesa-Bianchi, N., Garnett, R. (eds.) Advances in Neural Information Processing Systems. vol.\u00a031. Curran Associates, Inc. (2018)"},{"key":"20_CR30","doi-asserted-by":"crossref","unstructured":"Yin, B.W., Cao, J.L., Cheng, M.M., Hou, Q.: Dformerv2: geometry self-attention for RGBD semantic segmentation. In: Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 19345\u201319355 (2025)","DOI":"10.1109\/CVPR52734.2025.01802"},{"key":"20_CR31","doi-asserted-by":"crossref","unstructured":"Yu, Z., Yu, J., Cui, Y., Tao, D., Tian, Q.: Deep modular co-attention networks for visual question answering. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6281\u20136290 (2019)","DOI":"10.1109\/CVPR.2019.00644"},{"key":"20_CR32","doi-asserted-by":"publisher","unstructured":"Zhang, J., Moshfeghi, Y.: GOLD: Geometry problem solver with natural language description. In: Findings of the Association for Computational Linguistics: NAACL 2024, pp. 263\u2013278. Association for Computational Linguistics, Mexico City, Mexico (Jun 2024). https:\/\/doi.org\/10.18653\/v1\/2024.findings-naacl.19","DOI":"10.18653\/v1\/2024.findings-naacl.19"},{"key":"20_CR33","unstructured":"Zhang, M.L., Li, Z.Z., Yin, F., Lin, L., Liu, C.L.: Fuse, reason and verify: Geometry problem solving with parsed clauses from diagram. arXiv preprint arXiv:2407.07327 (2024)"},{"key":"20_CR34","doi-asserted-by":"crossref","unstructured":"Zhang, M.L., Yin, F., Liu, C.L.: A multi-modal neural geometric solver with textual clauses parsed from diagram. In: IJCAI (2023)","DOI":"10.24963\/ijcai.2023\/376"},{"key":"20_CR35","doi-asserted-by":"crossref","unstructured":"Zhao, J., Zhang, T., Sun, J., Tian, M., Huang, H.: Pi-GPS: Enhancing geometry problem solving by unleashing the power of diagrammatic information. arXiv preprint arXiv:2503.05543 (2025)","DOI":"10.1109\/ICCV51701.2025.00150"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-09368-4_20","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T15:01:25Z","timestamp":1780412485000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-09368-4_20"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,24]]},"ISBN":["9783032093677","9783032093684"],"references-count":35,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-09368-4_20","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,24]]},"assertion":[{"value":"24 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}