{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T08:53:01Z","timestamp":1763196781337,"version":"3.45.0"},"publisher-location":"Singapore","reference-count":27,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819533480","type":"print"},{"value":"9789819533497","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,16]],"date-time":"2025-11-16T00:00:00Z","timestamp":1763251200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,16]],"date-time":"2025-11-16T00:00:00Z","timestamp":1763251200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-3349-7_11","type":"book-chapter","created":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T08:49:40Z","timestamp":1763196580000},"page":"133-145","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Bridging Questions and\u00a0Charts: A Weakly Supervised Alignment Model for\u00a0Chart Question Answering"],"prefix":"10.1007","author":[{"given":"Jiangzhou","family":"Ju","sequence":"first","affiliation":[]},{"given":"Yunlin","family":"Mao","sequence":"additional","affiliation":[]},{"given":"Zhen","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Robert","family":"Ridley","sequence":"additional","affiliation":[]},{"given":"Jiajun","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Xinyu","family":"Dai","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,11,16]]},"reference":[{"key":"11_CR1","doi-asserted-by":"crossref","unstructured":"Carbune, V., et al.: Chart-based reasoning: transferring capabilities from LLMs to VLMs. arXiv preprint arXiv:2403.12596 (2024)","DOI":"10.18653\/v1\/2024.findings-naacl.62"},{"key":"11_CR2","unstructured":"Chen, X., et\u00a0al.: Pali-3 vision language models: smaller, faster, stronger. arXiv preprint arXiv:2310.09199 (2023)"},{"key":"11_CR3","unstructured":"Chen, X., et\u00a0al.: Pali: a jointly-scaled multilingual language-image model. arXiv preprint arXiv:2209.06794 (2022)"},{"key":"11_CR4","unstructured":"Cho, J., Lei, J., Tan, H., Bansal, M.: Unifying vision-and-language tasks via text generation. In: Meila, M., Zhang, T. (eds.) ICML. Proceedings of Machine Learning Research, vol.\u00a0139, pp. 1931\u20131942. PMLR (2021)"},{"key":"11_CR5","first-page":"90","volume":"163","author":"A Das","year":"2017","unstructured":"Das, A., Agrawal, H., Zitnick, L., Parikh, D., Batra, D.: Human attention in visual question answering: do humans and deep networks look at the same regions? CVIU 163, 90\u2013100 (2017)","journal-title":"CVIU"},{"key":"11_CR6","doi-asserted-by":"crossref","unstructured":"Deng, S., Zhuo, W., Xie, J., Shen, L.: Question-answer cross language image matching for weakly supervised semantic segmentation. arXiv preprint arXiv:2401.09883 (2024)","DOI":"10.1145\/3581783.3612148"},{"key":"11_CR7","doi-asserted-by":"crossref","unstructured":"Gan, C., Li, Y., Li, H., Sun, C., Gong, B.: VQS: linking segmentations to questions and answers for supervised attention in VQA and question-focused semantic segmentation. In: ICCV, pp. 1811\u20131820 (2017)","DOI":"10.1109\/ICCV.2017.201"},{"key":"11_CR8","doi-asserted-by":"crossref","unstructured":"Gui, J., et al.: A survey on self-supervised learning: algorithms, applications, and future trends. IEEE TPAMI (2024)","DOI":"10.1109\/TPAMI.2024.3415112"},{"key":"11_CR9","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: ICCV, pp. 2980\u20132988 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"11_CR10","doi-asserted-by":"crossref","unstructured":"Herzig, J., Nowak, P.K., M\u00fcller, T., Piccinno, F., Eisenschlos, J.: TaPas: weakly supervised table parsing via pre-training. In: ACL, pp. 4320\u20134333. ACL, Online (2020)","DOI":"10.18653\/v1\/2020.acl-main.398"},{"key":"11_CR11","doi-asserted-by":"crossref","unstructured":"Hong, Y., Li, Q., Ciao, D., Huang, S., Zhu, S.C.: Learning by fixing: solving math word problems with weak supervision. In: AAAI, vol.\u00a035, pp. 4959\u20134967 (2021)","DOI":"10.1609\/aaai.v35i6.16629"},{"key":"11_CR12","doi-asserted-by":"crossref","unstructured":"Kafle, K., Shrestha, R., Price, B.L., Cohen, S., Kanan, C.: Answering questions about data visualizations using efficient bimodal fusion. In: WACV 2020, pp. 1487\u20131496. IEEE (2020)","DOI":"10.1109\/WACV45572.2020.9093494"},{"key":"11_CR13","unstructured":"Kahou, S.E., Michalski, V., Atkinson, A., K\u00e1d\u00e1r, \u00c1., Trischler, A., Bengio, Y.: Figureqa: an annotated figure dataset for visual reasoning. In: ICLR 2018. OpenReview.net (2018)"},{"key":"11_CR14","unstructured":"Lee, K., et al.: Pix2struct: screenshot parsing as pretraining for visual language understanding. CoRR abs\/2210.03347 (2022)"},{"key":"11_CR15","doi-asserted-by":"crossref","unstructured":"Levy, M., Ben-Ari, R., Lischinski, D.: Classification-regression for chart comprehension. In: Avidan, S., Brostow, G.J., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. Lecture Notes in Computer Science, vol. 13696, pp. 469\u2013484. Springer (2022)","DOI":"10.1007\/978-3-031-20059-5_27"},{"key":"11_CR16","doi-asserted-by":"crossref","unstructured":"Liu, F., et al.: Deplot: one-shot visual language reasoning by plot-to-table translation. CoRR abs\/2212.10505 (2022)","DOI":"10.18653\/v1\/2023.findings-acl.660"},{"key":"11_CR17","unstructured":"Liu, F., et al.: Matcha: enhancing visual language pretraining with math reasoning and chart derendering. CoRR abs\/2212.09662 (2022)"},{"key":"11_CR18","doi-asserted-by":"crossref","unstructured":"Luo, J., Li, Z., Wang, J., Lin, C.: Chartocr: data extraction from charts images via a deep hybrid framework. In: WACV 2021, pp. 1916\u20131924. IEEE (2021)","DOI":"10.1109\/WACV48630.2021.00196"},{"key":"11_CR19","doi-asserted-by":"crossref","unstructured":"Masry, A., Long, D., Tan, J.Q., Joty, S., Hoque, E.: ChartQA: a benchmark for question answering about charts with visual and logical reasoning. In: Findings of ACL 2022, pp. 2263\u20132279. ACL, Dublin, Ireland (2022)","DOI":"10.18653\/v1\/2022.findings-acl.177"},{"key":"11_CR20","doi-asserted-by":"crossref","unstructured":"Methani, N., Ganguly, P., Khapra, M.M., Kumar, P.: Plotqa: reasoning over scientific plots. In: WACV 2020, pp. 1516\u20131525. IEEE (2020)","DOI":"10.1109\/WACV45572.2020.9093523"},{"key":"11_CR21","doi-asserted-by":"crossref","unstructured":"Qiao, T., Dong, J., Xu, D.: Exploring human-like attention supervision in visual question answering. In: McIlraith, S.A., Weinberger, K.Q. (eds.) AAAI 2018, pp. 7300\u20137307. AAAI Press (2018)","DOI":"10.1609\/aaai.v32i1.12272"},{"key":"11_CR22","unstructured":"Raffel, C., et al.: Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res. 21, 140:1\u2013140:67 (2020)"},{"key":"11_CR23","doi-asserted-by":"crossref","unstructured":"Singh, H., Shekhar, S.: STL-CQA: structure-based transformers with localization and encoding for chart question answering. In: Webber, B., Cohn, T., He, Y., Liu, Y. (eds.) EMNLP 2020, Online, 16\u201320 November 2020, pp. 3275\u20133284 (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.264"},{"key":"11_CR24","unstructured":"Tong, Y., et al.: Optimizing language model\u2019s reasoning abilities with weak supervision. arXiv preprint arXiv:2405.04086 (2024)"},{"key":"11_CR25","unstructured":"Vaswani, A., et al.: Attention is all you need. In: Guyon, I., et al. (eds.) NeurIPS 2017, pp. 5998\u20136008 (2017)"},{"key":"11_CR26","first-page":"24824","volume":"35","author":"J Wei","year":"2022","unstructured":"Wei, J., et al.: Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 35, 24824\u201324837 (2022)","journal-title":"NeurIPS"},{"key":"11_CR27","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Niebles, J.C., Soto, A.: Interpretable visual question answering by visual grounding from attention supervision mining. In: WACV 2019, pp. 349\u2013357. IEEE (2019)","DOI":"10.1109\/WACV.2019.00043"}],"container-title":["Lecture Notes in Computer Science","Natural Language Processing and Chinese Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-3349-7_11","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T08:49:46Z","timestamp":1763196586000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-3349-7_11"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,16]]},"ISBN":["9789819533480","9789819533497"],"references-count":27,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-3349-7_11","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,16]]},"assertion":[{"value":"16 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"NLPCC","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"CCF International Conference on Natural Language Processing and Chinese Computing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Urumqi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7 August 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 August 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"nlpcc2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/tcci.ccf.org.cn\/conference\/2025\/index.php","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}