{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T03:59:50Z","timestamp":1765339190833,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":36,"publisher":"ACM","funder":[{"name":"CCF-Baidu Songguo Foundation","award":["202311"],"award-info":[{"award-number":["202311"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755773","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T06:55:00Z","timestamp":1761375300000},"page":"5160-5168","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Formula Spotting Based on Synergy Perception and Representation Mining"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2155-4689","authenticated-orcid":false,"given":"Gang","family":"Pan","sequence":"first","affiliation":[{"name":"College of Intelligence and Computing, Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7978-9424","authenticated-orcid":false,"given":"Hongen","family":"Liu","sequence":"additional","affiliation":[{"name":"College of Intelligence and Computing, Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2793-7066","authenticated-orcid":false,"given":"Di","family":"Sun","sequence":"additional","affiliation":[{"name":"College of Artificial Intelligence, Tianjin University of Science and Technology, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","unstructured":"BinWang Chao Xu Xiaomeng Zhao and et al. 2024. MinerU: An Open-Source Solution for Precise Document Content Extraction. arXiv preprint arXiv:2409.18839 (2024)."},{"key":"e_1_3_2_2_2_1","unstructured":"Vik Paruchuri. 2024. marker. https:\/\/github.com\/VikParuchuri\/marker. https:\/\/github.com\/VikParuchuri\/marker"},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2012.09.023"},{"key":"e_1_3_2_2_4_1","first-page":"1508","volume-title":"ICPR","volume":"2","author":"Chan Kam-Fai","year":"1998","unstructured":"Kam-Fai Chan and Dit-Yan Yeung. 1998. Elastic structural matching for online handwritten alphanumeric character recognition. In ICPR, Vol. 2. 1508-1511."},{"key":"e_1_3_2_2_5_1","first-page":"457","article-title":"HMM-Based Recognition of Online Handwritten Mathematical Symbols Using Segmental K-Means Initialization and a Modified Pen-Up\/Down Feature","author":"Hu Lei","year":"2011","unstructured":"Lei Hu and Richard Zanibbi. 2011. HMM-Based Recognition of Online Handwritten Mathematical Symbols Using Segmental K-Means Initialization and a Modified Pen-Up\/Down Feature. In ICDAR. 457-462.","journal-title":"ICDAR."},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2002.1046157"},{"key":"e_1_3_2_2_7_1","first-page":"196","article-title":"Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition","volume":"71","author":"Zhang Jianshu","year":"2017","unstructured":"Jianshu Zhang, Jun Du, Shiliang Zhang, Dan Liu, Yulong Hu, Jinshui Hu, Si Wei, and Lirong Dai. 2017. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition. PR 71 (2017), 196-206.","journal-title":"PR"},{"key":"e_1_3_2_2_8_1","volume-title":"Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition. ICPR","author":"Zhang Jianshu","year":"2018","unstructured":"Jianshu Zhang, Jun Du, and Lirong Dai. 2018. Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition. ICPR (2018), 2245-2250."},{"key":"e_1_3_2_2_9_1","volume-title":"Khanh Minh Phan, and M. Nakagawa.","author":"Truong Thanh-Nghia","year":"2020","unstructured":"Thanh-Nghia Truong, Cuong Tuan Nguyen, Khanh Minh Phan, and M. Nakagawa. 2020. Improvement of End-to-End Offline Handwritten Mathematical Expression Recognition by Weakly Supervised Learning. ICFHR (2020), 181-186."},{"key":"e_1_3_2_2_10_1","first-page":"570","article-title":"Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer","author":"Zhao Wenqi","year":"2021","unstructured":"Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, and Ziyin Zhang. 2021. Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer. In ICDAR. 570-584.","journal-title":"ICDAR."},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"crossref","unstructured":"Xiaohang Bian Bo Qin Xiaozhe Xin Jianwu Li Xuefeng Su and Yanfeng Wang. 2021. Handwritten Mathematical Expression Recognition via Attention Aggregation based Bi-directional Mutual Learning. In AAAI.","DOI":"10.1609\/aaai.v36i1.19885"},{"volume-title":"When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition","author":"Li Bohan","key":"e_1_3_2_2_12_1","unstructured":"Bohan Li, Ye Yuan, Dingkang Liang, Xiao Liu, Zhilong Ji, Jinfeng Bai, Wenyu Liu, and Xiang Bai. 2022. When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition. In ECCV, Shai Avidan, Gabriel Brostow, Moustapha Ciss\u00e9, Giovanni Maria Farinella, and Tal Hassner (Eds.). 197-214."},{"volume-title":"CoMER: Modeling Coverage for Transformer-Based Handwritten Mathematical Expression Recognition","author":"Zhao Wenqi","key":"e_1_3_2_2_13_1","unstructured":"Wenqi Zhao and Liangcai Gao. 2022. CoMER: Modeling Coverage for Transformer-Based Handwritten Mathematical Expression Recognition. In ECCV, Shai Avidan, Gabriel Brostow, Moustapha Ciss\u00e9, Giovanni Maria Farinella, and Tal Hassner (Eds.). 392-408."},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"crossref","unstructured":"Wentao Yang Zhe Li Dezhi Peng Lianwen Jin Mengchao He and Cong Yao. 2023. Read Ten Lines at One Glance: Line-Aware Semi-Autoregressive Transformer for Multi-Line Handwritten Mathematical Expression Recognition. In ACM MM.","DOI":"10.1145\/3581783.3612499"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.3011316"},{"key":"e_1_3_2_2_16_1","first-page":"4543","article-title":"Syntax-Aware Network for Handwritten Mathematical Expression Recognition","author":"Yuan Ye","year":"2022","unstructured":"Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, and Xiang Bai. 2022. Syntax-Aware Network for Handwritten Mathematical Expression Recognition. In CVPR. 4543-4552.","journal-title":"CVPR."},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"crossref","unstructured":"Tongkun Guan Chengyu Lin Wei Shen and Xiaokang Yang. 2024. PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer. In ECCV.","DOI":"10.1007\/978-3-031-72670-5_8"},{"key":"e_1_3_2_2_18_1","first-page":"980","article-title":"Image-to-markup generation with coarse-to-fine attention","author":"Deng Yuntian","year":"2017","unstructured":"Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, and Alexander M. Rush. 2017. Image-to-markup generation with coarse-to-fine attention. In ICML. 980-989.","journal-title":"ICML."},{"key":"e_1_3_2_2_19_1","unstructured":"Vik Paruchuri. 2023. Texify. https:\/\/github.com\/VikParuchuri\/texify. https:\/\/github.com\/VikParuchuri\/texify"},{"key":"e_1_3_2_2_20_1","volume-title":"Botian Shi, and Conghui He.","author":"Wang Bin","year":"2024","unstructured":"Bin Wang, Zhuangcheng Gu, Guang Liang, Bo Zhang Chao Xu, Botian Shi, and Conghui He. 2024. UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition. arXiv preprint arXiv:2404.15254 (2024)."},{"key":"e_1_3_2_2_21_1","first-page":"498","article-title":"OCR-Free Document Understanding Transformer","author":"Kim Geewook","year":"2022","unstructured":"Geewook Kim, Teakgyu Hong, Moonbin Yim, JeongYeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, and Seunghyun Park. 2022. OCR-Free Document Understanding Transformer. In ECCV. 498-517.","journal-title":"ECCV."},{"key":"e_1_3_2_2_22_1","volume-title":"Nougat: Neural Optical Understanding for Academic Documents. arXiv preprint arXiv:2308.13418","author":"Blecher Lukas","year":"2023","unstructured":"Lukas Blecher, Guillem Cucurull, Thomas Scialom, and Robert Stojnic. 2023. Nougat: Neural Optical Understanding for Academic Documents. arXiv preprint arXiv:2308.13418 (2023)."},{"key":"e_1_3_2_2_23_1","first-page":"408","article-title":"Vary: Scaling up the Vision Vocabulary for Large Vision-Language Model","author":"Wei Haoran","year":"2025","unstructured":"Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, and Xiangyu Zhang. 2025. Vary: Scaling up the Vision Vocabulary for Large Vision-Language Model. In ECCV. 408-424.","journal-title":"ECCV."},{"key":"e_1_3_2_2_24_1","volume-title":"General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model. arXiv preprint arXiv:2409.01704","author":"Wei Haoran","year":"2024","unstructured":"Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, and Xiangyu Zhang. 2024. General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model. arXiv preprint arXiv:2409.01704 (2024)."},{"key":"e_1_3_2_2_25_1","unstructured":"Jinze Bai Shuai Bai Yunfei Chu and et al. 2023. Qwen Technical Report. arXiv preprint arXiv:2309.16609 (2023)."},{"key":"e_1_3_2_2_26_1","unstructured":"Zhe Chen Weiyun Wang Yue Cao and et al. 2024. Expanding Performance Boundaries of Open-Source Multimodal Models with Model Data and Test-Time Scaling. arXiv preprint arXiv:2412.05271 (2024)."},{"key":"e_1_3_2_2_27_1","unstructured":"Peng Wang Shuai Bai Sinan Tan and et al. 2024. Qwen2-VL: Enhancing Vision- Language Model's Perception of the World at Any Resolution. arXiv preprint arXiv:2409.12191 (2024)."},{"key":"e_1_3_2_2_28_1","volume-title":"Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models. arXiv preprint arXiv:2408.02034","author":"Huang Mingxin","year":"2024","unstructured":"Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, and Xiang Bai. 2024. Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models. arXiv preprint arXiv:2408.02034 (2024)."},{"key":"e_1_3_2_2_29_1","unstructured":"DeepSeek-AI an Daya Guo Dejian Yang and et al. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948 (2025)."},{"key":"e_1_3_2_2_30_1","unstructured":"Kimi Team Angang Du Bofei Gao Bowei Xing and et al. 2025. Kimi k1.5: Scaling Reinforcement Learning with LLMs. arXiv preprint arXiv:2501.12599 (2025)."},{"key":"e_1_3_2_2_31_1","unstructured":"Jake Poznanski Jon Borchardt Jason Dunkelberger and et al. 2025. olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models. arXiv preprint arXiv:2502.18443 (2025)."},{"key":"e_1_3_2_2_32_1","first-page":"213","article-title":"DINO","author":"Zhang Hao","year":"2023","unstructured":"Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel Ni, and Heung-Yeung Shum. 2023. DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection. In ICLR. 213-229.","journal-title":"In ICLR."},{"key":"e_1_3_2_2_33_1","first-page":"311","article-title":"BLEU: a method for automatic evaluation of machine translation","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a method for automatic evaluation of machine translation. In ACL. 311-318.","journal-title":"ACL."},{"key":"e_1_3_2_2_34_1","first-page":"16965","article-title":"DETRs Beat YOLOs on Real-time Object Detection","author":"Zhao Yian","year":"2024","unstructured":"Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, and Jie Chen. 2024. DETRs Beat YOLOs on Real-time Object Detection. In CVPR. 16965-16974.","journal-title":"CVPR."},{"key":"e_1_3_2_2_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2017.207"},{"key":"e_1_3_2_2_36_1","unstructured":"Baidu PaddlePaddle Vision Team. 2023. PP-HGNeV2. https:\/\/github.com\/PaddlePaddle\/PaddleClas\/blob\/release\/2.6\/docs\/zh_CN\/models\/ImageNet1k\/PP-HGNetV2.md. https:\/\/github.com\/PaddlePaddle\/PaddleClas\/blob\/release\/2.6\/docs\/zh_CN\/models\/ImageNet1k\/PP-HGNetV2.md"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755773","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T03:56:26Z","timestamp":1765338986000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755773"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":36,"alternative-id":["10.1145\/3746027.3755773","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755773","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}