{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T19:41:26Z","timestamp":1773171686737,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":85,"publisher":"ACM","license":[{"start":{"date-parts":[[2025,4,22]],"date-time":"2025-04-22T00:00:00Z","timestamp":1745280000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"the fund for building world-class universities (disciplines) of Renmin University of China"},{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No. 62272467"],"award-info":[{"award-number":["No. 62272467"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Municipal Science and Technology Project","award":["No. Z231100010323009"],"award-info":[{"award-number":["No. Z231100010323009"]}]},{"name":"Beijing Natural Science Foundation","award":["No. L233008"],"award-info":[{"award-number":["No. L233008"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,4,22]]},"DOI":"10.1145\/3696410.3714546","type":"proceedings-article","created":{"date-parts":[[2025,4,22]],"date-time":"2025-04-22T22:57:28Z","timestamp":1745362648000},"page":"1733-1746","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":11,"title":["HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-8106-4780","authenticated-orcid":false,"given":"Jiejun","family":"Tan","sequence":"first","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9781-948X","authenticated-orcid":false,"given":"Zhicheng","family":"Dou","sequence":"additional","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6733-1838","authenticated-orcid":false,"given":"Wen","family":"Wang","sequence":"additional","affiliation":[{"name":"Baichuan Intelligent Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-6652-3706","authenticated-orcid":false,"given":"Mang","family":"Wang","sequence":"additional","affiliation":[{"name":"Baichuan Intelligent Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-5124-0241","authenticated-orcid":false,"given":"Weipeng","family":"Chen","sequence":"additional","affiliation":[{"name":"Baichuan Intelligent Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9777-9676","authenticated-orcid":false,"given":"Ji-Rong","family":"Wen","sequence":"additional","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,4,22]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"Marah I Abdin Sam Ade Jacobs Ammar Ahmad Awan Jyoti Aneja Ahmed Awadallah Hany Awadalla Nguyen Bach Amit Bahree Arash Bakhtiari Harkirat S. Behl Alon Benhaim Misha Bilenko Johan Bjorck S\u00e9bastien Bubeck Martin Cai Caio C\u00e9sar Teodoro Mendes Weizhu Chen Vishrav Chaudhary Parul Chopra Allie Del Giorno Gustavo de Rosa Matthew Dixon Ronen Eldan Dan Iter Amit Garg Abhishek Goswami Suriya Gunasekar Emman Haider Junheng Hao Russell J. Hewett Jamie Huynh Mojan Javaheripi Xin Jin Piero Kauffmann Nikos Karampatziakis Dongwoo Kim Mahoud Khademi Lev Kurilenko James R. Lee Yin Tat Lee Yuanzhi Li Chen Liang Weishung Liu Eric Lin Zeqi Lin Piyush Madan Arindam Mitra Hardik Modi Anh Nguyen Brandon Norick Barun Patra Daniel Perez-Becker Thomas Portet Reid Pryzant Heyang Qin Marko Radmilac Corby Rosset Sambudha Roy Olatunji Ruwase Olli Saarikivi Amin Saied Adil Salim Michael Santacroce Shital Shah Ning Shang Hiteshi Sharma Xia Song Masahiro Tanaka Xin Wang Rachel Ward Guanhua Wang Philipp Witte Michael Wyatt Can Xu Jiahang Xu Sonali Yadav Fan Yang Ziyi Yang Donghan Yu Chengruidong Zhang Cyril Zhang Jianwen Zhang Li Lyna Zhang Yi Zhang Yue Zhang Yunan Zhang and Xiren Zhou. 2024. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. CoRR Vol. abs\/2404.14219 (2024). showeprint[arXiv]2404.14219"},{"key":"e_1_3_2_1_2_1","unstructured":"AlexVonB Matthew Dapena-Tretter and Andr\u00e9 van Delft. 2024. python-markdownify. https:\/\/github.com\/matthewwithanm\/python-markdownify"},{"key":"e_1_3_2_1_3_1","volume-title":"ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16","author":"Amayuelas Alfonso","year":"2024","unstructured":"Alfonso Amayuelas, Kyle Wong, Liangming Pan, Wenhu Chen, and William Yang Wang. 2024. Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models. In Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16, 2024, Lun-Wei Ku, Andre Martins, and Vivek Srikumar (Eds.). Association for Computational Linguistics, 6416--6432."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543873.3587300"},{"key":"e_1_3_2_1_5_1","volume-title":"The Twelfth International Conference on Learning Representations, ICLR 2024","author":"Asai Akari","year":"2024","unstructured":"Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. 2024. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7--11, 2024. OpenReview.net."},{"key":"e_1_3_2_1_6_1","volume-title":"Emergent and Predictable Memorization in Large Language Models. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023","author":"Biderman Stella","year":"2023","unstructured":"Stella Biderman, USVSN Sai Prashanth, Lintang Sutawika, Hailey Schoelkopf, Quentin Anthony, Shivanshu Purohit, and Edward Raff. 2023. Emergent and Predictable Memorization in Large Language Models. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.)."},{"key":"e_1_3_2_1_7_1","volume-title":"mailto:bruce.miller@nist.gov","author":"Miller Deyan Ginev","year":"2024","unstructured":"Deyan Ginev Bruce R. Miller, mailto:bruce.miller@nist.gov. 2024. LaTeXML. https:\/\/github.com\/brucemiller\/LaTeXML"},{"key":"e_1_3_2_1_8_1","unstructured":"Harrison Chase. 2022. LangChain. https:\/\/github.com\/langchain-ai\/langchain"},{"key":"e_1_3_2_1_9_1","volume-title":"XDoc: Unified Pre-training for Cross-Format Document Understanding. In Findings of the Association for Computational Linguistics: EMNLP 2022","author":"Chen Jingye","year":"2022","unstructured":"Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, and Furu Wei. 2022. XDoc: Unified Pre-training for Cross-Format Document Understanding. In Findings of the Association for Computational Linguistics: EMNLP 2022, Abu Dhabi, United Arab Emirates, December 7--11, 2022, Yoav Goldberg, Zornitsa Kozareva, and Yue Zhang (Eds.). Association for Computational Linguistics, 1006--1016."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.343"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.159"},{"key":"e_1_3_2_1_12_1","volume-title":"CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation. arxiv: 2410.23090 [cs.IR] https:\/\/arxiv.org\/abs\/2410.23090","author":"Cheng Yiruo","year":"2024","unstructured":"Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, and Zhicheng Dou. 2024b. CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation. arxiv: 2410.23090 [cs.IR] https:\/\/arxiv.org\/abs\/2410.23090"},{"key":"e_1_3_2_1_13_1","volume-title":"Toward General Instruction-Following Alignment for Retrieval-Augmented Generation. arXiv preprint arXiv:2410.09584","author":"Dong Guanting","year":"2024","unstructured":"Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, and Ji-Rong Wen. 2024. Toward General Instruction-Following Alignment for Retrieval-Augmented Generation. arXiv preprint arXiv:2410.09584 (2024)."},{"key":"e_1_3_2_1_14_1","volume-title":"A Survey on Long Text Modeling with Transformers. CoRR","author":"Dong Zican","year":"2023","unstructured":"Zican Dong, Tianyi Tang, Junyi Li, and Wayne Xin Zhao. 2023. A Survey on Long Text Modeling with Transformers. CoRR, Vol. abs\/2302.14502 (2023). showeprint[arXiv]2302.14502"},{"key":"e_1_3_2_1_15_1","unstructured":"Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian Ahmad Al-Dahle Aiesha Letman Akhil Mathur Alan Schelten Amy Yang Angela Fan Anirudh Goyal Anthony Hartshorn Aobo Yang Archi Mitra Archie Sravankumar Artem Korenev Arthur Hinsvark Arun Rao Aston Zhang Aur\u00e9lien Rodriguez Austen Gregerson Ava Spataru Baptiste Rozi\u00e8re Bethany Biron Binh Tang Bobbie Chern Charlotte Caucheteux Chaya Nayak Chloe Bi Chris Marra Chris McConnell Christian Keller Christophe Touret Chunyang Wu Corinne Wong Cristian Canton Ferrer Cyrus Nikolaidis Damien Allonsius Daniel Song Danielle Pintz Danny Livshits David Esiobu Dhruv Choudhary Dhruv Mahajan Diego Garcia-Olano Diego Perino Dieuwke Hupkes Egor Lakomkin Ehab AlBadawy Elina Lobanova Emily Dinan Eric Michael Smith Filip Radenovic Frank Zhang Gabriel Synnaeve Gabrielle Lee Georgia Lewis Anderson Graeme Nail Gr\u00e9goire Mialon Guan Pang Guillem Cucurell Hailey Nguyen Hannah Korevaar Hu Xu Hugo Touvron Iliyan Zarov Imanol Arrieta Ibarra Isabel M. Kloumann Ishan Misra Ivan Evtimov Jade Copet Jaewon Lee Jan Geffert Jana Vranes Jason Park Jay Mahadeokar Jeet Shah Jelmer van der Linde Jennifer Billock Jenny Hong Jenya Lee Jeremy Fu Jianfeng Chi Jianyu Huang Jiawen Liu Jie Wang Jiecao Yu Joanna Bitton Joe Spisak Jongsoo Park Joseph Rocca Joshua Johnstun Joshua Saxe Junteng Jia Kalyan Vasuden Alwala Kartikeya Upasani Kate Plawiak Ke Li Kenneth Heafield Kevin Stone and et al. 2024. The Llama 3 Herd of Models. CoRR Vol. abs\/2407.21783 (2024). showeprint[arXiv]2407.21783"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1346"},{"key":"e_1_3_2_1_17_1","volume-title":"Semantic Compression with Large Language Models. In Tenth International Conference on Social Networks Analysis, Management and Security, SNAMS 2023","author":"Gilbert Henry","year":"2023","unstructured":"Henry Gilbert, Michael Sandborn, Douglas C. Schmidt, Jesse Spencer-Smith, and Jules White. 2023. Semantic Compression with Large Language Models. In Tenth International Conference on Social Networks Analysis, Management and Security, SNAMS 2023, Abu Dhabi, United Arab Emirates, November 21--24, 2023. IEEE, 1--8."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.841"},{"key":"e_1_3_2_1_19_1","volume-title":"Webformer: Pre-training with Web Pages for Information Retrieval. In SIGIR '22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval","author":"Guo Yu","year":"2022","unstructured":"Yu Guo, Zhengyi Ma, Jiaxin Mao, Hongjin Qian, Xinyu Zhang, Hao Jiang, Zhao Cao, and Zhicheng Dou. 2022. Webformer: Pre-training with Web Pages for Information Retrieval. In SIGIR '22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Madrid, Spain, July 11 - 15, 2022, Enrique Amig\u00f3, Pablo Castells, Julio Gonzalo, Ben Carterette, J. Shane Culpepper, and Gabriella Kazai (Eds.). ACM, 1502--1512."},{"key":"e_1_3_2_1_20_1","volume-title":"Understanding HTML with Large Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2023","author":"Gur Izzeddin","year":"2023","unstructured":"Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin V. Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, and Aleksandra Faust. 2023. Understanding HTML with Large Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2023, Singapore, December 6--10, 2023, Houda Bouamor, Juan Pino, and Kalika Bali (Eds.). Association for Computational Linguistics, 2803--2821."},{"key":"e_1_3_2_1_21_1","unstructured":"Albert Q. Jiang Alexandre Sablayrolles Arthur Mensch Chris Bamford Devendra Singh Chaplot Diego de Las Casas Florian Bressand Gianna Lengyel Guillaume Lample Lucile Saulnier L\u00e9lio Renard Lavaud Marie-Anne Lachaux Pierre Stock Teven Le Scao Thibaut Lavril Thomas Wang Timoth\u00e9e Lacroix and William El Sayed. 2023a. Mistral 7B. CoRR Vol. abs\/2310.06825 (2023). showeprint[arXiv]2310.06825"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.91"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.495"},{"key":"e_1_3_2_1_24_1","volume-title":"FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research. CoRR","author":"Jin Jiajie","year":"2024","unstructured":"Jiajie Jin, Yutao Zhu, Xinyu Yang, Chenghao Zhang, and Zhicheng Dou. 2024a. FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research. CoRR, Vol. abs\/2405.13576 (2024). showeprint[arXiv]2405.13576"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2405.13576"},{"key":"e_1_3_2_1_26_1","volume-title":"ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16","author":"Jin Jiajie","year":"2024","unstructured":"Jiajie Jin, Yutao Zhu, Yujia Zhou, and Zhicheng Dou. 2024c. BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence. In Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16, 2024, Lun-Wei Ku, Andre Martins, and Vivek Srikumar (Eds.). Association for Computational Linguistics, 750--761."},{"key":"e_1_3_2_1_27_1","volume-title":"Reader-LM: Small Language Models for Cleaning and Converting HTML to Markdown. https:\/\/jina.ai\/news\/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown\/. [Online","author":"AI.","year":"2024","unstructured":"JinaAI. 2024. Reader-LM: Small Language Models for Cleaning and Converting HTML to Markdown. https:\/\/jina.ai\/news\/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown\/. [Online; accessed 2024--10-05]."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1147"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.550"},{"key":"e_1_3_2_1_30_1","volume-title":"Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023","author":"Kim Geunwoo","year":"2023","unstructured":"Geunwoo Kim, Pierre Baldi, and Stephen McAleer. 2023a. Language Models can Solve Computer Tasks. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.)."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.63"},{"key":"e_1_3_2_1_32_1","volume-title":"The Twelfth International Conference on Learning Representations, ICLR 2024","author":"Kotha Suhas","year":"2024","unstructured":"Suhas Kotha, Jacob Mitchell Springer, and Aditi Raghunathan. 2024. Understanding Catastrophic Forgetting in Language Models via Implicit Inference. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7--11, 2024. OpenReview.net."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00276"},{"key":"e_1_3_2_1_34_1","volume-title":"Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, and Jie Tang.","author":"Lai Hanyu","year":"2024","unstructured":"Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, and Jie Tang. 2024. AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent. CoRR, Vol. abs\/2404.03648 (2024). showeprint[arXiv]2404.03648"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.493"},{"key":"e_1_3_2_1_36_1","volume-title":"Search-o1: Agentic Search-Enhanced Large Reasoning Models. arXiv preprint arXiv:2501.05366","author":"Li Xiaoxi","year":"2025","unstructured":"Xiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, and Zhicheng Dou. 2025. Search-o1: Agentic Search-Enhanced Large Reasoning Models. arXiv preprint arXiv:2501.05366 (2025)."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657778"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2412.11919"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2404.14851"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1609\/AAAI.V38I8.28714"},{"key":"e_1_3_2_1_41_1","volume-title":"Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering. CoRR","author":"Yucheng Li.","year":"2023","unstructured":"Yucheng Li. 2023. Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering. CoRR, Vol. abs\/2304.12102 (2023). showeprint[arXiv]2304.12102"},{"key":"e_1_3_2_1_42_1","volume-title":"ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out. Association for Computational Linguistics, Barcelona, Spain, 74--81."},{"key":"e_1_3_2_1_43_1","unstructured":"Jerry Liu. 2022. LlamaIndex. https:\/\/github.com\/jerryjliu\/llama_index"},{"key":"e_1_3_2_1_44_1","volume-title":"Wai Lam, Graham Neubig, Yuanzhi Li, and Xiang Yue.","author":"Liu Junpeng","year":"2024","unstructured":"Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, and Xiang Yue. 2024. VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? CoRR, Vol. abs\/2404.05955 (2024). showeprint[arXiv]2404.05955"},{"key":"e_1_3_2_1_45_1","volume-title":"Fine-tune BERT for Extractive Summarization. CoRR","author":"Liu Yang","year":"2019","unstructured":"Yang Liu. 2019. Fine-tune BERT for Extractive Summarization. CoRR, Vol. abs\/1903.10318 (2019). showeprint[arXiv]1903.10318"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.546"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.741"},{"key":"e_1_3_2_1_48_1","unstructured":"Fengran Mo Kelong Mao Ziliang Zhao Hongjin Qian Haonan Chen Yiruo Cheng Xiaoxi Li Yutao Zhu Zhicheng Dou and Jian-Yun Nie. 2024. A Survey of Conversational Search. arxiv: 2410.15576 [cs.CL] https:\/\/arxiv.org\/abs\/2410.15576"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.sigdial-1.5"},{"key":"e_1_3_2_1_50_1","volume-title":"ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16","author":"Ni Shiyu","year":"2024","unstructured":"Shiyu Ni, Keping Bi, Jiafeng Guo, and Xueqi Cheng. 2024. When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation. In Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11--16, 2024, Lun-Wei Ku, Andre Martins, and Vivek Srikumar (Eds.). Association for Computational Linguistics, 11375--11388."},{"key":"e_1_3_2_1_52_1","unstructured":"OpenAI. 2024. SearchGPT Prototype. [Online; accessed 2024--10--14]."},{"key":"e_1_3_2_1_53_1","volume-title":"Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022","author":"Ouyang Long","year":"2022","unstructured":"Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh (Eds.)."},{"key":"e_1_3_2_1_54_1","volume-title":"Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, July 6--12","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, July 6--12, 2002, Philadelphia, PA, USA. ACL, 311--318."},{"key":"e_1_3_2_1_55_1","volume-title":"Bidirectional Language Models Are Also Few-shot Learners. In The Eleventh International Conference on Learning Representations, ICLR 2023","author":"Patel Ajay","year":"2023","unstructured":"Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli, Noah Constant, Colin Raffel, and Chris Callison-Burch. 2023. Bidirectional Language Models Are Also Few-shot Learners. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1--5, 2023. OpenReview.net."},{"key":"e_1_3_2_1_56_1","unstructured":"PerplexityAI. 2024. Perplexity."},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.71"},{"key":"e_1_3_2_1_58_1","volume-title":"Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models. CoRR","author":"Qin Yulei","year":"2085","unstructured":"Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, and Xing Sun. 2024. Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models. CoRR, Vol. abs\/2408.02085 (2024). showeprint[arXiv]2408.02085"},{"key":"e_1_3_2_1_59_1","unstructured":"Leonard Richardson. 2024. Beautiful Soup."},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.1561\/1500000019"},{"key":"e_1_3_2_1_61_1","volume-title":"Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy. In Findings of the Association for Computational Linguistics: EMNLP 2023","author":"Shao Zhihong","year":"2023","unstructured":"Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, and Weizhu Chen. 2023. Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy. In Findings of the Association for Computational Linguistics: EMNLP 2023, Singapore, December 6--10, 2023, Houda Bouamor, Juan Pino, and Kalika Bali (Eds.). Association for Computational Linguistics, 9248--9274."},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.463"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.566"},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.242"},{"key":"e_1_3_2_1_65_1","first-page":"539","article-title":"MuSiQue: Multihop Questions via Single-hop Question","volume":"10","author":"Trivedi Harsh","year":"2022","unstructured":"Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. 2022. MuSiQue: Multihop Questions via Single-hop Question Composition. Trans. Assoc. Comput. Linguistics, Vol. 10 (2022), 539--554.","journal-title":"Composition. Trans. Assoc. Comput. Linguistics"},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"publisher","DOI":"10.1145\/3659914.3659939"},{"key":"e_1_3_2_1_67_1","volume-title":"What is the HTML DOM? [Online","year":"2024","unstructured":"W3Schools. 2024. What is the HTML DOM? [Online; accessed 2024--10--14]."},{"key":"e_1_3_2_1_68_1","volume-title":"Proceedings, Part I (Lecture Notes in Computer Science","volume":"487","author":"Wang Haochen","year":"2024","unstructured":"Haochen Wang, Kai Hu, Haoyu Dong, and Liangcai Gao. 2024a. DocTabQA: Answering Questions from Long Documents Using Tables. In Document Analysis and Recognition - ICDAR 2024 - 18th International Conference, Athens, Greece, August 30 - September 4, 2024, Proceedings, Part I (Lecture Notes in Computer Science, Vol. 14804), Elisa H. Barney Smith, Marcus Liwicki, and Liangrui Peng (Eds.). Springer, 470--487."},{"key":"e_1_3_2_1_69_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.642"},{"key":"e_1_3_2_1_70_1","volume-title":"Weld","author":"Wang Lucy Lu","year":"2023","unstructured":"Lucy Lu Wang, Jonathan Bragg, and Daniel S. Weld. 2023. Paper to HTML: A Publicly Available Web Tool for Converting Scientific Pdfs into Accessible HTML. SIGACCESS Access. Comput. 134, Article 1 (Jan. 2023), 1 pages."},{"key":"e_1_3_2_1_71_1","volume-title":"WebFormer: The Web-page Transformer for Structure Information Extraction. In WWW '22: The ACM Web Conference 2022","author":"Wang Qifan","year":"2022","unstructured":"Qifan Wang, Yi Fang, Anirudh Ravula, Fuli Feng, Xiaojun Quan, and Dongfang Liu. 2022. WebFormer: The Web-page Transformer for Structure Information Extraction. In WWW '22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25 - 29, 2022, Fr\u00e9d\u00e9rique Laforest, Rapha\u00ebl Troncy, Elena Simperl, Deepak Agarwal, Aristides Gionis, Ivan Herman, and Lionel M\u00e9dini (Eds.). ACM, 3124--3133."},{"key":"e_1_3_2_1_72_1","volume-title":"RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation. CoRR","author":"Wang Shuting","year":"2024","unstructured":"Shuting Wang, Xin Yu, Mang Wang, Weipeng Chen, Yutao Zhu, and Zhicheng Dou. 2024c. RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation. CoRR, Vol. abs\/2406.12566 (2024). showeprint[arXiv]2406.12566"},{"key":"e_1_3_2_1_73_1","unstructured":"Michael Williamson Jonathan Lehman and Jacob Wang. 2024. mammoth.js. https:\/\/github.com\/mwilliamson\/mammoth.js"},{"key":"e_1_3_2_1_74_1","volume-title":"C-Pack: Packaged Resources To Advance General Chinese Embedding. CoRR","author":"Xiao Shitao","year":"2023","unstructured":"Shitao Xiao, Zheng Liu, Peitian Zhang, and Niklas Muennighoff. 2023. C-Pack: Packaged Resources To Advance General Chinese Embedding. CoRR, Vol. abs\/2309.07597 (2023). showeprint[arXiv]2309.07597"},{"key":"e_1_3_2_1_75_1","volume-title":"RECOMP: Improving Retrieval-Augmented LMs with Context Compression and Selective Augmentation. In The Twelfth International Conference on Learning Representations, ICLR 2024","author":"Xu Fangyuan","year":"2024","unstructured":"Fangyuan Xu, Weijia Shi, and Eunsol Choi. 2024. RECOMP: Improving Retrieval-Augmented LMs with Context Compression and Selective Augmentation. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7--11, 2024. OpenReview.net."},{"key":"e_1_3_2_1_76_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1259"},{"key":"e_1_3_2_1_77_1","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3615107"},{"key":"e_1_3_2_1_78_1","unstructured":"Aohan Zeng Bin Xu Bowen Wang Chenhui Zhang Da Yin Diego Rojas Guanyu Feng Hanlin Zhao Hanyu Lai Hao Yu Hongning Wang Jiadai Sun Jiajie Zhang Jiale Cheng Jiayi Gui Jie Tang Jing Zhang Juanzi Li Lei Zhao Lindong Wu Lucen Zhong Mingdao Liu Minlie Huang Peng Zhang Qinkai Zheng Rui Lu Shuaiqi Duan Shudan Zhang Shulin Cao Shuxun Yang Weng Lam Tam Wenyi Zhao Xiao Liu Xiao Xia Xiaohan Zhang Xiaotao Gu Xin Lv Xinghan Liu Xinyi Liu Xinyue Yang Xixuan Song Xunkai Zhang Yifan An Yifan Xu Yilin Niu Yuantao Yang Yueyan Li Yushi Bai Yuxiao Dong Zehan Qi Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou and Zihan Wang. 2024. ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. CoRR Vol. abs\/2406.12793 (2024). showeprint[arXiv]2406.12793"},{"key":"e_1_3_2_1_79_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.214"},{"key":"e_1_3_2_1_80_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.714"},{"key":"e_1_3_2_1_81_1","volume-title":"Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024","author":"Zhang Xinrong","year":"2024","unstructured":"Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen, Moo Khai Hao, Xu Han, Zhen Leng Thai, Shuo Wang, Zhiyuan Liu, and Maosong Sun. 2024. inftyBench: Extending Long Context Evaluation Beyond 100K Tokens. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024, Bangkok, Thailand, August 11--16, 2024, Lun-Wei Ku, Andre Martins, and Vivek Srikumar (Eds.). Association for Computational Linguistics, 15262--15277."},{"key":"e_1_3_2_1_82_1","volume-title":"Forty-first International Conference on Machine Learning, ICML 2024","author":"Zheng Boyuan","year":"2024","unstructured":"Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, and Yu Su. 2024. GPT-4V(ision) is a Generalist Web Agent, if Grounded. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21--27, 2024. OpenReview.net."},{"key":"e_1_3_2_1_83_1","volume-title":"Larger and more instructable language models become less reliable. Nature","author":"Zhou Lexin","year":"2024","unstructured":"Lexin Zhou, Wout Schellaert, Fernando Mart\u00ednez-Plumed, Yael Moros-Daval, C\u00e8sar Ferri, and Jos\u00e9 Hern\u00e1ndez-Orallo. 2024c. Larger and more instructable language models become less reliable. Nature (2024), 1--8."},{"key":"e_1_3_2_1_84_1","volume-title":"Yu","author":"Zhou Yujia","year":"2024","unstructured":"Yujia Zhou, Yan Liu, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Zheng Liu, Chaozhuo Li, Zhicheng Dou, Tsung-Yi Ho, and Philip S. Yu. 2024b. Trustworthiness in Retrieval-Augmented Generation Systems: A Survey. arxiv: 2409.10102 [cs.IR] https:\/\/arxiv.org\/abs\/2409.10102"},{"key":"e_1_3_2_1_85_1","doi-asserted-by":"publisher","DOI":"10.1145\/3589334.3645481"},{"key":"e_1_3_2_1_86_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.154"}],"event":{"name":"WWW '25: The ACM Web Conference 2025","location":"Sydney NSW Australia","acronym":"WWW '25","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the ACM on Web Conference 2025"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3696410.3714546","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3696410.3714546","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:18:33Z","timestamp":1750295913000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3696410.3714546"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,22]]},"references-count":85,"alternative-id":["10.1145\/3696410.3714546","10.1145\/3696410"],"URL":"https:\/\/doi.org\/10.1145\/3696410.3714546","relation":{},"subject":[],"published":{"date-parts":[[2025,4,22]]},"assertion":[{"value":"2025-04-22","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}