{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T18:08:05Z","timestamp":1757614085501,"version":"3.44.0"},"reference-count":37,"publisher":"Association for Computing Machinery (ACM)","issue":"11","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":["Proc. VLDB Endow."],"published-print":{"date-parts":[[2025,7]]},"abstract":"<jats:p>We present CEDAR, a system for cost-efficient, data-driven claim verification. CEDAR takes as input a collection of text documents, containing claims that can be verified from relational data. The system uses large language models (LLMs) to map claims to SQL queries that can be used for claim verification. While LLMs like GPT-4 are nowadays able to map claims to queries with high accuracy, using them is expensive. This is why CEDAR implements multiple verification approaches, ranging from zero-shot LLM invocations to iterative, agent-based approaches, that realize different tradeoffs between accuracy and costs. The system may apply multiple methods to the same claim, starting with cheaper methods and resorting to more expensive versions in case of failures. CEDAR uses cost-based optimization to derive an optimal order of verification methods and an optimal number of re-tries (with randomization) for each method, enabling users to trade costs for accuracy via tuning parameters. The experiments on real data, including newspaper and Wikipedia articles, show that CEDAR achieves significantly higher accuracy than prior methods for data-driven fact-checking.<\/jats:p>","DOI":"10.14778\/3749646.3749708","type":"journal-article","created":{"date-parts":[[2025,9,4]],"date-time":"2025-09-04T17:55:06Z","timestamp":1757008506000},"page":"4492-4504","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["CEDAR: A System for Cost-Efficient Data-Driven Claim Verification"],"prefix":"10.14778","volume":"18","author":[{"given":"Tharushi","family":"Jayasekara","sequence":"first","affiliation":[{"name":"Cornell University, Ithaca, NY, USA"}]},{"given":"Immanuel","family":"Trummer","sequence":"additional","affiliation":[{"name":"Cornell University, Ithaca, NY, USA"}]}],"member":"320","published-online":{"date-parts":[[2025,9,4]]},"reference":[{"key":"e_1_2_1_1_1","first-page":"39","article-title":"TFV : A Framework for Table-Based Fact Verification","volume":"59","author":"Chai Mingke","year":"2021","unstructured":"Mingke Chai, Zihui Gu, Xiaoman Zhao, and Ju Fan. 2021. TFV : A Framework for Table-Based Fact Verification. Data Engineering Bulletin 59 (2021), 39\u201351.","journal-title":"Data Engineering Bulletin"},{"key":"e_1_2_1_2_1","volume-title":"https:\/\/github.com\/langchain-ai\/langchain Last accessed","author":"Chase Harrison","year":"2025","unstructured":"Harrison Chase. 2022. LangChain. https:\/\/github.com\/langchain-ai\/langchain Last accessed July 11, 2025."},{"volume-title":"Should Travelers Avoid Flying Airlines That Have Had Crashes in the Past? https:\/\/fivethirtyeight.com\/features\/should-travelers-avoid-flying-airlines-that-have-had-crashes-in-the-past\/ Last accessed","year":"2025","key":"e_1_2_1_3_1","unstructured":"FiveThirtyEight. 2014. Should Travelers Avoid Flying Airlines That Have Had Crashes in the Past? https:\/\/fivethirtyeight.com\/features\/should-travelers-avoid-flying-airlines-that-have-had-crashes-in-the-past\/ Last accessed July 11, 2025."},{"key":"e_1_2_1_4_1","volume-title":"Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. CoRR abs\/2308.15363","author":"Gao Dawei","year":"2023","unstructured":"Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, and Jingren Zhou. 2023. Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. CoRR abs\/2308.15363 (2023)."},{"key":"e_1_2_1_5_1","unstructured":"Jiahui Geng Yova Kementchedjhieva Preslav Nakov and Iryna Gurevych. 2024. Multimodal Large Language Models to Support Real-World Fact-Checking. arXiv:2403.03627 [cs.CL] https:\/\/arxiv.org\/abs\/2403.03627"},{"key":"e_1_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00454"},{"key":"e_1_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Naeemul Hassan Fatma Arslan Chengkai Li and Mark Tremayne. 2017. Toward automated fact-checking: detecting check-worthy factual claims by ClaimBuster. In SIGKDD. 1803\u20131812.","DOI":"10.1145\/3097983.3098131"},{"key":"e_1_2_1_8_1","doi-asserted-by":"publisher","unstructured":"Naeemul Hassan Chengkai Li and Mark Tremayne. 2015. Detecting check-worthy factual claims in presidential debates. In CIKM. 1835\u20131838. 10.1145\/2806416.2806652","DOI":"10.1145\/2806416.2806652"},{"key":"e_1_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.14778\/3137765.3137815"},{"key":"e_1_2_1_10_1","first-page":"1798","article-title":"Buckle: evaluating fact checking algorithms built on knowledge bases","volume":"12","author":"Huynh Viet-Phi","year":"2019","unstructured":"Viet-Phi Huynh and Paolo Papotti. 2019. Buckle: evaluating fact checking algorithms built on knowledge bases. VLDB 12, 12 (2019), 1798\u20131801.","journal-title":"VLDB"},{"key":"e_1_2_1_11_1","volume-title":"CEDAR: A System for Cost-Efficient Data-Driven Claim Verification. https:\/\/github.com\/TharushiJay\/CEDAR\/blob\/main\/Extended%20Technical%20Report.pdf Available online, last accessed","author":"Jayasekara Tharushi","year":"2025","unstructured":"Tharushi Jayasekara and Immanuel Trummer. 2025. CEDAR: A System for Cost-Efficient Data-Driven Claim Verification. https:\/\/github.com\/TharushiJay\/CEDAR\/blob\/main\/Extended%20Technical%20Report.pdf Available online, last accessed July 11, 2025."},{"key":"e_1_2_1_12_1","volume-title":"CEDAR: Code Repository. https:\/\/github.com\/TharushiJay\/CEDAR Available online, last accessed","author":"Jayasekara Tharushi","year":"2025","unstructured":"Tharushi Jayasekara and Immanuel Trummer. 2025. CEDAR: Code Repository. https:\/\/github.com\/TharushiJay\/CEDAR Available online, last accessed July 11, 2025."},{"key":"e_1_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3722212.3725098"},{"key":"e_1_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3299869.3300074"},{"key":"e_1_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.14778\/3407790.3407841"},{"key":"e_1_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.14778\/3415478.3415520"},{"key":"e_1_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.14778\/3372716.3372727"},{"key":"e_1_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/3412869"},{"key":"e_1_2_1_19_1","doi-asserted-by":"crossref","unstructured":"Fei Li and HV Jagadish. 2014. NaLIR: an interactive natural language interface for querying relational databases. In SIGMOD. 709\u2013712.","DOI":"10.1145\/2588555.2594519"},{"key":"e_1_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-naacl.12"},{"key":"e_1_2_1_21_1","volume-title":"Yu","author":"Liu Aiwei","year":"2023","unstructured":"Aiwei Liu, Xuming Hu, Lijie Wen, and Philip S. Yu. 2023. A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability. arXiv:2303.13547 [cs.CL] https:\/\/arxiv.org\/abs\/2303.13547"},{"key":"e_1_2_1_22_1","volume-title":"International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=O50443AsCP","author":"Liu Qian","year":"2022","unstructured":"Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, and Jian-Guang Lou. 2022. TAPEX: Table Pre-training via Learning a Neural SQL Executor. In International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=O50443AsCP"},{"key":"e_1_2_1_23_1","volume-title":"Automated fact-checking for assisting human fact-checkers. arXiv preprint arXiv:2103.07769","author":"Nakov Preslav","year":"2021","unstructured":"Preslav Nakov, David Corney, Maram Hasanain, Firoj Alam, Tamer Elsayed, Alberto Barr\u00f3n-Cede\u00f1o, Paolo Papotti, Shaden Shaar, and Giovanni Da San Martino. 2021. Automated fact-checking for assisting human fact-checkers. arXiv preprint arXiv:2103.07769 (2021)."},{"key":"e_1_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.14778\/3324301.3324303"},{"key":"e_1_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.3389\/frai.2024.1341697"},{"key":"e_1_2_1_26_1","volume-title":"Evaluating the text-to-sql capabilities of large language models. arXiv preprint arXiv:2204.00498","author":"Rajkumar Nitarshan","year":"2022","unstructured":"Nitarshan Rajkumar, Raymond Li, and Dzmitry Bahdanau. 2022. Evaluating the text-to-sql capabilities of large language models. arXiv preprint arXiv:2204.00498 (2022)."},{"key":"e_1_2_1_27_1","first-page":"1209","article-title":"ATHENA: An ontology-driven system for natural language querying over relational data stores","volume":"9","author":"Saha Diptikalyan","year":"2016","unstructured":"Diptikalyan Saha, Avrilia Floratou, Karthik Sankaranarayanan, Umar Farooq Minhas, Ashish R Mittal, and Fatma Ozcan. 2016. ATHENA: An ontology-driven system for natural language querying over relational data stores. VLDB 9, 12 (2016), 1209\u20131220.","journal-title":"VLDB"},{"key":"e_1_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.779"},{"key":"e_1_2_1_29_1","doi-asserted-by":"crossref","unstructured":"PG G Selinger MM M Astrahan D D Chamberlin R A Lorie and T G Price. 1979. Access path selection in a relational database management system. In SIGMOD. 23\u201334. http:\/\/dl.acm.org\/citation.cfm?id=582095.582099","DOI":"10.1145\/582095.582099"},{"key":"e_1_2_1_30_1","doi-asserted-by":"publisher","unstructured":"Baoxu Shi and Tim Weninger. 2016. Fact Checking in Heterogeneous Information Networks. In WWW. 101\u2013102. 10.1145\/2872518.2889354","DOI":"10.1145\/2872518.2889354"},{"key":"e_1_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-1074"},{"key":"e_1_2_1_32_1","first-page":"1635","article-title":"Perturbation analysis of database queries","volume":"9","author":"Walenz Brett","year":"2016","unstructured":"Brett Walenz and Jun Yang. 2016. Perturbation analysis of database queries. VLDB 9, 14 (2016), 1635\u20131646.","journal-title":"VLDB"},{"key":"e_1_2_1_33_1","volume-title":"Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. Advances in neural information processing systems 33","author":"Wang Wenhui","year":"2020","unstructured":"Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. 2020. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. Advances in neural information processing systems 33 (2020), 5776\u20135788."},{"key":"e_1_2_1_34_1","volume-title":"International Conference on Learning Representations (ICLR). Addis Ababa, Ethiopia.","author":"Yunkai Zhang Hong Wang Jianshu Chen","year":"2020","unstructured":"Jianshu Chen Yunkai Zhang Hong Wang Shiyang Li Xiyou Zhou Wenhu Chen, Hongmin Wang and William Yang Wang. 2020. TabFact : A Large-scale Dataset for Table-based Fact Verification. In International Conference on Learning Representations (ICLR). Addis Ababa, Ethiopia."},{"key":"e_1_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.14778\/2732286.2732295"},{"key":"e_1_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/2996453"},{"key":"e_1_2_1_37_1","unstructured":"Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan and Yuan Cao. 2023. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629 [cs.CL]"}],"container-title":["Proceedings of the VLDB Endowment"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.14778\/3749646.3749708","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,5]],"date-time":"2025-09-05T02:51:44Z","timestamp":1757040704000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.14778\/3749646.3749708"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7]]},"references-count":37,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2025,7]]}},"alternative-id":["10.14778\/3749646.3749708"],"URL":"https:\/\/doi.org\/10.14778\/3749646.3749708","relation":{},"ISSN":["2150-8097"],"issn-type":[{"type":"print","value":"2150-8097"}],"subject":[],"published":{"date-parts":[[2025,7]]},"assertion":[{"value":"2025-09-04","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}