{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,9]],"date-time":"2026-07-09T15:47:55Z","timestamp":1783612075663,"version":"3.55.0"},"reference-count":81,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"7","license":[{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100000780","name":"European Commission","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100000780","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100014013","name":"UK Research and Innovation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100014013","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006041","name":"Innovate UK","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100006041","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Sel. Top. Signal Process."],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1109\/jstsp.2025.3579203","type":"journal-article","created":{"date-parts":[[2025,6,12]],"date-time":"2025-06-12T13:42:38Z","timestamp":1749735758000},"page":"1362-1375","source":"Crossref","is-referenced-by-count":20,"title":["A Review of Faithfulness Metrics for Hallucination Assessment in Large Language Models"],"prefix":"10.1109","volume":"19","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-5791-2555","authenticated-orcid":false,"given":"Ben","family":"Malin","sequence":"first","affiliation":[{"name":"Brunel University London, London, U.K."}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4859-7152","authenticated-orcid":false,"given":"Tatiana","family":"Kalganova","sequence":"additional","affiliation":[{"name":"Brunel University London, London, U.K."}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5382-6856","authenticated-orcid":false,"given":"Nikolaos","family":"Boulgouris","sequence":"additional","affiliation":[{"name":"Brunel University London, London, U.K."}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-024-20016-1"},{"key":"ref2","first-page":"1173","article-title":"ToTTo: A controlled table-to-text generation dataset","volume-title":"Proc. 2020 Conf. Empirical Methods Natural Lang. Process.","author":"Parikh","year":"2020"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3571730"},{"key":"ref4","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","volume-title":"Text Summarization Branches Out","author":"Lin","year":"2004"},{"key":"ref5","first-page":"311","article-title":"BLEU: A method for automatic evaluation of machine translation","volume-title":"Proc. 40th Annu. Meeting Assoc. Comput. Linguistics","author":"Papineni","year":"2002"},{"key":"ref6","first-page":"2020","article-title":"BERTscore: Evaluating text generation with BERT","volume-title":"Proc. Int. Conf. Learn. Representations 2020","author":"Zhang"},{"key":"ref7","article-title":"Evaluating open-QA evaluation","author":"Wang","year":"2023"},{"key":"ref8","doi-asserted-by":"crossref","first-page":"5008","DOI":"10.18653\/v1\/2020.acl-main.450","article-title":"Asking and answering questions to evaluate the factual consistency of summaries","volume-title":"Proc. 58th Annu. Meeting Assoc. Comput. Linguistics","author":"Wang","year":"2020"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1213"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.750"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3292500.3330955"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"681","DOI":"10.1162\/tacl_a_00667","article-title":"Evaluating correctness and faithfulness of instruction-following models for question answering","volume":"12","author":"Adlakha","year":"2024","journal-title":"Trans. Assoc. Comput. Linguistics"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1016\/j.nlp.2024.100083"},{"key":"ref14","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2024.findings-acl.151","article-title":"Accurate and nuanced open-QA evaluation through textual entailment","author":"Yao","year":"2024"},{"key":"ref15","first-page":"6594","article-title":"QuestEval: Summarization asks for fact-based evaluation","volume-title":"Proc. 2021 Conf. Empirical Methods Natural Lang. Process.","author":"Scialom","year":"2021"},{"key":"ref16","doi-asserted-by":"crossref","first-page":"5055","DOI":"10.18653\/v1\/2020.acl-main.454","article-title":"FEQA: A question answering evaluation framework for faithfulness assessment in abstractive summarization","volume-title":"Proc. 58th Annu. Meeting Assoc. Comput. Linguistics","author":"Durmus","year":"2020"},{"key":"ref17","first-page":"7856","article-title":"q2: Evaluating factual consistency in knowledge-grounded dialogues via question generation and question answering","volume-title":"Proc. 2021 Conf. Empirical Methods Natural Lang. Process.","author":"Honovich","year":"2021"},{"key":"ref18","first-page":"563","article-title":"MoverScore: Text generation evaluating with contextualized embeddings and earth mover distance","volume-title":"Proc. 2019 Conf. Empirical Methods Natural Lang. Process. 9th Int. Joint Conf. Natural Lang. Process.","author":"Zhao","year":"2019"},{"key":"ref19","first-page":"957","article-title":"From word embeddings to document distances","volume-title":"Proc. 32nd Int. Conf. Int. Conf. Mach. Learn.","volume":"37","author":"Kusner","year":"2015"},{"key":"ref20","article-title":"The challenges of evaluating LLM applications: An analysis of automated, human, and LLM-based approaches","volume-title":"Proc. 1st Workshop Large Lang. Models Eval. Inf. Retrieval (LLM4Eval 2024) 10th Int. Conf. Online Publishing (SIGIR 2024)","author":"Abeysinghe","year":"2024"},{"key":"ref21","article-title":"Fables: Evaluating faithfulness and content selection in book-length summarization","volume-title":"Proc. 1st Conf. Lang. Model.","author":"Kim"},{"key":"ref22","first-page":"12076","article-title":"FActScore: Fine-grained atomic evaluation of factual precision in long form text generation","volume-title":"Proc. 2023 Conf. Empirical Methods Natural Lang. Process.","author":"Min","year":"2023"},{"key":"ref23","first-page":"2727","article-title":"Entity-level factual consistency of abstractive text summarization","volume-title":"Proc. 16th Conf. Eur. Chapter Assoc. Comput. Linguistics, Main Vol.","author":"Nan","year":"2021"},{"key":"ref24","first-page":"437","article-title":"Reducing named entity hallucination risk to ensure faithful summary generation","volume-title":"Proc. 16th Int. Natural Lang. Gener. Conf.","author":"Akani"},{"key":"ref25","doi-asserted-by":"crossref","first-page":"16190","DOI":"10.18653\/v1\/2023.acl-long.895","article-title":"FactKG: Fact verification via reasoning on knowledge graphs","volume-title":"Proc. 61st Annu. Meeting Assoc. Comput. Linguistics (Volume 1: Long Papers)","author":"Kim","year":"2023"},{"key":"ref26","article-title":"Are large language models reliable judges A study on the factuality evaluation capabilities of LLMs","author":"Fu","year":"2023"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00373"},{"key":"ref28","article-title":"A survey on LLM-as-a-judge","author":"Gu","year":"2025"},{"key":"ref29","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2020.acl-main.173","article-title":"On faithfulness and factuality in abstractive summarization","author":"Maynez","year":"2020"},{"key":"ref30","first-page":"1797","article-title":"Dont give me the details, just the summary Topic-aware convolutional neural networks for extreme summarization","volume-title":"Proc. 2018 Conf. Empirical Methods Natural Lang. Process.","author":"Narayan","year":"2018"},{"key":"ref31","first-page":"280","article-title":"Abstractive text summarization using sequence-to-sequence RNNs and beyond","volume-title":"Proc. 20th SIGNLL Conf. Comput. Natural Lang. Learn.","author":"Nallapati","year":"2016"},{"key":"ref32","first-page":"4812","article-title":"Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics","volume-title":"Proc. 2021 Conf. North Amer. Chapter Assoc. Comput. Linguistics, Hum. Lang. Technol.","author":"Pagnoni","year":"2021"},{"key":"ref33","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/N18-1074","article-title":"FEVER: A large-scale dataset for fact extraction and VERification","author":"Thorne","year":"2018"},{"key":"ref34","article-title":"Factuality enhanced language models for open-ended text generation","author":"Lee","year":"2022"},{"key":"ref35","first-page":"1139","article-title":"SQuALITY: Building a long-document summarization dataset the hard way","volume-title":"Proc. 2022 Conf. Empirical Methods Natural Lang. Process.","author":"Wang","year":"2022"},{"key":"ref36","first-page":"6536","article-title":"BOOKSUM: A collection of datasets for long-form narrative summarization","volume-title":"Findings of the Association for Computational Linguistics: EMNLP","author":"Krysc","year":"2022"},{"key":"ref37","article-title":"When not to trust language models: Investigating effectiveness of parametric and non-parametric memories","author":"Mallen","year":"2024"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00276"},{"key":"ref39","doi-asserted-by":"crossref","first-page":"3214","DOI":"10.18653\/v1\/2022.acl-long.229","article-title":"TruthfulQA: Measuring how models mimic human falsehoods","volume-title":"Proc. 60th Annu. Meeting Assoc. Comput. Linguistics (Volume 1: Long Papers)","author":"Lin","year":"2022"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/d15-1237"},{"key":"ref41","first-page":"9019","article-title":"Few-shot learning with multilingual generative language models","volume-title":"Proc. 2022 Conf. Empirical Methods Natural Lang. Process.","author":"Lin","year":"2022"},{"key":"ref42","doi-asserted-by":"crossref","first-page":"15991","DOI":"10.18653\/v1\/2023.acl-long.891","article-title":"Crosslingual generalization through multitask finetuning","volume-title":"Proc. 61st Annu. Meeting Assoc. Comput. Linguistics (Volume 1: Long Papers)","author":"Muennighoff","year":"2023"},{"key":"ref43","first-page":"31809","article-title":"The bigscience roots corpus: A 1.6 TB composite multilingual dataset","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Laurenon","year":"2022"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00452"},{"key":"ref45","first-page":"6486","article-title":"MaSS: A large and clean multilingual corpus of sentence-aligned spoken utterances extracted from the Bible","volume-title":"Proc. 12th Lang. Resour. Eval. Conf.","author":"Boito","year":"2020"},{"key":"ref46","first-page":"1","article-title":"Findings of the 2020 Conference on Machine Translation (WMT20)","volume-title":"Proc. 5th Conf. Mach. Transl.","author":"Barrault","year":"2020"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.235"},{"key":"ref48","first-page":"3025","article-title":"ExpertQA: Expert-curated questions and attributed answers","volume-title":"Proc. 2024 Conf. North Amer. Chapter Assoc. Comput. Linguistics, Hum. Lang. Technol. (Volume 1: Long Papers)","author":"Malaviya","year":"2024"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.307"},{"key":"ref50","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2022.emnlp-main.131","article-title":"Towards a unified multi-dimensional evaluator for text generation","author":"Zhong","year":"2022"},{"key":"ref51","first-page":"9988","article-title":"STORYSUMM: Evaluating faithfulness in story summarization","volume-title":"Proc. 2024 Conf. Empirical Methods Natural Lang. Process.","author":"Subbiah","year":"2024"},{"key":"ref52","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2022.naacl-main.236","article-title":"FACTGRAPH: Evaluating factuality in summarization with semantic graph representations","author":"Ribeiro","year":"2022"},{"key":"ref53","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2022.emnlp-main.477","article-title":"UniRel: Unified representation and interaction for joint relational triple extraction","author":"Tang","year":"2022"},{"key":"ref54","article-title":"REBEL: Relation extraction by end-to-end language generation","author":"Cabot","year":"2021"},{"key":"ref55","article-title":"Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods","author":"Tsvilodub","year":"2024"},{"key":"ref56","first-page":"1650","article-title":"LONGEVAL: Guidelines for Human evaluation of faithfulness in long-form summarization","volume-title":"Proc. 17th Conf. Eur. Chapter Assoc. Comput. Linguistics","author":"Kalpesh"},{"key":"ref57","article-title":"GPT-4 technical report","year":"2023"},{"key":"ref58","article-title":"Evaluating the retrieval component in LLM-based question answering systems","author":"Alinejad","year":"2024"},{"key":"ref59","doi-asserted-by":"crossref","first-page":"2765","DOI":"10.18653\/v1\/2024.findings-naacl.176","article-title":"Multilingual machine translation with large language models: Empirical results and analysis","volume-title":"Proc. Findings Assoc. Comput. Linguistics, NAACL 2024","author":"Zhu","year":"2024"},{"key":"ref60","first-page":"7297","article-title":"Scientific credibility of machine translation research: A meta-evaluation of 769 papers","volume-title":"Proc. 59th Annu. Meeting Assoc. Comput. Linguistics 11th Int. Joint Conf. Natural Lang. Process.","author":"Marie"},{"key":"ref61","doi-asserted-by":"crossref","first-page":"6559","DOI":"10.18653\/v1\/2022.findings-emnlp.489","article-title":"Not all errors are equal: Learning text generation metrics using stratified error synthesis","volume-title":"Proc. Findings Assoc. Comput. Linguistics, EMNLP 2022","author":"Xu","year":"2022"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.3390\/math11041006"},{"key":"ref63","first-page":"2685","article-title":"COMET: A neural framework for MT evaluation","volume-title":"Proc. 2020 Conf. Empirical Methods Natural Lang. Process.","author":"Rei","year":"2020"},{"key":"ref64","first-page":"315","article-title":"Confidence estimation for machine translation","volume-title":"COLING 2004: Proc. 20th Int. Conf. Comput. Linguistics","author":"Blatz","year":"2004"},{"key":"ref65","first-page":"3146","article-title":"deepQuest: A framework for neural-based quality estimation","volume-title":"Proc. 27th Int. Conf. Comput. Linguistics","author":"Ive"},{"key":"ref66","first-page":"5070","article-title":"TransQuest: Translation quality estimation with cross-lingual transformers","volume-title":"Proc. 28th Int. Conf. Comput. Linguistics","author":"Ranasinghe"},{"key":"ref67","article-title":"How close are automated metrics to Human judgment in machine translation","author":"Bererd","year":"2023"},{"key":"ref68","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2022.naacl-main.15","article-title":"Knowledge-grounded dialogue generation with a unified knowledge representation","author":"Li","year":"2022"},{"key":"ref69","article-title":"CRITIC: Large language models can self-correct with tool-interactive critiquing","author":"Gou","year":"2024"},{"key":"ref70","first-page":"46534","article-title":"Self-refine: Iterative refinement with self-feedback","volume-title":"Proc. 37th Int. Conf. Neural Inf. Process. Syst.","author":"Madaan","year":"2023"},{"key":"ref71","first-page":"7562","article-title":"A zero-shot open-vocabulary pipeline for dialogue understanding","volume-title":"Proc. 2025 Conf. Nations Americas Chapter Assoc. Comput. Linguistics, Hum. Lang. Technol. (Volume 1: Long Papers)","author":"Safa","year":"2025"},{"key":"ref72","article-title":"A better LLM evaluator for text generation: The impact of prompt output sequencing and optimization","author":"Chu","year":"2024"},{"key":"ref73","first-page":"4897","article-title":"Analyzing and evaluating faithfulness in dialogue summarization","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Wang"},{"key":"ref74","first-page":"478","article-title":"To ship or not to ship: An extensive evaluation of automatic metrics for machine translation","volume-title":"Proc. 6th Conf. Mach. Transl.","author":"Kocmi"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1363"},{"key":"ref76","doi-asserted-by":"crossref","first-page":"163","DOI":"10.1162\/tacl_a_00453","article-title":"SummaC: Re-visiting NLI-based models for inconsistency detection in summarization","volume":"10","author":"Laban","year":"2022","journal-title":"Trans. Assoc. Comput. Linguistics"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/s17-2001"},{"key":"ref78","first-page":"632","article-title":"A large annotated corpus for learning natural language inference","volume-title":"Proc. 2015 Conf. Empirical Methods Natural Lang. Process.","author":"Bowman","year":"2015"},{"key":"ref79","article-title":"DGT-TM: A freely available translation memory in 22 languages","author":"Steinberger","year":"2012"},{"key":"ref80","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2020.emnlp-main.466","article-title":"AMBIGQA: Answering ambiguous open-domain questions","author":"Min","year":"2020"},{"key":"ref81","doi-asserted-by":"crossref","first-page":"1601","DOI":"10.18653\/v1\/P17-1147","article-title":"TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension","volume-title":"Proc. 55th Annu. Meeting Assoc. Comput. Linguistics (Volume 1: Long Papers)","author":"Joshi","year":"2017"}],"container-title":["IEEE Journal of Selected Topics in Signal Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/4200690\/11320985\/11032180.pdf?arnumber=11032180","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,12]],"date-time":"2026-02-12T20:59:48Z","timestamp":1770929988000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11032180\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10]]},"references-count":81,"journal-issue":{"issue":"7"},"URL":"https:\/\/doi.org\/10.1109\/jstsp.2025.3579203","relation":{},"ISSN":["1932-4553","1941-0484"],"issn-type":[{"value":"1932-4553","type":"print"},{"value":"1941-0484","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,10]]}}}