{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T14:08:08Z","timestamp":1775138888839,"version":"3.50.1"},"reference-count":58,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T00:00:00Z","timestamp":1762992000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T00:00:00Z","timestamp":1762992000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100021856","name":"Ministero dell\u2019Universit\u00e0 e della Ricerca","doi-asserted-by":"publisher","award":["I33C220013300"],"award-info":[{"award-number":["I33C220013300"]}],"id":[{"id":"10.13039\/501100021856","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Data Sci. Eng."],"published-print":{"date-parts":[[2026,3]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>Discovering relevant datasets in large, heterogeneous data ecosystems, such as Data Lakes or Data spaces, is a complex task, often hindered by a lack of transparency and user-centric explanations in the discovery process. Explainability is critical for enabling users to understand why specific datasets are recommended, what information they contain, and how they align with user-defined criteria and preferences. To address these challenges, this work proposes a novel Graph Retrieval-Augmented Generation (Graph RAG) framework to enhance explainability in a platform for discovery of summary data sources. The proposed approach leverages a Knowledge Graph (KG) to interpret user requests, extracting relevant contextual information. These enriched requests are then transformed by a Large Language Model (LLM) into actionable dataset queries for a dataset discovery platform. Candidate solutions are evaluated and enriched with statistical insights on value distributions and contextual knowledge from the KG. Finally, the LLM ranks these solutions based on user preferences, producing a final report. This dual strategy of query enrichment and contextual explanation fosters transparency and enhances user understanding of the discovery process. We demonstrate the effectiveness of the approach through an experimental validation, highlighting its potential to improve both the accuracy and interpretability of dataset discovery.<\/jats:p>","DOI":"10.1007\/s41019-025-00313-x","type":"journal-article","created":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T03:21:52Z","timestamp":1763004112000},"page":"30-52","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["A Graph RAG Approach to Enhance Explainability in Dataset Discovery"],"prefix":"10.1007","volume":"11","author":[{"given":"Claudia","family":"Diamantini","sequence":"first","affiliation":[]},{"given":"Alessandro","family":"Mele","sequence":"additional","affiliation":[]},{"given":"Alex","family":"Mircoli","sequence":"additional","affiliation":[]},{"given":"Domenico","family":"Potena","sequence":"additional","affiliation":[]},{"given":"Cristina","family":"Rossetti","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5966-6921","authenticated-orcid":false,"given":"Emanuele","family":"Storti","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,11,13]]},"reference":[{"key":"313_CR1","doi-asserted-by":"crossref","unstructured":"Abedjan Z, Gr\u00fctze T, Jentzsch A et\u00a0al (2014) Profiling and mining rdf data with prolod++. In: 2014 IEEE 30th International Conference on Data Engineering, IEEE, pp 1198\u20131201","DOI":"10.1109\/ICDE.2014.6816740"},{"key":"313_CR2","doi-asserted-by":"crossref","unstructured":"Auer S, Demter J, Martin M et\u00a0al (2012) Lodstats\u2013an extensible framework for high-performance dataset analytics. In: Knowledge Engineering and Knowledge Management: 18th International Conference, EKAW 2012, Galway City, Ireland, October 8-12, 2012. Proceedings 18, Springer, pp 353\u2013362","DOI":"10.1007\/978-3-642-33876-2_31"},{"key":"313_CR3","doi-asserted-by":"crossref","unstructured":"Bahr L, Wehner C, Wewerka J et\u00a0al (2024) Knowledge graph enhanced retrieval-augmented generation for failure mode and effects analysis. arXiv preprint arXiv:2406.18114","DOI":"10.2139\/ssrn.4965185"},{"key":"313_CR4","doi-asserted-by":"crossref","unstructured":"Banerjee D, Nair PA, Kaur JN et\u00a0al (2022) Modern baselines for sparql semantic parsing. In: Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 2260\u20132265","DOI":"10.1145\/3477495.3531841"},{"issue":"6","key":"313_CR5","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3637211","volume":"57","author":"N Bernard","year":"2025","unstructured":"Bernard N, Balog K (2025) A systematic review of fairness, accountability, transparency, and ethics in information retrieval. ACM Comput Surv 57(6):1\u201329","journal-title":"ACM Comput Surv"},{"key":"313_CR6","doi-asserted-by":"crossref","unstructured":"Bogatu A, Fernandes AA, Paton NW et\u00a0al (2020) Dataset discovery in data lakes. In: 2020 IEEE 36th international conference on data engineering (icde), IEEE, pp 709\u2013720","DOI":"10.1109\/ICDE48307.2020.00067"},{"key":"313_CR7","doi-asserted-by":"crossref","unstructured":"Broder AZ (1997) On the resemblance and containment of documents. In: Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171), IEEE, pp 21\u201329","DOI":"10.1109\/SEQUEN.1997.666900"},{"issue":"12","key":"313_CR8","doi-asserted-by":"publisher","first-page":"2791","DOI":"10.14778\/3476311.3476346","volume":"14","author":"S Castelo","year":"2021","unstructured":"Castelo S, Rampin R, Santos A et al (2021) Auctus: a dataset search engine for data discovery and augmentation. Proc VLDB Endow 14(12):2791\u20132794. https:\/\/doi.org\/10.14778\/3476311.3476346","journal-title":"Proc VLDB Endow"},{"key":"313_CR9","doi-asserted-by":"publisher","unstructured":"Castro\u00a0Fernandez R, Abedjan Z, Koko F et\u00a0al (2018) Aurum: A data discovery system. In: 2018 IEEE 34th International Conference on Data Engineering (ICDE), pp 1001\u20131012, https:\/\/doi.org\/10.1109\/ICDE.2018.00094","DOI":"10.1109\/ICDE.2018.00094"},{"issue":"1","key":"313_CR10","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1007\/s00778-019-00564-x","volume":"29","author":"A Chapman","year":"2020","unstructured":"Chapman A, Simperl E, Koesten L et al (2020) Dataset search: a survey. VLDB J 29(1):251\u2013272","journal-title":"VLDB J"},{"key":"313_CR11","doi-asserted-by":"crossref","unstructured":"Chazette L, Brunotte W, Speith T (2021) Exploring explainability: a definition, a model, and a knowledge catalogue. In: 2021 IEEE 29th international requirements engineering conference (RE), IEEE, pp 197\u2013208","DOI":"10.1109\/RE51729.2021.00025"},{"key":"313_CR12","doi-asserted-by":"crossref","unstructured":"Diamantini C, Potena D, Storti E (2018) Multidimensional query reformulation with measure decomposition. Inf Syst 78:23\u201339","DOI":"10.1016\/j.is.2018.05.002"},{"key":"313_CR13","doi-asserted-by":"crossref","unstructured":"Diamantini C, Potena D, Storti E (2024) Analytic processing in data lakes: a semantic query-driven discovery approach. Inf Syst Front 14:1\u20139","DOI":"10.1007\/s10796-024-10471-4"},{"key":"313_CR14","doi-asserted-by":"publisher","first-page":"243","DOI":"10.1007\/s10796-020-10010-x","volume":"23","author":"C Diamantini","year":"2021","unstructured":"Diamantini C, Lo Giudice P, Potena D et al (2021) An approach to extracting topic-guided views from the sources of a data lake. Inf Syst Front 23:243\u2013262","journal-title":"Inf Syst Front"},{"key":"313_CR15","unstructured":"Edge D, Trinh H, Cheng N et\u00a0al (2024) From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130"},{"key":"313_CR16","unstructured":"Fernandez RC, Min J, Nava D et\u00a0al (2019) Lazo: A cardinality-based method for coupled estimation of jaccard similarity and containment. In: 2019 IEEE 35th International Conference on Data Engineering (ICDE), IEEE, pp 1190\u20131201"},{"key":"313_CR17","doi-asserted-by":"crossref","unstructured":"Hai R, Geisler S, Quix C (2016) Constance: An intelligent data lake system. In: Proceedings of the 2016 international conference on management of data, pp 2097\u20132100","DOI":"10.1145\/2882903.2899389"},{"key":"313_CR18","unstructured":"He X, Tian Y, Sun Y et\u00a0al (2024) G-retriever: Retrieval-augmented generation for textual graph understanding and question answering. arXiv preprint arXiv:2402.07630"},{"issue":"12","key":"313_CR19","doi-asserted-by":"publisher","first-page":"2675","DOI":"10.14778\/3476311.3476317","volume":"14","author":"A Helal","year":"2021","unstructured":"Helal A, Helali M, Ammar K et al (2021) A demonstration of kglac: a data discovery and enrichment platform for data science. Proc VLDB Endow 14(12):2675\u20132678","journal-title":"Proc VLDB Endow"},{"key":"313_CR20","doi-asserted-by":"crossref","unstructured":"Honovich O, Scialom T, Levy O et\u00a0al (2023) Unnatural instructions: Tuning language models with (almost) no human labor. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp 14409\u201314428","DOI":"10.18653\/v1\/2023.acl-long.806"},{"key":"313_CR21","doi-asserted-by":"publisher","DOI":"10.1016\/j.websem.2024.100819","volume":"81","author":"S Hoseini","year":"2024","unstructured":"Hoseini S, Theissen-Lipp J, Quix C (2024) A survey on semantic data management as intersection of ontology-based data access, semantic modeling and data lakes. J Web Semant 81:100819","journal-title":"J Web Semant"},{"key":"313_CR22","unstructured":"Hu EJ, Shen Y, Wallis P et\u00a0al (2022) LoRA: Low-rank adaptation of large language models. In: International Conference on Learning Representations, https:\/\/openreview.net\/forum?id=nZeVKeeFYf9"},{"key":"313_CR23","doi-asserted-by":"crossref","unstructured":"Hu Y, Lei Z, Zhang Z et\u00a0al (2024) Grag: Graph retrieval-augmented generation. arXiv preprint arXiv:2405.16506","DOI":"10.18653\/v1\/2025.findings-naacl.232"},{"key":"313_CR24","unstructured":"Huang L, Yu W, Ma W et\u00a0al (2023) A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems"},{"key":"313_CR25","doi-asserted-by":"crossref","unstructured":"Jia M, Tang L, Chen BC et\u00a0al (2022) Visual prompt tuning. In: European Conference on Computer Vision, Springer, pp 709\u2013727","DOI":"10.1007\/978-3-031-19827-4_41"},{"key":"313_CR26","volume-title":"The data warehouse toolkit: practical techniques for building dimensional data warehouses","author":"R Kimball","year":"1996","unstructured":"Kimball R (1996) The data warehouse toolkit: practical techniques for building dimensional data warehouses. John Wiley & Sons Inc"},{"key":"313_CR27","doi-asserted-by":"crossref","unstructured":"Krippendorff K (2011) Computing krippendorff\u2019s alpha-reliability. Computing 1","DOI":"10.1002\/9781118901731.iecrm0210"},{"key":"313_CR28","doi-asserted-by":"crossref","unstructured":"Langegger A, Woss W (2009) Rdfstats-an extensible rdf statistics generator and library. In: 2009 20th International Workshop on Database and Expert Systems Application, IEEE, pp 79\u201383","DOI":"10.1109\/DEXA.2009.25"},{"key":"313_CR29","unstructured":"Leis V, Radke B, Gubichev A et\u00a0al (2017) Cardinality estimation done right: Index-based join sampling. In: Cidr"},{"key":"313_CR30","first-page":"9459","volume":"33","author":"P Lewis","year":"2020","unstructured":"Lewis P, Perez E, Piktus A et al (2020) Retrieval-augmented generation for knowledge-intensive nlp tasks. Adv Neural Inf Process Syst 33:9459\u20139474","journal-title":"Adv Neural Inf Process Syst"},{"issue":"4","key":"313_CR31","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1145\/1121949.1121979","volume":"49","author":"G Marchionini","year":"2006","unstructured":"Marchionini G (2006) Exploratory search: from finding to understanding. Commun ACM 49(4):41\u201346","journal-title":"Commun ACM"},{"key":"313_CR32","doi-asserted-by":"crossref","unstructured":"Mavromatis C, Karypis G (2024) Gnn-rag: Graph neural retrieval for large language model reasoning. arXiv preprint arXiv:2405.20139","DOI":"10.18653\/v1\/2025.findings-acl.856"},{"key":"313_CR33","unstructured":"Nagel L, Hierro JJ, Perea E et\u00a0al (2021) Design principles for data spaces: Position paper. Tech. rep., E. ON Energy Research Center"},{"issue":"7","key":"313_CR34","doi-asserted-by":"publisher","first-page":"813","DOI":"10.14778\/3192965.3192973","volume":"11","author":"F Nargesian","year":"2018","unstructured":"Nargesian F, Zhu E, Pu KQ et al (2018) Table union search on open data. Proc VLDB Endow 11(7):813\u2013825","journal-title":"Proc VLDB Endow"},{"key":"313_CR35","doi-asserted-by":"publisher","DOI":"10.1145\/3583558","author":"M Nauta","year":"2023","unstructured":"Nauta M, Trienes J, Pathak S et al (2023) From anecdotal evidence to quantitative evaluation methods: a systematic review on evaluating explainable ai. ACM Comput Surv. https:\/\/doi.org\/10.1145\/3583558","journal-title":"ACM Comput Surv"},{"key":"313_CR36","doi-asserted-by":"crossref","unstructured":"Nguyen LM, Le NK, Anh KQ et\u00a0al (2024) Semantic parsing for question and answering over scholarly knowledge graph with large language models. In: JSAI International Symposia on AI, https:\/\/api.semanticscholar.org\/CorpusID:270227673","DOI":"10.1007\/978-981-97-3076-6_20"},{"key":"313_CR37","unstructured":"Oram A (2015) Managing the Data Lake: Moving to Big Data Analysis. O\u2019Reilly Media"},{"key":"313_CR38","first-page":"27730","volume":"35","author":"L Ouyang","year":"2022","unstructured":"Ouyang L, Wu J, Jiang X et al (2022) Training language models to follow instructions with human feedback. Adv Neural Inf Process Syst 35:27730\u201327744","journal-title":"Adv Neural Inf Process Syst"},{"key":"313_CR39","unstructured":"Peng B, Zhu Y, Liu Y et\u00a0al (2024) Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921"},{"key":"313_CR40","doi-asserted-by":"crossref","unstructured":"Procko TT, Ochoa O (2024) Graph retrieval-augmented generation for large language models: A survey. In: 2024 Conference on AI, Science, Engineering, and Technology (AIxSET), IEEE, pp 166\u2013169","DOI":"10.1109\/AIxSET62544.2024.00030"},{"key":"313_CR41","unstructured":"Rafailov R, Sharma A, Mitchell E et\u00a0al (2024) Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems 36"},{"key":"313_CR42","doi-asserted-by":"publisher","first-page":"673","DOI":"10.1007\/s10458-019-09408-y","volume":"33","author":"A Rosenfeld","year":"2019","unstructured":"Rosenfeld A, Richardson A (2019) Explainability in human-agent systems. Auton Agent Multi-Agent Syst 33:673\u2013705","journal-title":"Auton Agent Multi-Agent Syst"},{"key":"313_CR43","unstructured":"Sanmartin D (2024) Kg-rag: Bridging the gap between knowledge and creativity. arXiv preprint arXiv:2405.12035"},{"key":"313_CR44","doi-asserted-by":"crossref","unstructured":"Santos A, Bessa A, Musco C et\u00a0al (2022) A sketch-based index for correlated dataset search. In: 2022 IEEE 38th International Conference on Data Engineering (ICDE), IEEE, pp 2928\u20132941","DOI":"10.1109\/ICDE53745.2022.00264"},{"key":"313_CR45","doi-asserted-by":"publisher","first-page":"97","DOI":"10.1007\/s10844-020-00608-7","volume":"56","author":"P Sawadogo","year":"2021","unstructured":"Sawadogo P, Darmont J (2021) On data lake architectures and metadata management. J Intell Inf Syst 56:97\u2013120","journal-title":"J Intell Inf Syst"},{"key":"313_CR46","doi-asserted-by":"crossref","unstructured":"Schneider P, Afzal A, Vladika J et\u00a0al (2023) Investigating conversational search behavior for domain exploration. In: European Conference on Information Retrieval, Springer, pp 608\u2013616","DOI":"10.1007\/978-3-031-28238-6_52"},{"issue":"15","key":"313_CR47","doi-asserted-by":"publisher","first-page":"3269","DOI":"10.3390\/math11153269","volume":"11","author":"Y Sha","year":"2023","unstructured":"Sha Y, Feng Y, He M et al (2023) Retrieval-augmented knowledge graph reasoning for commonsense question answering. Mathematics 11(15):3269","journal-title":"Mathematics"},{"key":"313_CR48","doi-asserted-by":"crossref","unstructured":"Shrivastava A, Li P (2015) Asymmetric minwise hashing for indexing binary inner products and set containment. In: Proceedings of the 24th international conference on world wide web, pp 981\u2013991","DOI":"10.1145\/2736277.2741285"},{"key":"313_CR49","doi-asserted-by":"crossref","unstructured":"Solmaz G, Cirillo F, F\u00fcrst J et\u00a0al (2022) Enabling data spaces: Existing developments and challenges. In: Proceedings of the 1st International Workshop on Data Economy, pp 42\u201348","DOI":"10.1145\/3565011.3569058"},{"issue":"13s","key":"313_CR50","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3582688","volume":"55","author":"Y Song","year":"2023","unstructured":"Song Y, Wang T, Cai P et al (2023) A comprehensive survey of few-shot learning: evolution, applications, challenges, and opportunities. ACM Comput Surv 55(13s):1\u201340","journal-title":"ACM Comput Surv"},{"key":"313_CR51","unstructured":"Wei J, Bosma M, Zhao VY et\u00a0al (2022) Finetuned language models are zero-shot learners. In: ICLR 2022 - 10th International Conference on Learning Representations. International Conference on Learning Representations, ICLR"},{"key":"313_CR52","first-page":"24824","volume":"35","author":"J Wei","year":"2022","unstructured":"Wei J, Wang X, Schuurmans D et al (2022) Chain-of-thought prompting elicits reasoning in large language models. Adv Neural Inf Process Syst 35:24824\u201324837","journal-title":"Adv Neural Inf Process Syst"},{"key":"313_CR53","unstructured":"Wilkinson MD, Dumontier M, Aalbersberg IJ et\u00a0al (2016) The fair guiding principles for scientific data management and stewardship. scientific data 3 (2016). Number 1:160018"},{"key":"313_CR54","doi-asserted-by":"crossref","unstructured":"Xu Z, Cruz MJ, Guevara M et\u00a0al (2024) Retrieval-augmented generation with knowledge graphs for customer service question answering. In: Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 2905\u20132909","DOI":"10.1145\/3626772.3661370"},{"key":"313_CR55","unstructured":"Yao S, Zhao J, Yu D et\u00a0al (2023) React: Synergizing reasoning and acting in language models. In: International Conference on Learning Representations (ICLR)"},{"key":"313_CR56","doi-asserted-by":"crossref","unstructured":"Zhao Y, Ravat F, Aligon J et\u00a0al (2021) Analysis-oriented metadata for data lakes. In: Proceedings of the 25th International Database Engineering & Applications Symposium, pp 194\u2013203","DOI":"10.1145\/3472163.3472273"},{"issue":"12","key":"313_CR57","doi-asserted-by":"publisher","first-page":"1185","DOI":"10.14778\/2994509.2994534","volume":"9","author":"E Zhu","year":"2016","unstructured":"Zhu E, Nargesian F, Pu KQ et al (2016) Lsh ensemble: internet-scale domain search. Proc VLDB Endow 9(12):1185\u20131196","journal-title":"Proc VLDB Endow"},{"key":"313_CR58","doi-asserted-by":"crossref","unstructured":"Zhu E, Deng D, Nargesian F et\u00a0al (2019) Josie: Overlap set similarity search for finding joinable tables in data lakes. In: Proceedings of the 2019 International Conference on Management of Data, pp 847\u2013864","DOI":"10.1145\/3299869.3300065"}],"container-title":["Data Science and Engineering"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s41019-025-00313-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s41019-025-00313-x","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s41019-025-00313-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,23]],"date-time":"2026-03-23T07:18:29Z","timestamp":1774250309000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s41019-025-00313-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,13]]},"references-count":58,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,3]]}},"alternative-id":["313"],"URL":"https:\/\/doi.org\/10.1007\/s41019-025-00313-x","relation":{},"ISSN":["2364-1185","2364-1541"],"issn-type":[{"value":"2364-1185","type":"print"},{"value":"2364-1541","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,13]]},"assertion":[{"value":"16 February 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 July 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 August 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 November 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"All authors declare that they have no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}]}}