{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T04:39:21Z","timestamp":1769834361719,"version":"3.49.0"},"reference-count":55,"publisher":"Association for Computing Machinery (ACM)","issue":"6","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":["Proc. VLDB Endow."],"published-print":{"date-parts":[[2024,2]]},"abstract":"<jats:p>Centralised data management systems (e.g., data lakes) support queries over multi-source heterogeneous data. However, the query results from multiple sources commonly involve between-source conflicts, which makes query results unreliable and confusing and degrades the usability of centralised data management systems. Therefore, resolving the between-sourced conflicts is one of the most important problems for centralised data management systems. To solve it, many batch data fusion-based methods have been proposed, which require traversing all the data in the centralised data management systems and cause scalability and flexibility issues.<\/jats:p><jats:p>To address these issues, this paper explores the problem of on-demand fusion queries, where the between-sourced conflicts are solved with only the query-related data; moreover, we propose an efficient on-demand fusion query framework, FusionQuery, which consists of a query stage and a fusion stage. In the query stage, we frame the heterogeneous data query problem as a knowledge graph matching problem and present a line graph-based method to accelerate it. In the fusion stage, we develop an Expectation Maximization-style algorithm to iteratively updates data veracity and source trustworthiness. Furthermore, we design an incremental estimation method of source trustworthiness to address the lack of sufficient observations. Extensive experiments on two real-world datasets demonstrate that FusionQuery outperforms state-of-the-art data fusion methods in terms of both effectiveness and efficiency.<\/jats:p>","DOI":"10.14778\/3648160.3648174","type":"journal-article","created":{"date-parts":[[2024,5,3]],"date-time":"2024-05-03T21:52:53Z","timestamp":1714773173000},"page":"1337-1349","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":6,"title":["FusionQuery: On-demand Fusion Queries over Multi-source Heterogeneous Data"],"prefix":"10.14778","volume":"17","author":[{"given":"Junhao","family":"Zhu","sequence":"first","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Yuren","family":"Mao","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Lu","family":"Chen","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Congcong","family":"Ge","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Ziheng","family":"Wei","sequence":"additional","affiliation":[{"name":"Wuhan University, Wuhan, China"}]},{"given":"Yunjun","family":"Gao","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]}],"member":"320","published-online":{"date-parts":[[2024,5,3]]},"reference":[{"key":"e_1_2_1_1_1","unstructured":"2023. FusionQuery: full version. https:\/\/github.com\/JunHao-Zhu\/FusionQuery\/blob\/main\/technical_report.pdf."},{"key":"e_1_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Guy Aglionby and Simone Teufel. 2022. Faithful Knowledge Graph Explanations in Commonsense Question Answering. In EMNLP. 10811--10817.","DOI":"10.18653\/v1\/2022.emnlp-main.743"},{"key":"e_1_2_1_3_1","volume-title":"Mohamed Y. Eltabakh, Mourad Ouzzani, and Nan Tang.","author":"Ahmad Mohammad Shahmeer","year":"2023","unstructured":"Mohammad Shahmeer Ahmad, Zan Ahmad Naeem, Mohamed Y. Eltabakh, Mourad Ouzzani, and Nan Tang. 2023. RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes. CoRR abs\/2303.16909 (2023)."},{"key":"e_1_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1162\/089976600300015187"},{"key":"e_1_2_1_5_1","doi-asserted-by":"crossref","first-page":"12317","DOI":"10.1609\/aaai.v36i11.21496","article-title":"Commonsense Knowledge Reasoning and Generation with Pre-trained Language Models: A Survey","volume":"36","author":"Bhargava Prajjwal","year":"2022","unstructured":"Prajjwal Bhargava and Vincent Ng. 2022. Commonsense Knowledge Reasoning and Generation with Pre-trained Language Models: A Survey. In AAAI, Vol. 36. 12317--12325.","journal-title":"AAAI"},{"key":"e_1_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1145\/3299869.3300086"},{"key":"e_1_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Fei Bi Lijun Chang Xuemin Lin Lu Qin and Wenjie Zhang. 2016. Efficient Subgraph Matching by Postponing Cartesian Products. In SIGMOD. 1199--1214.","DOI":"10.1145\/2882903.2915236"},{"key":"e_1_2_1_8_1","volume-title":"Proceedings of Neuro-N\u0131mes 91","author":"L\u00e9on","year":"1991","unstructured":"L\u00e9on Bottou et al. 1991. Stochastic gradient learning in neural networks. Proceedings of Neuro-N\u0131mes 91, 8 (1991), 12."},{"key":"e_1_2_1_9_1","doi-asserted-by":"crossref","unstructured":"Klaus Broelemann Thomas Gottron and Gjergji Kasneci. 2017. LTD-RBM: Robust and Fast Latent Truth Discovery Using Restricted Boltzmann Machines. In ICDE. 143--146.","DOI":"10.1109\/ICDE.2017.60"},{"key":"e_1_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10844-020-00627-4"},{"key":"e_1_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Yunfan Chen Lei Chen and Chen Jason Zhang. 2017. CrowdFusion: A Crowd-sourced Approach on Data Fusion Refinement. In ICDE. 127--130.","DOI":"10.1109\/ICDE.2017.56"},{"key":"e_1_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/2723372.2749431"},{"key":"e_1_2_1_13_1","volume-title":"Lizhen Tan, Lazaros Polymenakos, and Andrew McCallum.","author":"Das Rajarshi","year":"2021","unstructured":"Rajarshi Das, Manzil Zaheer, Dung Thai, Ameya Godbole, Ethan Perez, Jay Yoon Lee, Lizhen Tan, Lazaros Polymenakos, and Andrew McCallum. 2021. Case-based Reasoning for Natural Language Queries over Knowledge Bases. In EMNLP. 9594--9611."},{"key":"e_1_2_1_14_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs\/1810.04805","author":"Devlin Jacob","year":"2018","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs\/1810.04805 (2018)."},{"key":"e_1_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1016\/B978-155860869-6\/50060-3"},{"key":"e_1_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Xin Dong Evgeniy Gabrilovich Geremy Heitz Wilko Horn Ni Lao Kevin Murphy Thomas Strohmann Shaohua Sun and Wei Zhang. 2014. Knowledge vault: a web-scale approach to probabilistic knowledge fusion. In SIGKDD. 601--610.","DOI":"10.1145\/2623330.2623623"},{"key":"e_1_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.14778\/1687627.1687690"},{"key":"e_1_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.14778\/2777598.2777603"},{"key":"e_1_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.2200\/S00578ED1V01Y201404DTM040"},{"key":"e_1_2_1_20_1","doi-asserted-by":"crossref","first-page":"3874","DOI":"10.1609\/aaai.v34i04.5800","article-title":"Learning Triple Embeddings from Knowledge Graphs","volume":"34","author":"Fionda Valeria","year":"2020","unstructured":"Valeria Fionda and Giuseppe Pirr\u00f2. 2020. Learning Triple Embeddings from Knowledge Graphs. In AAAI, Vol. 34. 3874--3881.","journal-title":"AAAI"},{"key":"e_1_2_1_21_1","doi-asserted-by":"crossref","unstructured":"Yunjun Gao Xiaoze Liu Junyang Wu Tianyi Li Pengfei Wang and Lu Chen. 2022. ClusterEA: Scalable Entity Alignment with Stochastic Training and Normalized Mini-batch Similarities. In SIGKDD. 421--431.","DOI":"10.1145\/3534678.3539331"},{"key":"e_1_2_1_22_1","volume-title":"CollaborER: A Self-supervised Entity Resolution Framework Using Multi-features Collaboration. CoRR abs\/2108.08090","author":"Ge Congcong","year":"2021","unstructured":"Congcong Ge, Pengfei Wang, Lu Chen, Xiaoze Liu, Baihua Zheng, and Yunjun Gao. 2021. CollaborER: A Self-supervised Entity Resolution Framework Using Multi-features Collaboration. CoRR abs\/2108.08090 (2021)."},{"key":"e_1_2_1_23_1","doi-asserted-by":"crossref","unstructured":"Michael N. Gubanov. 2017. PolyFuse: A Large-Scale Hybrid Data Fusion System. In ICDE. 1575--1578.","DOI":"10.1109\/ICDE.2017.230"},{"key":"e_1_2_1_24_1","doi-asserted-by":"crossref","unstructured":"Myoungji Han Hyunjoon Kim Geonmo Gu Kunsoo Park and Wook-Shin Han. 2019. Efficient Subgraph Matching: Harmonizing Dynamic Programming Adaptive Matching Order and Failing Set Together. In SIGMOD. 1429--1446.","DOI":"10.1145\/3299869.3319880"},{"key":"e_1_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2017.2766634"},{"key":"e_1_2_1_26_1","unstructured":"Eric Jang Shixiang Gu and Ben Poole. 2017. Categorical Reparameterization with Gumbel-Softmax. In ICLR. https:\/\/openreview.net\/forum?id=rkE3y85ee"},{"key":"e_1_2_1_27_1","volume-title":"FAST: FPGA-based Subgraph Matching on Massive Graphs. In ICDE. 1452--1463.","author":"Jin Xin","year":"2021","unstructured":"Xin Jin, Zhengyi Yang, Xuemin Lin, Shiyu Yang, Lu Qin, and You Peng. 2021. FAST: FPGA-based Subgraph Matching on Massive Graphs. In ICDE. 1452--1463."},{"key":"e_1_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/TBDATA.2019.2921572"},{"key":"e_1_2_1_29_1","volume-title":"Valentine: Evaluating Matching Techniques for Dataset Discovery. In ICDE. 468--479.","author":"Koutras Christos","year":"2021","unstructured":"Christos Koutras, George Siachamis, Andra Ionescu, Kyriakos Psarakis, Jerry Brons, Marios Fragkoulis, Christoph Lofi, Angela Bonifati, and Asterios Katsifodimos. 2021. Valentine: Evaluating Matching Techniques for Dataset Discovery. In ICDE. 468--479."},{"key":"e_1_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.14778\/3339490.3339494"},{"key":"e_1_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.14778\/2735496.2735505"},{"key":"e_1_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Qi Li Yaliang Li Jing Gao Bo Zhao Wei Fan and Jiawei Han. 2014. Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation. In SIGMOD. 1187--1198.","DOI":"10.1145\/2588555.2610509"},{"key":"e_1_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.14778\/2535568.2448943"},{"key":"e_1_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1145\/2897350.2897352"},{"key":"e_1_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.14778\/3421424.3421431"},{"key":"e_1_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/3187009.3177739"},{"key":"e_1_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2019.2936189"},{"key":"e_1_2_1_38_1","volume-title":"Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text. CoRR abs\/2308.02357","author":"Mihindukulasooriya Nandana","year":"2023","unstructured":"Nandana Mihindukulasooriya, Sanju Tiwari, Carlos F. Enguix, and Kusum Lata. 2023. Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text. CoRR abs\/2308.02357 (2023)."},{"key":"e_1_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.14778\/3352063.3352116"},{"key":"e_1_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Jeff Pasternack and Dan Roth. 2013. Latent credibility analysis. In WWW. 1009--1020.","DOI":"10.1145\/2488388.2488476"},{"key":"e_1_2_1_41_1","volume-title":"Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. CoRR abs\/1908.10084","author":"Reimers Nils","year":"2019","unstructured":"Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. CoRR abs\/1908.10084 (2019)."},{"key":"e_1_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.14778\/3523210.3523226"},{"key":"e_1_2_1_43_1","volume-title":"VerifAI: Verified Generative AI. CoRR abs\/2307.02796","author":"Tang Nan","year":"2023","unstructured":"Nan Tang, Chenyu Yang, Ju Fan, and Lei Cao. 2023. VerifAI: Verified Generative AI. CoRR abs\/2307.02796 (2023)."},{"key":"e_1_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.14778\/3476249.3476294"},{"key":"e_1_2_1_45_1","volume-title":"Halevy","author":"Thorne James","year":"2021","unstructured":"James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri, Sebastian Riedel, and Alon Y. Halevy. 2021. Database reasoning over text. In ACL\/IJCNLP. 3091--3104."},{"key":"e_1_2_1_46_1","doi-asserted-by":"crossref","first-page":"299","DOI":"10.1007\/978-3-319-18120-2_18","article-title":"Fast Subgraph Matching on Large Graphs using Graphics Processors","volume":"9049","author":"Tran Ha Nguyen","year":"2015","unstructured":"Ha Nguyen Tran, Jung-Jae Kim, and Bingsheng He. 2015. Fast Subgraph Matching on Large Graphs using Graphics Processors. In DASFAA (Lecture Notes in Computer Science), Vol. 9049. 299--315.","journal-title":"DASFAA (Lecture Notes in Computer Science)"},{"key":"e_1_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.14778\/3565816.3565836"},{"key":"e_1_2_1_48_1","volume-title":"Lina Yao, Xiaofei Xu, and Xue Li.","author":"Wang Xianzhi","year":"2015","unstructured":"Xianzhi Wang, Quan Z. Sheng, Xiu Susie Fang, Lina Yao, Xiaofei Xu, and Xue Li. 2015. An Integrated Bayesian Approach for Effective Multi-Truth Discovery. In CIKM. 493--502."},{"key":"e_1_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Houping Xiao Jing Gao Zhaoran Wang Shiyu Wang Lu Su and Han Liu. 2016. A Truth Discovery Approach with Theoretical Guarantee. In SIGKDD. 1925--1934.","DOI":"10.1145\/2939672.2939816"},{"key":"e_1_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2007.190745"},{"key":"e_1_2_1_51_1","doi-asserted-by":"crossref","unstructured":"Ran Yu Ujwal Gadiraju Besnik Fetahu and Stefan Dietze. 2017. FuseM: Query-Centric Data Fusion on Structured Web Markup. In ICDE. 179--182.","DOI":"10.1109\/ICDE.2017.69"},{"key":"e_1_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.14778\/3494124.3494129"},{"key":"e_1_2_1_53_1","doi-asserted-by":"crossref","unstructured":"Ye Yuan Delong Ma Aoqian Zhang and Guoren Wang. 2022. Consistent Subgraph Matching over Large Graphs. In ICDE. 2536--2548.","DOI":"10.1109\/ICDE53745.2022.00235"},{"key":"e_1_2_1_54_1","volume-title":"GSI: GPU-friendly Subgraph Isomorphism. In ICDE. 1249--1260.","author":"Zeng Li","year":"2020","unstructured":"Li Zeng, Lei Zou, M. Tamer \u00d6zsu, Lin Hu, and Fan Zhang. 2020. GSI: GPU-friendly Subgraph Isomorphism. In ICDE. 1249--1260."},{"key":"e_1_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.14778\/2168651.2168656"}],"container-title":["Proceedings of the VLDB Endowment"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.14778\/3648160.3648174","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,18]],"date-time":"2024-11-18T01:01:36Z","timestamp":1731891696000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.14778\/3648160.3648174"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,2]]},"references-count":55,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2024,2]]}},"alternative-id":["10.14778\/3648160.3648174"],"URL":"https:\/\/doi.org\/10.14778\/3648160.3648174","relation":{},"ISSN":["2150-8097"],"issn-type":[{"value":"2150-8097","type":"print"}],"subject":[],"published":{"date-parts":[[2024,2]]},"assertion":[{"value":"2024-05-03","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}