{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T16:14:40Z","timestamp":1768925680907,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":23,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,8,4]],"date-time":"2023-08-04T00:00:00Z","timestamp":1691107200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,8,6]]},"DOI":"10.1145\/3580305.3599553","type":"proceedings-article","created":{"date-parts":[[2023,8,4]],"date-time":"2023-08-04T18:13:58Z","timestamp":1691172838000},"page":"5839-5840","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":13,"title":["Data-centric AI: Techniques and Future Perspectives"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6677-7504","authenticated-orcid":false,"given":"Daochen","family":"Zha","sequence":"first","affiliation":[{"name":"Airbnb, Inc., San Francisco, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8933-7117","authenticated-orcid":false,"given":"Kwei-Herng","family":"Lai","sequence":"additional","affiliation":[{"name":"Rice University, Houston, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3442-754X","authenticated-orcid":false,"given":"Fan","family":"Yang","sequence":"additional","affiliation":[{"name":"Wake Forest University, Winston-Salem, NC, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1984-795X","authenticated-orcid":false,"given":"Na","family":"Zou","sequence":"additional","affiliation":[{"name":"Texas A&amp;M University, College Station, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-0424-248X","authenticated-orcid":false,"given":"Huiji","family":"Gao","sequence":"additional","affiliation":[{"name":"Airbnb, Inc., San Francisco, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2234-3226","authenticated-orcid":false,"given":"Xia","family":"Hu","sequence":"additional","affiliation":[{"name":"Rice University, Houston, TX, USA"}]}],"member":"320","published-online":{"date-parts":[[2023,8,4]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Ki Hyun Tae, and Steven Euijong Whang","author":"Chung Yeounoh","year":"2019","unstructured":"Yeounoh Chung , Tim Kraska , Neoklis Polyzotis , Ki Hyun Tae, and Steven Euijong Whang . 2019 . Slice finder: Automated data slicing for model validation. In ICDE. Yeounoh Chung, Tim Kraska, Neoklis Polyzotis, Ki Hyun Tae, and Steven Euijong Whang. 2019. Slice finder: Automated data slicing for model validation. In ICDE."},{"key":"e_1_3_2_1_2_1","volume-title":"Aurum: A data discovery system. In ICDE.","author":"Fernandez Raul Castro","year":"2018","unstructured":"Raul Castro Fernandez , Ziawasch Abedjan , Famien Koko , Gina Yuan , Samuel Madden , and Michael Stonebraker . 2018 . Aurum: A data discovery system. In ICDE. Raul Castro Fernandez, Ziawasch Abedjan, Famien Koko, Gina Yuan, Samuel Madden, and Michael Stonebraker. 2018. Aurum: A data discovery system. In ICDE."},{"key":"e_1_3_2_1_3_1","volume-title":"The science of visual data communication: What works. Psychological Science in the public interest","author":"Franconeri Steven L","year":"2021","unstructured":"Steven L Franconeri , Lace M Padilla , Priti Shah , Jeffrey M Zacks , and Jessica Hullman . 2021. The science of visual data communication: What works. Psychological Science in the public interest , Vol. 22 , 3 ( 2021 ), 110--161. Steven L Franconeri, Lace M Padilla, Priti Shah, Jeffrey M Zacks, and Jessica Hullman. 2021. The science of visual data communication: What works. Psychological Science in the public interest, Vol. 22, 3 (2021), 110--161."},{"key":"e_1_3_2_1_4_1","unstructured":"Amirata Ghorbani Michael Kim and James Zou. 2020. A distributional framework for data valuation. In ICML.  Amirata Ghorbani Michael Kim and James Zou. 2020. A distributional framework for data valuation. In ICML."},{"key":"e_1_3_2_1_5_1","volume-title":"Alphaclean: Automatic generation of data cleaning pipelines. arXiv preprint arXiv:1904.11827","author":"Krishnan Sanjay","year":"2019","unstructured":"Sanjay Krishnan and Eugene Wu . 2019 . Alphaclean: Automatic generation of data cleaning pipelines. arXiv preprint arXiv:1904.11827 (2019). Sanjay Krishnan and Eugene Wu. 2019. Alphaclean: Automatic generation of data cleaning pipelines. arXiv preprint arXiv:1904.11827 (2019)."},{"key":"e_1_3_2_1_6_1","volume-title":"Tods: An automated time series outlier detection system. In AAAI.","author":"Lai Kwei-Herng","year":"2021","unstructured":"Kwei-Herng Lai , Daochen Zha , Guanchu Wang , Junjie Xu , Yue Zhao , Devesh Kumar , Yile Chen , Purav Zumkhawaka , Minyang Wan , Diego Martinez , 2021 a. Tods: An automated time series outlier detection system. In AAAI. Kwei-Herng Lai, Daochen Zha, Guanchu Wang, Junjie Xu, Yue Zhao, Devesh Kumar, Yile Chen, Purav Zumkhawaka, Minyang Wan, Diego Martinez, et al. 2021a. Tods: An automated time series outlier detection system. In AAAI."},{"key":"e_1_3_2_1_7_1","unstructured":"Kwei-Herng Lai Daochen Zha Junjie Xu Yue Zhao Guanchu Wang and Xia Hu. 2021b. Revisiting time series outlier detection: Definitions and benchmarks. In NeurIPS.  Kwei-Herng Lai Daochen Zha Junjie Xu Yue Zhao Guanchu Wang and Xia Hu. 2021b. Revisiting time series outlier detection: Definitions and benchmarks. In NeurIPS."},{"key":"e_1_3_2_1_8_1","volume-title":"Feature selection: A data perspective. ACM computing surveys (CSUR)","author":"Li Jundong","year":"2017","unstructured":"Jundong Li , Kewei Cheng , Suhang Wang , Fred Morstatter , Robert P Trevino , Jiliang Tang , and Huan Liu . 2017. Feature selection: A data perspective. ACM computing surveys (CSUR) , Vol. 50 , 6 ( 2017 ), 1--45. Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P Trevino, Jiliang Tang, and Huan Liu. 2017. Feature selection: A data perspective. ACM computing surveys (CSUR), Vol. 50, 6 (2017), 1--45."},{"key":"e_1_3_2_1_9_1","first-page":"1","article-title":"Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing","volume":"55","author":"Liu Pengfei","year":"2023","unstructured":"Pengfei Liu , Weizhe Yuan , Jinlan Fu , Zhengbao Jiang , Hiroaki Hayashi , and Graham Neubig . 2023 . Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing . Comput. Surveys , Vol. 55 , 9 (2023), 1 -- 35 . Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2023. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. Comput. Surveys, Vol. 55, 9 (2023), 1--35.","journal-title":"Comput. Surveys"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Zirui Liu Haifeng Jin Ting-Hsiang Wang Kaixiong Zhou and Xia Hu. 2021. DivAug: plug-in automated data augmentation with explicit diversity maximization. In CVPR.  Zirui Liu Haifeng Jin Ting-Hsiang Wang Kaixiong Zhou and Xia Hu. 2021. DivAug: plug-in automated data augmentation with explicit diversity maximization. In CVPR.","DOI":"10.1109\/ICCV48922.2021.00472"},{"key":"e_1_3_2_1_11_1","volume-title":"Towards Personalized Preprocessing Pipeline Search. arXiv preprint arXiv:2302.14329","author":"Martinex Diego","year":"2023","unstructured":"Diego Martinex , Daochen Zha , Qiaoyu Tan , and Xia Hu. 2023. Towards Personalized Preprocessing Pipeline Search. arXiv preprint arXiv:2302.14329 ( 2023 ). Diego Martinex, Daochen Zha, Qiaoyu Tan, and Xia Hu. 2023. Towards Personalized Preprocessing Pipeline Search. arXiv preprint arXiv:2302.14329 (2023)."},{"key":"e_1_3_2_1_12_1","volume-title":"Sen Wu, Daniel Selsam, and Christopher R\u00e9.","author":"Ratner Alexander J","year":"2016","unstructured":"Alexander J Ratner , Christopher M De Sa , Sen Wu, Daniel Selsam, and Christopher R\u00e9. 2016 . Data programming: Creating large training sets, quickly. NeurIPS ( 2016). Alexander J Ratner, Christopher M De Sa, Sen Wu, Daniel Selsam, and Christopher R\u00e9. 2016. Data programming: Creating large training sets, quickly. NeurIPS (2016)."},{"key":"e_1_3_2_1_13_1","volume-title":"Towards natural language interfaces for data visualization: A survey. arXiv preprint arXiv:2109.03506","author":"Shen Leixian","year":"2021","unstructured":"Leixian Shen , Enya Shen , Yuyu Luo , Xiaocong Yang , Xuming Hu , Xiongshuai Zhang , Zhiwei Tai , and Jianmin Wang . 2021. Towards natural language interfaces for data visualization: A survey. arXiv preprint arXiv:2109.03506 ( 2021 ). Leixian Shen, Enya Shen, Yuyu Luo, Xiaocong Yang, Xuming Hu, Xiongshuai Zhang, Zhiwei Tai, and Jianmin Wang. 2021. Towards natural language interfaces for data visualization: A survey. arXiv preprint arXiv:2109.03506 (2021)."},{"key":"e_1_3_2_1_14_1","article-title":"Covariate shift adaptation by importance weighted cross validation","volume":"8","author":"Sugiyama Masashi","year":"2007","unstructured":"Masashi Sugiyama , Matthias Krauledat , and Klaus-Robert M\u00fcller . 2007 . Covariate shift adaptation by importance weighted cross validation . Journal of Machine Learning Research , Vol. 8 , 5 (2007). Masashi Sugiyama, Matthias Krauledat, and Klaus-Robert M\u00fcller. 2007. Covariate shift adaptation by importance weighted cross validation. Journal of Machine Learning Research, Vol. 8, 5 (2007).","journal-title":"Journal of Machine Learning Research"},{"key":"e_1_3_2_1_15_1","volume-title":"A crowdsourcing open platform for literature curation in UniProt. PLoS biology","author":"Wang Yuqi","year":"2021","unstructured":"Yuqi Wang , Qinghua Wang , Hongzhan Huang , Wei Huang , Yongxing Chen , Peter B McGarvey , Cathy H Wu , Cecilia N Arighi , and UniProt Consortium . 2021. A crowdsourcing open platform for literature curation in UniProt. PLoS biology , Vol. 19 , 12 ( 2021 ), e3001464. Yuqi Wang, Qinghua Wang, Hongzhan Huang, Wei Huang, Yongxing Chen, Peter B McGarvey, Cathy H Wu, Cecilia N Arighi, and UniProt Consortium. 2021. A crowdsourcing open platform for literature curation in UniProt. PLoS biology, Vol. 19, 12 (2021), e3001464."},{"key":"e_1_3_2_1_16_1","volume-title":"Jiahao Chen, and Xia Hu.","author":"Yang Fan","year":"2021","unstructured":"Fan Yang , Sahan Suresh Alva , Jiahao Chen, and Xia Hu. 2021 . Model-based counterfactual synthesizer for interpretation. In KDD. Fan Yang, Sahan Suresh Alva, Jiahao Chen, and Xia Hu. 2021. Model-based counterfactual synthesizer for interpretation. In KDD."},{"key":"e_1_3_2_1_17_1","volume-title":"Kwei-Herng Lai, Fan Yang, and Xia Hu.","author":"Zha Daochen","year":"2023","unstructured":"Daochen Zha , Zaid Pervaiz Bhat , Kwei-Herng Lai, Fan Yang, and Xia Hu. 2023 . Data-centric AI : Perspectives and Challenges. In SDM. Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, and Xia Hu. 2023. Data-centric AI: Perspectives and Challenges. In SDM."},{"key":"e_1_3_2_1_18_1","volume-title":"Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, and Xia Hu.","author":"Zha Daochen","year":"2013","unstructured":"Daochen Zha , Zaid Pervaiz Bhat , Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, and Xia Hu. 2013 . Data-centric Artificial Intelligence: A Survey . arXiv preprint arXiv:2303.10158 (2013). Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, and Xia Hu. 2013. Data-centric Artificial Intelligence: A Survey. arXiv preprint arXiv:2303.10158 (2013)."},{"key":"e_1_3_2_1_19_1","unstructured":"Daochen Zha Kwei-Herng Lai Qiaoyu Tan Sirui Ding Na Zou and Xia Ben Hu. 2022a. Towards automated imbalanced learning with deep hierarchical reinforcement learning. In CIKM.  Daochen Zha Kwei-Herng Lai Qiaoyu Tan Sirui Ding Na Zou and Xia Ben Hu. 2022a. Towards automated imbalanced learning with deep hierarchical reinforcement learning. In CIKM."},{"key":"e_1_3_2_1_20_1","unstructured":"Daochen Zha Kwei-Herng Lai Mingyang Wan and Xia Hu. 2020. Meta-AAD: Active anomaly detection with deep reinforcement learning. In ICDM.  Daochen Zha Kwei-Herng Lai Mingyang Wan and Xia Hu. 2020. Meta-AAD: Active anomaly detection with deep reinforcement learning. In ICDM."},{"key":"e_1_3_2_1_21_1","volume-title":"Yi-Wei Chen, Yicheng Wang, Sirui Ding, Anmoll Kumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, et al.","author":"Zha Daochen","year":"2022","unstructured":"Daochen Zha , Zaid Pervaiz Bhat , Yi-Wei Chen, Yicheng Wang, Sirui Ding, Anmoll Kumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, et al. 2022 b. AutoVideo: An Automated Video Action Recognition System. In IJCAI. Daochen Zha, Zaid Pervaiz Bhat, Yi-Wei Chen, Yicheng Wang, Sirui Ding, Anmoll Kumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, et al. 2022b. AutoVideo: An Automated Video Action Recognition System. In IJCAI."},{"key":"e_1_3_2_1_22_1","volume-title":"Adversarial examples: Opportunities and challenges","author":"Zhang Jiliang","year":"2019","unstructured":"Jiliang Zhang and Chen Li. 2019. Adversarial examples: Opportunities and challenges . IEEE transactions on neural networks and learning systems, Vol. 31 , 7 ( 2019 ), 2578--2593. Jiliang Zhang and Chen Li. 2019. Adversarial examples: Opportunities and challenges. IEEE transactions on neural networks and learning systems, Vol. 31, 7 (2019), 2578--2593."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.14778\/3476311.3476334"}],"event":{"name":"KDD '23: The 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","location":"Long Beach CA USA","acronym":"KDD '23","sponsor":["SIGMOD ACM Special Interest Group on Management of Data","SIGKDD ACM Special Interest Group on Knowledge Discovery in Data"]},"container-title":["Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3580305.3599553","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3580305.3599553","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T16:37:52Z","timestamp":1750178272000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3580305.3599553"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,8,4]]},"references-count":23,"alternative-id":["10.1145\/3580305.3599553","10.1145\/3580305"],"URL":"https:\/\/doi.org\/10.1145\/3580305.3599553","relation":{},"subject":[],"published":{"date-parts":[[2023,8,4]]},"assertion":[{"value":"2023-08-04","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}