{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,30]],"date-time":"2025-09-30T10:40:03Z","timestamp":1759228803950,"version":"3.44.0"},"publisher-location":"Cham","reference-count":42,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032061089","type":"print"},{"value":"9783032061096","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-06109-6_25","type":"book-chapter","created":{"date-parts":[[2025,9,30]],"date-time":"2025-09-30T10:05:51Z","timestamp":1759226751000},"page":"437-453","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Speech-to-Visualization: Toward End-to-End Speech-Driven Data Visualization Generation from\u00a0Natural Language Questions"],"prefix":"10.1007","author":[{"given":"Haodi","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinhe","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jihua","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kaishun","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuanfeng","family":"Song","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Raymond Chi-Wing","family":"Wong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,10,1]]},"reference":[{"key":"25_CR1","unstructured":"Ardila, R., et al.: Common voice: a massively-multilingual speech corpus. In: LREC, Marseille, France, pp. 4218\u20134222. European Language Resources Association (2020). https:\/\/aclanthology.org\/2020.lrec-1.520"},{"key":"25_CR2","unstructured":"Baevski, A., Zhou, Y., Mohamed, A., Auli, M.: wav2vec 2.0: a framework for self-supervised learning of speech representations. In: Advances in Neural Information Processing Systems, vol. 33, pp. 12449\u201312460 (2020)"},{"key":"25_CR3","doi-asserted-by":"crossref","unstructured":"Chung, Y.A., et al.: W2v-Bert: combining contrastive learning and masked language modeling for self-supervised speech pre-training. In: ASRU, pp. 244\u2013250. IEEE (2021)","DOI":"10.1109\/ASRU51503.2021.9688253"},{"key":"25_CR4","unstructured":"Costa-juss\u00e0, M.R., et\u00a0al.: No language left behind: scaling human-centered machine translation. arXiv preprint arXiv:2207.04672 (2022)"},{"issue":"1","key":"25_CR5","doi-asserted-by":"publisher","first-page":"906","DOI":"10.1109\/TVCG.2019.2934785","volume":"26","author":"W Cui","year":"2019","unstructured":"Cui, W., et al.: Text-to-viz: automatic generation of infographics from proportion-related natural language statements. IEEE Trans. Visual Comput. Graphics 26(1), 906\u2013916 (2019)","journal-title":"IEEE Trans. Visual Comput. Graphics"},{"key":"25_CR6","doi-asserted-by":"crossref","unstructured":"Di\u00a0Gangi, M.A., Cattoni, R., Bentivogli, L., Negri, M., Turchi, M.: Must-c: a multilingual speech translation corpus. In: NAACL-HLT, pp. 2012\u20132017. Association for Computational Linguistics (2019)","DOI":"10.18653\/v1\/N19-1202"},{"issue":"5","key":"25_CR7","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1109\/MCG.2019.2924636","volume":"39","author":"V Dibia","year":"2019","unstructured":"Dibia, V., Demiralp, \u00c7.: Data2vis: automatic generation of data visualizations using sequence-to-sequence recurrent neural networks. IEEE Comput. Graphics Appl. 39(5), 33\u201346 (2019)","journal-title":"IEEE Comput. Graphics Appl."},{"key":"25_CR8","first-page":"15748","volume":"34","author":"PA Duquenne","year":"2021","unstructured":"Duquenne, P.A., Gong, H., Schwenk, H.: Multimodal and multilingual embeddings for large-scale speech mining. Adv. Neural. Inf. Process. Syst. 34, 15748\u201315761 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"25_CR9","unstructured":"Duquenne, P.A., Schwenk, H., Sagot, B.: Sonar: sentence-level multimodal and language-agnostic representations. arXiv e-prints pp. arXiv\u20132308 (2023)"},{"key":"25_CR10","doi-asserted-by":"publisher","unstructured":"Gao, Z., Zhang, S., McLoughlin, I., Yan, Z.: Paraformer: fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition. In: Proceedings of the Interspeech 2022, pp. 2063\u20132067 (2022). https:\/\/doi.org\/10.21437\/Interspeech.2022-9996","DOI":"10.21437\/Interspeech.2022-9996"},{"key":"25_CR11","doi-asserted-by":"crossref","unstructured":"Gulati, A., et\u00a0al.: Conformer: convolution-augmented transformer for speech recognition. In: Interspeech 2020 (2020)","DOI":"10.21437\/Interspeech.2020-3015"},{"key":"25_CR12","doi-asserted-by":"crossref","unstructured":"Guo, J., et al.: Towards complex text-to-SQL in cross-domain database with intermediate representation. In: ACL. Association for Computational Linguistics (2019)","DOI":"10.18653\/v1\/P19-1444"},{"key":"25_CR13","doi-asserted-by":"crossref","unstructured":"Hanrahan, P.: VIZQL: a language for query, analysis and visualization. In: SIGMOD, pp. 721\u2013721 (2006)","DOI":"10.1145\/1142473.1142560"},{"key":"25_CR14","doi-asserted-by":"crossref","unstructured":"Heffernan, K., \u00c7elebi, O., Schwenk, H.: Bitext mining using distilled sentence representations for low-resource languages. In: EMNLP, pp. 2101\u20132112 (2022)","DOI":"10.18653\/v1\/2022.findings-emnlp.154"},{"key":"25_CR15","doi-asserted-by":"crossref","unstructured":"Krommyda, M., Kantere, V.: Visualization systems for linked datasets. In: ICDE, pp. 1790\u20131793. IEEE (2020)","DOI":"10.1109\/ICDE48307.2020.00171"},{"issue":"2","key":"25_CR16","doi-asserted-by":"publisher","first-page":"136","DOI":"10.1016\/j.visinf.2018.04.011","volume":"2","author":"D Li","year":"2018","unstructured":"Li, D., et al.: Echarts: a declarative framework for rapid construction of web-based visualization. Vis. Inform. 2(2), 136\u2013146 (2018)","journal-title":"Vis. Inform."},{"issue":"1","key":"25_CR17","doi-asserted-by":"publisher","first-page":"475","DOI":"10.1109\/TKDE.2020.2981464","volume":"34","author":"Y Luo","year":"2020","unstructured":"Luo, Y., Qin, X., Chai, C., Tang, N., Li, G., Li, W.: Steerable self-driving data visualization. IEEE Trans. Knowl. Data Eng. 34(1), 475\u2013490 (2020)","journal-title":"IEEE Trans. Knowl. Data Eng."},{"key":"25_CR18","doi-asserted-by":"crossref","unstructured":"Luo, Y., Tang, N., Li, G., Chai, C., Li, W., Qin, X.: Synthesizing natural language to visualization (nl2vis) benchmarks from nl2sql benchmarks. In: SIGMOD, pp. 1235\u20131247 (2021)","DOI":"10.1145\/3448016.3457261"},{"key":"25_CR19","doi-asserted-by":"crossref","unstructured":"Lyons, G., Tran, V., Binnig, C., Cetintemel, U., Kraska, T.: Making the case for query-by-voice with echoquery. In: SIGMOD, pp. 2129\u20132132 (2016)","DOI":"10.1145\/2882903.2899394"},{"issue":"1","key":"25_CR20","doi-asserted-by":"publisher","first-page":"438","DOI":"10.1109\/TVCG.2018.2865240","volume":"25","author":"D Moritz","year":"2018","unstructured":"Moritz, D., et al.: Formalizing visualization design knowledge as constraints: actionable and extensible models in DRACO. IEEE Trans. Visual Comput. Graphics 25(1), 438\u2013448 (2018)","journal-title":"IEEE Trans. Visual Comput. Graphics"},{"key":"25_CR21","unstructured":"Oord, A.V.D., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748 (2018)"},{"key":"25_CR22","doi-asserted-by":"crossref","unstructured":"Panayotov, V., Chen, G., Povey, D., Khudanpur, S.: Librispeech: an ASR corpus based on public domain audio books. In: ICASSP, pp. 5206\u20135210. IEEE (2015)","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"25_CR23","doi-asserted-by":"crossref","unstructured":"Qian, X., et al.: Learning to recommend visualizations from data. In: KDD, pp. 1359\u20131369 (2021)","DOI":"10.1145\/3447548.3467224"},{"issue":"1","key":"25_CR24","doi-asserted-by":"publisher","first-page":"93","DOI":"10.1007\/s00778-019-00588-3","volume":"29","author":"X Qin","year":"2020","unstructured":"Qin, X., Luo, Y., Tang, N., Li, G.: Making data visualization more efficient and effective: a survey. VLDB J. 29(1), 93\u2013117 (2020)","journal-title":"VLDB J."},{"key":"25_CR25","doi-asserted-by":"crossref","unstructured":"Reimers, N., Gurevych, I.: Making monolingual sentence embeddings multilingual using knowledge distillation. In: EMNLP. Association for Computational Linguistics (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.365"},{"issue":"1","key":"25_CR26","doi-asserted-by":"publisher","first-page":"341","DOI":"10.1109\/TVCG.2016.2599030","volume":"23","author":"A Satyanarayan","year":"2016","unstructured":"Satyanarayan, A., Moritz, D., Wongsuphasawat, K., Heer, J.: Vega-lite: a grammar of interactive graphics. IEEE Trans. Visual Comput. Graphics 23(1), 341\u2013350 (2016)","journal-title":"IEEE Trans. Visual Comput. Graphics"},{"key":"25_CR27","doi-asserted-by":"publisher","unstructured":"Siddiqui, T., Kim, A., Lee, J., Karahalios, K., Parameswaran, A.: Effortless data exploration with zenvisage: an expressive and interactive visual analytics system. Proc. VLDB Endow. 10(4), 457\u2013468 (2016). https:\/\/doi.org\/10.14778\/3025111.3025126","DOI":"10.14778\/3025111.3025126"},{"key":"25_CR28","doi-asserted-by":"crossref","unstructured":"Song, Y., Lu, J., Zhao, X., Wong, R.C.W., Zhang, H.: Demonstration of fevisqa: Free-form question answering over data visualization. In: ICDE. pp. 5417\u20135420. IEEE (2024)","DOI":"10.1109\/ICDE60146.2024.00417"},{"key":"25_CR29","doi-asserted-by":"crossref","unstructured":"Song, Y., Wong, R.C.W., Zhao, X.: Speech-to-SQL: toward speech-driven SQL query generation from natural language question. VLDB J. 1\u201323 (2024)","DOI":"10.1007\/s00778-024-00837-0"},{"key":"25_CR30","doi-asserted-by":"crossref","unstructured":"Song, Y., Wong, R.C.W., Zhao, X., Jiang, D.: Voicequerysystem: a voice-driven database querying system using natural language questions. In: SIGMOD, pp. 2385\u20132388 (2022)","DOI":"10.1145\/3514221.3520158"},{"key":"25_CR31","doi-asserted-by":"crossref","unstructured":"Song, Y., Zhao, X., Wong, R.C.W., Jiang, D.: Rgvisnet: a hybrid retrieval-generation neural framework towards automatic data visualization generation. In: KDD, pp. 1646\u20131655 (2022)","DOI":"10.1145\/3534678.3539330"},{"key":"25_CR32","doi-asserted-by":"crossref","unstructured":"Tang, J., Luo, Y., Ouzzani, M., Li, G., Chen, H.: SEVI: speech-to-visualization through neural machine translation. In: SIGMOD, pp. 2353\u20132356 (2022)","DOI":"10.1145\/3514221.3520150"},{"key":"25_CR33","doi-asserted-by":"crossref","unstructured":"Tang, N., Wu, E., Li, G.: Towards democratizing relational data visualization. In: Proceedings of the 2019 International Conference on Management of Data, pp. 2025\u20132030 (2019)","DOI":"10.1145\/3299869.3314029"},{"issue":"4","key":"25_CR34","doi-asserted-by":"publisher","first-page":"34","DOI":"10.1145\/3092931.3092937","volume":"45","author":"M Vartak","year":"2017","unstructured":"Vartak, M., Huang, S., Siddiqui, T., Madden, S., Parameswaran, A.: Towards visualization recommendation systems. ACM SIGMOD Rec. 45(4), 34\u201339 (2017)","journal-title":"ACM SIGMOD Rec."},{"key":"25_CR35","doi-asserted-by":"crossref","unstructured":"Vartak, M., Rahman, S., Madden, S., Parameswaran, A., Polyzotis, N.: SeeDB: efficient data-driven visualization recommendations to support visual analytics. In: VLDB, vol.\u00a08, p.\u00a02182. NIH Public Access (2015)","DOI":"10.14778\/2831360.2831371"},{"key":"25_CR36","doi-asserted-by":"crossref","unstructured":"Villanueva, R.A.M., Chen, Z.J.: ggplot2: elegant graphics for data analysis (2019)","DOI":"10.1080\/15366367.2019.1565254"},{"key":"25_CR37","unstructured":"Vinyals, O., Fortunato, M., Jaitly, N.: Pointer networks. In: Advances in Neural Information Processing Systems, vol. 28 (2015)"},{"key":"25_CR38","doi-asserted-by":"crossref","unstructured":"Wang, C., et al.: VoxPopuli: a large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation. In: ACL-IJCNLP, pp. 993\u20131003. Association for Computational Linguistics (2021)","DOI":"10.18653\/v1\/2021.acl-long.80"},{"key":"25_CR39","doi-asserted-by":"crossref","unstructured":"Xie, Y., Luo, Y., Li, G., Tang, N.: Haichart: Human and AI paired visualization system. In: VLDB (2024)","DOI":"10.14778\/3681954.3681992"},{"key":"25_CR40","doi-asserted-by":"crossref","unstructured":"Yu, T., et al.: Spider: a large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-SQL task. In: EMNLP, Brussels, Belgium. Association for Computational Linguistics (2018)","DOI":"10.18653\/v1\/D18-1425"},{"issue":"1","key":"25_CR41","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1007\/s41019-020-00151-z","volume":"6","author":"H Yuan","year":"2021","unstructured":"Yuan, H., Li, G.: A survey of traffic prediction: from spatio-temporal data to intelligent transportation. Data Sci. Eng. 6(1), 63\u201385 (2021)","journal-title":"Data Sci. Eng."},{"key":"25_CR42","doi-asserted-by":"crossref","unstructured":"Zhang, W., et al.: Natural language interfaces for tabular data querying and visualization: a survey. IEEE Trans. Knowl. Data Eng. (2024)","DOI":"10.1109\/TKDE.2024.3400824"}],"container-title":["Lecture Notes in Computer Science","Machine Learning and Knowledge Discovery in Databases. Research Track"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-06109-6_25","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,30]],"date-time":"2025-09-30T10:06:10Z","timestamp":1759226770000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-06109-6_25"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,1]]},"ISBN":["9783032061089","9783032061096"],"references-count":42,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-06109-6_25","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,10,1]]},"assertion":[{"value":"1 October 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECML PKDD","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Joint European Conference on Machine Learning and Knowledge Discovery in Databases","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Porto","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Portugal","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"19 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ecml2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/ecmlpkdd.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}