{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T21:17:26Z","timestamp":1757625446180,"version":"3.44.0"},"publisher-location":"Cham","reference-count":32,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783032025470"},{"type":"electronic","value":"9783032025487"}],"license":[{"start":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:00:00Z","timestamp":1755820800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:00:00Z","timestamp":1755820800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-02548-7_17","type":"book-chapter","created":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T05:39:59Z","timestamp":1755754799000},"page":"194-206","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Multilingual Stutter Event Detection for\u00a0English, German, and\u00a0Mandarin Speech"],"prefix":"10.1007","author":[{"given":"Felix","family":"Haas","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3502-9511","authenticated-orcid":false,"given":"Sebastian P.","family":"Bayerl","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,8,22]]},"reference":[{"key":"17_CR1","unstructured":"Baevski, A., Zhou, Y., Mohamed, A., Auli, M.: Wav2vec 2.0: a Framework for self-supervised learning of speech representations. In: Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M.F., Lin, H. (eds.) Advances in Neural Information Processing Systems, vol.\u00a033, pp. 12449\u201312460. Curran Associates, Inc. (2020)"},{"key":"17_CR2","doi-asserted-by":"crossref","unstructured":"Batra, A., Narang, M., Sharma, N.K., Das, P.K.: Boli: A dataset for understanding stuttering experience and analyzing stuttered speech. In: ICASSP 2025\u20132025 IEEE International Conference on Acoustics. Speech and Signal Processing (ICASSP), pp. 1\u20134. IEEE, Hyderabad, India (2025)","DOI":"10.1109\/ICASSP49660.2025.10888349"},{"key":"17_CR3","unstructured":"Bayerl, S., Wolff von Gudenberg, A., H\u00f6nig, F., Noeth, E., Riedhammer, K.: KSoF: The Kassel state of fluency dataset \u2013 a therapy centered dataset of stuttering. In: Proceedings of the Language Resources and Evaluation Conference, pp. 1780\u20131787. European Language Resources Association, Marseille, France (2022)"},{"key":"17_CR4","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1007\/978-3-031-16270-1_35","volume-title":"Text, Speech, and Dialogue","author":"SP Bayerl","year":"2022","unstructured":"Bayerl, S.P., Wagner, D., N\u00f6th, E., Bocklet, T., Riedhammer, K.: The Influence of Dataset Partitioning on Dysfluency Detection Systems. In: Sojka, P., Hor\u00e1k, A., Kope\u010dek, I., Pala, K. (eds.) Text, Speech, and Dialogue, vol. 13502, pp. 423\u2013436. Springer International Publishing, Cham (2022)"},{"key":"17_CR5","doi-asserted-by":"crossref","unstructured":"Bayerl, S.P., et al.: A stutter seldom comes alone \u2013 cross-corpus stuttering detection as a multi-label problem. In: Proc. INTERSPEECH 2023, pp. 1538\u20131542. Dublin (2023)","DOI":"10.21437\/Interspeech.2023-2026"},{"key":"17_CR6","doi-asserted-by":"crossref","unstructured":"Bayerl, S.P., Wagner, D., Noeth, E., Riedhammer, K.: Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0. In: Proc. Interspeech 2022, pp. 2868\u20132872. ISCA, Incheon (2022)","DOI":"10.21437\/Interspeech.2022-10908"},{"key":"17_CR7","doi-asserted-by":"publisher","first-page":"69","DOI":"10.1016\/j.jfludis.2018.03.002","volume":"56","author":"N Bernstein Ratner","year":"2018","unstructured":"Bernstein Ratner, N., MacWhinney, B.: Fluency Bank: a new resource for fluency research and practice. J. Fluency Disord. 56, 69\u201380 (2018)","journal-title":"J. Fluency Disord."},{"key":"17_CR8","unstructured":"Bloodstein, O., Ratner, N.B., Brundage, S.B.: A Handbook of Stuttering. Plural Publishing Inc, San Diego, CA, 7th edn (2021)"},{"key":"17_CR9","doi-asserted-by":"crossref","unstructured":"Cai, X., Yuan, J., Zheng, R., Huang, L., Church, K.: Speech Emotion Recognition with Multi-Task Learning. In: Interspeech 2021, pp. 4508\u20134512. ISCA (2021)","DOI":"10.21437\/Interspeech.2021-1852"},{"key":"17_CR10","doi-asserted-by":"crossref","unstructured":"Chen, S., et al.: WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE J. Selected Top. Signal Process. 16(6) (2022)","DOI":"10.1109\/JSTSP.2022.3188113"},{"key":"17_CR11","unstructured":"Chiu, C.C., Qin, J., Zhang, Y., Yu, J., Wu, Y.: Self-supervised learning with random-projection quantizer for speech recognition. In: Chaudhuri, K., et al. (eds.) Proceedings of the 39th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol.\u00a0162, pp. 3915\u20133924. PMLR (2022-07-17\/2022-07-23)"},{"issue":"07","key":"17_CR12","doi-asserted-by":"publisher","first-page":"1807","DOI":"10.4236\/ojapps.2024.147118","volume":"14","author":"TMT Duyen","year":"2024","unstructured":"Duyen, T.M.T.: Exploring phonetic differences and cross-linguistic influences: a comparative study of English and mandarin Chinese pronunciation patterns. Open J. Appl. Sci. 14(07), 1807\u20131822 (2024)","journal-title":"Open J. Appl. Sci."},{"issue":"4","key":"17_CR13","doi-asserted-by":"publisher","first-page":"295","DOI":"10.1016\/j.jfludis.2009.10.004","volume":"34","author":"JB Ellis","year":"2009","unstructured":"Ellis, J.B., Ramig, P.R.: A handbook on stuttering. J. Fluency Disord. 34(4), 295\u2013299 (2009)","journal-title":"J. Fluency Disord."},{"key":"17_CR14","doi-asserted-by":"crossref","unstructured":"Gong, R., et al.: AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection. In: Interspeech 2024, pp. 5098\u20135102. ISCA (2024)","DOI":"10.21437\/Interspeech.2024-918"},{"issue":"2","key":"17_CR15","doi-asserted-by":"publisher","first-page":"556","DOI":"10.1044\/1092-4388(2009\/07-0129)","volume":"52","author":"P Howell","year":"2009","unstructured":"Howell, P., Davis, S., Bartrip, J.: The university college London archive of stuttered speech (UCLASS). J. Speech Lang. Hear. Res. 52(2), 556\u2013569 (2009)","journal-title":"J. Speech Lang. Hear. Res."},{"key":"17_CR16","unstructured":"Howell, P., Sackin, S.: Automatic recognition of repetitions and prolongations in stuttered speech. In: Proceedings of the First World Congress on Fluency Disorders. vol.\u00a02, pp. 372\u2013374. University Press Nijmegen Nijmegen, The Netherlands (1995)"},{"key":"17_CR17","unstructured":"Kourkounakis, T.: LibriStutter (2021)"},{"key":"17_CR18","doi-asserted-by":"crossref","unstructured":"Kourkounakis, T., Hajavi, A., Etemad, A.: Detecting multiple speech disfluencies using a deep residual network with bidirectional long short-term memory. In: ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6089\u20136093. IEEE (2020)","DOI":"10.1109\/ICASSP40776.2020.9053893"},{"key":"17_CR19","doi-asserted-by":"crossref","unstructured":"Lea, C., Mitra, V., Joshi, A., Kajarekar, S., Bigham, J.P.: SEP-28k: A dataset for stuttering event detection from podcasts with people who stutter. In: ICASSP 2021\u20132021 IEEE International Conference on Acoustics. Speech and Signal Processing (ICASSP), pp. 6798\u20136802. IEEE, Toronto, ON, Canada (2021)","DOI":"10.1109\/ICASSP39728.2021.9413520"},{"key":"17_CR20","unstructured":"Lickley, R.: Disfluency in typical and stuttered speech. Fattori sociali e biologici nella variazione fonetica (3), 373 (2017)"},{"issue":"2","key":"17_CR21","doi-asserted-by":"publisher","first-page":"318","DOI":"10.1109\/TPAMI.2018.2858826","volume":"42","author":"TY Lin","year":"2020","unstructured":"Lin, T.Y., Goyal, P., Girshick, R., He, K., Dollar, P.: Focal loss for dense object detection. IEEE Trans. Pattern Anal. Mach. Intell. 42(2), 318\u2013327 (2020)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"17_CR22","unstructured":"Noeth, E., et al.: Automatic stuttering recognition using hidden Markov models. In: Sixth International Conference on Spoken Language Processing, vol.\u00a04, pp. 65\u201368 (2000)"},{"key":"17_CR23","doi-asserted-by":"crossref","unstructured":"Pironkov, G., Dupont, S., Dutoit, T.: Speaker-aware long short-term memory multi-task learning for speech recognition. In: 2016 24th European Signal Processing Conference (EUSIPCO), pp. 1911\u20131915. IEEE, Budapest, Hungary","DOI":"10.1109\/EUSIPCO.2016.7760581"},{"key":"17_CR24","unstructured":"Radford, A., Kim, J.W., Xu, T., Brockman, G., McLeavey, C., Sutskever, I.: Robust Speech Recognition via Large-Scale Weak Supervision p.\u00a028 (2022)"},{"key":"17_CR25","doi-asserted-by":"crossref","unstructured":"Ravanelli, M., et al.: Multi-Task Self-supervised learning for robust speech recognition. In: ICASSP 2020\u20132020 IEEE International Conference on Acoustics. Speech and Signal Processing (ICASSP), pp. 6989\u20136993. IEEE, Barcelona, Spain (2020)","DOI":"10.1109\/ICASSP40776.2020.9053569"},{"key":"17_CR26","doi-asserted-by":"crossref","unstructured":"Sheikh, S.A., Hirsch, F., Ouni, S.: Robust stuttering detection via multi-task and adversarial learning. In: 2022 30th European Signal Processing Conference (EUSIPCO). p.\u00a05 (2022)","DOI":"10.23919\/EUSIPCO55093.2022.9909644"},{"key":"17_CR27","doi-asserted-by":"crossref","unstructured":"Sheikh, S.A., Sahidullah, M., Hirsch, F., Ouni, S.: StutterNet: stuttering detection using time delay neural network. In: 2021 29th European Signal Processing Conference (EUSIPCO), pp. 426\u2013430. IEEE, Dublin, Ireland (2021)","DOI":"10.23919\/EUSIPCO54536.2021.9616063"},{"key":"17_CR28","unstructured":"Wolf, T., et al.: Transformers: State-of-the-Art natural language processing. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics (2020)"},{"key":"17_CR29","doi-asserted-by":"crossref","unstructured":"Xu, X., Kang, Y., Cao, S., Lin, B., Ma, L.: Explore wav2vec 2.0 for mispronunciation detection. In: Interspeech 2021. pp. 4428\u20134432. ISCA (2021)","DOI":"10.21437\/Interspeech.2021-777"},{"key":"17_CR30","doi-asserted-by":"crossref","unstructured":"Xue, H., et al.: Findings of the 2024 mandarin stuttering event detection and automatic speech recognition challenge. In: 2024 IEEE Spoken Language Technology Workshop (SLT). pp. 385\u2013392. IEEE, Macao (2024)","DOI":"10.1109\/SLT61566.2024.10832208"},{"issue":"2","key":"17_CR31","doi-asserted-by":"publisher","first-page":"66","DOI":"10.1016\/j.jfludis.2012.11.002","volume":"38","author":"E Yairi","year":"2013","unstructured":"Yairi, E., Ambrose, N.: Epidemiology of stuttering: 21st century advances. J. Fluency Disord. 38(2), 66\u201387 (2013)","journal-title":"J. Fluency Disord."},{"key":"17_CR32","doi-asserted-by":"crossref","unstructured":"Zhou, X., et al.: YOLO-Stutter: End-to-end Region-wise speech dysfluency detection. In: Interspeech 2024, pp. 937\u2013941. ISCA (2024)","DOI":"10.21437\/Interspeech.2024-1855"}],"container-title":["Lecture Notes in Computer Science","Text, Speech, and Dialogue"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-02548-7_17","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,9]],"date-time":"2025-09-09T18:05:34Z","timestamp":1757441134000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-02548-7_17"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,22]]},"ISBN":["9783032025470","9783032025487"],"references-count":32,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-02548-7_17","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,8,22]]},"assertion":[{"value":"22 August 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"TSD","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Text, Speech, and Dialogue","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Erlangen","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25 August 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28 August 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"tsd2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.kiv.zcu.cz\/tsd2025\/index.php","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}