{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T07:02:04Z","timestamp":1761894124245,"version":"build-2065373602"},"publisher-location":"Singapore","reference-count":29,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819527243","type":"print"},{"value":"9789819527250","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-2725-0_7","type":"book-chapter","created":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T05:20:04Z","timestamp":1761888004000},"page":"89-104","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["CRAF: Cross-Modal Representation Alignment and\u00a0Fusion for\u00a0Speech Translation"],"prefix":"10.1007","author":[{"given":"Zhenbei","family":"Guo","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenzhou","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hua","family":"Lai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yan","family":"Xiang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuxin","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhengtao","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,11,1]]},"reference":[{"key":"7_CR1","unstructured":"B\u00e9rard, A., Pietquin, O., Besacier, L., Servan, C.: Listen and translate: a proof of concept for end-to-end speech-to-text translation. In: NeurIPS. Barcelona, Spain (2016)"},{"key":"7_CR2","doi-asserted-by":"crossref","unstructured":"Duong, L., Anastasopoulos, A., Chiang, D., Bird, S., Cohn, T.: An attentional model for speech translation without transcription. In: NAACL, pp. 949\u2013959. Association for Computational Linguistics, San Diego, California (2016)","DOI":"10.18653\/v1\/N16-1109"},{"key":"7_CR3","doi-asserted-by":"crossref","unstructured":"Ye, R., Wang, M., Li, L.: End-to-end speech translation via cross-modal progressive training. ArXiv abs\/2104.10380 (2021)","DOI":"10.21437\/Interspeech.2021-1065"},{"key":"7_CR4","doi-asserted-by":"crossref","unstructured":"Ye, R., Wang, M., Li, L.: Cross-modal contrastive learning for speech translation. In: NAACL, pp. 5099 \u2013 5113. Association for Computational Linguistics, Seattle,United States (2022)","DOI":"10.18653\/v1\/2022.naacl-main.376"},{"key":"7_CR5","first-page":"10816","volume-title":"ACL","author":"C Xu","year":"2023","unstructured":"Xu, C., et al.: Bridging the granularity gap for acoustic modeling. In: Rogers, A., Boyd-Graber, J., Okazaki, N. (eds.) ACL, pp. 10816\u201310833. Association for Computational Linguistics, Toronto, Canada (2023)"},{"key":"7_CR6","doi-asserted-by":"crossref","unstructured":"Han, C., Wang, M., Ji, H., Li, L.: Learning shared semantic space for speech-to-text translation. In: ACL-IJCNLP, pp. 2214\u20132225 (2021)","DOI":"10.18653\/v1\/2021.findings-acl.195"},{"key":"7_CR7","first-page":"7050","volume-title":"ACL","author":"Q Fang","year":"2022","unstructured":"Fang, Q., Ye, R., Li, L., Feng, Y., Wang, M.: STEMM: Self-learning with speech-text manifold mixup for speech translation. In: Muresan, S., Nakov, P., Villavicencio, A. (eds.) ACL, pp. 7050\u20137062. Association for Computational Linguistics, Dublin, Ireland (2022)"},{"key":"7_CR8","doi-asserted-by":"crossref","unstructured":"Gangi, M.A.D., Negri, M., Turchi, M.: Adapting transformer to end-to-end spoken language translation. In: Interspeech (2019)","DOI":"10.21437\/Interspeech.2019-3045"},{"key":"7_CR9","doi-asserted-by":"crossref","unstructured":"Zhang, Z., et al.: Speechlm: enhanced speech pre-training with unpaired textual data. IEEE\/ACM Trans. Audio, Speech and Lang. Proc. 32, 2177\u20132187 (2024)","DOI":"10.1109\/TASLP.2024.3379877"},{"key":"7_CR10","first-page":"7873","volume-title":"ACL","author":"Y Zhou","year":"2023","unstructured":"Zhou, Y., Fang, Q., Feng, Y.: CMOT: cross-modal mixup via optimal transport for speech translation. In: Rogers, A., Boyd-Graber, J., Okazaki, N. (eds.) ACL, pp. 7873\u20137887. Association for Computational Linguistics, Toronto, Canada (2023)"},{"key":"7_CR11","doi-asserted-by":"publisher","unstructured":"Papi, S., Gaido, M., Negri, M., Turchi, M.: Speechformer: Reducing information loss in direct speech translation. In: Moens, M.F., Huang, X., Specia, L., Yih, S.W.t. (eds.) Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 1698\u20131706. Association for Computational Linguistics, Online and Punta Cana, Dominican Republic (2021). https:\/\/doi.org\/10.18653\/v1\/2021.emnlp-main.127, https:\/\/aclanthology.org\/2021.emnlp-main.127\/","DOI":"10.18653\/v1\/2021.emnlp-main.127"},{"key":"7_CR12","doi-asserted-by":"publisher","unstructured":"Xu, C., et al.: Bridging the granularity gap for acoustic modeling. In: Rogers, A., Boyd-Graber, J., Okazaki, N. (eds.) Findings of the Association for Computational Linguistics: ACL 2023, pp. 10816\u201310833. Association for Computational Linguistics, Toronto, Canada (2023).https:\/\/doi.org\/10.18653\/v1\/2023.findings-acl.688, https:\/\/aclanthology.org\/2023.findings-acl.688\/","DOI":"10.18653\/v1\/2023.findings-acl.688"},{"key":"7_CR13","doi-asserted-by":"crossref","unstructured":"Waibel, A., Jain, A., McNair, A., Saito, H., Hauptmann, A., Tebelskis, J.: Janus: a speech-to-speech translation system using connectionist and symbolic processing strategies. In: International Conference on Acoustics, Speech, and Signal Processing, pp. 793\u2013796 vol.2 (1991)","DOI":"10.1109\/ICASSP.1991.150456"},{"key":"7_CR14","doi-asserted-by":"crossref","unstructured":"Vila, L., Escolano, C., Fonollosa, J., Costa-jussa, M.: End-to-end speech translation with the transformer. In: IberSPEECH, pp. 60\u201363 (2018)","DOI":"10.21437\/IberSPEECH.2018-13"},{"key":"7_CR15","first-page":"2786","volume-title":"NAACL","author":"E Salesky","year":"2019","unstructured":"Salesky, E., Sperber, M., Waibel, A.: Fluent translations from disfluent speech in end-to-end speech translation. In: Burstein, J., Doran, C., Solorio, T. (eds.) NAACL, pp. 2786\u20132792. Association for Computational Linguistics, Minneapolis, Minnesota (2019)"},{"key":"7_CR16","first-page":"33","volume-title":"AACL-IJCNLP","author":"C Wang","year":"2020","unstructured":"Wang, C., Tang, Y., Ma, X., Wu, A., Okhonko, D., Pino, J.: Fairseq S2T: fast speech-to-text modeling with fairseq. In: Wong, D., Kiela, D. (eds.) AACL-IJCNLP, pp. 33\u201339. Association for Computational Linguistics, Suzhou, China (2020)"},{"key":"7_CR17","unstructured":"Villani, C.: Optimal transport \u2013 Old and new, vol.\u00a0338, pp. xxii+973. Springer (2008)"},{"key":"7_CR18","doi-asserted-by":"crossref","unstructured":"Chen, Y.C., et al.: Uniter: universal image-text representation learning. In: European Conference On Computer Vision, pp. 104\u2013120. Springer (2020)","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"7_CR19","doi-asserted-by":"crossref","unstructured":"Tsiamas, I., G\u00e1llego, G., Fonollosa, J., Costa-jussa, M.: Pushing the limits of zero-shot end-to-end speech translation. In: ACL, pp. 14245\u201314267. Bangkok, Thailand (2024)","DOI":"10.18653\/v1\/2024.findings-acl.847"},{"key":"7_CR20","doi-asserted-by":"crossref","unstructured":"Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R., Mohamed, A.: Hubert: self-supervised speech representation learning by masked prediction of hidden units. IEEE\/ACM Trans. Audio, Speech and Lang. Proc. 29, 3451\u20133460 (2021)","DOI":"10.1109\/TASLP.2021.3122291"},{"key":"7_CR21","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS, pp. 6000\u20136010. NIPS\u201917, Curran Associates Inc., Red Hook, NY, USA (2017)"},{"key":"7_CR22","unstructured":"Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. CoRR abs\/1409.0473 (2014)"},{"key":"7_CR23","doi-asserted-by":"crossref","unstructured":"Peyr\u00e9, G., Cuturi, M.: Computational optimal transport: with applications to data science. Found. Trends Mach. Learn. 11, 355\u2013206 (2019)","DOI":"10.1561\/2200000073"},{"key":"7_CR24","first-page":"2012","volume-title":"NAACL","author":"MA Di Gangi","year":"2019","unstructured":"Di Gangi, M.A., Cattoni, R., Bentivogli, L., Negri, M., Turchi, M.: MuST-C: a Multilingual Speech Translation Corpus. In: Burstein, J., Doran, C., Solorio, T. (eds.) NAACL, pp. 2012\u20132017. Association for Computational Linguistics, Minneapolis, Minnesota (2019)"},{"key":"7_CR25","doi-asserted-by":"crossref","unstructured":"Kudo, T., Richardson, J.: Sentencepiece: a simple and language independent subword tokenizer and detokenizer for neural text processing. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-2012"},{"key":"7_CR26","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. CoRR abs\/1412.6980 (2014)"},{"key":"7_CR27","first-page":"186","volume-title":"WMT","author":"M Post","year":"2018","unstructured":"Post, M.: A call for clarity in reporting BLEU scores. In: Bojar, O., et al. (eds.) WMT, pp. 186\u2013191. Association for Computational Linguistics, Brussels, Belgium (2018)"},{"key":"7_CR28","doi-asserted-by":"crossref","unstructured":"Zhang, H., et al.: Improving speech translation by cross-modal multi-grained contrastive learning. IEEE\/ACM Trans. Audio, Speech and Lang. Proc. 31, 1075\u20131086 (2023)","DOI":"10.1109\/TASLP.2023.3244521"},{"key":"7_CR29","doi-asserted-by":"crossref","unstructured":"Zhou, Y., Yuan, Y.: A multitask co-training framework for improving speech translation by leveraging speech recognition and machine translation tasks. Neural Comput. Appl. 36, 1\u201316 (02 2024)","DOI":"10.1007\/s00521-024-09547-8"}],"container-title":["Lecture Notes in Computer Science","Chinese Computational Linguistics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-2725-0_7","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T05:20:09Z","timestamp":1761888009000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-2725-0_7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,1]]},"ISBN":["9789819527243","9789819527250"],"references-count":29,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-2725-0_7","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,1]]},"assertion":[{"value":"1 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"CCL","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China National Conference on Chinese Computational Linguistics","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Jinan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 August 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 August 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"24","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"cncl2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/link.springer.com\/conference\/cncl","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}