{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,29]],"date-time":"2025-11-29T07:58:37Z","timestamp":1764403117483},"reference-count":55,"publisher":"Institute of Electronics, Information and Communications Engineers (IEICE)","issue":"12","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEICE Trans. Inf. &amp; Syst."],"published-print":{"date-parts":[[2021,12,1]]},"DOI":"10.1587\/transinf.2021edp7014","type":"journal-article","created":{"date-parts":[[2021,11,30]],"date-time":"2021-11-30T22:39:39Z","timestamp":1638311979000},"page":"2195-2208","source":"Crossref","is-referenced-by-count":4,"title":["Neural Incremental Speech Recognition Toward Real-Time Machine Speech Translation"],"prefix":"10.1587","volume":"E104.D","author":[{"given":"Sashi","family":"NOVITASARI","sequence":"first","affiliation":[{"name":"Augmented Human Communication Lab, Nara Institute of Science and Technology"}]},{"given":"Sakriani","family":"SAKTI","sequence":"additional","affiliation":[{"name":"Augmented Human Communication Lab, Nara Institute of Science and Technology"},{"name":"RIKEN, Center for Advanced Intelligence Project AIP"},{"name":"Japan Advanced Institute of Science and Technology"}]},{"given":"Satoshi","family":"NAKAMURA","sequence":"additional","affiliation":[{"name":"Augmented Human Communication Lab, Nara Institute of Science and Technology"},{"name":"RIKEN, Center for Advanced Intelligence Project AIP"}]}],"member":"532","reference":[{"key":"1","unstructured":"[1] S. Nakamura, \u201cOvercoming the language barrier with speech translation technology,\u201d Science &amp; Technology Trends-Quarterly Review no.31, April 2009."},{"key":"2","unstructured":"[2] E. Matusov, A. Mauser, and H. Ney, \u201cAutomatic sentence segmentation and punctuation prediction for spoken language translation,\u201d Proc. IWSLT, Kyoto, Japan, pp.158-165, 2006."},{"key":"3","doi-asserted-by":"crossref","unstructured":"[3] M. Pouget, O. Nahorna, T. Hueber, and G. Bailly, \u201cAdaptive latency for part-of-speech tagging in incremental text-to-speech synthesis,\u201d Proc. Interspeech, pp.2846-2850, 2016. 10.21437\/Interspeech.2016-165","DOI":"10.21437\/Interspeech.2016-165"},{"key":"4","doi-asserted-by":"crossref","unstructured":"[4] T. Kano, S. Sakti, and S. Nakamura, \u201cStructured-based curriculum learning for end-to-end English-Japanese speech translation,\u201d Proc. Interspeech, pp.2630-2634, 2017. 10.21437\/Interspeech.2017-944","DOI":"10.21437\/Interspeech.2017-944"},{"key":"5","doi-asserted-by":"crossref","unstructured":"[5] L. Cross Vila, C. Escolano, J.A.R. Fonollosa, and M.R. Costa-juss\u00e0, \u201cEnd-to-end speech translation with the transformer,\u201d Proc. IberSPEECH, pp.60-63, 2018. 10.21437\/IberSPEECH.2018-13","DOI":"10.21437\/IberSPEECH.2018-13"},{"key":"6","doi-asserted-by":"crossref","unstructured":"[6] Y. Liu, H. Xiong, J. Zhang, Z. He, H. Wu, H. Wang, and C. Zong, \u201cEnd-to-end speech translation with knowledge distillation,\u201d Proc. Interspeech, pp.1128-1132, 2019. 10.21437\/Interspeech.2019-2582","DOI":"10.21437\/Interspeech.2019-2582"},{"key":"7","unstructured":"[7] N. Jaitly, Q.V. Le, O. Vinyals, I. Sutskever, D. Sussillo, and S. Bengio, \u201cAn online sequence-to-sequence model using partial conditioning,\u201d Proc. NIPS, pp.5067-5075, 2016."},{"key":"8","doi-asserted-by":"crossref","unstructured":"[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen, and Z. Chen, \u201cImproving the performance of online neural transducer models,\u201d Proc. ICASSP, pp.5864-5868, 2018. 10.1109\/ICASSP.2018.8462366","DOI":"10.1109\/ICASSP.2018.8462366"},{"key":"9","doi-asserted-by":"crossref","unstructured":"[9] H. Inaguma, Y. Gaur, L. Lu, J. Li, and Y. Gong, \u201cMinimum latency training strategies for streaming sequence-to-sequence ASR,\u201d Proc. ICASSP, pp.6064-6068, 2020. 10.1109\/ICASSP40776.2020.9054098","DOI":"10.1109\/ICASSP40776.2020.9054098"},{"key":"10","doi-asserted-by":"crossref","unstructured":"[10] T. Sainath, Y. He, B. Li, A. Narayanan, R. Pang, A. Bruguier, S.y. Chang, W. Li, R. Alvarez, Z. Chen, C.C. Chiu, D. Garcia, A. Gruenstein, K. Hu, A. Kannan, Q. Liang, I. McGraw, C. Peyser, R. Prabhavalkar, G. Pundak, D. Rybach, Y. Shangguan, Y. Sheth, T. Strohman, M. Visontai, Y. Wu, Y. Zhang, and D. Zhao, \u201cA streaming on-device end-to-end model surpassing server-side conventional model quality and latency,\u201d Proc. ICASSP, pp.6059-6063, 2020. 10.1109\/ICASSP40776.2020.9054188","DOI":"10.1109\/ICASSP40776.2020.9054188"},{"key":"11","doi-asserted-by":"crossref","unstructured":"[11] B. Li, S.y. Chang, T.N. Sainath, R. Pang, Y. He, T. Strohman, and Y. Wu, \u201cTowards fast and accurate streaming end-to-end ASR,\u201d Proc. ICASSP, pp.6069-6073, 2020. 10.1109\/ICASSP40776.2020.9054715","DOI":"10.1109\/ICASSP40776.2020.9054715"},{"key":"12","doi-asserted-by":"crossref","unstructured":"[12] H. Miao, G. Cheng, C. Gao, P. Zhang, and Y. Yan, \u201cTransformer-based online CTC\/attention end-to-end speech recognition architecture,\u201d Proc. ICASSP, pp.6084-6088, 2020. 10.1109\/ICASSP40776.2020.9053165","DOI":"10.1109\/ICASSP40776.2020.9053165"},{"key":"13","doi-asserted-by":"crossref","unstructured":"[13] N. Moritz, T. Hori, and J. Le, \u201cStreaming automatic speech recognition with the transformer model,\u201d Proc. ICASSP, pp.6074-6078, 2020. 10.1109\/ICASSP40776.2020.9054476","DOI":"10.1109\/ICASSP40776.2020.9054476"},{"key":"14","doi-asserted-by":"publisher","unstructured":"[14] S. Yagi, \u201cStudying style in simultaneous interpretation,\u201d Meta: Translators&apos; Journal, vol.45, no.3, pp.520-547, Sept. 2000. 10.7202\/004626ar","DOI":"10.7202\/004626ar"},{"key":"15","doi-asserted-by":"publisher","unstructured":"[15] C. F\u00fcgen, A.H. Waibel, and M. Kolss, \u201cSimultaneous translation of lectures and speeches,\u201d Machine Translation, vol.21, pp.209-252, 2007. 10.1007\/s10590-008-9047-0","DOI":"10.1007\/s10590-008-9047-0"},{"key":"16","unstructured":"[16] H.C. Barik, A study of simultaneous interpretation. Ph.D. thesis, University of North Carolina at Chapel Hill, 1969."},{"key":"17","doi-asserted-by":"crossref","unstructured":"[17] M. Lederer, Language Interpretation and Communication, ch. Simultaneous Interpretation \u2014 Units of Meaning and other Features, pp.323-332, Springer US, Boston, MA, 1978. 10.1007\/978-1-4615-9077-4_28","DOI":"10.1007\/978-1-4615-9077-4_28"},{"key":"18","doi-asserted-by":"crossref","unstructured":"[18] B. Ramabhadran, J. Huang, and M. Picheny, \u201cTowards automatic transcription of large spoken archives-English ASR for the MALACH project,\u201d Proc. ICASSP, pp.216-219, 2003. 10.1109\/ICASSP.2003.1198756","DOI":"10.1109\/ICASSP.2003.1198756"},{"key":"19","doi-asserted-by":"crossref","unstructured":"[19] J. Yuan, M. Liberman, and C. Cieri, \u201cTowards an integrated understanding of speaking rate in conversation,\u201d Proc. Interspeech, 2006. 10.21437\/Interspeech.2006-204","DOI":"10.21437\/Interspeech.2006-204"},{"key":"20","doi-asserted-by":"publisher","unstructured":"[20] D. Gile, \u201cMethodological aspects of interpretation (and translation) research,\u201d Target-International Journal of Translation Studies, vol.3, pp.153-174, 1991. 10.1075\/target.3.2.03gil","DOI":"10.1075\/target.3.2.03gil"},{"key":"21","doi-asserted-by":"crossref","unstructured":"[21] W. Chan, N. Jaitly, Q. Le, and O. Vinyals, \u201cListen, attend and spell: A neural network for large vocabulary conversational speech recognition,\u201d Proc. ICASSP, pp.4960-4964, 2016. 10.1109\/ICASSP.2016.7472621","DOI":"10.1109\/ICASSP.2016.7472621"},{"key":"22","unstructured":"[22] J.K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, \u201cAttention-based models for speech recognition,\u201d Proc. NIPS, pp.577-585, Dec. 2015."},{"key":"23","unstructured":"[23] D. Bahdanau, K. Cho, and Y. Bengio, \u201cNeural machine translation by jointly learning to align and translate,\u201d Proc. ICLR, 2015."},{"key":"24","doi-asserted-by":"crossref","unstructured":"[24] M.T. Luong, H. Pham, and C.D. Manning, \u201cEffective approaches to attention-based neural machine translation,\u201d Proc. EMNLP, pp.1412-1421, Sept. 2015. 10.18653\/v1\/D15-1166","DOI":"10.18653\/v1\/D15-1166"},{"key":"25","doi-asserted-by":"crossref","unstructured":"[25] A. Graves, \u201cSupervised sequence labelling,\u201d in Supervised sequence labelling with recurrent neural networks, pp.5-13, Springer, 2012. 10.1007\/978-3-642-24797-2_2","DOI":"10.1007\/978-3-642-24797-2_2"},{"key":"26","doi-asserted-by":"crossref","unstructured":"[26] T. Ochiai, S. Watanabe, T. Hori, and J.R. Hershey, \u201cMultichannel end-to-end speech recognition,\u201d Proc. ICML, vol.70, pp.2632-2641, Aug. 2017.","DOI":"10.1109\/ICASSP.2018.8462161"},{"key":"27","doi-asserted-by":"crossref","unstructured":"[27] S. Ueno, H. Inaguma, M. Mimura, and T. Kawahara, \u201cAcoustic-to-word attention-based model complemented with character-level CTC-based model,\u201d Proc. ICASSP, pp.5804-5808, 2018. 10.1109\/ICASSP.2018.8462576","DOI":"10.1109\/ICASSP.2018.8462576"},{"key":"28","doi-asserted-by":"crossref","unstructured":"[28] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, E. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani, , \u201cState-of-the-art speech recognition with sequence-to-sequence models,\u201d Proc. ICASSP, pp.4774-4778, 2018. 10.1109\/ICASSP.2018.8462105","DOI":"10.1109\/ICASSP.2018.8462105"},{"key":"29","doi-asserted-by":"crossref","unstructured":"[29] K. Irie, R. Prabhavalkar, A. Kannan, A. Bruguier, D. Rybach, and P. Nguyen, \u201cOn the choice of modeling unit for sequence-to-sequence speech recognition,\u201d Proc. Interspeech, pp.3800-3804, 2019. 10.21437\/Interspeech.2019-2277","DOI":"10.21437\/Interspeech.2019-2277"},{"key":"30","doi-asserted-by":"crossref","unstructured":"[30] R. Sennrich, B. Haddow, and A. Birch, \u201cNeural machine translation of rare words with subword units,\u201d Proc. ACL, pp.1715-1725, Aug. 2015. 10.18653\/v1\/P16-1162","DOI":"10.18653\/v1\/P16-1162"},{"key":"31","doi-asserted-by":"crossref","unstructured":"[31] T. Kudo and J. Richardson, \u201cSentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing,\u201d Proc. EMNLP, pp.66-71, Nov. 2018. 10.18653\/v1\/D18-2012","DOI":"10.18653\/v1\/D18-2012"},{"key":"32","doi-asserted-by":"crossref","unstructured":"[32] D.B. Paul and J.M. Baker, \u201cThe design for the Wall Street Journal-based CSR corpus,\u201d Proc. HLT, pp.357-362, Feb. 1992. 10.3115\/1075527.1075614","DOI":"10.3115\/1075527.1075614"},{"key":"33","unstructured":"[33] A. Rousseau, P. Del\u00e9glise, and Y. Est\u00e8ve, \u201cTED-LIUM: an automatic speech recognition dedicated corpus,\u201d Proc. LREC, pp.125-129, 2012."},{"key":"34","unstructured":"[34] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, \u201cThe Kaldi speech recognition toolkit,\u201d Proc. ASRU, pp.1-4, 2011."},{"key":"35","unstructured":"[35] M. Cettolo, M. Federico, L. Bentivogli, N. Jan, S. Sebastian, S. Katsuitho, Y. Koichiro, and F. Christian, \u201cOverview of the IWSLT 2017 evaluation campaign,\u201d Proc. IWSLT, pp.2-14, 2017."},{"key":"36","doi-asserted-by":"crossref","unstructured":"[36] A. Tjandra, S. Sakti, and S. Nakamura, \u201cMulti-scale alignment and contextual history for attention mechanism in sequence-to-sequence model,\u201d Proc. SLT, pp.648-655, 2018. 10.1109\/SLT.2018.8639528","DOI":"10.1109\/SLT.2018.8639528"},{"key":"37","doi-asserted-by":"crossref","unstructured":"[37] M. McAuliffe, M. Socolof, S. Mihuc, M. Wagner, and M. Sonderegger, \u201cMontreal Forced Aligner: Trainable text-speech alignment using Kaldi,\u201d Proc. Interspeech, pp.498-502, 2017. 10.21437\/Interspeech.2017-1386","DOI":"10.21437\/Interspeech.2017-1386"},{"key":"38","doi-asserted-by":"publisher","unstructured":"[38] M. Gales and S. Young, \u201cThe application of hidden Markov models in speech recognition,\u201d Foundations and Trends in Signal Processing, vol.1, no.3, pp.195-304, 2008. 10.1561\/2000000004","DOI":"10.1561\/2000000004"},{"key":"39","doi-asserted-by":"crossref","unstructured":"[39] K. Hwang and W. Sung, \u201cCharacter-level incremental speech recognition with recurrent neural networks,\u201d Proc. ICASSP, pp.5335-5339, 2016. 10.1109\/ICASSP.2016.7472696","DOI":"10.1109\/ICASSP.2016.7472696"},{"key":"40","doi-asserted-by":"crossref","unstructured":"[40] S. Kim, T. Hori, and S. Watanabe, \u201cJoint CTC-attention based end-to-end speech recognition using multi-task learning,\u201d Proc. ICASSP, pp.4835-4839, 2017. 10.1109\/ICASSP.2017.7953075","DOI":"10.1109\/ICASSP.2017.7953075"},{"key":"41","doi-asserted-by":"crossref","unstructured":"[41] S. Novitasari, A. Tjandra, S. Sakti, and S. Nakamura, \u201cSequence-to-sequence learning via attention transfer for incremental speech recognition,\u201d Proc. Interspeech, pp.3835-3839, 2019. 10.21437\/Interspeech.2019-2985","DOI":"10.21437\/Interspeech.2019-2985"},{"key":"42","unstructured":"[42] Y. Wu, M. Schuster, Z. Chen, Q. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, L. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean, \u201cGoogle&apos;s neural machine translation system: Bridging the gap between human and machine translation,\u201d CoRR, vol.abs\/1609.08144, 2016."},{"key":"43","doi-asserted-by":"crossref","unstructured":"[43] T. Kudo, \u201cSubword regularization: Improving neural network translation models with multiple subword candidates,\u201d Proc. ACL, pp.66-75, July 2018. 10.18653\/v1\/P18-1007","DOI":"10.18653\/v1\/P18-1007"},{"key":"44","doi-asserted-by":"crossref","unstructured":"[44] T. Banerjee and P. Bhattacharyya, \u201cMeaningless yet meaningful: Morphology grounded subword-level NMT,\u201d Proc. SCLeM, pp.55-60, June 2018. 10.18653\/v1\/W18-1207","DOI":"10.18653\/v1\/W18-1207"},{"key":"45","unstructured":"[45] M. Garcia-Martinez, L. Barrault, A. Rousseau, P. Del\u00e9glise, and Y. Est\u00e8ve, \u201cThe LIUM ASR and SLT systems for IWSLT 2015,\u201d Proc. IWSLT, pp.50-54, 2015."},{"key":"46","doi-asserted-by":"crossref","unstructured":"[46] K. Papineni, S. Roukos, T. Ward, and W. Zhu, \u201cBLEU: A method for automatic evaluation of machine translation,\u201d Proc. ACL, pp.311-318, July 2002. 10.3115\/1073083.1073135","DOI":"10.3115\/1073083.1073135"},{"key":"47","doi-asserted-by":"crossref","unstructured":"[47] G. Doddington, \u201cAutomatic evaluation of machine translation quality using N-gram co-occurrence statistics,\u201d Proc. HLT, pp.138-145, 2002.","DOI":"10.3115\/1289189.1289273"},{"key":"48","unstructured":"[48] S. Banerjee and A. Lavie, \u201cMETEOR: An automatic metric for MT evaluation with improved correlation with human judgments,\u201d Proc. ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization, pp.65-72, June 2005."},{"key":"49","unstructured":"[49] M. Cettolo, J. Niehues, S. St\u00fcker, L. Bentivogli, R. Cattoni, and M. Federico, \u201cThe IWSLT 2015 evaluation campaign,\u201d Proc. IWSLT, pp.2-14, 2015."},{"key":"50","doi-asserted-by":"publisher","unstructured":"[50] L. Rabiner, \u201cA tutorial on hidden Markov models and selected applications in speech recognition,\u201d Proc. IEEE, vol.77, no.2, pp.257-286, Feb. 1989. 10.1109\/5.18626","DOI":"10.1109\/5.18626"},{"key":"51","doi-asserted-by":"crossref","unstructured":"[51] D. Dechelotte, H. Schwenk, G. Adda, and J. Gauvain, \u201cImproved machine translation of speech-to-text outputs,\u201d Proc. Interspeech, pp.2441-2444, 2007.","DOI":"10.21437\/Interspeech.2007-642"},{"key":"52","doi-asserted-by":"publisher","unstructured":"[52] E. Matusov and H. Ney, \u201cLattice-based ASR-MT interface for speech translation,\u201d IEEE Trans. Audio, Speech, Language Process., vol.19, no.4, pp.721-732, May 2011. 10.1109\/TASL.2010.2060483","DOI":"10.1109\/TASL.2010.2060483"},{"key":"53","unstructured":"[53] X. Wang, A. Finch, M. Utiyama, and E. Sumita, \u201cA prototype automatic simultaneous interpretation system,\u201d Proc. COLING, pp.30-34, Dec. 2016."},{"key":"54","unstructured":"[54] X. Wang, A. Finch, M. Utiyama, and E. Sumita, \u201cAn efficient and effective online sentence segmenter for simultaneous interpretation,\u201d Proc. WAT, pp.139-148, Dec. 2016."},{"key":"55","doi-asserted-by":"crossref","unstructured":"[55] Y. Ren, J. Liu, X. Tan, C. Zhang, T. QIN, Z. Zhao, and T.Y. Liu, \u201cSimulSpeech: End-to-end simultaneous speech to text translation,\u201d Proc. ACL, pp.3787-3796, July 2020. 10.18653\/v1\/2020.acl-main.350","DOI":"10.18653\/v1\/2020.acl-main.350"}],"container-title":["IEICE Transactions on Information and Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E104.D\/12\/E104.D_2021EDP7014\/_pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,13]],"date-time":"2024-09-13T10:27:28Z","timestamp":1726223248000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E104.D\/12\/E104.D_2021EDP7014\/_article"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,12,1]]},"references-count":55,"journal-issue":{"issue":"12","published-print":{"date-parts":[[2021]]}},"URL":"https:\/\/doi.org\/10.1587\/transinf.2021edp7014","relation":{},"ISSN":["0916-8532","1745-1361"],"issn-type":[{"type":"print","value":"0916-8532"},{"type":"electronic","value":"1745-1361"}],"subject":[],"published":{"date-parts":[[2021,12,1]]},"article-number":"2021EDP7014"}}