{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T08:29:01Z","timestamp":1765268941547},"reference-count":33,"publisher":"Springer Science and Business Media LLC","issue":"14","license":[{"start":{"date-parts":[[2023,10,13]],"date-time":"2023-10-13T00:00:00Z","timestamp":1697155200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,10,13]],"date-time":"2023-10-13T00:00:00Z","timestamp":1697155200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-023-17123-w","type":"journal-article","created":{"date-parts":[[2023,10,13]],"date-time":"2023-10-13T01:02:12Z","timestamp":1697158932000},"page":"41939-41949","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["A gated recurrent unit based robust voice activity detector"],"prefix":"10.1007","volume":"83","author":[{"given":"Il","family":"Han","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chol-Nam","family":"Om","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Un-Il","family":"Kim","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,10,13]]},"reference":[{"issue":"2","key":"17123_CR1","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1109\/TASSP.1979.1163209","volume":"27","author":"SF Boll","year":"1979","unstructured":"Boll SF (1979) Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans Acoust Speech Signal Process 27(2):113\u2013120","journal-title":"IEEE Trans Acoust Speech Signal Process"},{"key":"17123_CR2","doi-asserted-by":"publisher","first-page":"64","DOI":"10.1109\/35.620527","volume":"35","author":"A Benyassine","year":"1997","unstructured":"Benyassine A (1997) ITU-T Recommendation G. 729 Annex B: a silence compression scheme for use with G. 729 optimized for V. 70 digital simultaneous voice and data applications. IEEE Commun Mag 35:64\u201373","journal-title":"IEEE Commun Mag"},{"key":"17123_CR3","doi-asserted-by":"crossref","unstructured":"Tong S, Chen N, Qian Y, Yu K (2014) in Proc. IEEE Int Conf On Signal Processing. Evaluating vad for automatic speech recognition (IEEE, Hangzhou), pp 2308\u20132314","DOI":"10.1109\/ICOSP.2014.7015406"},{"key":"17123_CR4","doi-asserted-by":"publisher","first-page":"297","DOI":"10.1002\/j.1538-7305.1975.tb02840.x","volume":"54","author":"LR Rabiner","year":"1975","unstructured":"Rabiner LR, Sambur MR (1975) An algorithm for determining the endpoints of isolated utterances. Bell Labs Tech J 54:297\u2013315","journal-title":"Bell Labs Tech J"},{"key":"17123_CR5","doi-asserted-by":"publisher","first-page":"271","DOI":"10.1016\/j.specom.2003.10.002","volume":"42","author":"J Ram\u0131rez","year":"2004","unstructured":"Ram\u0131rez J, Segura JC, Ben\u0131tez C, De La Torre A, Rubio A (2004) Efficient voice activity detection algorithms using long-term speech information. Speech Comm 42:271\u2013287","journal-title":"Speech Comm"},{"key":"17123_CR6","first-page":"1","volume":"14","author":"X-K Yang","year":"2016","unstructured":"Yang X-K, He L, Dan Q, Zhang W-Q (2016) Voice activity detection algorithm based on long-term pitch information. EURASIP J Audio Speech Music Process 14:1\u20139","journal-title":"EURASIP J Audio Speech Music Process"},{"key":"17123_CR7","doi-asserted-by":"crossref","unstructured":"Yanna M, Nishihara A (2013) Efficient voice activity detection algorithm using long-term spectral flatness measure. EURASIP J Audio Speech Music Process 21","DOI":"10.1186\/1687-4722-2013-21"},{"key":"17123_CR8","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1016\/j.specom.2009.08.003","volume":"52","author":"K Ishizuka","year":"2010","unstructured":"Ishizuka K, Nakatani T, Fujimoto M, Miyazaki N (2010) Noise robust voice activity detection based on periodic to aperiodic component ratio. Speech Comm 52:41\u201360","journal-title":"Speech Comm"},{"key":"17123_CR9","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/97.736233","volume":"6","author":"J Sohn","year":"1999","unstructured":"Sohn J, Kim NS, Sung W (1999) A statistical model-based voice activity detection. IEEE Signal Proc Lett 6:1\u20133","journal-title":"IEEE Signal Proc Lett"},{"key":"17123_CR10","unstructured":"Enqing D, Guizhong L, Yatong Z, Xiaodi Z (2002) Applying support vector machines to voice activity detection, Proc Int Conf on Signal Processing. (IEEE, Beijing), pp 1124\u20131127"},{"key":"17123_CR11","unstructured":"Kinnunen T, Chernenko E, Tuononen M, Fr\u00e4nti P, Li H (2007) in Proc Int. Conf. on Speech and Computer (SPECOM07). Voice activity detection using MFCC features and support vector machine, (Moscow), pp 556\u2013561"},{"key":"17123_CR12","doi-asserted-by":"publisher","first-page":"205","DOI":"10.1049\/iet-spr.2008.0128","volume":"3","author":"QH Jo","year":"2009","unstructured":"Jo QH, Chang JH, Shin JW, Kim NS (2009) Statistical model-based voice activity detection using support vector machine. IET Sign Process 3:205\u2013210","journal-title":"IET Sign Process"},{"key":"17123_CR13","doi-asserted-by":"crossref","unstructured":"Ferroni G, Bonfigli R, Principi E, Squartini S, Piazza F (2015) in A deep neural network approach for voice activity detection in multi-room domestic scenarios. Proc Int Joint Conference On Neural Networks (IEEE, Killarney), pp 1\u20138","DOI":"10.1109\/IJCNN.2015.7280510"},{"key":"17123_CR14","doi-asserted-by":"publisher","first-page":"252","DOI":"10.1109\/TASLP.2015.2505415","volume":"24","author":"XL Zhang","year":"2016","unstructured":"Zhang XL, Wang D (2016) Boosting contextual information for deep neural network based voice activity detection. IEEE\/ACM Trans Audio Speech Lang Process 24:252\u2013264","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"issue":"1","key":"17123_CR15","doi-asserted-by":"publisher","first-page":"26","DOI":"10.1186\/s13636-015-0069-2","volume":"2015","author":"M Espi","year":"2015","unstructured":"Espi M, Fujimoto M, Kinoshita K, Nakatani T (2015) Exploiting spectro-temporal locality in deep learning based acoustic event detection. EURASIP J Audio Speech Music Process 2015(1):26","journal-title":"EURASIP J Audio Speech Music Process"},{"issue":"8","key":"17123_CR16","first-page":"153","volume":"9","author":"VS Mendelev","year":"2015","unstructured":"Mendelev VS, Prisyach TN, Prudnikov AA (2015) Robust voice activity detection with deep maxout neural networks. Mod Appl Sci 9(8):153","journal-title":"Mod Appl Sci"},{"key":"17123_CR17","doi-asserted-by":"publisher","first-page":"697","DOI":"10.1109\/TASL.2012.2229986","volume":"21","author":"XL Zhang","year":"2013","unstructured":"Zhang XL, Wu J (2013) Deep belief networks based voice activity detection. IEEE Trans Audio Speech Lang Process 21:697\u2013710","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"17123_CR18","doi-asserted-by":"crossref","unstructured":"Chang S-Y, Li B, Simko G, Sainath TN, Tripathi A, van den Oord A, Vinyals O (2018) Temporal modeling using dilated convolution and gating for voice-activity-detection, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, pp 5549\u20135553","DOI":"10.1109\/ICASSP.2018.8461921"},{"key":"17123_CR19","doi-asserted-by":"publisher","first-page":"9017","DOI":"10.1109\/ACCESS.2018.2800728","volume":"6","author":"A Sehgal","year":"2018","unstructured":"Sehgal A, Kehtarnavaz N (2018) A convolutional neural network smartphone app for real-time voice activity detection. IEEE Access 6:9017\u20139026","journal-title":"IEEE Access"},{"key":"17123_CR20","doi-asserted-by":"crossref","unstructured":"Lavechin M, Gill M-P, Bousbib R, Bredin H, GarciaPerera LP (2020) End-to-End Domain-Adversarial Voice Activity Detection. In: Proceedings of Conference of the International Speech Communication Association, pp 3685\u20133689","DOI":"10.21437\/Interspeech.2020-2285"},{"key":"17123_CR21","doi-asserted-by":"crossref","unstructured":"Xu T, Zhang H, Zhang X (2020) Polishing the Classical Likelihood Ratio Test by Supervised Learning for Voice Activity Detection. In: Proceedings of Conference of the International Speech Communication Association, pp 3675\u20133679","DOI":"10.21437\/Interspeech.2020-1177"},{"key":"17123_CR22","doi-asserted-by":"crossref","unstructured":"Zheng Z, Wang J, Cheng N, Luo J, Xiao J (2020) MLNET: An adaptive multiple receptive-field attention neural network for voice activity detection. In: Proceedings of Conference of the International Speech Communication Association, pp 3695\u20133699","DOI":"10.21437\/Interspeech.2020-2392"},{"key":"17123_CR23","first-page":"3","volume":"2","author":"T Mikolov","year":"2010","unstructured":"Mikolov T, Karafi\u00e1t M, Burget L, Cernocky J, Khudanpur S (2010) Recurrent neural network based language model. Interspeech 2:3","journal-title":"Interspeech"},{"key":"17123_CR24","doi-asserted-by":"crossref","unstructured":"Dwijayanti et al (2018) Enhancement of speech dynamics for voice activity detection using DNN. EURASIP J Audio Speech Music 10","DOI":"10.1186\/s13636-018-0135-7"},{"issue":"8","key":"17123_CR25","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"17123_CR26","unstructured":"Cho K, Van Merri\u00ebnboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y (n.d.) Learning Phrase Representations Using RNN Encoder-decoder for Statistical Machine Translation, arXiv preprint arXiv:1406.1078"},{"key":"17123_CR27","unstructured":"Ba JL, Kiros JR, Hinton GE (n.d.) Layer normalization. arXiv preprintarXiv:1607.06450, 2016"},{"issue":"11","key":"17123_CR28","doi-asserted-by":"publisher","first-page":"2673","DOI":"10.1109\/78.650093","volume":"45","author":"M Schuster","year":"1997","unstructured":"Schuster M, Paliwal KK (1997) Bidirectional recurrent neural networks. IEEE Trans Signal Process 45(11):2673\u20132681","journal-title":"IEEE Trans Signal Process"},{"key":"17123_CR29","unstructured":"Kingma D, Ba J (2014) Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980,"},{"key":"17123_CR30","unstructured":"Duda RO, Hart PE, Stork DG (2001) Pattern classification, 2nd edn. (New York)"},{"key":"17123_CR31","unstructured":"Myllym\u00e4ki M, Virtanen T (2008) in Proc 16th European Signal Processing Conference. Voice activity detection in the presence of breathing noise using neural network and hidden markov model (IEEE, Lausanne), pp 1\u20135"},{"key":"17123_CR32","unstructured":"Sharma S, Mathur S, V sekhar (2021) Int J Creat Res Thourghts 9(5)"},{"issue":"2","key":"17123_CR33","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1109\/JSTSP.2019.2901195","volume":"13","author":"I Ariav","year":"2019","unstructured":"Ariav I, Cohen I (2019) An end-to-end multimodal voice activity detection using wavenet encoder and residual networks. IEEE J Sel Top Signal Process 13(2):265\u2013274","journal-title":"IEEE J Sel Top Signal Process"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17123-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-17123-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17123-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,4,4]],"date-time":"2024-04-04T13:36:19Z","timestamp":1712237779000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-17123-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,13]]},"references-count":33,"journal-issue":{"issue":"14","published-online":{"date-parts":[[2024,4]]}},"alternative-id":["17123"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-17123-w","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,10,13]]},"assertion":[{"value":"18 July 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 July 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 September 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 October 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"No fund availabe for this study.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}