{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,23]],"date-time":"2025-06-23T21:04:22Z","timestamp":1750712662971,"version":"3.37.3"},"reference-count":29,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2019,6,26]],"date-time":"2019-06-26T00:00:00Z","timestamp":1561507200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2019,6,26]],"date-time":"2019-06-26T00:00:00Z","timestamp":1561507200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100003561","name":"Ministry of Culture, Sports and Tourism","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003561","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2019,12]]},"DOI":"10.1186\/s13636-019-0155-y","type":"journal-article","created":{"date-parts":[[2019,6,26]],"date-time":"2019-06-26T14:02:33Z","timestamp":1561557753000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":18,"title":["Music detection from broadcast contents using convolutional neural networks with a Mel-scale kernel"],"prefix":"10.1186","volume":"2019","author":[{"given":"Byeong-Yong","family":"Jang","sequence":"first","affiliation":[]},{"given":"Woon-Haeng","family":"Heo","sequence":"additional","affiliation":[]},{"given":"Jung-Hyun","family":"Kim","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5301-126X","authenticated-orcid":false,"given":"Oh-Wook","family":"Kwon","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,6,26]]},"reference":[{"issue":"1","key":"155_CR1","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/1687-4722-2011-1","volume":"2011","author":"B Taras","year":"2011","unstructured":"B. Taras, C. Nadeu, Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion. EURASIP J. Audio Speech Music Proc. 2011(1), 1\u201310 (2011)","journal-title":"EURASIP J. Audio Speech Music Proc."},{"key":"155_CR2","unstructured":"D. Cast\u00e1n, D. Tavarez, P. Lopez-Otero, J. Franco-Pedroso, H. Delgado, E. Navas, L. Docio-Fern\u00e1ndez, D. Ramos, J. Serrano, A. Ortega, E. Lleida, Albayz\u00edn-2014 evaluation: audio segmentation and classification in broadcast news domains. EURASIP J. Audio Speech Music Proc. 2015(33), 1\u20139 (2015)"},{"key":"155_CR3","unstructured":"Mirex 2015: music\/speech classification and detection. \n                    http:\/\/www.music-ir.org\/mirex\/wiki\/2015:Music\/Speech_Classification_and_Detection\n                    \n                   Accessed 12 Sept 2018"},{"key":"155_CR4","unstructured":"Mirex 2018: music and\/or speech detection. \n                    http:\/\/www.music-ir.org\/mirex\/wiki\/2018:Music_and\/or_Speech_Detection\n                    \n                   Accessed 4 Sept 2018 Accessed 12 Sept 2018"},{"key":"155_CR5","volume-title":"A Catalan Broadcast Conversational Speech Database","author":"H Schulz","year":"2009","unstructured":"Schulz, H., & Fonollosa, J. A. (2009). A Catalan Broadcast Conversational Speech Database. Proc. I Joint SIGIL\/Microsoft Workshop on Speech and Language Technologies for Iberian Languages"},{"issue":"4","key":"155_CR6","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"S Davis","year":"1980","unstructured":"S. Davis, P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. Proc. IEEE Trans. Acoust. Speech Signal Process. 28(4), 357\u2013366 (1980)","journal-title":"Proc. IEEE Trans. Acoust. Speech Signal Process."},{"issue":"4","key":"155_CR7","doi-asserted-by":"publisher","first-page":"788","DOI":"10.1109\/TASL.2010.2064307","volume":"19","author":"N Dehak","year":"2011","unstructured":"N. Dehak, P.J. Kenny, R. Dehak, P. Dumouchel, P. Ouellet, Front-end factor analysis for speaker verification. Proc IEEE Trans. Audio Speech Lang. Process. 19(4), 788\u2013798 (2011)","journal-title":"Proc IEEE Trans. Audio Speech Lang. Process."},{"key":"155_CR8","unstructured":"Gtzan music speech dataset. \n                    http:\/\/marsyasweb.appspot.com\/download\/data_sets\/\n                    \n                   Accessed 12 Sept 2018"},{"key":"155_CR9","volume-title":"Music\/Speech Classification and Detection Submission for MIREX 2015","author":"M Marolt","year":"2015","unstructured":"Marolt, M. (2015). Music\/Speech Classification and Detection Submission for MIREX 2015. \n                    https:\/\/www.music-ir.org\/mirex\/abstracts\/2015\/MM3.pdf"},{"key":"155_CR10","unstructured":"Melendez-Catalan, B., Molina, E., & Gomez, E. (2018). Music and\/or speech detection MIREX 2018 submission. \n                    https:\/\/www.music-ir.org\/mirex\/abstracts\/2018\/MMG.pdf"},{"issue":"11","key":"155_CR11","doi-asserted-by":"publisher","first-page":"1","DOI":"10.5815\/ijitcs.2014.11.01","volume":"6","author":"T Theodorou","year":"2014","unstructured":"T. Theodorou, I. Mporas, N. Fakotakis, An overview of automatic audio segmentation. Int J Inform Technol Comput Sci (IJITCS) 6(11), 1\u20139 (2014)","journal-title":"Int J Inform Technol Comput Sci (IJITCS)"},{"key":"155_CR12","doi-asserted-by":"crossref","unstructured":"Grill, T., & Schluter, J. (2015). Music boundary detection using neural networks on spectrograms and self-similarity lag matrices. Proc. European Signal Processing Conference (EUSIPCO), pp. 1296\u20131300","DOI":"10.1109\/EUSIPCO.2015.7362593"},{"key":"155_CR13","unstructured":"Doukhan, D., & Carrive, J. (2017). Investigating the use of semi-supervised convolutional neural network models for speech\/music classification and segmentation. Proc. The Ninth International Conference on Advances in Multimedia (MMEDIA)"},{"key":"155_CR14","doi-asserted-by":"publisher","first-page":"561","DOI":"10.1007\/978-3-642-35289-8_30","volume-title":"Learning Feature Representations with k-means. Neural Networks: Tricks of the Trade","author":"A Coates","year":"2012","unstructured":"A. Coates, A.Y. Ng, Learning Feature Representations with k-means. Neural Networks: Tricks of the Trade (2012), pp. 561\u2013580"},{"key":"155_CR15","first-page":"5214","volume-title":"Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","author":"D Doukhan","year":"2018","unstructured":"D. Doukhan, J. Carrive, F. Vallet, A. Larcher, S. Meignier, in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). An open-source speaker gender detection framework for monitoring gender equality (2018), pp. 5214\u20135218"},{"issue":"24","key":"155_CR16","doi-asserted-by":"publisher","first-page":"25603","DOI":"10.1007\/s11042-016-4315-0","volume":"76","author":"N Tsipas","year":"2017","unstructured":"N. Tsipas, L. Vrysis, C. Dimoulas, G. Papanikolaou, Efficient audio-driven multimedia indexing through similarity-based speech\/music discrimination. Multimedia Tools and Applications 76(24), 25603\u201325621 (2017) \n                    https:\/\/github.com\/nicktgr15\/similarity-based-speech-music-discrimination\n                    \n                   Accessed 12 Sept 2018","journal-title":"Multimedia Tools and Applications"},{"key":"155_CR17","unstructured":"Tsipas, N., Vrysis, L., Dimoulas, C., & Papanikolaou, G. (2015). Mirex 2015: Methods for speech\/music detection and classification. Proc. Music information retrieval evaluation eXchange (MIREX)"},{"key":"155_CR18","unstructured":"Seyerlehner, K., Pohle, T., Schedl, M., & Widmer, G. (2007). Automatic music detection in television productions. Proc. the 10th International Conference on Digital Audio Effects (DAFx\u201907)"},{"key":"155_CR19","unstructured":"Example of music in television productions of the Austrian national broadcasting corporation, \n                    http:\/\/www.cp.jku.at\/people\/seyerlehner\/md.html\n                    \n                   Accessed 12 Sept 2018"},{"key":"155_CR20","doi-asserted-by":"crossref","unstructured":"Wieser, E., Husinsky, M., & Seidl, M. (2014). Speech\/music discrimination in a large database of radio broadcasts from the wild. Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2134\u20132138","DOI":"10.1109\/ICASSP.2014.6853976"},{"key":"155_CR21","volume-title":"Automatic Tagging Using Deep Convolutional Neural Networks","author":"K Choi","year":"2016","unstructured":"Choi, K., Fazekas, G., & Sandler, M. (2016). Automatic Tagging Using Deep Convolutional Neural Networks. arXiv preprint arXiv:1606.00298"},{"key":"155_CR22","volume-title":"Singing Voice Separation with Deep U-Net Convolutional Networks","author":"A Jansson","year":"2017","unstructured":"A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar, T. Weyde, Singing Voice Separation with Deep U-Net Convolutional Networks (2017)"},{"key":"155_CR23","unstructured":"Labrosa music-speech corpus. \n                    http:\/\/www.ee.columbia.edu\/~dpwe\/sounds\/musp\/\n                    \n                   Accessed 12 Sept 2018"},{"key":"155_CR24","doi-asserted-by":"crossref","unstructured":"G.R. Arce, Nonlinear Signal Processing: A Statistical Approach (Wiley, 2005)","DOI":"10.1002\/0471691852"},{"key":"155_CR25","volume-title":"Musan: A Music, Speech, and Noise Corpus","author":"D Snyder","year":"2015","unstructured":"Snyder, D., Chen, G., & Povey, D. (2015). Musan: A Music, Speech, and Noise Corpus. Arxiv preprint arXiv:1510.08484"},{"key":"155_CR26","first-page":"1015","volume-title":"ESC: Dataset for Environmental Sound Classification","author":"KJ Piczak","year":"2015","unstructured":"K.J. Piczak, ESC: Dataset for Environmental Sound Classification. Proc. ACM International Conference on Multimedia (2015), pp. 1015\u20131018"},{"key":"155_CR27","unstructured":"P. Boersma, Praat, a system for doing phonetics by computer. Glot International, 5 (2002)"},{"key":"155_CR28","first-page":"1724","volume-title":"Proc. Empirical Methods in Natural Language Processing (EMNLP)","author":"K Cho","year":"2014","unstructured":"K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, Y. Bengio, in Proc. Empirical Methods in Natural Language Processing (EMNLP). Learning phrase representations using RNN encoder-decoder for statistical machine translation (2014), pp. 1724\u20131734"},{"issue":"8","key":"155_CR29","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"S. Hochreiter, J. Schmidhuber, Long short-term memory. Neural Comput 9(8), 1735\u20131780 (1997)","journal-title":"Neural Comput"}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-019-0155-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-019-0155-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-019-0155-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,6,24]],"date-time":"2020-06-24T23:09:37Z","timestamp":1593040177000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-019-0155-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,6,26]]},"references-count":29,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2019,12]]}},"alternative-id":["155"],"URL":"https:\/\/doi.org\/10.1186\/s13636-019-0155-y","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2019,6,26]]},"assertion":[{"value":"31 October 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 June 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 June 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The authors declare that they have no competing interests.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"11"}}