{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,24]],"date-time":"2025-06-24T07:10:21Z","timestamp":1750749021730,"version":"3.37.3"},"reference-count":46,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2023,7,9]],"date-time":"2023-07-09T00:00:00Z","timestamp":1688860800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,7,9]],"date-time":"2023-07-09T00:00:00Z","timestamp":1688860800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2023,11]]},"DOI":"10.1007\/s00034-023-02440-0","type":"journal-article","created":{"date-parts":[[2023,7,9]],"date-time":"2023-07-09T13:01:10Z","timestamp":1688907670000},"page":"6929-6950","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Long-Term Multi-band Frequency-Domain Mean-Crossing Rate (FDMCR): A Novel Feature Extraction Algorithm for Speech\/Music Discrimination"],"prefix":"10.1007","volume":"42","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6954-1452","authenticated-orcid":false,"given":"Mohammad Rasoul","family":"Kahrizi","sequence":"first","affiliation":[]},{"given":"Seyed Jahanshah","family":"Kabudian","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,7,9]]},"reference":[{"unstructured":"K.T. Abou-Moustafa, F.P. Ferrie, A note on metric properties for some divergence measures: The gaussian case. in Asian Conference on Machine Learning, pp. 1\u201315 (2012)","key":"2440_CR1"},{"issue":"5","key":"2440_CR2","doi-asserted-by":"publisher","first-page":"143","DOI":"10.3390\/app6050143","volume":"6","author":"F Al\u00edas","year":"2016","unstructured":"F. Al\u00edas, J. Socor\u00f3, X. Sevillano, A review of physical and perceptual feature extraction techniques for speech, music and environmental sounds. Appl. Sci. 6(5), 143 (2016)","journal-title":"Appl. Sci."},{"issue":"4","key":"2440_CR3","doi-asserted-by":"publisher","first-page":"705","DOI":"10.1109\/TASLP.2015.2404035","volume":"23","author":"G Aneeja","year":"2015","unstructured":"G. Aneeja, B. Yegnanarayana, Single frequency filtering approach for discriminating speech and nonspeech. IEEE\/ACM Trans. Audio Speech Lang. Process. 23(4), 705\u2013717 (2015)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"2","key":"2440_CR4","doi-asserted-by":"publisher","first-page":"99","DOI":"10.1007\/s10772-010-9088-7","volume":"14","author":"M Anusuya","year":"2011","unstructured":"M. Anusuya, S. Katti, Front end analysis of speech recognition: a review. Int. J. Speech Technol. 14(2), 99\u2013145 (2011)","journal-title":"Int. J. Speech Technol."},{"unstructured":"R.G. Balamurali, C. Rajagopal, Speech\/music discrimination (2017). US Patent 9,613,640","key":"2440_CR5"},{"doi-asserted-by":"crossref","unstructured":"A.L. Berenzweig, D.P. Ellis, Locating singing voice segments within music signals. in Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics (Cat. No. 01TH8575), pp. 119\u2013122 (2001)","key":"2440_CR6","DOI":"10.1109\/ASPAA.2001.969557"},{"key":"2440_CR7","doi-asserted-by":"publisher","first-page":"1549","DOI":"10.1109\/TASLP.2020.2993152","volume":"28","author":"M Bhattacharjee","year":"2020","unstructured":"M. Bhattacharjee, S.M. Prasanna, P. Guha, Speech\/music classification using features from spectral peaks. IEEE\/ACM Trans. Audio Speech Lang. Process. 28, 1549\u20131559 (2020)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"11","key":"2440_CR8","doi-asserted-by":"publisher","first-page":"15141","DOI":"10.1007\/s11042-018-6899-z","volume":"78","author":"GK Birajdar","year":"2019","unstructured":"G.K. Birajdar, M.D. Patil, Speech and music classification using spectrogram based statistical descriptors and extreme learning machine. Multimed. Tools Appl. 78(11), 15141\u201315168 (2019)","journal-title":"Multimed. Tools Appl."},{"key":"2440_CR9","first-page":"1","volume":"11","author":"GK Birajdar","year":"2019","unstructured":"G.K. Birajdar, M.D. Patil, Speech\/music classification using visual and spectral chromagram features. J. Ambient Intell. Hum. Comput. 11, 1\u201319 (2019)","journal-title":"J. Ambient Intell. Hum. Comput."},{"doi-asserted-by":"crossref","unstructured":"M.J. Carey, E.S. Parris, H. Lloyd-Thomas, A comparison of features for speech, music discrimination. in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258), vol.\u00a01, pp. 149\u2013152 (1999)","key":"2440_CR10","DOI":"10.1109\/ICASSP.1999.758084"},{"issue":"12","key":"2440_CR11","doi-asserted-by":"publisher","first-page":"2025","DOI":"10.1109\/TASLP.2014.2359628","volume":"22","author":"A Chen","year":"2014","unstructured":"A. Chen, M.A. Hasegawa-Johnson, Mixed stereo audio classification using a stereo-input mixed-to-panned level feature. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(12), 2025\u20132033 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"2","key":"2440_CR12","doi-asserted-by":"publisher","first-page":"252","DOI":"10.1109\/LSP.2015.2495219","volume":"23","author":"T Drugman","year":"2015","unstructured":"T. Drugman, Y. Stylianou, Y. Kida, M. Akamine, Voice activity detection: merging source and filter-based information. IEEE Signal Process. Lett. 23(2), 252\u2013256 (2015)","journal-title":"IEEE Signal Process. Lett."},{"issue":"4","key":"2440_CR13","doi-asserted-by":"publisher","first-page":"637","DOI":"10.1007\/s10462-012-9362-y","volume":"42","author":"S Duan","year":"2014","unstructured":"S. Duan, J. Zhang, P. Roe, M. Towsey, A survey of tagging techniques for music, speech and environmental sound. Artif. Intell. Rev. 42(4), 637\u2013661 (2014)","journal-title":"Artif. Intell. Rev."},{"doi-asserted-by":"crossref","unstructured":"K. El-Maleh, M. Klein, G. Petrucci, P. Kabal, Speech\/music discrimination for multimedia applications. In: 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100), vol.\u00a04, pp. 2445\u20132448 (2000)","key":"2440_CR14","DOI":"10.1109\/ICASSP.2000.859336"},{"doi-asserted-by":"crossref","unstructured":"G. Fuchs, A robust speech\/music discriminator for switched audio coding. in 2015 23rd European Signal Processing Conference (EUSIPCO), pp. 569\u2013573 (2015)","key":"2440_CR15","DOI":"10.1109\/EUSIPCO.2015.7362447"},{"issue":"3","key":"2440_CR16","doi-asserted-by":"publisher","first-page":"600","DOI":"10.1109\/TASL.2010.2052803","volume":"19","author":"PK Ghosh","year":"2010","unstructured":"P.K. Ghosh, A. Tsiartas, S. Narayanan, Robust voice activity detection using long-term signal variability. IEEE Trans. Audio Speech Lang. Process. 19(3), 600\u2013613 (2010)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"1","key":"2440_CR17","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s13636-020-00172-6","volume":"2020","author":"P Gimeno","year":"2020","unstructured":"P. Gimeno, I. Vi\u00f1als, A. Ortega, A. Miguel, E. Lleida, Multiclass audio segmentation based on recurrent neural networks for broadcast domain data. EURASIP J. Audio Speech Music Process. 2020(1), 1\u201319 (2020)","journal-title":"EURASIP J. Audio Speech Music Process."},{"issue":"1","key":"2440_CR18","doi-asserted-by":"publisher","first-page":"11","DOI":"10.1186\/s13636-019-0155-y","volume":"2019","author":"BY Jang","year":"2019","unstructured":"B.Y. Jang, W.H. Heo, J.H. Kim, O.W. Kwon, Music detection from broadcast contents using convolutional neural networks with a mel-scale kernel. EURASIP J. Audio Speech Music Process. 2019(1), 11 (2019)","journal-title":"EURASIP J. Audio Speech Music Process."},{"doi-asserted-by":"crossref","unstructured":"M. Joshi, S. Nadgir, Extraction of feature vectors for analysis of musical instruments. in 2014 International Conference on Advances in Electronics Computers and Communications, pp. 1\u20136 (2014)","key":"2440_CR19","DOI":"10.1109\/ICAECC.2014.7002391"},{"doi-asserted-by":"crossref","unstructured":"S. Kacprzak, B. Chwie\u0107ko, B. Zi\u00f3\u0142ko, Speech\/music discrimination for analysis of radio stations. in 2017 International Conference on Systems, Signals and Image Processing (IWSSIP), pp. 1\u20134 (2017)","key":"2440_CR20","DOI":"10.1109\/IWSSIP.2017.7965606"},{"doi-asserted-by":"publisher","unstructured":"M.R. Kahrizi, Long-term multi-band frequency-domain mean-crossing rate (fdmcr) feature. https:\/\/doi.org\/10.21227\/H2NW6G","key":"2440_CR21","DOI":"10.21227\/H2NW6G"},{"issue":"4","key":"2440_CR22","doi-asserted-by":"publisher","first-page":"204","DOI":"10.7508\/jist.2018.04.003","volume":"6","author":"MR Kahrizi","year":"2018","unstructured":"M.R. Kahrizi, S.J. Kabudian, Long-term spectral pseudo-entropy (ltspe): a new robust feature for speech activity detection. J. Inf. Syst. Telecommun. (JIST) 6(4), 204\u2013208 (2018). https:\/\/doi.org\/10.7508\/jist.2018.04.003","journal-title":"J. Inf. Syst. Telecommun. (JIST)"},{"issue":"10","key":"2440_CR23","doi-asserted-by":"publisher","first-page":"1924","DOI":"10.5829\/ije.2020.33.10a.11","volume":"33","author":"MR Kahrizi","year":"2020","unstructured":"M.R. Kahrizi, S.J. Kabudian, Projectiles optimization: A novel metaheuristic algorithm for global optimiaztion. Int. J. Eng. (IJE) IJE Trans. A Basics 33(10), 1924\u20131938 (2020). https:\/\/doi.org\/10.5829\/ije.2020.33.10a.11","journal-title":"Int. J. Eng. (IJE) IJE Trans. A Basics"},{"key":"2440_CR24","doi-asserted-by":"publisher","first-page":"71","DOI":"10.1016\/j.dsp.2015.09.005","volume":"48","author":"BK Khonglah","year":"2016","unstructured":"B.K. Khonglah, S.M. Prasanna, Speech\/music classification using speech-specific features. Digit. Signal Process. 48, 71\u201383 (2016)","journal-title":"Digit. Signal Process."},{"doi-asserted-by":"crossref","unstructured":"B.K. Khonglah, R. Sharma, S.M. Prasanna, Speech vs music discrimination using empirical mode decomposition. in 2015 Twenty First National Conference on Communications (NCC), pp. 1\u20136 (2015)","key":"2440_CR25","DOI":"10.1109\/NCC.2015.7084865"},{"key":"2440_CR26","first-page":"17","volume-title":"Soft Computing and Signal Processing","author":"AA Khudavand","year":"2021","unstructured":"A.A. Khudavand, S. Chikkamath, S. Nirmala, N. Iyer, Music\/non-music discrimination using convolutional neural networks, in Soft Computing and Signal Processing. ed. by V.S. Reddy, V.K. Prasad, J. Wang, K.T.V. Reddy (Springer Singapore, Singapore, 2021), pp.17\u201328"},{"unstructured":"S.J. Kim, A. Magnani, S. Boyd, Robust fisher discriminant analysis. in: Advances in neural information processing systems, pp. 659\u2013666 (2006)","key":"2440_CR27"},{"issue":"9","key":"2440_CR28","first-page":"1086","volume":"48","author":"A Makur","year":"2001","unstructured":"A. Makur, S.K. Mitra, Warped discrete-fourier transform: Theory and applications. IEEE Trans. Circ .Syst. I Fundam. Theory Appl. 48(9), 1086\u20131093 (2001)","journal-title":"IEEE Trans. Circ .Syst. I Fundam. Theory Appl."},{"doi-asserted-by":"crossref","unstructured":"V. Malenovsky, T. Vaillancourt, W. Zhe, K. Choo, V. Atti, Two-stage speech\/music classifier with decision smoothing and sharpening in the evs codec. in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5718\u20135722 (2015)","key":"2440_CR29","DOI":"10.1109\/ICASSP.2015.7179067"},{"doi-asserted-by":"crossref","unstructured":"O.M. Mubarak, E. Ambikairajah, J. Epps, Novel features for effective speech and music discrimination. in 2006 IEEE International Conference on Engineering of Intelligent Systems, pp. 1\u20135 (2006)","key":"2440_CR30","DOI":"10.1109\/ICCS.2006.301515"},{"unstructured":"J.E. Mu\u00f1oz-Exposito, S. Garcia-Galan, N. Ruiz-Reyes, P. Vera-Candeas, F. Rivas-Pe\u00f1a, Speech music discrimination using a single warped lpc-based feature. in Proc. ISMIR, vol.\u00a05, pp. 16\u201325 (2005)","key":"2440_CR31"},{"key":"2440_CR32","doi-asserted-by":"publisher","first-page":"334","DOI":"10.1016\/j.eswa.2018.05.016","volume":"114","author":"M Papakostas","year":"2018","unstructured":"M. Papakostas, T. Giannakopoulos, Speech-music discrimination using deep visual feature extractors. Expert Syst. Appl. 114, 334\u2013344 (2018)","journal-title":"Expert Syst. Appl."},{"unstructured":"G. Peeters, A large set of audio features for sound description (similarity and classification) in the cuidado project (2004)","key":"2440_CR33"},{"doi-asserted-by":"crossref","unstructured":"J. Pinquier, J.L. Rouas, R. Andr\u00e9-Obrecht, A fusion study in speech\/music classification. in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP\u201903)., vol.\u00a02, pp. II\u201317 (2003)","key":"2440_CR34","DOI":"10.1109\/ICME.2003.1220941"},{"issue":"3\u20134","key":"2440_CR35","doi-asserted-by":"publisher","first-page":"271","DOI":"10.1016\/j.specom.2003.10.002","volume":"42","author":"J Ram\u0131rez","year":"2004","unstructured":"J. Ram\u0131rez, J.C. Segura, C. Ben\u0131tez, A. De La Torre, A. Rubio, Efficient voice activity detection algorithms using long-term speech information. Speech Commun. 42(3\u20134), 271\u2013287 (2004)","journal-title":"Speech Commun."},{"issue":"3","key":"2440_CR36","doi-asserted-by":"publisher","first-page":"197","DOI":"10.1109\/LSP.2013.2237903","volume":"20","author":"SO Sadjadi","year":"2013","unstructured":"S.O. Sadjadi, J.H. Hansen, Unsupervised speech activity detection using voicing measures and perceptual spectral flux. IEEE Signal Process. Lett. 20(3), 197\u2013200 (2013)","journal-title":"IEEE Signal Process. Lett."},{"doi-asserted-by":"crossref","unstructured":"J. Saunders, Real-time discrimination of broadcast speech\/music. in 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, vol.\u00a02, pp. 993\u2013996 (1996)","key":"2440_CR37","DOI":"10.1109\/ICASSP.1996.543290"},{"doi-asserted-by":"crossref","unstructured":"E. Scheirer, M. Slaney, Construction and evaluation of a robust multifeature speech\/music discriminator. in 1997 IEEE international conference on acoustics, speech, and signal processing, vol.\u00a02, pp. 1331\u20131334 (1997)","key":"2440_CR38","DOI":"10.1109\/ICASSP.1997.596192"},{"doi-asserted-by":"crossref","unstructured":"G. Sell, P. Clark, Music tonality features for speech\/music discrimination. in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2489\u20132493 (2014)","key":"2440_CR39","DOI":"10.1109\/ICASSP.2014.6854048"},{"doi-asserted-by":"crossref","unstructured":"B. Thompson, Discrimination between singing and speech in real-world audio. in 2014 IEEE Spoken Language Technology Workshop (SLT), pp. 407\u2013412 (2014)","key":"2440_CR40","DOI":"10.1109\/SLT.2014.7078609"},{"doi-asserted-by":"crossref","unstructured":"W.H. Tsai, C.H. Ma, Automatic speech and singing discrimination for audio data indexing. in Big Data Applications and Use Cases, pp. 33\u201347. (Springer, 2016)","key":"2440_CR41","DOI":"10.1007\/978-3-319-30146-4_3"},{"doi-asserted-by":"crossref","unstructured":"A. Tsiartas, T. Chaspari, N. Katsamanis, P.K. Ghosh, M. Li, M. Van\u00a0Segbroeck, A. Potamianos, S. Narayanan, Multi-band long-term signal variability features for robust voice activity detection. in Interspeech, pp. 718\u2013722 (2013)","key":"2440_CR42","DOI":"10.21437\/Interspeech.2013-201"},{"issue":"24","key":"2440_CR43","doi-asserted-by":"publisher","first-page":"25603","DOI":"10.1007\/s11042-016-4315-0","volume":"76","author":"N Tsipas","year":"2017","unstructured":"N. Tsipas, L. Vrysis, C. Dimoulas, G. Papanikolaou, Efficient audio-driven multimedia indexing through similarity-based speech\/music discrimination. Multimed. Tools Appl. 76(24), 25603\u201325621 (2017)","journal-title":"Multimed. Tools Appl."},{"issue":"5","key":"2440_CR44","doi-asserted-by":"publisher","first-page":"293","DOI":"10.1109\/TSA.2002.800560","volume":"10","author":"G Tzanetakis","year":"2002","unstructured":"G. Tzanetakis, P. Cook, Musical genre classification of audio signals. IEEE Trans. Speech Audio Process. 10(5), 293\u2013302 (2002)","journal-title":"IEEE Trans. Speech Audio Process."},{"doi-asserted-by":"crossref","unstructured":"E. Wieser, M. Husinsky, M. Seidl, Speech\/music discrimination in a large database of radio broadcasts from the wild. in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2134\u20132138 (2014)","key":"2440_CR45","DOI":"10.1109\/ICASSP.2014.6853976"},{"doi-asserted-by":"crossref","unstructured":"G. Williams, D.P. Ellis, Speech\/music discrimination based on posterior probability features. in Sixth European Conference on Speech Communication and Technology (1999)","key":"2440_CR46","DOI":"10.21437\/Eurospeech.1999-176x"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-023-02440-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-023-02440-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-023-02440-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,23]],"date-time":"2024-10-23T21:37:21Z","timestamp":1729719441000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-023-02440-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,7,9]]},"references-count":46,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2023,11]]}},"alternative-id":["2440"],"URL":"https:\/\/doi.org\/10.1007\/s00034-023-02440-0","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2023,7,9]]},"assertion":[{"value":"19 April 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 June 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 June 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 July 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}