{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T09:50:45Z","timestamp":1774950645030,"version":"3.50.1"},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2006,4,7]],"date-time":"2006-04-07T00:00:00Z","timestamp":1144368000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2006,8]]},"DOI":"10.1007\/s00530-006-0034-0","type":"journal-article","created":{"date-parts":[[2006,4,6]],"date-time":"2006-04-06T15:44:03Z","timestamp":1144338243000},"page":"55-67","source":"Crossref","is-referenced-by-count":36,"title":["Machine-learning based classification of speech and music"],"prefix":"10.1007","volume":"12","author":[{"given":"M. Kashif Saeed","family":"Khan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wasfi G.","family":"Al-Khatib","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2006,4,7]]},"reference":[{"key":"34_CR1","doi-asserted-by":"crossref","unstructured":"Scheirer, E., Slaney, M.: Construction and evaluation of a robust multifeature speech\/music discriminator. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'97, IEEE), Vol. 2, pp. 1331\u20131334 (1997)","DOI":"10.1109\/ICASSP.1997.596192"},{"key":"34_CR2","doi-asserted-by":"crossref","unstructured":"Saad, E.M., El-Adawy, M.I., Abu-El-Wafa, M.E., Wahba, A.A.: A multifeature speech\/music discrimination system. In: Proceedings of the 19th National Radio Science Conference (NRSC'02, IEEE), pp. 208\u2013213 (2002)","DOI":"10.1109\/NRSC.2002.1022623"},{"key":"34_CR3","doi-asserted-by":"crossref","unstructured":"John Saunders: Real-time discrimination of broadcast speech\/music. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'96, IEEE), Vol. 2, pp. 993\u2013996 (1996)","DOI":"10.1109\/ICASSP.1996.543290"},{"key":"34_CR4","doi-asserted-by":"crossref","unstructured":"Carey, M.J., Parris, E.S., Lloyd-Thomas, H.: A comparison of features for speech, music discrimination. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'99, IEEE), Vol. 1, pp. 149\u2013152 (1999)","DOI":"10.1109\/ICASSP.1999.758084"},{"key":"34_CR5","doi-asserted-by":"crossref","unstructured":"Parris, E.S., Carey, M.J., Lloyd-Thomas, H.: Feature fusion for music detection. In: Proceedings of the European Conference on Speech Communication and Technology (EUROSPEECH'99), pp. 2191\u20132194 (1999)","DOI":"10.21437\/Eurospeech.1999-485"},{"key":"34_CR6","doi-asserted-by":"crossref","unstructured":"Chou, W., Gu, L.: Robust singing detection in speech\/music discriminator design. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'01, IEEE), Vol. 2, pp. 865\u2013868 (2001)","DOI":"10.1109\/ICASSP.2001.941052"},{"key":"34_CR7","doi-asserted-by":"crossref","unstructured":"Pinquier, J., S\u00e9nac, C., Andr\u00e9-Obrecht, R.: Speech and music classification in audio documents. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'02, IEEE), Vol. 4, pp. 4164\u20134164 (2002)","DOI":"10.1109\/ICASSP.2002.1004854"},{"key":"34_CR8","doi-asserted-by":"crossref","unstructured":"Pinquier, J., Rouas, J.-L., Andr\u00e9-Obrecht, R.: Robust speech\/music classification in audio documents. In: Proceedings of the 7th International Conference on Spoken Language (ICSLP'02), Vol. 3, pp. 2005\u20132008 (2002)","DOI":"10.1109\/ICASSP.2002.1004854"},{"key":"34_CR9","doi-asserted-by":"crossref","unstructured":"Pinquier, J., Rouas, J.L., Andr\u00e9-Obrecht, R.: A fusion study in speech\/music classification. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'03, IEEE), Vol. 2, pp. II-17\u2013II-20 (2003)","DOI":"10.1109\/ICME.2003.1220941"},{"key":"34_CR10","doi-asserted-by":"crossref","unstructured":"Harb, H., Chen, L.: Robust speech music discrimination using spectrum's first order statistics and neural networks. In: Proceedings of the 7th International Symposium on Signal Processing and its Applications, IEEE, Vol. 2, pp. 125\u2013128 (2003)","DOI":"10.1109\/ISSPA.2003.1224831"},{"key":"34_CR11","unstructured":"Harb, H., Chen, L., Auloge, J.Y.: Speech\/music\/silence and gender detection algorithm. In: Proceedings of the 7th International Conference on Distributed Multimedia Systems (DMS'01), pp. 257\u2013262 (2001)"},{"key":"34_CR12","doi-asserted-by":"crossref","unstructured":"Karneb\u00e4ck, S.: Discrimination between speech and music based on a low frequency modulation feature. In: Proceedings of the European Conference on Speech Communication and Technology (EUROSPEECH'01), pp. 1891\u20131894 (2001)","DOI":"10.21437\/Eurospeech.2001-447"},{"key":"34_CR13","doi-asserted-by":"crossref","unstructured":"Wang, W.Q., Gao, W., Ying, D.W.: A fast and robust speech\/music discrimination approach. In: Proceedings of the Information, Communications & Signal Processing (ICICS-PCM'03, IEEE), Vol. 3, pp. 1325\u20131329 (2003)","DOI":"10.1109\/ICICS.2003.1292679"},{"key":"34_CR14","doi-asserted-by":"crossref","unstructured":"El-Maleh, K., Klein, M., Petrucci, G., Kabal, P.: Speech\/music discrimination for multimedia applications. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00, IEEE), Vol. 4, pp. 2445\u20132448 (2000)","DOI":"10.1109\/ICASSP.2000.859336"},{"key":"34_CR15","doi-asserted-by":"crossref","unstructured":"Panagiotakis, C., Tziritas, G.: A speech\/music discriminator based on rms and zero-crossings. IEEE Trans. Multimedia (2004)","DOI":"10.1109\/TMM.2004.840604"},{"key":"34_CR16","unstructured":"Shao, X., Xu, C., Kankanhalli, M.S.: Applying neural network on content-based audio classification. In: Proceedings of the Fourth International Conference on Information, Communications and Signal Processing, IEEE, Vol. 3, pp. 1823\u20131825 (2003)"},{"key":"34_CR17","doi-asserted-by":"crossref","unstructured":"Lippens, S., Martens, J.P., De Mulder, T., Tzanetakis, G.: A comparison of human and automatic musical genre classification. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'04, IEEE), Vol. 4, pp. IV-233\u2013IV-236 (2004)","DOI":"10.1109\/ICASSP.2004.1326806"},{"key":"34_CR18","doi-asserted-by":"crossref","unstructured":"Srinivasan, S.H., Kankanhalli, M.: Harmonicity and dynamics-based features for audio. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'04, IEEE), Vol. 4, pp. IV-321\u2013IV-324 (2004)","DOI":"10.1109\/ICASSP.2004.1326828"},{"key":"34_CR19","unstructured":"Vesa Peltonen: Computational auditory scene recognition. Master's thesis, Department of Information Technology, Tampere University of Technology, Finland (2001)"},{"issue":"5","key":"34_CR20","doi-asserted-by":"crossref","first-page":"293","DOI":"10.1109\/TSA.2002.800560","volume":"10","author":"G. Tzanetakis","year":"2002","unstructured":"Tzanetakis, G., Essl, G., Cook, P.: Automatic musical genre classification of audio signals. In: Proceedings of the International Symposium on Music Information Retrieval (ISMIR'01), pp. 205\u2013210 (2001)","journal-title":"IEEE Trans. Speech Audio Proc."},{"key":"34_CR21","doi-asserted-by":"crossref","unstructured":"Tzanetakis, G., Cook, P.: Musical genre classification of audio signals. IEEE Trans. Speech Audio Proc. 10(5), 293\u2013302 (2002)","DOI":"10.1109\/TSA.2002.800560"},{"issue":"6","key":"34_CR22","doi-asserted-by":"crossref","first-page":"482","DOI":"10.1007\/s00530-002-0065-0","volume":"8","author":"L. Lu","year":"2003","unstructured":"Lu, L., Zhang, H.-J., Li, S.Z.: Content-based audio classification and segmentation by using support vector machines. ACM Mult. Sys. J. 8(6), 482\u2013492 (2003)","journal-title":"ACM Mult. Sys. J."},{"key":"34_CR23","first-page":"372","volume":"4","author":"A. Bugatti","year":"2002","unstructured":"Bugatti, A., Flammini, A., Migliorati, P.: Audio classification in speech and music: A comparison between a statistical and a neural approach. EURASIP J. Appl. Sig. Proc. 4, 372\u2013378 (2002)","journal-title":"EURASIP J. Appl. Sig. Proc."},{"key":"34_CR24","doi-asserted-by":"crossref","unstructured":"Lu, L., Jiang, H., Zhang, H.-J.: A robust audio classification and segmentation method. In: Proceedings of the 9th ACM International Conference on Multimedia (MM'01, ACM), pp. 203\u2013211 (2001)","DOI":"10.1145\/500141.500173"},{"issue":"7","key":"34_CR25","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1109\/TSA.2002.804546","volume":"10","author":"L. Lu","year":"2002","unstructured":"Lu, L., Zhang, H.-J., Jiang, H.: Content analysis for audio classification and segmentation. IEEE Trans. Speech Audio Proc. 10(7), 504\u2013516 (2002)","journal-title":"IEEE Trans. Speech Audio Proc."},{"key":"34_CR26","doi-asserted-by":"crossref","unstructured":"Beierholm, T., Baggenstoss, P.M.: Speech music discrimination using class-specific features. In: Proceedings of the 17th International Conference on Pattern Recognition (ICPR'04, IEEE), Vol. 2, pp. 379\u2013382 (2004)","DOI":"10.1109\/ICPR.2004.1334226"},{"key":"34_CR27","doi-asserted-by":"crossref","unstructured":"Hoyt, J.D., Wechsler, H.: Detection of human speech in structured noise. In: Proceedings of the International Conference on Neural Networks, IEEE, Vol. 7, pp. 4493\u20134496 (1994)","DOI":"10.1109\/ICASSP.1994.389676"},{"issue":"5","key":"34_CR28","doi-asserted-by":"crossref","first-page":"533","DOI":"10.1016\/S0167-8655(00)00119-7","volume":"22","author":"D. Li","year":"2001","unstructured":"Li, D., Sethi, I.K., Dimitrova, N., McGee, T.: Classification of general audio data for content-based retrieval. Patt. Recog. Lett. 22(5), 533\u2013544 (2001)","journal-title":"Patt. Recog. Lett."},{"key":"34_CR29","doi-asserted-by":"crossref","unstructured":"Tzanetakis, G., Cook, P.: A framework for audio analysis based on classification and temporal segmentation. In: EUROMICRO Workshop on Music Technology and Audio Processing, IEEE, Vol. 2, pp. 61\u201367 (1999)","DOI":"10.1109\/EURMIC.1999.794763"},{"key":"34_CR30","doi-asserted-by":"crossref","unstructured":"Lambrou, T., Kudumakis, P., Speller, R., Sandler, M., Linney, A.: Classification of audio signals using statistical features on time and wavelet transform domains. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'98, IEEE), Vol. 6, pp. 3621\u20133624 (1998)","DOI":"10.1109\/ICASSP.1998.679665"},{"key":"34_CR31","doi-asserted-by":"crossref","unstructured":"Delfs, C., Jondral, F.: Classification of transient time-varying signals using dft and wavelet packet based methods. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP'98, IEEE), Vol. 3, pp. 1569\u20131572 (1998)","DOI":"10.1109\/ICASSP.1998.681751"},{"key":"34_CR32","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4757-0450-1","volume-title":"Pattern Recognition with Fuzzy Objective Function Algorithms","author":"J.C. Bezdek","year":"1981","unstructured":"Bezdek J.C.: Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York (1981)"},{"key":"34_CR33","volume-title":"Pattern classification","author":"R. O. Duda","year":"2001","unstructured":"Duda, R.O., Stork, D.G., Hart, P.E.: Pattern classification, 2nd edn. Wiley, New York (2001)","edition":"2nd edn."},{"key":"34_CR34","unstructured":"Kashif Saeed Khan, M.: Automatic classification of speech and music in digitized audio. Master's thesis, King Fahd University of Petroleum andMinerals, Dhahran, Saudi Arabia (2005)"},{"issue":"4","key":"34_CR35","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/BF02551274","volume":"2","author":"G. Cybenko","year":"1989","unstructured":"Cybenko, G.: Approximation by superpositions of a sigmoidal function. Math. Con. Sig. Sys. 2(4), 303\u2013314 (1989)","journal-title":"Math. Con. Sig. Sys."},{"key":"34_CR36","unstructured":"Mammone, R.J. (ed.): Artificial neural networks for speech and vision. Chapman & Hall Neural Computing, 1st edn. Chapman & Hall, London (1994)"},{"issue":"1","key":"34_CR37","doi-asserted-by":"crossref","first-page":"4","DOI":"10.1109\/MASSP.1986.1165342","volume":"3","author":"L. R. Rabiner","year":"1986","unstructured":"Rabiner, L.R., Juang, B.H.: An introduction to hidden markov models. IEEE ASSP Magazine 3(1), 4\u201316 (1986)","journal-title":"IEEE ASSP Magazine"}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-006-0034-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00530-006-0034-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-006-0034-0","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,8]],"date-time":"2025-01-08T07:40:33Z","timestamp":1736322033000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00530-006-0034-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2006,4,7]]},"references-count":37,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2006,8]]}},"alternative-id":["34"],"URL":"https:\/\/doi.org\/10.1007\/s00530-006-0034-0","relation":{},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"value":"0942-4962","type":"print"},{"value":"1432-1882","type":"electronic"}],"subject":[],"published":{"date-parts":[[2006,4,7]]}}}