{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T13:33:00Z","timestamp":1760707980180},"reference-count":47,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2008,10,9]],"date-time":"2008-10-09T00:00:00Z","timestamp":1223510400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2009,1]]},"DOI":"10.1007\/s11042-008-0228-x","type":"journal-article","created":{"date-parts":[[2008,10,8]],"date-time":"2008-10-08T02:33:01Z","timestamp":1223433181000},"page":"253-286","source":"Crossref","is-referenced-by-count":10,"title":["New speech\/music discrimination approach based on fundamental frequency estimation"],"prefix":"10.1007","volume":"41","author":[{"given":"N.","family":"Ruiz-Reyes","sequence":"first","affiliation":[]},{"given":"P.","family":"Vera-Candeas","sequence":"additional","affiliation":[]},{"given":"J. E.","family":"Mu\u00f1oz","sequence":"additional","affiliation":[]},{"given":"S.","family":"Garc\u00eda-Gal\u00e1n","sequence":"additional","affiliation":[]},{"given":"F. J.","family":"Ca\u00f1adas","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2008,10,9]]},"reference":[{"key":"228_CR1","unstructured":"Booker L (1982) Intelligent behaviour as an adaption to the task environment. Ph.D. Thesis, University of Michigan"},{"key":"228_CR2","first-page":"724","volume":"52","author":"JJ Burred","year":"2004","unstructured":"Burred JJ, Lerch A (2004) Hierarchical automatic audio signal classification. J Audio Eng Soc 52:724\u2013739","journal-title":"J Audio Eng Soc"},{"key":"228_CR3","first-page":"1432","volume-title":"Proc. IEEE ICASSP\u201999, Phoenix, USA","author":"MJ Carey","year":"1999","unstructured":"Carey MJ, Parris ES, Lloyd-Thomas H (1999) A comparison of features for speech, music discrimination. In: Proc. IEEE ICASSP\u201999, Phoenix, USA. IEEE, Piscataway, pp 1432\u20131435"},{"issue":"4","key":"228_CR4","doi-asserted-by":"crossref","first-page":"1917","DOI":"10.1121\/1.1458024","volume":"111","author":"A Cheveigne","year":"2002","unstructured":"Cheveigne A, Kawahara H (2002) YIN, a fundamental frequency estimator for speech and music. J Acoust Soc Am 111(4):1917\u20131930, April","journal-title":"J Acoust Soc Am"},{"key":"228_CR5","doi-asserted-by":"crossref","DOI":"10.1142\/4177","volume-title":"Genetic fuzzy systems. Evolutionary tuning and learning of fuzzy knowledge bases. Advances in fuzzy systems. Applications and theory, vol 19","author":"O Cordon","year":"2001","unstructured":"Cordon O, Herrera F, Hoffmann F, Magdalena L (2001) Genetic fuzzy systems. Evolutionary tuning and learning of fuzzy knowledge bases. Advances in fuzzy systems. Applications and theory, vol 19. World Scientific, Singapore"},{"key":"228_CR6","doi-asserted-by":"crossref","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"S Davis","year":"1980","unstructured":"Davis S, Mermelstein P (1980) Experiments in syllable-based recognition of continuous speech. IEEE Trans Acoust Speech Signal Process 28:357\u2013366, Aug","journal-title":"IEEE Trans Acoust Speech Signal Process"},{"key":"228_CR7","volume-title":"Pattern classification","author":"R Duda","year":"2000","unstructured":"Duda R, Hart P, Stork D (2000) Pattern classification. Wiley, New York"},{"key":"228_CR8","first-page":"2445","volume-title":"Proc. IEEE ICASSP\u20192000, vol 6","author":"K El-Maleh","year":"2000","unstructured":"El-Maleh K, Klein M, Petrucci G, Kabal, P (2000) Speech\/music discrimination for multimedia applications. In: Proc. IEEE ICASSP\u20192000, vol 6. IEEE, Piscataway, pp 2445\u20132448"},{"issue":"2","key":"228_CR9","doi-asserted-by":"crossref","first-page":"267","DOI":"10.1109\/TASL.2007.908128","volume":"16","author":"MR Every","year":"2008","unstructured":"Every MR (2008) Discriminating between pitched sources in music audio. IEEE Trans Audio Speech Language Process 16(2):267\u2013277, Feb","journal-title":"IEEE Trans Audio Speech Language Process"},{"key":"228_CR10","first-page":"1","volume-title":"IEEE international fuzzy systems conference, (FUZZ-IEEE), July 2007","author":"JEM Exposito","year":"2007","unstructured":"Exposito JEM, Galan SG, Reyes NR, Candeas PV (2007) Audio coding improvement using evolutionary speech\/music discrimination. In: IEEE international fuzzy systems conference, (FUZZ-IEEE), July 2007. IEEE, Piscataway, pp 1\u20136"},{"key":"228_CR11","doi-asserted-by":"crossref","first-page":"241","DOI":"10.1109\/MLSP.2007.4414313","volume-title":"IEEE Workshop on Machine Learning for Signal Processing, August 2007","author":"H Ezzaidi","year":"2007","unstructured":"Ezzaidi H, Rouat J (2007) Comparison of the statistical and information theory measures: application to automatic musical genre classification. In: IEEE Workshop on Machine Learning for Signal Processing, August 2007. IEEE, Piscataway, pp 241\u2013246"},{"key":"228_CR12","first-page":"14","volume-title":"Proc. IEEE int. conf. on acoustic, speech and signal processing (ICASSP), May 2006, vol 5","author":"H Fujihara","year":"2006","unstructured":"Fujihara H, Kitahara T, Goto M, Komatani K, Ogata T, Okuno HG (2006) F0 estimation method for singing voice in polyphonic audio signal based on statistical vocal model and viterbi search acoustics. In: Proc. IEEE int. conf. on acoustic, speech and signal processing (ICASSP), May 2006, vol 5. IEEE, Piscataway, pp 14\u201319"},{"issue":"3","key":"228_CR13","doi-asserted-by":"crossref","first-page":"508","DOI":"10.1109\/TASL.2008.916519","volume":"16","author":"G Garau","year":"2008","unstructured":"Garau G, Renals S (2008) Combining spectral representations for large-vocabulary continuous speech recognition. IEEE Trans Audio Speech Lang Process 16(3):508\u2013518, March","journal-title":"IEEE Trans Audio Speech Lang Process"},{"issue":"5","key":"228_CR14","doi-asserted-by":"crossref","first-page":"294","DOI":"10.1109\/TLA.2007.4378521","volume":"5","author":"J Garcia Arnal Barbedo","year":"2007","unstructured":"Garcia Arnal Barbedo J, Lopes A (2007) Speech\/music discriminator based on multiple fundamental Frequencies Estimation. IEEE Latin America Trans 5(5):294\u2013300, Sept","journal-title":"IEEE Latin America Trans"},{"key":"228_CR15","doi-asserted-by":"crossref","first-page":"68","DOI":"10.1109\/COGINF.2006.365678","volume-title":"5th IEEE international conference on cognitive informatics (ICCI), July 2006, vol 1","author":"C Gong","year":"2006","unstructured":"Gong C, Xiong-wei Z (2006) The application of speech\/music automatic discrimination based on gray correlation analysis. In: 5th IEEE international conference on cognitive informatics (ICCI), July 2006, vol 1. IEEE, Piscataway, pp 68\u201372"},{"key":"228_CR16","first-page":"125","volume":"2","author":"H Harb","year":"2003","unstructured":"Harb H, Chen L (2003) Robust speech music discrimination using spectrum\u2019s first order statistics and neural networks. Proc IEEE Int Symp Signal Process Appl 2:125\u2013128","journal-title":"Proc IEEE Int Symp Signal Process Appl"},{"key":"228_CR17","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-642-81926-1","volume-title":"Pitch determination of speech signals","author":"W Hess","year":"1983","unstructured":"Hess W (1983) Pitch determination of speech signals. Springer, Berlin"},{"key":"228_CR18","first-page":"3","volume-title":"Advances in speech signal processing","author":"WJ Hess","year":"1992","unstructured":"Hess WJ (1992) Pitch and voicing determination. In: Furui S, Sohndi MM (eds) Advances in speech signal processing. Marcel Dekker, New York, pp 3\u201348"},{"key":"228_CR19","first-page":"1763","volume-title":"Proc. IEEE int. conf. on acoustics, speech, and signal processing (ICASSP), June 2000, vol 3","author":"K Hirose","year":"2000","unstructured":"Hirose K, Iwano K (2000) Detection of prosodic word boundaries by statistical modeling of mora transitions of fundamental frequency contours and its use for continuous speech recognition. In: Proc. IEEE int. conf. on acoustics, speech, and signal processing (ICASSP), June 2000, vol 3. IEEE, Piscataway, pp 1763\u20131766"},{"key":"228_CR20","doi-asserted-by":"crossref","first-page":"323","DOI":"10.1109\/ISPACS.2006.364897","volume-title":"International symposium on intelligent signal processing and communications (ISPACS), Dec. 2006","author":"Keum Ji-Soo","year":"2006","unstructured":"Ji-Soo Keum, Hyon-Soo Lee (2006) Speech\/music discrimination using spectral peak feature for speaker indexing. In: International symposium on intelligent signal processing and communications (ISPACS), Dec. 2006. IEEE, Piscataway, pp 323\u2013326"},{"key":"228_CR21","unstructured":"Karneback S (2001) Discrimination between speech and music based on a low frequency modulation feature. In: European conf. on speech comm. and technology, Alborg, 3\u20137 September 2001, pp 1891\u20131894"},{"key":"228_CR22","doi-asserted-by":"crossref","first-page":"187","DOI":"10.1016\/S0167-6393(98)00085-5","volume":"27","author":"H Kawahara","year":"1999","unstructured":"Kawahara H, Masuda-Katsuse I, de Cheveigne A (1999) Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds. Speech Commun 27:187\u2013207","journal-title":"Speech Commun"},{"key":"228_CR23","unstructured":"Logan B (2000) Mel frequency cepstral coefficients for music modeling. In: Proc. int. symp. music information retrieval (ISMIR), Plymouth, 23\u201325 October 2000"},{"issue":"7","key":"228_CR24","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1109\/TSA.2002.804546","volume":"10","author":"L Lu","year":"2002","unstructured":"Lu L, Zhang H, Jiang H (2002) Content analysis for audio classification and segmentation. IEEE Trans Speech Audio Process 10(7):504\u2013516, October","journal-title":"IEEE Trans Speech Audio Process"},{"key":"228_CR25","first-page":"257","volume-title":"IEEE International Conference on Multimedia and Expo (ICME), August 2002, vol 2","author":"H Malik","year":"2002","unstructured":"Malik H, Khokhar A, Ansari R, Cappe de Baillon B (2002) Predominant pitch contour extraction from audio signals. In: IEEE International Conference on Multimedia and Expo (ICME), August 2002, vol 2. IEEE, Piscataway, pp 257\u2013260"},{"key":"228_CR26","unstructured":"Matsunaga S, Mizuno O, Ohtsuki K, Hayashi Y (2004) Audio source segmentation using spectral correlation features for automatic indexing of broadcast news. In: Proc. EUSIPCO, Vienna, Sep 2004, pp 2104\u20132106"},{"issue":"3","key":"228_CR27","doi-asserted-by":"crossref","first-page":"17","DOI":"10.1109\/93.713301","volume":"5","author":"K Minami","year":"1998","unstructured":"Minami K, Akutsu A, Hamada H, Tonomura Y (1998) Video handling with music and speech detection. IEEE Multimed 5(3):17\u201325","journal-title":"IEEE Multimed"},{"key":"228_CR28","doi-asserted-by":"crossref","first-page":"311","DOI":"10.1109\/ICICT.2007.375400","volume-title":"Int. Conf. on Information and Communication Technology (ICICT), March 2007","author":"KI Molla","year":"2007","unstructured":"Molla KI, Hirose K, Minematsu N, Hasan K (2007) Voiced\/unvoiced detection of speech signals using empirical mode decomposition model. In: Int. Conf. on Information and Communication Technology (ICICT), March 2007. IEEE, Piscataway, pp 311\u2013314"},{"key":"228_CR29","doi-asserted-by":"crossref","first-page":"237","DOI":"10.1080\/09298210601045682","volume":"35","author":"JE Mu\u00f1oz-Exposito","year":"2006","unstructured":"Mu\u00f1oz-Exposito JE, Ruiz-Reyes N, Garcia-Galan S, Vera-Candeas P (2006) New speech\/music discrimination approach based on warping transformation and ANFIS. J New Music Res 35:237\u2013247, Dec","journal-title":"J New Music Res"},{"key":"228_CR30","doi-asserted-by":"crossref","first-page":"783","DOI":"10.1016\/j.engappai.2006.10.007","volume":"20","author":"JE Mu\u00f1oz-Exposito","year":"2007","unstructured":"Mu\u00f1oz-Exposito JE, Ruiz-Reyes N, Garcia-Galan S, Vera-Candeas P (2007) Adaptive network-based fuzzy inference system vs. other classification algorithms for warped LPC-based speech\/music discrimination. Eng Appl Artif Intell 20:783\u2013793, Sep","journal-title":"Eng Appl Artif Intell"},{"key":"228_CR31","doi-asserted-by":"crossref","first-page":"155","DOI":"10.1109\/TMM.2004.840604","volume":"7","author":"C Panagiotakis","year":"2005","unstructured":"Panagiotakis C, Tziritas G (2005) A speech\/music discriminator based on RMS and zero\u2013crossings. IEEE Trans Multimedia 7:155\u2013166, Feb","journal-title":"IEEE Trans Multimedia"},{"key":"228_CR32","doi-asserted-by":"crossref","unstructured":"Paradzinets A, Kotov O, Harb H, Chen L (2007) Continuous wavelet-Like transform based music similarity features for intelligent music navigation. In: International workshop on content-based multimedia indexing (CBMI), Bordeaux, June 2007, pp 165\u2013172","DOI":"10.1109\/CBMI.2007.385407"},{"key":"228_CR33","first-page":"725","volume-title":"10th Mediterranean electrotechnical conference (MELECON), vol 2","author":"D Politis","year":"2000","unstructured":"Politis D, Linardis P, Tsoukalas I (2000) An audio signatures indexing scheme for dynamic content multimedia databases. In: 10th Mediterranean electrotechnical conference (MELECON), vol 2. IEEE, Piscataway, pp 725\u2013728"},{"key":"228_CR34","first-page":"605","volume-title":"Proc. IEEE TENCON","author":"RY Qiao","year":"1997","unstructured":"Qiao RY (1997) Mixed wideband speech and music coding using a speech\/music discriminator. In: Proc. IEEE TENCON. IEEE, Piscataway, pp 605\u2013608"},{"key":"228_CR35","first-page":"21","volume-title":"IEEE international onference on acoustics, speech, and signal processing (ICASSP), May 2004, vol 1","author":"D Rentzos","year":"2004","unstructured":"Rentzos D, Vaseghi S, Qin Yan, Ching-Hsiang Ho (2004) Voice conversion through transformation of spectral and intonation features. In: IEEE international onference on acoustics, speech, and signal processing (ICASSP), May 2004, vol 1. IEEE, Piscataway, pp 21\u201324"},{"key":"228_CR36","doi-asserted-by":"crossref","first-page":"461","DOI":"10.1109\/ICASSP.2007.366272","volume-title":"IEEE international conference on acoustics, speech and signal processing (ICASSP), April 2007, vol 2","author":"G Richard","year":"2007","unstructured":"Richard G, Ramona M, Essid S (2007) Combined supervised and unsupervised approaches for automatic segmentation of radiophonic audio streams. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), April 2007, vol 2. IEEE, Piscataway, pp 461\u2013464"},{"key":"228_CR37","doi-asserted-by":"crossref","first-page":"215","DOI":"10.1109\/ASPAA.2007.4393001","volume-title":"IEEE workshop on applications of signal processing to audio and acoustics, October 2007","author":"T Saitou","year":"2007","unstructured":"Saitou T, Goto M, Unoki M, Akagi M (2007) Speech-to-singing synthesis: converting speaking voices to singing voices by controlling acoustic features unique to singing voices. In: IEEE workshop on applications of signal processing to audio and acoustics, October 2007. IEEE, Piscataway, pp 215\u2013218"},{"key":"228_CR38","unstructured":"Saunders J (1996) Real-time discrimination of broacast speech\/music. In: Proc. IEEE ICASSP\u201996, Atlanta, May 1996, pp 993\u2013996"},{"key":"228_CR39","doi-asserted-by":"crossref","unstructured":"Scheirer E, Slaney M (1997) Construction and evaluation of a robust multifeature speech\/music discriminator. In: Proc. IEEE ICASSP\u201997, Munich, April 1997, pp 1331\u20131334","DOI":"10.1109\/ICASSP.1997.596192"},{"key":"228_CR40","unstructured":"Smith SF (1980) A learning system based on genetic adaptive algorithms. Ph.D. thesis, University of Pittsburgh"},{"key":"228_CR41","first-page":"17","volume-title":"Proc. IEEE workshop on speech coding","author":"L Tancerel","year":"2000","unstructured":"Tancerel L, Ragot S, Ruoppila VT, Lefebvre R (2000) Combined speech and audio coding by discrimination. In: Proc. IEEE workshop on speech coding. IEEE, Piscataway, pp 17\u201320"},{"key":"228_CR42","doi-asserted-by":"crossref","unstructured":"Tzanetakis G, Cook P (2002) Musical genre classification of audio signals. IEEE Trans Speech Audio Process 10(5)","DOI":"10.1109\/TSA.2002.800560"},{"key":"228_CR43","first-page":"280","volume-title":"Proc. European conference on machine learning (ECML\u201992), Viena","author":"G Venturini","year":"1992","unstructured":"Venturini G (1992) SIA: a supervised inductive algorithm with genetic search for learning attribute based concepts. In: Proc. European conference on machine learning (ECML\u201992), Viena. Springer, Heidelberg, pp 280\u2013296"},{"key":"228_CR44","first-page":"1325","volume-title":"Proc. 4th pacific rim conference on multimedia, vol 3","author":"WQ Wang","year":"2003","unstructured":"Wang WQ, Gao W, Ying DW (2003) A fast and robust speech\/music discrimination approach. In: Proc. 4th pacific rim conference on multimedia, vol 3. IEEE, Piscataway, pp 1325\u20131329"},{"key":"228_CR45","doi-asserted-by":"crossref","first-page":"2033","DOI":"10.1109\/ICASSP.2008.4518039","volume-title":"IEEE international conference on acoustics, speech and signal Processing (ICASSP), March 2008","author":"J Wang","year":"2008","unstructured":"Wang J, Wu Q, Deng H, Yan Q (2008) Real-time speech\/music classification with a hierarchical oblique decision tree. In: IEEE international conference on acoustics, speech and signal Processing (ICASSP), March 2008. IEEE, Piscataway, pp 2033\u20132036"},{"key":"228_CR46","doi-asserted-by":"crossref","first-page":"338","DOI":"10.1016\/S0019-9958(65)90241-X","volume":"8","author":"LA Zadeh","year":"1965","unstructured":"Zadeh LA (1965) Fuzzy sets. Inf Control 8:338\u2013353","journal-title":"Inf Control"},{"key":"228_CR47","doi-asserted-by":"crossref","unstructured":"Zhang T, Kuo J (2001) Audio content analysis for online audiovisual data segmentation and classification. IEEE Trans Speech Audio Process 9(4)","DOI":"10.1109\/89.917689"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-008-0228-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-008-0228-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-008-0228-x","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,6,1]],"date-time":"2019-06-01T03:27:49Z","timestamp":1559359669000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-008-0228-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2008,10,9]]},"references-count":47,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2009,1]]}},"alternative-id":["228"],"URL":"https:\/\/doi.org\/10.1007\/s11042-008-0228-x","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2008,10,9]]}}}