{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,4]],"date-time":"2025-07-04T05:34:11Z","timestamp":1751607251768},"publisher-location":"Berlin, Heidelberg","reference-count":52,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783642231254"},{"type":"electronic","value":"9783642231261"}],"license":[{"start":{"date-parts":[[2011,1,1]],"date-time":"2011-01-01T00:00:00Z","timestamp":1293840000000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2011]]},"DOI":"10.1007\/978-3-642-23126-1_10","type":"book-chapter","created":{"date-parts":[[2011,9,13]],"date-time":"2011-09-13T02:10:22Z","timestamp":1315879822000},"page":"138-162","source":"Crossref","is-referenced-by-count":3,"title":["Speech\/Music Discrimination in Audio Podcast Using Structural Segmentation and Timbre Recognition"],"prefix":"10.1007","author":[{"given":"Mathieu","family":"Barthet","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Steven","family":"Hargreaves","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mark","family":"Sandler","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","reference":[{"key":"10_CR1","doi-asserted-by":"crossref","unstructured":"Ajmera, J., McCowan, I., Bourlard, H.: Robust HMM-Based Speech\/Music Segmentation. In: Proc. ICASSP 2002, vol.\u00a01, pp. 297\u2013300 (2002)","DOI":"10.1109\/ICASSP.2002.1005735"},{"key":"10_CR2","doi-asserted-by":"crossref","unstructured":"Alexandre-Cortizo, E., Rosa-Zurera, M., Lopez-Ferreras, F.: Application of Fisher Linear Discriminant Analysis to Speech Music Classification. In: Proc. EUROCON 2005, vol.\u00a02, pp. 1666\u20131669 (2005)","DOI":"10.1109\/EURCON.2005.1630291"},{"key":"10_CR3","unstructured":"ANSI: USA Standard Acoustical Terminology. American National Standards Institute, New York (1960)"},{"issue":"2","key":"10_CR4","doi-asserted-by":"publisher","first-page":"135","DOI":"10.1525\/mp.2010.28.2.135","volume":"28","author":"M. Barthet","year":"2010","unstructured":"Barthet, M., Depalle, P., Kronland-Martinet, R., Ystad, S.: Acoustical Correlates of Timbre and Expressiveness in Clarinet Performance. Music Perception\u00a028(2), 135\u2013153 (2010)","journal-title":"Music Perception"},{"issue":"3","key":"10_CR5","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1525\/mp.2011.28.3.265","volume":"28","author":"M. Barthet","year":"2011","unstructured":"Barthet, M., Depalle, P., Kronland-Martinet, R., Ystad, S.: Analysis-by-Synthesis of Timbre, Timing, and Dynamics in Expressive Clarinet Performance. Music Perception\u00a028(3), 265\u2013278 (2011)","journal-title":"Music Perception"},{"issue":"4","key":"10_CR6","doi-asserted-by":"publisher","first-page":"678","DOI":"10.3813\/AAA.918322","volume":"96","author":"M. Barthet","year":"2010","unstructured":"Barthet, M., Guillemain, P., Kronland-Martinet, R., Ystad, S.: From Clarinet Control to Timbre Perception. Acta Acustica United with Acustica\u00a096(4), 678\u2013689 (2010)","journal-title":"Acta Acustica United with Acustica"},{"key":"10_CR7","unstructured":"Barthet, M., Sandler, M.: Time-Dependent Automatic Musical Instrument Recognition in Solo Recordings. In: 7th Int. Symposium on Computer Music Modeling and Retrieval (CMMR 2010), Malaga, Spain, pp. 183\u2013194 (2010)"},{"key":"10_CR8","doi-asserted-by":"crossref","unstructured":"Bello, J.P., Daudet, L., Abdallah, S., Duxbury, C., Davies, M., Sandler, M.: A Tutorial on Onset Detection in Music Signals. IEEE Transactions on Speech and Audio Processing (2005)","DOI":"10.1109\/TSA.2005.851998"},{"issue":"7\/8","key":"10_CR9","first-page":"724","volume":"52","author":"J.J. Burred","year":"2004","unstructured":"Burred, J.J., Lerch, A.: Hierarchical Automatic Audio Signal Classification. Journal of the Audio Engineering Society\u00a052(7\/8), 724\u2013739 (2004)","journal-title":"Journal of the Audio Engineering Society"},{"issue":"1","key":"10_CR10","doi-asserted-by":"publisher","first-page":"471","DOI":"10.1121\/1.1929229","volume":"118","author":"A. Caclin","year":"2005","unstructured":"Caclin, A., McAdams, S., Smith, B.K., Winsberg, S.: Acoustic Correlates of Timbre Space Dimensions: A Confirmatory Study Using Synthetic Tones. J. Acoust. Soc. Am.\u00a0118(1), 471\u2013482 (2005)","journal-title":"J. Acoust. Soc. Am."},{"key":"10_CR11","unstructured":"Cannam, C.: Queen Mary University of London: Sonic Annotator, http:\/\/omras2.org\/SonicAnnotator"},{"key":"10_CR12","unstructured":"Cannam, C.: Queen Mary University of London: Sonic Visualiser, http:\/\/www.sonicvisualiser.org\/"},{"key":"10_CR13","unstructured":"Cannam, C.: Queen Mary University of London: Vamp Audio Analysis Plugin System, http:\/\/www.vamp-plugins.org\/"},{"key":"10_CR14","doi-asserted-by":"crossref","unstructured":"Carey, M., Parris, E., Lloyd-Thomas, H.: A Comparison of Features for Speech, Music Discrimination. In: Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol.\u00a01, pp. 149\u2013152 (1999)","DOI":"10.1109\/ICASSP.1999.758084"},{"key":"10_CR15","unstructured":"Castellengo, M., Dubois, D.: Timbre ou Timbres? Propri\u00e9t\u00e9 du Signal, de l\u2019Instrument, ou Construction Cognitive (Timbre or Timbres? Property of the Signal, the Instrument, or Cognitive Construction?). In: Proc. of the Conf. on Interdisciplinary Musicology (CIM 2005), Montr\u00e9al, Qu\u00e9bec, Canada (2005)"},{"key":"10_CR16","unstructured":"Ch\u00e9try, N., Davies, M., Sandler, M.: Musical Instrument Identification using LSF and K-Means. In: Proc. AES 118th Convention (2005)"},{"key":"10_CR17","doi-asserted-by":"publisher","first-page":"1428","DOI":"10.1109\/PROC.1977.10747","volume":"65","author":"D. Childers","year":"1977","unstructured":"Childers, D., Skinner, D., Kemerait, R.: The Cepstrum: A Guide to Processing. Proc. of the IEEE\u00a065, 1428\u20131443 (1977)","journal-title":"Proc. of the IEEE"},{"key":"10_CR18","unstructured":"Davies, M.E.P., Degara, N., Plumbley, M.D.: Evaluation Methods for Musical Audio Beat Tracking Algorithms. Technical report C4DM-TR-09-06, Queen Mary University of London, Centre for Digital Music (2009), http:\/\/www.eecs.qmul.ac.uk\/~matthewd\/pdfs\/DaviesDegaraPlumbley09-evaluation-tr.pdf"},{"issue":"4","key":"10_CR19","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"ASSP-28","author":"S.B. Davis","year":"1980","unstructured":"Davis, S.B., Mermelstein, P.: Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing\u00a0ASSP-28(4), 357\u2013366 (1980)","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"key":"10_CR20","doi-asserted-by":"crossref","unstructured":"El-Maleh, K., Klein, M., Petrucci, G., Kabal, P.: Speech\/Music Discrimination for Multimedia Applications. In: Proc. ICASSP 2000, vol.\u00a06, pp. 2445\u20132448 (2000)","DOI":"10.1109\/ICASSP.2000.859336"},{"key":"10_CR21","unstructured":"Fazekas, G., Sandler, M.: Intelligent Editing of Studio Recordings With the Help of Automatic Music Structure Extraction. In: Proc. of the AES 122nd Convention, Vienna, Austria (2007)"},{"key":"10_CR22","doi-asserted-by":"crossref","unstructured":"Galliano, S., Georois, E., Mostefa, D., Choukri, K., Bonastre, J.F., Gravier, G.: The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News. In: Proc. Interspeech (2005)","DOI":"10.21437\/Interspeech.2005-441"},{"issue":"2","key":"10_CR23","doi-asserted-by":"publisher","first-page":"187","DOI":"10.1023\/A:1011303401042","volume":"14","author":"J.L. Gauvain","year":"2001","unstructured":"Gauvain, J.L., Lamel, L., Adda, G.: Audio Partitioning and Transcription for Broadcast Data Indexation. Multimedia Tools and Applications\u00a014(2), 187\u2013200 (2001)","journal-title":"Multimedia Tools and Applications"},{"issue":"1","key":"10_CR24","first-page":"24","volume":"11","author":"J.M. Grey","year":"1978","unstructured":"Grey, J.M., Gordon, J.W.: Perception of Spectral Modifications on Orchestral Instrument Tones. Computer Music Journal\u00a011(1), 24\u201331 (1978)","journal-title":"Computer Music Journal"},{"key":"10_CR25","unstructured":"Hain, T., Johnson, S., Tuerk, A., Woodland, P.C., Young, S.: Segment Generation and Clustering in the HTK Broadcast News Transcription System. In: Proc. of the DARPA Broadcast News Transcription and Understanding Workshop, pp. 133\u2013137 (1998)"},{"key":"10_CR26","first-page":"253","volume-title":"Perception and Cognition of Music","author":"J.M. Hajda","year":"1997","unstructured":"Hajda, J.M., Kendall, R.A., Carterette, E.C., Harshberger, M.L.: Methodological Issues in Timbre Research. In: Deli\u00e9ge, I., Sloboda, J. (eds.) Perception and Cognition of Music, 2nd edn., pp. 253\u2013306. Psychology Press, New York (1997)","edition":"2"},{"key":"10_CR27","first-page":"425","volume-title":"Timbre Perception and Auditory Object Identification","author":"S. Handel","year":"1995","unstructured":"Handel, S.: Hearing. In: Timbre Perception and Auditory Object Identification, 2nd edn., pp. 425\u2013461. Academic Press, San Diego (1995)","edition":"2"},{"key":"10_CR28","unstructured":"Harte, C.: Towards Automatic Extraction of Harmony Information From Music Signals. Ph.D. thesis, Queen Mary University of London (2010)"},{"key":"10_CR29","volume-title":"On the Sensations of Tone","author":"H.v. Helmholtz","year":"1954","unstructured":"Helmholtz, H.v.: On the Sensations of Tone. Dover, New York (1954); (from the works of 1877). English trad. with notes and appendix from E.J. Ellis"},{"key":"10_CR30","first-page":"66","volume":"28","author":"T. Houtgast","year":"1973","unstructured":"Houtgast, T., Steeneken, H.J.M.: The Modulation Transfer Function in Room Acoustics as a Predictor of Speech Intelligibility. Acustica\u00a028, 66\u201373 (1973)","journal-title":"Acustica"},{"key":"10_CR31","doi-asserted-by":"crossref","unstructured":"Itakura, F.: Line Spectrum Representation of Linear Predictive Coefficients of Speech Signals. J. Acoust. Soc. Am.\u00a057(S35) (1975)","DOI":"10.1121\/1.1995189"},{"key":"10_CR32","doi-asserted-by":"crossref","unstructured":"Jarina, R., O\u2019Connor, N., Marlow, S., Murphy, N.: Rhythm Detection For Speech-Music Discrimination In MPEG Compressed Domain. In: Proc. of the IEEE 14th International Conference on Digital Signal Processing (DSP), Santorini (2002)","DOI":"10.1109\/ICDSP.2002.1027851"},{"key":"10_CR33","doi-asserted-by":"publisher","first-page":"1477","DOI":"10.1109\/PROC.1986.13663","volume":"74","author":"B. Kedem","year":"1986","unstructured":"Kedem, B.: Spectral Analysis and Discrimination by Zero-Crossings. Proc. IEEE\u00a074, 1477\u20131493 (1986)","journal-title":"Proc. IEEE"},{"key":"10_CR34","doi-asserted-by":"crossref","unstructured":"Kim, H.G., Berdahl, E., Moreau, N., Sikora, T.: Speaker Recognition Using MPEG-7 Descriptors. In: Proc. of EUROSPEECH (2003)","DOI":"10.21437\/Eurospeech.2003-177"},{"issue":"2","key":"10_CR35","doi-asserted-by":"publisher","first-page":"318","DOI":"10.1109\/TASL.2007.910781","volume":"16","author":"M. Levy","year":"2008","unstructured":"Levy, M., Sandler, M.: Structural Segmentation of Musical Audio by Constrained Clustering. IEEE. Transac. on Audio, Speech, and Language Proc.\u00a016(2), 318\u2013326 (2008)","journal-title":"IEEE. Transac. on Audio, Speech, and Language Proc."},{"key":"10_CR36","doi-asserted-by":"publisher","first-page":"702","DOI":"10.1109\/TCOM.1980.1094577","volume":"28","author":"Y. Linde","year":"1980","unstructured":"Linde, Y., Buzo, A., Gray, R.M.: An Algorithm for Vector Quantizer Design. IEEE Transactions on Communications\u00a028, 702\u2013710 (1980)","journal-title":"IEEE Transactions on Communications"},{"key":"10_CR37","doi-asserted-by":"crossref","unstructured":"Lu, L., Jiang, H., Zhang, H.J.: A Robust Audio Classification and Segmentation Method. In: Proc. ACM International Multimedia Conference, vol.\u00a09, pp. 203\u2013211 (2001)","DOI":"10.1145\/500141.500173"},{"issue":"5","key":"10_CR38","doi-asserted-by":"publisher","first-page":"2946","DOI":"10.1121\/1.1618239","volume":"114","author":"J. Marozeau","year":"2003","unstructured":"Marozeau, J., de Cheveign\u00e9, A., McAdams, S., Winsberg, S.: The Dependency of Timbre on Fundamental Frequency. Journal of the Acoustical Society of America\u00a0114(5), 2946\u20132957 (2003)","journal-title":"Journal of the Acoustical Society of America"},{"key":"10_CR39","unstructured":"Mauch, M.: Automatic Chord Transcription from Audio using Computational Models of Musical Context. Ph.D. thesis, Queen Mary University of London (2010)"},{"key":"10_CR40","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1007\/BF00419633","volume":"58","author":"S. McAdams","year":"1995","unstructured":"McAdams, S., Winsberg, S., Donnadieu, S., De Soete, G., Krimphoff, J.: Perceptual Scaling of Synthesized Musical Timbres: Common Dimensions, Specificities, and Latent Subject Classes. Psychological Research\u00a058, 177\u2013192 (1995)","journal-title":"Psychological Research"},{"key":"10_CR41","unstructured":"Music Information Retrieval Evaluation Exchange Wiki: Structural Segmentation (2010), http:\/\/www.music-ir.org\/mirex\/wiki\/2010:Structural_Segmentation"},{"key":"10_CR42","unstructured":"Peeters, G.: Automatic Classification of Large Musical Instrument Databases Using Hierarchical Classifiers with Inertia Ratio Maximization. In: Proc. AES 115th Convention, New York (2003)"},{"key":"10_CR43","unstructured":"Queen Mary University of London: QM Vamp Plugins, http:\/\/www.omras2.org\/SonicAnnotator"},{"key":"10_CR44","unstructured":"Ramona, M., Richard, G.: Comparison of Different Strategies for a SVM-Based Audio Segmentation. In: Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009), pp. 20\u201324 (2009)"},{"key":"10_CR45","volume-title":"Psychology of Music","author":"J.C. Risset","year":"1999","unstructured":"Risset, J.C., Wessel, D.L.: Exploration of Timbre by Analysis and Synthesis. In: Deutsch, D. (ed.) Psychology of Music, 2nd edn. Academic Press, London (1999)","edition":"2"},{"key":"10_CR46","doi-asserted-by":"crossref","unstructured":"Saunders, J.: Real-Time Discrimination of Broadcast Speech Music. In: Proc. ICASSP 1996, vol.\u00a02, pp. 993\u2013996 (1996)","DOI":"10.1109\/ICASSP.1996.543290"},{"key":"10_CR47","unstructured":"Schaeffer, P.: Trait\u00e9 des Objets Musicaux (Treaty of Musical Objects). \u00c9ditions du seuil (1966)"},{"key":"10_CR48","doi-asserted-by":"crossref","unstructured":"Scheirer, E., Slaney, M.: Construction and Evaluation of a Robust Multifeature Speech\/Music Discriminator. In: Proc. ICASSP 1997, vol.\u00a02, pp. 1331\u20131334 (1997)","DOI":"10.1109\/ICASSP.1997.596192"},{"key":"10_CR49","doi-asserted-by":"crossref","unstructured":"Slawson, A.W.: Vowel Quality and Musical Timbre as Functions of Spectrum Envelope and Fundamental Frequency. J. Acoust. Soc. Am.\u00a043(1) (1968)","DOI":"10.1121\/1.1910769"},{"key":"10_CR50","doi-asserted-by":"publisher","first-page":"838","DOI":"10.1121\/1.1914609","volume":"55","author":"J. Sundberg","year":"1974","unstructured":"Sundberg, J.: Articulatory Interpretation of the \u2018Singing Formant\u2019. J. Acoust. Soc. Am.\u00a055, 838\u2013844 (1974)","journal-title":"J. Acoust. Soc. Am."},{"key":"10_CR51","unstructured":"Terasawa, H., Slaney, M., Berger, J.: A Statistical Model of Timbre Perception. In: ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2006), pp. 18\u201323 (2006)"},{"issue":"1","key":"10_CR52","doi-asserted-by":"publisher","first-page":"36","DOI":"10.1080\/19331680903316742","volume":"7","author":"H. Gil de Z\u00fa\u00f1iga","year":"2010","unstructured":"Gil de Z\u00fa\u00f1iga, H., Veenstra, A., Vraga, E., Shah, D.: Digital Democracy: Reimagining Pathways to Political Participation. Journal of Information Technology & Politics\u00a07(1), 36\u201351 (2010)","journal-title":"Journal of Information Technology & Politics"}],"container-title":["Lecture Notes in Computer Science","Exploring Music Contents"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-642-23126-1_10","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,9]],"date-time":"2023-06-09T08:45:40Z","timestamp":1686300340000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-642-23126-1_10"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2011]]},"ISBN":["9783642231254","9783642231261"],"references-count":52,"URL":"https:\/\/doi.org\/10.1007\/978-3-642-23126-1_10","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2011]]}}}