{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T13:17:48Z","timestamp":1740143868481,"version":"3.37.3"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2014,8,12]],"date-time":"2014-08-12T00:00:00Z","timestamp":1407801600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/2.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2014,12]]},"DOI":"10.1186\/s13636-014-0031-8","type":"journal-article","created":{"date-parts":[[2014,8,11]],"date-time":"2014-08-11T06:10:24Z","timestamp":1407737424000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios"],"prefix":"10.1186","volume":"2014","author":[{"given":"Stephan","family":"Gerlach","sequence":"first","affiliation":[]},{"given":"J\u00f6rg","family":"Bitzer","sequence":"additional","affiliation":[]},{"given":"Stefan","family":"Goetze","sequence":"additional","affiliation":[]},{"given":"Simon","family":"Doclo","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2014,8,12]]},"reference":[{"issue":"1","key":"31_CR1","first-page":"1","volume":"26503","author":"J Chen","year":"2006","unstructured":"Chen J, Benesty J, Huang Y: Time delay estimation in room acoustic environments: an overview. EURASIP J. Appl. Signal Proces 2006, 26503(1):1-19.","journal-title":"EURASIP J. Appl. Signal Proces"},{"key":"31_CR2","doi-asserted-by":"publisher","first-page":"135","DOI":"10.1002\/9780470727188.ch6","volume-title":"Advances in Digital Speech Transmission","author":"N Madhu","year":"2008","unstructured":"Madhu N, Martin R: in Acoustic Source Localization with Microphone Arrays in.In Advances in Digital Speech Transmission Edited by: Martin R, Heute U, Antweiler C. Wiley, Chichester, UK; 2008, 135-170. [\n                    http:\/\/dx.doi.org\/10.1002\/9780470727188.ch6\n                    \n                  ] http:\/\/dx.doi.org\/10.1002\/9780470727188.ch6"},{"key":"31_CR3","doi-asserted-by":"publisher","first-page":"320","DOI":"10.1109\/TASSP.1976.1162830","volume":"24","author":"C Knapp","year":"1976","unstructured":"Knapp C, Carter G: The generalized correlation method for estimation of time delay. IEEE Trans. Acoust. Speech Signal Processing 1976, 24: 320-327. 10.1109\/TASSP.1976.1162830","journal-title":"IEEE Trans. Acoust. Speech Signal Processing"},{"key":"31_CR4","first-page":"315","volume-title":"Considering the second peak in the GCC functionfor multi-source TDOA estimation with a microphone array","author":"D Bechler","year":"2003","unstructured":"D Bechler, K Kroschel, in Proceedings of the International Workshop on Acoustic Echo and Noise Cancellation (IWAENC). Considering the second peak in the GCC function for multi-source TDOA estimation with a microphone array (Kyoto, Japan, Sept. 2003), pp. 315\u2013318."},{"key":"31_CR5","doi-asserted-by":"crossref","unstructured":"A Brutti, M Omologo, P Svaizer, in Hands-Free Speech Communication and Microphone Arrays, HSCMA. Comparison between different sound source localization techniques based on a real data collection (Trento, Italy, 2008), p. 69\u201372. doi:10.1109\/HSCMA.2008.4538690.","DOI":"10.1109\/HSCMA.2008.4538690"},{"key":"31_CR6","doi-asserted-by":"publisher","first-page":"381","DOI":"10.1007\/978-3-540-70602-1_11","volume-title":"Signals and Communication Technology: Speech and Audio Processing in Adverse Environments","author":"J Scheuing","year":"2008","unstructured":"Scheuing J, Yang B: Correlation-based TDOA-estimation for multiple sources in reverberant environments.In Signals and Communication Technology: Speech and Audio Processing in Adverse Environments Edited by: H\u00e4nsler E, Schmidt G. Springer, Berlin, Germany; 2008, 381-416. [\n                    http:\/\/dx.doi.org\/10.1007\/978-3-540-70602-1_11\n                    \n                  ] http:\/\/dx.doi.org\/10.1007\/978-3-540-70602-1_11"},{"key":"31_CR7","first-page":"1773","volume-title":"Multiple sound sources localization using thespatially mapped GCC functions","author":"B Kwon","year":"2009","unstructured":"B Kwon, Y Park, Y Park, in ICROS-SICE International Joint Conference. Multiple sound sources localization using the spatially mapped GCC functions (Fukuoka, Japan, 2009), pp. 1773\u20131776."},{"issue":"4","key":"31_CR8","doi-asserted-by":"publisher","first-page":"1888","DOI":"10.1121\/1.1290516","volume":"108","author":"C Liu","year":"2000","unstructured":"Liu C, Wheeler BC, O\u2019Brien WD, Bilger RC, Lansing CR, Feng AS: Localization of multiple sound sources with two microphones. J. Acoust. Soc. Am 2000, 108(4):1888-1905. 10.1121\/1.1290516","journal-title":"J. Acoust. Soc. Am"},{"issue":"1","key":"31_CR9","doi-asserted-by":"publisher","first-page":"384","DOI":"10.1121\/1.428310","volume":"107","author":"J Benesty","year":"2000","unstructured":"Benesty J: Adaptive eigenvalue decomposition algorithm for passive source localization. J. Acoust. Soc. Am 2000, 107(1):384-391. 10.1121\/1.428310","journal-title":"J. Acoust. Soc. Am"},{"key":"31_CR10","doi-asserted-by":"publisher","first-page":"1110","DOI":"10.1155\/S111086570330602X","volume":"11","author":"S Doclo","year":"2003","unstructured":"Doclo S, Moonen M: Robust adaptive time delay estimation for speaker localization in noisy and reverberant acoustic environments. EURASIP J. Appl. Signal Proces 2003, 11: 1110-1124. 10.1155\/S111086570330602X","journal-title":"EURASIP J. Appl. Signal Proces"},{"issue":"3","key":"31_CR11","doi-asserted-by":"publisher","first-page":"276","DOI":"10.1109\/TAP.1986.1143830","volume":"34","author":"R Schmidt","year":"1986","unstructured":"Schmidt R: Multiple emitter location and signal parameter estimation. IEEE Trans. Antennas Propagation 1986, 34(3):276-280. doi:10.1109\/TAP.1986.1143830 10.1109\/TAP.1986.1143830","journal-title":"IEEE Trans. Antennas Propagation"},{"issue":"4","key":"31_CR12","doi-asserted-by":"publisher","first-page":"1300","DOI":"10.1016\/j.sigpro.2009.10.015","volume":"90","author":"D Ampeliotis","year":"2010","unstructured":"Ampeliotis D, Berberidis K: Low complexity multiple acoustic source localization in sensor networks based on energy measurements. Signal Proces 2010, 90(4):1300-1312. doi:10.1016\/j.sigpro.2009.10.015 10.1016\/j.sigpro.2009.10.015","journal-title":"Signal Proces"},{"key":"31_CR13","doi-asserted-by":"publisher","first-page":"845","DOI":"10.1109\/ICASSP.2006.1661101","volume-title":"Dual-microphone source location method in 2-Dspace","author":"W Cui","year":"2006","unstructured":"W Cui, Z Cao, J Wei, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4. Dual-microphone source location method in 2-D space (Toulouse, France, May 2006), pp. 845\u2013848. doi:10.1109\/ICASSP.2006.1661101."},{"issue":"2","key":"31_CR14","doi-asserted-by":"publisher","first-page":"464","DOI":"10.1109\/TSP.2007.906728","volume":"56","author":"KC Ho","year":"2008","unstructured":"Ho KC, Sun M: Passive source localization using time differences of arrival and gain ratios of arrival. IEEE Trans. Signal Proces 2008, 56(2):464-477. doi:10.1109\/TSP.2007.906728 10.1109\/TSP.2007.906728","journal-title":"IEEE Trans. Signal Proces"},{"key":"31_CR15","first-page":"828","volume-title":"Co-channel speaker separation","author":"DP Morgan","year":"1995","unstructured":"DP Morgan, EB George, LT Lee, SM Kay, in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 1. Co-channel speaker separation (Detroit, USA, May 1995), pp. 828\u2013831."},{"key":"31_CR16","unstructured":"D Sharma, PA Naylor, Evaluation of pitch estimation in noisy speech for application in non-intrusive speech quality assessment, (Glasgow, Scotland, Aug. 2009)."},{"issue":"2","key":"31_CR17","doi-asserted-by":"publisher","first-page":"518","DOI":"10.1109\/TASLP.2013.2295918","volume":"22","author":"S Gonzalez","year":"2014","unstructured":"Gonzalez S, Brookes M: PEFAC - a pitch estimation algorithm robust to high levels of noise. IEEE\/ACM Trans. Audio, Speech Lang. Proces 2014, 22(2):518-530. doi:10.1109\/TASLP.2013.2295918 10.1109\/TASLP.2013.2295918","journal-title":"IEEE\/ACM Trans. Audio, Speech Lang. Proces"},{"issue":"1","key":"31_CR18","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/1687-6180-2011-1","volume":"2011","author":"M Christensen","year":"2011","unstructured":"Christensen M, H\u00c3\u00ffjvang L, Jakobsson A, Jensen S: Joint fundamental frequency and order estimation using optimal filtering. EURASIP J. Adv. Signal Proces 2011, 2011(1):1-18. 10.1186\/1687-6180-2011-13","journal-title":"EURASIP J. Adv. Signal Proces"},{"issue":"3","key":"31_CR19","doi-asserted-by":"publisher","first-page":"598","DOI":"10.1109\/TASL.2012.2229979","volume":"21","author":"J Nielsen","year":"2013","unstructured":"Nielsen J, Christensen M, Jensen S: Default Bayesian estimation of the fundamental frequency. IEEE Trans. Audio Speech Lang. Proces 2013, 21(3):598-610. doi:10.1109\/TASL.2012.2229979 10.1109\/TASL.2012.2229979","journal-title":"IEEE Trans. Audio Speech Lang. Proces"},{"issue":"1","key":"31_CR20","doi-asserted-by":"publisher","first-page":"225","DOI":"10.1109\/TSP.2013.2286776","volume":"62","author":"JK Nielsen","year":"2014","unstructured":"Nielsen JK, Christensen MG, Cemgil AT, Jensen SH: Bayesian model comparison with the g-prior. IEEE Trans. Signal Proces 2014, 62(1):225-238. 10.1109\/TSP.2013.2286776","journal-title":"IEEE Trans. Signal Proces"},{"key":"31_CR21","volume-title":"Synthesis Lectures on Speech & Audio Processing","author":"MG Christensen","year":"2009","unstructured":"Christensen MG, Jakobsson A: Multi-pitch estimation.In Synthesis Lectures on Speech & Audio Processing Edited by: Juang BH. Morgan & Claypool, San Rafael; 2009. [\n                    http:\/\/dx.doi.org\/10.2200\/S00178ED1V01Y200903SAP005\n                    \n                  ]"},{"key":"31_CR22","first-page":"1629","volume-title":"Joint position-pitch extraction from multichannelaudio","author":"M Wohlmayr","year":"2007","unstructured":"M Wohlmayr, M K\u00e9pesi, in 8th Conference of the International Speech Communication Association, Interspeech. Joint position-pitch extraction from multichannel audio (AntwerpBelgium, Aug. 2007), pp. 1629\u20131632."},{"key":"31_CR23","first-page":"369","volume-title":"Experimental evaluation of the jointposition-pitch estimation (POPI) algorithm in noisy environments","author":"T Habib","year":"2008","unstructured":"T Habib, M K\u00e9pesi, L Ottowitz, in 5th IEEE Sensor Array and Multichannel Signal Processing Workshop (SAM). Experimental evaluation of the joint position-pitch estimation (POPI) algorithm in noisy environments (Darmstadt, Germany, July 2008), pp. 369\u2013372."},{"key":"31_CR24","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1109\/HSCMA.2008.4538694","volume-title":"Joint position-pitch estimation for multiplespeaker scenarios","author":"M K\u00e9pesi","year":"2008","unstructured":"M K\u00e9pesi, L Ottowitz, T Habib, in Hands-Free Speech Communication and Microphone Arrays (HSCMA). Joint position-pitch estimation for multiple speaker scenarios (Trento, Italy, May 2008), pp. 85\u201388. doi:10.1109\/HSCMA.2008.4538694."},{"key":"31_CR25","first-page":"1317","volume-title":"Experimental evaluation of multi-bandposition-pitch estimation (M-PoPi) algorithm for multi-speakerlocalization","author":"T Habib","year":"2008","unstructured":"T Habib, L Ottowitz, M K\u00e9pesi, in 9th Conference of the International Speech Communication Association, Interspeech. Experimental evaluation of multi-band position-pitch estimation (M-PoPi) algorithm for multi-speaker localization (Brisbane, Australia, Sept. 2008), pp. 1317\u20131320."},{"key":"31_CR26","volume-title":"Comparison of SRP-PHAT and multiband-Popialgorithms for speaker localization using particle filters","author":"T Habib","year":"2010","unstructured":"T Habib, H Romsdorfer, in 13th International Conference on Digital Audio Effects (DAFX). Comparison of SRP-PHAT and multiband-Popi algorithms for speaker localization using particle filters (Graz, Austria, Sept. 2010)."},{"issue":"3","key":"31_CR27","first-page":"634","volume":"27","author":"T Habib","year":"2013","unstructured":"Habib T, Romsdorfer H: Auditory inspired methods for localization of multiple concurrent speakers. Comput. Speech Lang. Spec. Issue Speech Sep. Recognit. Multisource Environ 2013, 27(3):634-659. doi:10.1016\/j.csl.2012.09.003","journal-title":"Comput. Speech Lang. Spec. Issue Speech Sep. Recognit. Multisource Environ"},{"key":"31_CR28","volume-title":"Recurrent timing neural networks for joint F0-localization based speech separation","author":"SN Wrigley","year":"2007","unstructured":"SN Wrigley, GJ Brown, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Recurrent timing neural networks for joint F0-localization based speech separation (Hawaii, USA, April 2007)."},{"key":"31_CR29","first-page":"2091","volume-title":"Joint DOA and fundamental frequencyestimation methods based on 2-D filtering","author":"JR Jensen","year":"2010","unstructured":"JR Jensen, MG Christensen Jensen, in European Signal Processing Conference, EUSIPCO. Joint DOA and fundamental frequency estimation methods based on 2-D filtering (Aalborg, Denmark, Aug. 2010), pp. 2091\u20132095."},{"key":"31_CR30","doi-asserted-by":"publisher","first-page":"6812","DOI":"10.1109\/ICASSP.2013.6638981","volume-title":"Joint DOA and fundamentalfrequency estimation based on relaxed iterative adaptive approach andoptimal filtering","author":"Z Zhou","year":"2013","unstructured":"Z Zhou, MG Christensen, JR Jensen, HC So, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Joint DOA and fundamental frequency estimation based on relaxed iterative adaptive approach and optimal filtering (Vancouver, Canada, May 2013), pp. 6812\u20136816. doi:10.1109\/ICASSP.2013.6638981."},{"key":"31_CR31","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/1687-6180-2012-1","volume":"2012","author":"J Zhang","year":"2012","unstructured":"Zhang J, Christensen M, Jensen S, Moonen M: Joint DOA and multi-pitch estimation based on subspace techniques.EURASIP. J. Adv. Signal Proces 2012, 2012: 1. 10.1186\/1687-6180-2012-1","journal-title":"J. Adv. Signal Proces"},{"key":"31_CR32","volume-title":"Fast joint DOA and pitchestimation using a broadband MVDR beamformer","author":"S Karimian-Azari","year":"2013","unstructured":"S Karimian-Azari, JR Jensen, MG Christensen, in European Signal Processing Conference EUSIPCO. Fast joint DOA and pitch estimation using a broadband MVDR beamformer (Marrakech, Morocco, p. Sept. 2013."},{"issue":"5","key":"31_CR33","doi-asserted-by":"publisher","first-page":"923","DOI":"10.1109\/TASL.2013.2239290","volume":"21","author":"JR Jensen","year":"2013","unstructured":"Jensen JR, Christensen MG, Jensen SH: Nonlinear least squares methods for joint DOA and pitch estimation. IEEE Trans. Audio Speech Lang. Proces 2013, 21(5):923-933. doi:10.1109\/TASL.2013.2239290 10.1109\/TASL.2013.2239290","journal-title":"IEEE Trans. Audio Speech Lang. Proces"},{"issue":"5","key":"31_CR34","doi-asserted-by":"publisher","first-page":"509","DOI":"10.1109\/TSA.2004.833008","volume":"12","author":"J Benesty","year":"2004","unstructured":"Benesty J, Chen J, Huang Y: Time-delay estimation via linear interpolation and cross correlation. IEEE Trans. Speech Audio Proces 2004, 12(5):509-519. 10.1109\/TSA.2004.833008","journal-title":"IEEE Trans. Speech Audio Proces"},{"key":"31_CR35","doi-asserted-by":"publisher","DOI":"10.1002\/0470031743","volume-title":"Digital Speech Transmission: Enhancement, Coding and Error Concealment","author":"P Vary","year":"2006","unstructured":"Vary P, Martin R: Digital Speech Transmission: Enhancement, Coding and Error Concealment. Wiley, Chichester; 2006."},{"key":"31_CR36","first-page":"432","volume-title":"Robust speech detection and segmentation forreal-time ASR applications","author":"I Shafran","year":"2003","unstructured":"I Shafran, R Rose, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 1. Robust speech detection and segmentation for real-time ASR applications (Hong Kong, China, April 2003), pp. 432\u2013435."},{"issue":"6","key":"31_CR37","doi-asserted-by":"publisher","first-page":"826","DOI":"10.1109\/TSA.2003.818112","volume":"11","author":"DB Ward","year":"2003","unstructured":"Ward DB, Lehmann EA, Williamson RC: Particle filtering algorithms for tracking an acoustic source in a reverberant environment. IEEE Trans. Speech Audio Proces 2003, 11(6):826-836. 10.1109\/TSA.2003.818112","journal-title":"IEEE Trans. Speech Audio Proces"},{"issue":"2","key":"31_CR38","doi-asserted-by":"publisher","first-page":"174","DOI":"10.1109\/78.978374","volume":"50","author":"MS Arulampalam","year":"2002","unstructured":"Arulampalam MS, Maskell S, Gordon N, Clapp T: A tutorial on particle filters for online nonlinear\/non-Gaussian Bayesian tracking. IEEE Trans. Signal Proces 2002, 50(2):174-188. doi:10.1109\/78.978374 10.1109\/78.978374","journal-title":"IEEE Trans. Signal Proces"},{"issue":"6","key":"31_CR39","first-page":"443","volume":"49","author":"S M\u00fcller","year":"2001","unstructured":"M\u00fcller S, Massarani P: Transfer-function measurement with sweeps. J. Audio Eng. Soc. (AES) 2001, 49(6):443-471.","journal-title":"J. Audio Eng. Soc. (AES)"},{"issue":"4","key":"31_CR40","doi-asserted-by":"publisher","first-page":"943","DOI":"10.1121\/1.382599","volume":"65","author":"JB Allen","year":"1979","unstructured":"Allen JB, Berkley DA: Image method for efficiently simulating small-room acoustics. J. Acoust. Soc. Am 1979, 65(4):943-950. 10.1121\/1.382599","journal-title":"J. Acoust. Soc. Am"},{"key":"31_CR41","unstructured":"E Habets, Room impulse response generator. Internal Report (2010). . Accessed 18 March 2014., [\n                    http:\/\/home.tiscali.nl\/ehabets\/rir_generator.html\n                    \n                  ]"}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-014-0031-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0031-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0031-8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0031-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,3,26]],"date-time":"2019-03-26T18:42:18Z","timestamp":1553625738000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-014-0031-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014,8,12]]},"references-count":41,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2014,12]]}},"alternative-id":["31"],"URL":"https:\/\/doi.org\/10.1186\/s13636-014-0031-8","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2014,8,12]]},"assertion":[{"value":"6 September 2013","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 July 2014","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 August 2014","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"31"}}