{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,27]],"date-time":"2025-12-27T21:10:07Z","timestamp":1766869807528,"version":"3.40.5"},"reference-count":45,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2015,2,12]],"date-time":"2015-02-12T00:00:00Z","timestamp":1423699200000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2015,12]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Music identification via audio fingerprinting has been an active research field in recent years. In the real-world environment, music queries are often deformed by various interferences which typically include signal distortions and time-frequency misalignments caused by time stretching, pitch shifting, etc. Therefore, robustness plays a crucial role in music identification technique. In this paper, we propose to use scale invariant feature transform (SIFT) local descriptors computed from a spectrogram image as sub-fingerprints for music identification. Experiments show that these sub-fingerprints exhibit strong robustness against serious time stretching and pitch shifting simultaneously. In addition, a locality sensitive hashing (LSH)-based nearest sub-fingerprint retrieval method and a matching determination mechanism are applied for robust sub-fingerprint matching, which makes the identification efficient and precise. Finally, as an auxiliary function, we demonstrate that by comparing the time-frequency locations of corresponding SIFT keypoints, the factor of time stretching and pitch shifting that music queries might have experienced can be accurately estimated.<\/jats:p>","DOI":"10.1186\/s13636-015-0050-0","type":"journal-article","created":{"date-parts":[[2015,2,11]],"date-time":"2015-02-11T05:33:32Z","timestamp":1423632812000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":21,"title":["SIFT-based local spectrogram image descriptor: a novel feature for robust music identification"],"prefix":"10.1186","volume":"2015","author":[{"given":"Xiu","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bilei","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Linwei","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaoqiang","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peizhong","family":"Lu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenqiang","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2015,2,12]]},"reference":[{"issue":"8","key":"50_CR1","doi-asserted-by":"publisher","first-page":"1969","DOI":"10.1109\/TMM.2013.2269313","volume":"15","author":"Y Yu","year":"2013","unstructured":"Y Yu, R Zimmermann, Y Wang, V Oria, Scalable content-based music retrieval using chord progression histogram and tree-structure LSH. IEEE Trans. Multimedia. 15(8), 1969\u20131981 (2013).","journal-title":"IEEE Trans. Multimedia"},{"key":"50_CR2","doi-asserted-by":"crossref","unstructured":"Y Yu, M Crucianu, V Oria, E Damiani, in Proceedings of ACM International Conference on Multimedia (ACM MM). Combining multi-probe histogram and order-statistics based LSH for scalable audio content retrieval (ACMFirenze, Italy, 2010), pp. 381\u2013390.","DOI":"10.1145\/1873951.1874004"},{"key":"50_CR3","unstructured":"F Kurth, T Gehrmann, M M\u00fcller, in Proceedings of the International Society for Music Information Retrieval(ISMIR). The cyclic beat spectrum: tempo related audio features for time-scale invariant audio identification (Victoria, Canda, 2006), pp. 35\u201340."},{"key":"50_CR4","unstructured":"Y Ke, D Hoiem, R Sukthankar, in Proceedings of the, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Computer vision for music identification (IEEESan Diego, CA, USA, 2005), pp. 597\u2013604."},{"issue":"11","key":"50_CR5","doi-asserted-by":"publisher","first-page":"3467","DOI":"10.1016\/j.patcog.2008.05.006","volume":"41","author":"S Baluja","year":"2008","unstructured":"S Baluja, M Covell, Waveprint: efficient wavelet-based audio fingerprinting. Pattern Recognit. 41(11), 3467\u20133480 (2008).","journal-title":"Pattern Recognit"},{"issue":"3","key":"50_CR6","doi-asserted-by":"publisher","first-page":"271","DOI":"10.1007\/s11265-005-4151-3","volume":"41","author":"P Cano","year":"2005","unstructured":"P Cano, E Batlle, T Kalker, J Haitsma, A review of audio fingerprinting. J. VLSI Signal Process. 41(3), 271\u2013284 (2005).","journal-title":"J. VLSI Signal Process"},{"key":"50_CR7","doi-asserted-by":"crossref","unstructured":"B Zhu, W Li, Z Wang, X Xue, in Proceedings of the, ACM International Conference on Multimedia (ACM MM). A novel audio fingerprinting method robust to time scale modification and pitch shifting (ACMFirenze, Italy, 2010), pp. 987\u2013990.","DOI":"10.1145\/1873951.1874130"},{"key":"50_CR8","unstructured":"J Haitsma, T Kalker, in Proceedings of the International Society for Music Information Retrieval (ISMIR). A highly robust audio fingerprinting system (Paris, France, 2002), pp. 107\u2013115."},{"key":"50_CR9","doi-asserted-by":"crossref","unstructured":"J Haitsma, T Kalker, in Proceedings of the, International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 4. Speed-change resistant audio fingerprinting using auto-correlation (IEEEHong Kong, China, 2003), pp. IV\u2013728.","DOI":"10.1109\/ICASSP.2003.1202746"},{"key":"50_CR10","unstructured":"JS Seo, J Haitsma, T Kalker, in Proceedings of the IEEE Workshop on Model based Processing and Coding of Audio. Linear speed-change resilient audio fingerprinting (IEEELeuven, Belgium, 2002), pp. 45\u201348."},{"issue":"5","key":"50_CR11","doi-asserted-by":"publisher","first-page":"409","DOI":"10.4304\/jcm.5.5.409-424","volume":"5","author":"C Bellettini","year":"2010","unstructured":"C Bellettini, G Mazzini, A framework for robust audio fingerprinting. J. Commun. 5(5), 409\u2013424 (2010).","journal-title":"J. Commun"},{"issue":"10","key":"50_CR12","doi-asserted-by":"publisher","first-page":"3023","DOI":"10.1109\/TSP.2004.833861","volume":"52","author":"S Sukittanon","year":"2004","unstructured":"S Sukittanon, LE Atlas, JW Pitton, Modulation-scale analysis for content identification. IEEE Trans. Signal Process. 52(10), 3023\u20133035 (2004).","journal-title":"IEEE Trans. Signal Process"},{"key":"50_CR13","doi-asserted-by":"crossref","unstructured":"JS Seo, M Jin, S Lee, D Jang, S Lee, CD Yoo, in Proceedings of the, International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 3. Audio fingerprinting based on normalized spectral subband centroids (IEEEPhiladelphia, Pennsylvania, USA, 2005), pp. iii\u2013213.","DOI":"10.1109\/ICASSP.2005.1415684"},{"key":"50_CR14","doi-asserted-by":"crossref","unstructured":"M Malekesmaeili, RK Ward, in Proceedings of the, International Workshop on Multimedia Signal Processing (MMSP). A novel local audio fingerprinting algorithm (IEEEBanff, Canada, 2012), pp. 136\u2013140.","DOI":"10.1109\/MMSP.2012.6343429"},{"key":"50_CR15","unstructured":"AL Wang, in Proceedings of, International Society for Music Information Retrieval (ISMIR). An industrial strength audio search algorithm (Baltimore, Maryland, USA, 2003), pp. 7\u201313."},{"key":"50_CR16","unstructured":"S Fenet, G Richard, Y Grenier, in Proceedings of International Society for Music Information Retrieval (ISMIR). A scalable audio fingerprint method with robustness to pitch-shifting (Miami, USA, 2011), pp. 121\u2013126."},{"key":"50_CR17","doi-asserted-by":"crossref","unstructured":"E Dupraz, G Richard, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Robust frequency-based audio fingerprinting (IEEEDallas, Texas, USA, 2010), pp. 281\u2013284.","DOI":"10.1109\/ICASSP.2010.5495944"},{"key":"50_CR18","unstructured":"L Worms, Reconnaissance dextraits sonores dans une large base de donn\u00e9es (Practical lessons, Ircam, 1998)."},{"key":"50_CR19","doi-asserted-by":"crossref","unstructured":"M Ramona, G Peeters, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Audio identification based on spectral modeling of bark-bands energy and synchronization through onset detection (IEEEPrague, Czech Republic, 2011), pp. 477\u2013480.","DOI":"10.1109\/ICASSP.2011.5946444"},{"key":"50_CR20","doi-asserted-by":"crossref","unstructured":"M Ramona, G Peeters, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Audioprint: An efficient audio fingerprint system based on a novel cost-less synchronization scheme (IEEEVancouver, British Columbia, Canada, 2013), pp. 818\u2013822.","DOI":"10.1109\/ICASSP.2013.6637762"},{"key":"50_CR21","unstructured":"R Bardeli, F Kurth, in AES 25th International Conference on Metadata for Audio. Robust identification of time-scaled audio (SpringerLondon, UK, 2004)."},{"issue":"5","key":"50_CR22","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1109\/MSP.2010.937498","volume":"27","author":"RF Lyon","year":"2010","unstructured":"RF Lyon, Machine hearing: an emerging field. IEEE Signal Process. Mag. 27(5), 131\u2013139 (2010).","journal-title":"IEEE Signal Process. Mag"},{"key":"50_CR23","doi-asserted-by":"crossref","unstructured":"RF Lyon, J Ponte, G Chechik, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Sparse coding of auditory features for machine hearing in interference (IEEEPrague, Czech Republic, 2011), pp. 5876\u20135879.","DOI":"10.1109\/ICASSP.2011.5947698"},{"key":"50_CR24","doi-asserted-by":"crossref","unstructured":"W Li, Y Liu, X Xue, in Proceedings of the, International ACM SIGIR Conference on Research and Development in Information Retrieval. Robust audio identification for mp3 popular music (ACMGeneva, Switzerland, 2010), pp. 627\u2013634.","DOI":"10.1145\/1835449.1835554"},{"key":"50_CR25","doi-asserted-by":"crossref","unstructured":"Y Ke, R Sukthankar, L Huston, in Proceedings of the, ACM International Conference on Multimedia (ACM MM). An efficient parts-based near-duplicate and sub-image retrieval system (ACMNew York, NY, USA, 2004), pp. 869\u2013876.","DOI":"10.1145\/1027527.1027729"},{"key":"50_CR26","doi-asserted-by":"crossref","unstructured":"K Mikolajczyk, C Schmid, in Proceedings of the International Conference on Computer Vision (ICCV). Indexing based on scale invariant interest points (IEEEVancouver, British Columbia, Canada, 2001), pp. 525\u2013531.","DOI":"10.1109\/ICCV.2001.937561"},{"issue":"2","key":"50_CR27","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"D Lowe","year":"2004","unstructured":"D Lowe, Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision. 60(2), 91\u2013110 (2004).","journal-title":"Int. J. Comput. Vision"},{"issue":"2","key":"50_CR28","doi-asserted-by":"publisher","first-page":"159","DOI":"10.1007\/s11263-005-3964-7","volume":"67","author":"V Ferrari","year":"2006","unstructured":"V Ferrari, T Tuytelaars, L VanGool, Simultaneous object recognition and segmentation from single or multiple model views. Int. J. Comput. Vision. 67(2), 159\u2013188 (2006).","journal-title":"Int. J. Comput. Vision"},{"key":"50_CR29","doi-asserted-by":"crossref","unstructured":"G Yu, JJ Slotine, in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Audio classification from time-frequency texture (IEEETaipei, Taiwan, 2009), pp. 1677\u20131689.","DOI":"10.1109\/ICASSP.2009.4959924"},{"key":"50_CR30","doi-asserted-by":"crossref","unstructured":"G Yu, JJ Slotine, in Proceedings of the International Conference on Pattern Recognition (ICPR). Fast wavelet-based visual classification (IEEETampa, Florida, USA, 2008), pp. 1\u20135.","DOI":"10.1109\/ICPR.2008.4761069"},{"key":"50_CR31","unstructured":"T Matsui, M Goto, JP Vert, Y Uchiyama, in Proceedings of the European Signal Processing Conference (EUSIPCO). Gradient-based musical feature extraction based on scale-invariant feature transform (Barcelona, Spain, 2011), pp. 724\u2013728."},{"key":"50_CR32","doi-asserted-by":"crossref","unstructured":"L Kaliciak, B Horsburgh, D Song, N Wiratunga, J Pan, in Proceedings of the Asia Information Retrieval Societies Conference (AIRS). Enhancing music information retrieval by incorporating image-based local features (Tianjin, China, 2012), pp. 226\u2013237.","DOI":"10.1007\/978-3-642-35341-3_19"},{"key":"50_CR33","doi-asserted-by":"crossref","unstructured":"J Shi, C Tomasi, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Good features to track (IEEESeattle, WA, USA, 1994), pp. 593\u2013600.","DOI":"10.1109\/CVPR.1994.323794"},{"key":"50_CR34","doi-asserted-by":"crossref","unstructured":"L Kaliciak, D Song, N Wiratunga, J Pan, in Proceedings of the ACM International Conference on Information and Knowledge Management (CIKM). Novel local features with hybrid sampling technique for image retrieval (ACMToronto, Canada, 2010), pp. 1557\u20131560.","DOI":"10.1145\/1871437.1871671"},{"issue":"10","key":"50_CR35","doi-asserted-by":"publisher","first-page":"1615","DOI":"10.1109\/TPAMI.2005.188","volume":"27","author":"K Mikolajczyk","year":"2005","unstructured":"K Mikolajczyk, C Schmid, A performance evaluation of local descriptors. IEEE Trans. Pattern Anal. Machine Intelligence. 27(10), 1615\u20131630 (2005).","journal-title":"IEEE Trans. Pattern Anal. Machine Intelligence"},{"key":"50_CR36","doi-asserted-by":"crossref","unstructured":"P Indyk, R Motwani, in Proceedings of the ACM Symposium on Theory of Computing. Approximate nearest neighbors: towards removing the curse of dimensionality (ACMDallas, Texas, USA, 1998), pp. 604\u2013613.","DOI":"10.1145\/276698.276876"},{"key":"50_CR37","doi-asserted-by":"crossref","unstructured":"G Shakhnarovich, P Viola, T Darrell, in Proceedings of the International Conference on Computer Vision(ICCV). Fast pose estimation with parameter-sensitive hashing (IEEENice, France, 2003), pp. 750\u2013757.","DOI":"10.1109\/ICCV.2003.1238424"},{"key":"50_CR38","doi-asserted-by":"crossref","unstructured":"M Casey, M Slaney, in Proceedings of the, International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 4. Fast recognition of remixed music audio (IEEEHonolulu, Hawaii, USA, 2007), pp. IV\u20131425.","DOI":"10.1109\/ICASSP.2007.367347"},{"key":"50_CR39","doi-asserted-by":"crossref","unstructured":"A Auclair, L Cohen, N Vincent, in Proceedings of the International Workshop on Adaptive Multimedia Retrieval. How to use SIFT vectors to analyze an image with database templates (Paris, France, 2007), pp. 224\u2013236.","DOI":"10.1007\/978-3-540-79860-6_18"},{"key":"50_CR40","doi-asserted-by":"crossref","unstructured":"M Datar, N Immorlica, P Indyk, VS Mirrokni, in Proceedings of the twentieth annual symposium on Computational Geometry. Locality-sensitive hashing scheme based on p-stable distributions (ACMBarcelona, Spain, 2004), pp. 253\u2013262.","DOI":"10.1145\/997817.997857"},{"key":"50_CR41","unstructured":"G Shakhnarovich, An implementation of locality sensitive hashing algorithm (2008). http:\/\/ttic.uchicago.edu\/~gregory\/download.html."},{"key":"50_CR42","doi-asserted-by":"crossref","unstructured":"X Xue, W Li, Y Yin, in Proceedings of the ACM International Conference on Multimedia (ACM MM). Towards content-based audio fragment authentication (ACMScottsdale, AZ, USA, 2011), pp. 1249\u20131252.","DOI":"10.1145\/2072298.2071986"},{"key":"50_CR43","unstructured":"A Vedaldi, B Fulkerson, VLFeat: An open and portable library of computer vision algorithms (2008). http:\/\/www.vlfeat.org."},{"key":"50_CR44","unstructured":"D Ellis, Robust landmark-based audio fingerprinting (2009). http:\/\/labrosa.ee.columbia.edu\/~dpwe\/resources\/matlab\/fingerprint."},{"key":"50_CR45","unstructured":"C Sergiu, Duplicate songs detector via audio fingerprinting (2012). http:\/\/www.codeproject.com\/Articles\/206507\/Duplicates-detector-via-audio-fingerprinting."}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0050-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-015-0050-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0050-0","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0050-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,18]],"date-time":"2025-05-18T20:43:11Z","timestamp":1747600991000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-015-0050-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,2,12]]},"references-count":45,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2015,12]]}},"alternative-id":["50"],"URL":"https:\/\/doi.org\/10.1186\/s13636-015-0050-0","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2015,2,12]]},"assertion":[{"value":"29 May 2014","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 January 2015","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 February 2015","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"6"}}