{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T04:35:30Z","timestamp":1750221330873,"version":"3.41.0"},"reference-count":25,"publisher":"Institute of Electronics, Information and Communications Engineers (IEICE)","issue":"5","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEICE Trans. Inf. &amp; Syst."],"published-print":{"date-parts":[[2017]]},"DOI":"10.1587\/transinf.2016edp7387","type":"journal-article","created":{"date-parts":[[2017,4,30]],"date-time":"2017-04-30T22:14:39Z","timestamp":1493590479000},"page":"1114-1123","source":"Crossref","is-referenced-by-count":1,"title":["Robust Singing Transcription System Using Local Homogeneity in the Harmonic Structure"],"prefix":"10.1587","volume":"E100.D","author":[{"given":"Hoon","family":"HEO","sequence":"first","affiliation":[{"name":"Music and Audio Research Group, Graduate School of Convergence Science and Technology, Seoul National University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kyogu","family":"LEE","sequence":"additional","affiliation":[{"name":"Music and Audio Research Group, Graduate School of Convergence Science and Technology, Seoul National University"},{"name":"Advanced Institutes of Convergence Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"532","reference":[{"key":"1","doi-asserted-by":"crossref","unstructured":"[1] J.P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M.B. Sandler, \u201cA tutorial on onset detection in music signals,\u201d IEEE Trans. Audio, Speech, Language Process., vol.13, no.5, pp.1035-1047, Sept. 2005.","DOI":"10.1109\/TSA.2005.851998"},{"key":"2","doi-asserted-by":"crossref","unstructured":"[2] A. de Cheveign\u00e9 and H. Kawahara, \u201cYin, a fundamental frequency estimator for speech and music,\u201d J. Acoust. Soc. Am., vol.111, no.4, pp.1917-1930, 2002.","DOI":"10.1121\/1.1458024"},{"key":"3","doi-asserted-by":"crossref","unstructured":"[3] M.S. Rahman and T. Shimamura, \u201cPitch determination from bone conducted speech,\u201d IEICE Trans. Inf. &amp; Syst., vol.E99-D, no.1, pp.283-287, Jan. 2016.","DOI":"10.1587\/transinf.2015EDL8134"},{"key":"4","unstructured":"[4] R.J. McNab, L.A. Smith, I.H. Witten, et al., \u201cSignal processing for melody transcription,\u201d Australian Computer Science Communications, vol.18, pp.301-307, 1996."},{"key":"5","unstructured":"[5] L. Clarisse, J.P. Martens, M. Lesaffre, B. De Baets, H. De Meyer, and M. Leman, \u201cAn auditory model based transcriber of singing sequences,\u201d Proc. Int. Symp. Music Information Retrieval (ISMIR), Citeseer, 2002."},{"key":"6","unstructured":"[6] M.P. Ryyn\u00e4nen and A.P. Klapuri, \u201cModelling of note events for singing transcription,\u201d ISCA Tutorial and Research Workshop (ITRW) on Statistical and Perceptual Audio Processing, 2004."},{"key":"7","doi-asserted-by":"crossref","unstructured":"[7] E. G\u00f3mez and J. Bonada, \u201cTowards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing,\u201d Computer Music Journal, vol.37, no.2, pp.73-90, 2013.","DOI":"10.1162\/COMJ_a_00180"},{"key":"8","doi-asserted-by":"crossref","unstructured":"[8] E. Molina, L.J. Tard\u00f3n, A.M. Barbancho, and I. Barbancho, \u201cSipth: Singing transcription based on hysteresis defined on the pitch-time curve,\u201d IEEE\/ACM Trans. Audio, Speech, Language Process., vol.23, no.2, pp.252-263, Feb. 2015.","DOI":"10.1109\/TASLP.2014.2331102"},{"key":"9","doi-asserted-by":"crossref","unstructured":"[9] H. Heo, D. Sung, and K. Lee, \u201cNote onset detection based on harmonic cepstrum regularity,\u201d in Proc. IEEE Int. Conf. Multimedia and Expo. (ICME), pp.1-6, July 2013.","DOI":"10.1109\/ICME.2013.6607461"},{"key":"10","doi-asserted-by":"crossref","unstructured":"[10] M. Mauch and S. Dixon, \u201cPyin: A fundamental frequency estimator using probabilistic threshold distributions,\u201d in Proc. IEEE Int. Conf. Acoust., Speech, and Signal Process. (ICASSP), pp.659-663, May 2014.","DOI":"10.1109\/ICASSP.2014.6853678"},{"key":"11","doi-asserted-by":"crossref","unstructured":"[11] Z. Duan, Y. Zhang, C. Zhang, and Z. Shi, \u201cUnsupervised single-channel music source separation by average harmonic structure modeling,\u201d IEEE Trans. Audio, Speech, Language Process., vol.16, no.4, pp.766-778, May 2008.","DOI":"10.1109\/TASL.2008.919073"},{"key":"12","unstructured":"[12] M. Mauch, H. Fujihara, K. Yoshii, and M. Goto, \u201cTimbre and melody features for the recognition of vocal activity and instrumental solos in polyphonic music,\u201d Proc. Int. Symp. Music Information Retrieval (ISMIR), pp.233-238, 2011."},{"key":"13","doi-asserted-by":"crossref","unstructured":"[13] C.-L. Hsu and J.-S.R. Jang, \u201cOn the improvement of singing voice separation for monaural recordings using the mir-1K dataset,\u201d IEEE Trans. Audio, Speech, Language Process., vol.18, no.2, pp.310-319, Feb. 2010.","DOI":"10.1109\/TASL.2009.2026503"},{"key":"14","unstructured":"[14] K. Dressler, \u201cAudio melody extraction for mirex 2009,\u201d 5th Music Inform. Retrieval Evaluation eXchange (MIREX), vol.79, pp.100-115, 2009."},{"key":"15","doi-asserted-by":"crossref","unstructured":"[15] J. Salamon and E. Gomez, \u201cMelody extraction from polyphonic music signals using pitch contour characteristics,\u201d IEEE Trans. Audio, Speech, Language Process., vol.20, no.6, pp.1759-1770, Aug. 2012.","DOI":"10.1109\/TASL.2012.2188515"},{"key":"16","unstructured":"[16] S. Montgomery-Smith, \u201cFinding the rotation matrix in n-dimensions,\u201d Mathematics Stack Exchange, URL: http:\/\/math.stackexchange.com\/q\/598782 (version: 2016-06-19)."},{"key":"17","unstructured":"[17] J. Reisinger and R.J. Mooney, \u201cMulti-prototype vector-space models of word meaning,\u201d Human Language Technologies: The 2010 Ann. Conf. the North American Chapter of the Association for Computational Linguistics, HLT&apos;10, pp.109-117, Stroudsburg, PA, USA, Association for Computational Linguistics, 2010."},{"key":"18","unstructured":"[18] A. Banerjee, I.S. Dhillon, J. Ghosh, and S. Sra, \u201cClustering on the unit hypersphere using von mises-fisher distributions,\u201d J. Machine Learning Research, vol.6, pp.1345-1382, Sept. 2005."},{"key":"19","doi-asserted-by":"crossref","unstructured":"[19] M. Cooper and J. Foote, \u201cSummarizing popular music via structural similarity analysis,\u201d in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp.127-130, Oct. 2003.","DOI":"10.1109\/ASPAA.2003.1285836"},{"key":"20","doi-asserted-by":"crossref","unstructured":"[20] J. Foote, \u201cVisualizing music and audio using self-similarity,\u201d in Proc. 7th ACM Int. Conf. Multimedia, MULTIMEDIA&apos;99, New York, NY, USA, pp.77-80, ACM, 1999.","DOI":"10.1145\/319463.319472"},{"key":"21","doi-asserted-by":"crossref","unstructured":"[21] J. Foote, \u201cAutomatic audio segmentation using a measure of audio novelty,\u201d in Proc. IEEE Int. Conf. Multimedia and Expo. (ICME), pp.452-455, Aug. 2000.","DOI":"10.1109\/ICME.2000.869637"},{"key":"22","doi-asserted-by":"crossref","unstructured":"[22] J. Salamon, J. Serr\u00e0, and E. G\u00f3mez, \u201cTonal representations for music retrieval: from version identification to query-by-humming,\u201d Int. J. Multimedia Information Retrieval, vol.2, no.1, pp.45-58, 2013.","DOI":"10.1007\/s13735-012-0026-0"},{"key":"23","unstructured":"[23] E. Molina, A.M. Barbancho, L.J. Tard\u00f3n, and I. Barbancho, \u201cEvaluation framework for automatic singing transcription,\u201d Proc. Int. Symp. Music Information Retrieval (ISMIR), pp.567-572, 2014."},{"key":"24","doi-asserted-by":"crossref","unstructured":"[24] T.D. Mulder, J.P. Martens, M. Lesaffre, M. Leman, B.D. Baets, and H.D. Meyer, \u201cRecent improvements of an auditory model based front-end for the transcription of vocal queries,\u201d in Proc. IEEE Int. Conf. Acoust., Speech, and Signal Process. (ICASSP), vol.4, pp.iv-257-iv-260, May 2004.","DOI":"10.1109\/ICASSP.2004.1326812"},{"key":"25","unstructured":"[25] M. Mauch, C. Cannam, R. Bittner, G. Fazekas, J. Salamon, J. Dai, J. Bello, and S. Dixon, \u201cComputer-aided melody note transcription using the tony software: Accuracy and efficiency,\u201d Proc. 1st Int. Conf. Technologies for Music Notation and Representation (TENOR), pp.23-30, 2015."}],"container-title":["IEICE Transactions on Information and Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E100.D\/5\/E100.D_2016EDP7387\/_pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T02:15:46Z","timestamp":1750212946000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E100.D\/5\/E100.D_2016EDP7387\/_article"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"references-count":25,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2017]]}},"URL":"https:\/\/doi.org\/10.1587\/transinf.2016edp7387","relation":{},"ISSN":["0916-8532","1745-1361"],"issn-type":[{"type":"print","value":"0916-8532"},{"type":"electronic","value":"1745-1361"}],"subject":[],"published":{"date-parts":[[2017]]}}}