{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,8]],"date-time":"2026-02-08T08:33:41Z","timestamp":1770539621503,"version":"3.49.0"},"reference-count":34,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001659","name":"German Research Foundation","doi-asserted-by":"publisher","award":["DFG WE6611\/1-1"],"award-info":[{"award-number":["DFG WE6611\/1-1"]}],"id":[{"id":"10.13039\/501100001659","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,10,17]]},"DOI":"10.1109\/waspaa52581.2021.9632740","type":"proceedings-article","created":{"date-parts":[[2021,12,13]],"date-time":"2021-12-13T21:12:28Z","timestamp":1639429948000},"page":"121-125","source":"Crossref","is-referenced-by-count":3,"title":["Learning Multi-Pitch Estimation from Weakly Aligned Score-Audio Pairs Using a Multi-Label CTC Loss"],"prefix":"10.1109","author":[{"given":"Christof","family":"Weiss","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Geoffroy","family":"Peeters","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054642"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1155\/2007\/48317"},{"key":"ref31","first-page":"25:1","article-title":"Schubert Winterreise dataset: A multimodal scenario for music analysis","volume":"14","author":"wei\u00df","year":"2021","journal-title":"Journal on Computing and Cultural Heritage (JOCCH)"},{"key":"ref30","article-title":"Layer normalization","volume":"abs 1607 6450","author":"ba","year":"2016","journal-title":"CoRR"},{"key":"ref34","doi-asserted-by":"crossref","first-page":"2919","DOI":"10.1109\/TASLP.2020.3030485","article-title":"Local key estimation in music recordings: A case study across songs, versions, and annotators","volume":"28","author":"wei\u00df","year":"2020","journal-title":"IEEE\/ACM Trans Audio Speech and Language Processing"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2020.3030482"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6287832"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2533858"},{"key":"ref13","article-title":"Enabling factorized piano music modeling and generation with the MAESTRO dataset","author":"hawthorne","year":"0","journal-title":"Proc Int Conf on Learning Representations (ICLR)"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682605"},{"key":"ref15","first-page":"63","article-title":"Deep salience representations for F0 tracking in polyphonic music","author":"bittner","year":"0","journal-title":"Proc Int Soc for Music Information Retrieval Conf (ISMIR)"},{"key":"ref16","first-page":"184","article-title":"Using weakly aligned score-audio pairs to train deep chroma models for cross-modal music retrieval","author":"zalkow","year":"0","journal-title":"Proc Int Soc for Music Information Retrieval Conf (ISMIR)"},{"key":"ref17","first-page":"67","article-title":"Melody extraction based on a source-filter model using pitch contour selection","author":"bosch","year":"0","journal-title":"Proc Sound and Music Computing Conf (SMC)"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46282-0_20"},{"key":"ref19","article-title":"Saarland music data (SMD)","author":"m\u00fcller","year":"0","journal-title":"Late Breaking Demo Intl Soc for Music Info Retrieval (ISMIR)"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2019.00161"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2034186"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683470"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2019.8937207"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1121\/1.4790351"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"670:1","DOI":"10.3390\/electronics10060670","article-title":"Jazz bass transcription using a U-net architecture","volume":"10","author":"abe\u00dfer","year":"2021","journal-title":"Electronics"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2011.5946425"},{"key":"ref8","first-page":"2241","article-title":"Invari-ances and data augmentation for supervised music transcription","author":"thickstun","year":"0","journal-title":"Proc IEEE Int Conf on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref7","first-page":"475","article-title":"On the potential of simple framewise approaches to piano transcription","author":"kelz","year":"0","journal-title":"Proc Int Soc for Music Information Retrieval Conf (ISMIR)"},{"key":"ref2","first-page":"34","article-title":"An end-to-end framework for audio-to-score music transcription on monophonic excerpts","author":"rom\u00e1n","year":"0","journal-title":"Proc Int Soc for Music Information Retrieval Conf (IS-MIR)"},{"key":"ref9","first-page":"50","article-title":"Onsets and frames: Dual-objective piano transcription","author":"hawthorne","year":"0","journal-title":"Proc Int Soc for Music Information Retrieval Conf (ISMIR)"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2018.2869928"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2038819"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6637776"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2042119"},{"key":"ref24","article-title":"Learning features of music from scratch","author":"thickstun","year":"0","journal-title":"Proc Int Conf on Learning Representations (ICLR)"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1155\/2016\/8363507"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4959972"}],"event":{"name":"2021 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","location":"New Paltz, NY, USA","start":{"date-parts":[[2021,10,17]]},"end":{"date-parts":[[2021,10,20]]}},"container-title":["2021 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9632687\/9632666\/09632740.pdf?arnumber=9632740","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T16:54:23Z","timestamp":1652201663000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9632740\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10,17]]},"references-count":34,"URL":"https:\/\/doi.org\/10.1109\/waspaa52581.2021.9632740","relation":{},"subject":[],"published":{"date-parts":[[2021,10,17]]}}}