{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T20:00:34Z","timestamp":1776888034877,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":34,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,5,30]],"date-time":"2024-05-30T00:00:00Z","timestamp":1717027200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,5,30]]},"DOI":"10.1145\/3652583.3657626","type":"proceedings-article","created":{"date-parts":[[2024,6,7]],"date-time":"2024-06-07T06:30:40Z","timestamp":1717741840000},"page":"1180-1184","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["PiCoGen: Generate Piano Covers with a Two-stage Approach"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-7515-7021","authenticated-orcid":false,"given":"Chih-Pin","family":"Tan","sequence":"first","affiliation":[{"name":"National Taiwan University &amp; KKCompany Technologies, Taipei, Taiwan"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-0962-7292","authenticated-orcid":false,"given":"Shuen-Huei","family":"Guan","sequence":"additional","affiliation":[{"name":"KKCompany Technologies, Taipei, Taiwan"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2724-6161","authenticated-orcid":false,"given":"Yi-Hsuan","family":"Yang","sequence":"additional","affiliation":[{"name":"National Taiwan University, Taipei, Taiwan"}]}],"member":"320","published-online":{"date-parts":[[2024,6,7]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Ariga Shunya","year":"2017","unstructured":"Shunya Ariga, Satoru Fukayama, and Masataka Goto. 2017. Song2Guitar: A difficulty-aware arrangement system for generating guitar solo covers from polyphonic audio of popular music. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2018.2869928"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095653"},{"key":"e_1_3_2_1_4_1","volume-title":"Proc. IEEE\/ACM Transactions on Audio, Speech, and Language Processing (TASLP)","author":"C'ifka Ondvr","year":"2020","unstructured":"Ondvr ej C'ifka, Umut cS imcs ekli, and Ga\u00ebl Richard. 2020. Groove2groove: One-shot music style transfer with supervision from synthetic data. In Proc. IEEE\/ACM Transactions on Audio, Speech, and Language Processing (TASLP) (2020)."},{"key":"e_1_3_2_1_5_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Donahue Chris","year":"2022","unstructured":"Chris Donahue, John Thickstun, and Percy Liang. 2022. Melody transcription via generative pre-training. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10094628"},{"key":"e_1_3_2_1_7_1","volume-title":"Amal El Fallah Seghrouchni, and Nicolas Gutowski","author":"Fradet Nathan","year":"2021","unstructured":"Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah Seghrouchni, and Nicolas Gutowski. 2021. MidiTok: A Python package for MIDI file tokenization. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_8_1","volume-title":"Proc. International Conference on Learning Representations (ICLR).","author":"Gardner Josh","year":"2022","unstructured":"Josh Gardner, Ian Simon, Ethan Manilow, Curtis Hawthorne, and Jesse Engel. 2022. MT3: Multi-task multitrack music transcription. In Proc. International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_2_1_9_1","unstructured":"Curtis Hawthorne Erich Elsen Jialin Song Adam Roberts Ian Simon Colin Raffel Jesse Engel Sageev Oore and Douglas Eck. 2017. Onsets and Frames: Dual-objective piano transcription. arxiv: 1710.11153"},{"key":"e_1_3_2_1_10_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Hawthorne Curtis","year":"2021","unstructured":"Curtis Hawthorne, Ian Simon, Rigel Swavely, Ethan Manilow, and Jesse Engel. 2021. Sequence-to-sequence piano transcription with Transformers. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.21105\/joss.02154"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i1.16091"},{"key":"e_1_3_2_1_13_1","volume-title":"Music Transformer. In Proc. International Conference on Learning Representations (ICLR).","author":"Anna Huang Cheng-Zhi","year":"2019","unstructured":"Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Ian Simon, Curtis Hawthorne, Noam Shazeer, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. 2019. Music Transformer. In Proc. International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413671"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3121991"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICMLA.2018.00114"},{"key":"e_1_3_2_1_17_1","unstructured":"Peiling Lu Xin Xu Chenfei Kang Botao Yu Chengyi Xing Xu Tan and Jiang Bian. 2023. MuseCoco: Generating symbolic music from text. arxiv: 2306.00110"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853678"},{"key":"e_1_3_2_1_19_1","volume-title":"Proc. Neural Computing and Applications","author":"Oore Sageev","year":"2018","unstructured":"Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. 2018. This time with feeling: Learning expressive musical performance. In Proc. Neural Computing and Applications (2018)."},{"key":"e_1_3_2_1_20_1","volume-title":"Proc. International Conference on Machine Learning (ICML).","author":"Roberts Adam","year":"2018","unstructured":"Adam Roberts, Jesse Engel, Colin Raffel, Curtis Hawthorne, and Douglas Eck. 2018. A hierarchical latent vector model for learning long-term structure in music. In Proc. International Conference on Machine Learning (ICML)."},{"key":"e_1_3_2_1_21_1","volume-title":"Klapuri","author":"Ryyn\u00e4nen Matti P.","year":"2008","unstructured":"Matti P. Ryyn\u00e4nen and Anssi P. Klapuri. 2008. Automatic transcription of melody, bass line, and chords in polyphonic music. Computer Music Journal (2008)."},{"key":"e_1_3_2_1_22_1","volume-title":"Adoption of AI technology in music mixing workflow: an investigation","author":"Vanka Soumya Sai","unstructured":"Soumya Sai Vanka, Maryam Safi, Jean-Baptiste Rolland, and Gy\u00f6rgy Fazekas. 2023. Adoption of AI technology in music mixing workflow: an investigation. Audio Engineering Society (AES)."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-11674-2_14"},{"key":"e_1_3_2_1_24_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Silva Diego Furtado","year":"2018","unstructured":"Diego Furtado Silva, Felipe Falcao, and Nazareno Andrade. 2018. Summarizing and comparing music data and its application on cover song identification. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-05716-9_14"},{"key":"e_1_3_2_1_26_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Toyama Keisuke","year":"2023","unstructured":"Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang Liao, and Yuki Mitsufuji. 2023. Automatic piano transcription with hierarchical frequency-time Transformer. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2002.800560"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/290747.290776"},{"key":"e_1_3_2_1_29_1","volume-title":"Proc. International Conference on Learning Representations (ICLR).","author":"von R\u00fctte Dimitri","year":"2023","unstructured":"Dimitri von R\u00fctte, Luca Biggio, Yannic Kilcher, and Thomas Hofmann. 2023. FIGARO: Generating symbolic music with fine-grained artistic control. In Proc. International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_2_1_30_1","volume-title":"In Proc. International Society for Music Information Retrieval (ISMIR).","author":"Wang Ziyu","year":"2020","unstructured":"Ziyu Wang, Ke Chen, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, Guxian Bin, and Gus Xia. 2020. POP909: A pop-song dataset for music arrangement generation. In In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_31_1","volume-title":"Proc. International Society for Music Information Retrieval (ISMIR).","author":"Weil Jan","year":"2009","unstructured":"Jan Weil, Thomas Sikora, Jean-Louis Durrieu, and Ga\u00ebl Richard. 2009. Automatic generation of lead Sheets from polyphonic music signals. In Proc. International Society for Music Information Retrieval (ISMIR)."},{"key":"e_1_3_2_1_32_1","volume-title":"Proc. IEEE\/ACM Transactions on Audio, Speech, and Language Processing (TASLP)","author":"Wu Shih-Lun","year":"2021","unstructured":"Shih-Lun Wu and Yi-Hsuan Yang. 2021. MuseMorphose: Full-song and fine-grained piano music style transfer with one Transformer VAE. In Proc. IEEE\/ACM Transactions on Audio, Speech, and Language Processing (TASLP) (2021)."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095098"},{"key":"e_1_3_2_1_34_1","volume-title":"Diego F Silva, Philip Tovstogan, Emilia G\u00f3mez Guti\u00e9rrez, and Xavier Serra.","author":"Yesiler Furkan","year":"2019","unstructured":"Furkan Yesiler, Chris Tralie, Albin Andrew Correya, Diego F Silva, Philip Tovstogan, Emilia G\u00f3mez Guti\u00e9rrez, and Xavier Serra. 2019. Da-TACOS: A dataset for cover song identification and understanding. In Proc. International Society for Music Information Retrieval (ISMIR)."}],"event":{"name":"ICMR '24: International Conference on Multimedia Retrieval","location":"Phuket Thailand","acronym":"ICMR '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia","SIGSOFT ACM Special Interest Group on Software Engineering"]},"container-title":["Proceedings of the 2024 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3652583.3657626","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3652583.3657626","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T08:50:41Z","timestamp":1755766241000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3652583.3657626"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,30]]},"references-count":34,"alternative-id":["10.1145\/3652583.3657626","10.1145\/3652583"],"URL":"https:\/\/doi.org\/10.1145\/3652583.3657626","relation":{},"subject":[],"published":{"date-parts":[[2024,5,30]]},"assertion":[{"value":"2024-06-07","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}