{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T10:04:22Z","timestamp":1783159462314,"version":"3.54.6"},"reference-count":266,"publisher":"Association for Computing Machinery (ACM)","issue":"7","license":[{"start":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T00:00:00Z","timestamp":1740096000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nd\/4.0\/"}],"funder":[{"name":"Merlion PHC Music Language Processing N\u00b048304SM","award":["ANR-20-THIA-0014"],"award-info":[{"award-number":["ANR-20-THIA-0014"]}]},{"name":"\u201cAI_PhD@Lille,\u201d and SUTD\u2019s Kickstart Initiative","award":["SKI 2021_04_06"],"award-info":[{"award-number":["SKI 2021_04_06"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":["ACM Comput. Surv."],"published-print":{"date-parts":[[2025,7,31]]},"abstract":"<jats:p>Music is frequently associated with the notion of language, as both domains share several similarities, including the ability for their content to be represented as sequences of symbols. In computer science, the fields of Natural Language Processing (NLP) and Music Information Retrieval (MIR) reflect this analogy through a variety of similar tasks, such as author detection or content generation. This similarity has long encouraged the adaptation of NLP methods to process musical data, particularly symbolic music data, and the rise of Transformer neural networks has considerably strengthened this practice. This survey reviews NLP methods applied to symbolic music generation and information retrieval following two axes. We first propose an overview of representations of symbolic music inspired by text sequential representations. We then review a large set of computational models, particularly deep learning models, which have been adapted from NLP to process these musical representations for various MIR tasks. These models are described and categorized through different prisms with a highlight on their music-specialized mechanisms. We finally present a discussion surrounding the adequate use of NLP tools to process symbolic music data. This includes technical issues regarding NLP methods which may open several doors for further research into more effectively adapting NLP tools to symbolic MIR.<\/jats:p>","DOI":"10.1145\/3714457","type":"journal-article","created":{"date-parts":[[2025,1,28]],"date-time":"2025-01-28T11:01:23Z","timestamp":1738062083000},"page":"1-40","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":26,"title":["Natural Language Processing Methods for Symbolic Music Generation and Information Retrieval: A Survey"],"prefix":"10.1145","volume":"57","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6991-4079","authenticated-orcid":false,"given":"Dinh-Viet-Toan","family":"Le","sequence":"first","affiliation":[{"name":"Univ. Lille, CNRS, Inria, Centrale Lille, UMR 9189 CRIStAL, F-59000 Lille, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9865-2861","authenticated-orcid":false,"given":"Louis","family":"Bigo","sequence":"additional","affiliation":[{"name":"Univ. Bordeaux, CNRS, Bordeaux INP, LaBRI, F-33400 Talence France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8607-1640","authenticated-orcid":false,"given":"Dorien","family":"Herremans","sequence":"additional","affiliation":[{"name":"Singapore University of Technology and Design, Singapore Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2447-0122","authenticated-orcid":false,"given":"Mikaela","family":"Keller","sequence":"additional","affiliation":[{"name":"Univ. Lille, CNRS, Inria, Centrale Lille, UMR 9189 CRIStAL, F-59000 Lille France"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2025,2,21]]},"reference":[{"key":"e_1_3_2_2_2","article-title":"MusicLM: Generating music from text","author":"Agostinelli Andrea","year":"2023","unstructured":"Andrea Agostinelli, Timo I. Denk, Zal\u00e1n Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, et al. 2023. MusicLM: Generating music from text. arXiv:2301.11325 (2023).","journal-title":"arXiv:2301.11325"},{"key":"e_1_3_2_3_2","doi-asserted-by":"crossref","DOI":"10.1037\/0022-3514.43.5.997","article-title":"Social psychology of creativity: A consensual assessment technique.","author":"Amabile Teresa M.","year":"1982","unstructured":"Teresa M. Amabile. 1982. Social psychology of creativity: A consensual assessment technique. Journal of Personality and Social Psychology 43, 5 (1982), 997\u20131013.","journal-title":"Journal of Personality and Social Psychology"},{"key":"e_1_3_2_4_2","doi-asserted-by":"crossref","DOI":"10.7717\/peerj-cs.1410","article-title":"A Transformers-based approach for fine and coarse-grained classification and generation of MIDI songs and soundtracks","author":"Angioni Simone","year":"2023","unstructured":"Simone Angioni, Nathan Lincoln-DeCusatis, Andrea Ibba, and Diego Reforgiato Recupero. 2023. A Transformers-based approach for fine and coarse-grained classification and generation of MIDI songs and soundtracks. PeerJ Computer Science 9 (2023).","journal-title":"PeerJ Computer Science"},{"key":"e_1_3_2_5_2","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR\u201915)","author":"Bahdanau Dzmitry","year":"2015","unstructured":"Dzmitry Bahdanau, Kyung Hyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proceedings of the International Conference on Learning Representations (ICLR\u201915)."},{"key":"e_1_3_2_6_2","article-title":"Longformer: The long-document Transformer","author":"Beltagy Iz","year":"2020","unstructured":"Iz Beltagy, Matthew E. Peters, and Arman Cohan. 2020. Longformer: The long-document Transformer. arXiv:2004.05150 (2020).","journal-title":"arXiv:2004.05150"},{"key":"e_1_3_2_7_2","volume-title":"The Unanswered Question: Six Talks at Harvard","author":"Bernstein Leonard","year":"1976","unstructured":"Leonard Bernstein. 1976. The Unanswered Question: Six Talks at Harvard. Vol. 33. Harvard University Press."},{"key":"e_1_3_2_8_2","article-title":"Comparison between language and music","author":"Besson Mireille","year":"2001","unstructured":"Mireille Besson and Daniele Sch\u00f6n. 2001. Comparison between language and music. Annals of the New York Academy of Sciences 930 (2001), 232\u2013258.","journal-title":"Annals of the New York Academy of Sciences"},{"key":"e_1_3_2_9_2","article-title":"A unified model of structural organization in language and music","author":"Bod Rens","year":"2002","unstructured":"Rens Bod. 2002. A unified model of structural organization in language and music. Journal of Artificial Intelligence Research 17 (2002), 289\u2013308.","journal-title":"Journal of Artificial Intelligence Research"},{"key":"e_1_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00051"},{"key":"e_1_3_2_11_2","volume-title":"Proceedings of the International Conference on Machine Learning (ICML\u201912)","author":"Boulanger-Lewandowski Nicolas","year":"2012","unstructured":"Nicolas Boulanger-Lewandowski, Yoshua Bengio, and Pascal Vincent. 2012. Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription. In Proceedings of the International Conference on Machine Learning (ICML\u201912)."},{"key":"e_1_3_2_12_2","volume-title":"Proceedings of the 2020 24th International Conference Information Visualisation (IV\u201920)","author":"Bra\u015foveanu Adrian M. P.","year":"2020","unstructured":"Adrian M. P. Bra\u015foveanu and R\u0103zvan Andonie. 2020. Visualizing Transformers for NLP: A brief survey. In Proceedings of the 2020 24th International Conference Information Visualisation (IV\u201920). 270\u2013279."},{"key":"e_1_3_2_13_2","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-319-70163-9","volume-title":"Deep Learning Techniques for Music Generation","author":"Briot Jean-Pierre","year":"2020","unstructured":"Jean-Pierre Briot, Ga\u00ebtan Hadjeres, and Fran\u00e7ois-David Pachet. 2020. Deep Learning Techniques for Music Generation. Vol. 1. Springer."},{"key":"e_1_3_2_14_2","volume-title":"Proceedings of the 34th Annual Conference on Neural Information Processing Systems (NeurIPS\u201920)","author":"Brown Tom","year":"2020","unstructured":"Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. In Proceedings of the 34th Annual Conference on Neural Information Processing Systems (NeurIPS\u201920), Vol. 33. Curran Associates, Inc., 1877\u20131901."},{"key":"e_1_3_2_15_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201918)","author":"Brunner Gino","year":"2018","unstructured":"Gino Brunner, Andres Konrad, Yuyi Wang, and Roger Wattenhofer. 2018. MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201918)."},{"key":"e_1_3_2_16_2","article-title":"Sparks of artificial general intelligence: Early experiments with GPT-4","author":"Bubeck S\u00e9bastien","year":"2023","unstructured":"S\u00e9bastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al. 2023. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv:2303.12712 (2023).","journal-title":"arXiv:2303.12712"},{"key":"e_1_3_2_17_2","volume-title":"Proceedings of the 19th International Conference on the Foundations of Digital Games (FDG\u201924).","author":"Cardoso Igor","year":"2024","unstructured":"Igor Cardoso, Rubens O. Moraes, and Lucas N. Ferreira. 2024. The NES video-music database: A dataset of symbolic video game music paired with gameplay videos. In Proceedings of the 19th International Conference on the Foundations of Digital Games (FDG\u201924). Association for Computing Machinery, New York, NY, USA, Article 19, 6 pages."},{"key":"e_1_3_2_18_2","article-title":"Evaluation of text generation: A survey","author":"Celikyilmaz Asli","year":"2021","unstructured":"Asli Celikyilmaz, Elizabeth Clark, and Jianfeng Gao. 2021. Evaluation of text generation: A survey. arXiv:2006.14799 (2021).","journal-title":"arXiv:2006.14799"},{"key":"e_1_3_2_19_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)","author":"Chang Chin-Jui","year":"2021","unstructured":"Chin-Jui Chang, Chun-Yi Lee, and Yi-Hsuan Yang. 2021. Variable-length music score infilling via XLNet and musically specialized positional encoding. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)."},{"key":"e_1_3_2_20_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201918)","author":"Chen Tsung-Ping","year":"2018","unstructured":"Tsung-Ping Chen and Li Su. 2018. Functional harmony recognition of symbolic music data with multi-task recurrent neural networks. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201918). ISMIR, 90\u201397."},{"key":"e_1_3_2_21_2","unstructured":"Tsung-Ping Chen and Li Su. 2019. Harmony Transformer: Incorporating chord segmentation into harmony recognition. In International Society for Music Information Retrieval Conference (ISMIR). ISMIR 259\u2013267."},{"key":"e_1_3_2_22_2","article-title":"Attend to chords: Improving harmonic analysis of symbolic music using Transformer-based models","author":"Chen Tsung-Ping","year":"2021","unstructured":"Tsung-Ping Chen and Li Su. 2021. Attend to chords: Improving harmonic analysis of symbolic music using Transformer-based models. Transactions of the International Society for Music Information Retrieval 4, 1 (2021), 1\u201313.","journal-title":"Transactions of the International Society for Music Information Retrieval"},{"key":"e_1_3_2_23_2","unstructured":"Yu-Hua Chen Yu-Hsiang Huang Wen-Yi Hsiao and Yi-Hsuan Yang. 2020. Automatic composition of guitar tabs by Transformers and groove modeling. In International Society for Music Information Retrieval Conference (ISMIR)."},{"key":"e_1_3_2_24_2","volume-title":"Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP\u201914)","author":"Cho Kyunghyun","year":"2014","unstructured":"Kyunghyun Cho, Bart van Merri\u00ebnboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder\u2013decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP\u201914). Association for Computational Linguistics, Doha, Qatar, 1724\u20131734."},{"key":"e_1_3_2_25_2","doi-asserted-by":"crossref","unstructured":"Keunwoo Choi Gy\u00f6rgy Fazekas Mark Sandler and Kyunghyun Cho. 2017. Convolutional recurrent neural networks for music classification. In 2017 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 2392\u20132396.","DOI":"10.1109\/ICASSP.2017.7952585"},{"key":"e_1_3_2_26_2","article-title":"Chord conditioned melody generation with Transformer based decoders","author":"Choi Kyoyun","year":"2021","unstructured":"Kyoyun Choi, Jonggwon Park, Wan Heo, Sungwook Jeon, and Jonghun Park. 2021. Chord conditioned melody generation with Transformer based decoders. IEEE Access 9 (2021), 42071\u201342080.","journal-title":"IEEE Access"},{"key":"e_1_3_2_27_2","doi-asserted-by":"publisher","DOI":"10.1515\/9783112316009"},{"key":"e_1_3_2_28_2","doi-asserted-by":"crossref","unstructured":"Noam Chomsky. 1980. Human Language and Other Semiotic Systems. Springer US Boston MA 429\u2013440.","DOI":"10.1007\/978-1-4613-3012-7_21"},{"key":"e_1_3_2_29_2","article-title":"MidiBERT-Piano: Large-scale pre-training for symbolic music understanding","author":"Chou Yi-Hui","year":"2021","unstructured":"Yi-Hui Chou, I.-Chun Chen, Chin-Jui Chang, Joann Ching, and Yi-Hsuan Yang. 2021. MidiBERT-Piano: Large-scale pre-training for symbolic music understanding. arXiv:2107.05223 (2021).","journal-title":"arXiv:2107.05223"},{"key":"e_1_3_2_30_2","article-title":"From context to concept: Exploring semantic relationships in music with Word2Vec","author":"Chuan Ching-Hua","year":"2020","unstructured":"Ching-Hua Chuan, Kat Agres, and Dorien Herremans. 2020. From context to concept: Exploring semantic relationships in music with Word2Vec. Neural Computing and Applications 32, 4 (2020), 1023\u20131036.","journal-title":"Neural Computing and Applications"},{"key":"e_1_3_2_31_2","volume-title":"Proceedings of the NIPS 2014 Workshop on Deep Learning","author":"Chung Junyoung","year":"2014","unstructured":"Junyoung Chung, Caglar Gulcehre, Kyunghyun Cho, and Yoshua Bengio. 2014. Empirical evaluation of gated recurrent neural networks on sequence modeling. In Proceedings of the NIPS 2014 Workshop on Deep Learning."},{"key":"e_1_3_2_32_2","doi-asserted-by":"crossref","DOI":"10.1162\/0148926042728449","article-title":"Algorithmic clustering of music based on string compression","author":"Cilibrasi Rudi","year":"2004","unstructured":"Rudi Cilibrasi, Paul Vit\u00c1nyi, and Ronald de Wolf. 2004. Algorithmic clustering of music based on string compression. Computer Music Journal 28, 4 (12 2004), 49\u201367.","journal-title":"Computer Music Journal"},{"key":"e_1_3_2_33_2","doi-asserted-by":"crossref","DOI":"10.1080\/09298219508570672","article-title":"Multiple viewpoint systems for music prediction","author":"Conklin Darrell","year":"1995","unstructured":"Darrell Conklin and Ian H. Witten. 1995. Multiple viewpoint systems for music prediction. Journal of New Music Research 24, 1 (1995), 51\u201373.","journal-title":"Journal of New Music Research"},{"key":"e_1_3_2_34_2","volume-title":"Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics","author":"Conneau Alexis","year":"2018","unstructured":"Alexis Conneau, German Kruszewski, Guillaume Lample, Loic Barrault, and Marco Baroni. 2018. What you can cram into a single $&!#* vector: Probing sentence embeddings for linguistic properties. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2126\u20132136."},{"key":"e_1_3_2_35_2","unstructured":"Jade Copet Felix Kreuk Itai Gat Tal Remez David Kant Gabriel Synnaeve Yossi Adi and Alexandre D\u00e9fossez. 2023. Simple and controllable music generation. In Adv. Neural Inf. Process. Syst."},{"key":"e_1_3_2_36_2","volume-title":"International Society for Music Information Retrieval Conference (ISMIR\u201920)","author":"Cornelissen Bas","year":"2020","unstructured":"Bas Cornelissen, Willem H. Zuidema, and John Ashley Burgoyne. 2020. Mode classification and natural units in plainchant. In International Society for Music Information Retrieval Conference (ISMIR\u201920). 869\u2013875."},{"key":"e_1_3_2_37_2","article-title":"A survey on symbolic data-based music genre classification","author":"Corr\u00eaa D\u00e9bora C.","year":"2016","unstructured":"D\u00e9bora C. Corr\u00eaa and Francisco Ap. Rodrigues. 2016. A survey on symbolic data-based music genre classification. Expert Systems and Applications 60 (2016), 190\u2013210.","journal-title":"Expert Systems and Applications"},{"key":"e_1_3_2_38_2","volume-title":"4th International Symposium on the Internet of Sounds","author":"Cosme-Clifford Nicole","year":"2023","unstructured":"Nicole Cosme-Clifford, James Symons, Kavi Kapoor, and Christopher Wm. White. 2023. Musicological interpretability in generative Transformers. In 4th International Symposium on the Internet of Sounds. 1\u20139."},{"key":"e_1_3_2_39_2","volume-title":"A History of Musical Style","author":"Crocker R. L.","year":"1966","unstructured":"R. L. Crocker. 1966. A History of Musical Style. McGraw-Hill.gb66022695"},{"key":"e_1_3_2_40_2","volume-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","author":"Dai Zihang","year":"2019","unstructured":"Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, and Ruslan Salakhutdinov. 2019. Transformer-XL: Attentive language models beyond a fixed-length context. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2978\u20132988."},{"key":"e_1_3_2_41_2","volume-title":"Artificial Intelligence in Music, Sound, Art and Design","author":"Dalmazzo David","year":"2024","unstructured":"David Dalmazzo, Ken D\u00e9guernel, and Bob L. T. Sturm. 2024. The Chordinator: Modeling music harmony by implementing Transformer networks and token strategies. In Artificial Intelligence in Music, Sound, Art and Design. Lecture Notes in Computer Science, Vol. 14633. Springer, 52\u201366."},{"key":"e_1_3_2_42_2","article-title":"AI-based affective music generation systems: A review of methods, and challenges","author":"Dash Adyasha","year":"2023","unstructured":"Adyasha Dash and Kat R. Agres. 2023. AI-based affective music generation systems: A review of methods, and challenges. arXiv:2301.06890 (2023).","journal-title":"arXiv:2301.06890"},{"key":"e_1_3_2_43_2","article-title":"ChoCo: A chord corpus and a data transformation workflow for musical harmony knowledge graphs","author":"Berardinis Jacopo de","year":"2023","unstructured":"Jacopo de Berardinis, Albert Merono Penuela, Andrea Poltronieri, and Valentina Presutti. 2023. ChoCo: A chord corpus and a data transformation workflow for musical harmony knowledge graphs. Scientific Data 10, 1 (2023), 641.","journal-title":"Scientific Data"},{"key":"e_1_3_2_44_2","doi-asserted-by":"crossref","DOI":"10.1177\/102986499800200104","article-title":"Is there even a grammar of music ?","author":"Dempster Douglas","year":"1998","unstructured":"Douglas Dempster. 1998. Is there even a grammar of music ? Musicae Scientiae 2, 1 (1998), 55\u201365.","journal-title":"Musicae Scientiae"},{"key":"e_1_3_2_45_2","article-title":"ComposerX: Multi-agent symbolic music composition with LLMs","author":"Deng Qixin","year":"2024","unstructured":"Qixin Deng, Qikai Yang, Ruibin Yuan, Yipeng Huang, Yi Wang, Xubo Liu, Zeyue Tian, Jiahao Pan, Ge Zhang, Hanfeng Lin, et al. 2024. ComposerX: Multi-agent symbolic music composition with LLMs. arXiv:2404.18081 (2024).","journal-title":"arXiv:2404.18081"},{"key":"e_1_3_2_46_2","unstructured":"Michel Deudon. 2018. Learning semantic similarity in a continuous space. Adv. Neural Inf. Process. Syst. (NeurIPS) 31 (2018) 994\u20131005."},{"key":"e_1_3_2_47_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201915)","author":"Devaney Johanna","year":"2015","unstructured":"Johanna Devaney, Claire Arthur, Nathaniel Condit-Schultz, and Kirsten Nisula. 2015. Theme and variation encodings with roman numerals (TAVERN): A new data set for symbolic music analysis. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201915)."},{"key":"e_1_3_2_48_2","volume-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional Transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, Minneapolis, Minnesota, 4171\u20134186."},{"key":"e_1_3_2_49_2","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475195"},{"key":"e_1_3_2_50_2","volume-title":"Computational Linguistics and Intelligent Text Processing","author":"Domingo Miguel","year":"2023","unstructured":"Miguel Domingo, Mercedes Garc\u00eda-Mart\u00ednez, Alexandre Helle, Francisco Casacuberta, and Manuel Herranz. 2023. How much does tokenization affect neural machine translation? In Computational Linguistics and Intelligent Text Processing. Lecture Notes in Computer Science, Vol. 13451. Springer, 545\u2013554."},{"key":"e_1_3_2_51_2","article-title":"Enabling language models to fill in the blanks","author":"Donahue Chris","year":"2020","unstructured":"Chris Donahue, Mina Lee, and Percy Liang. 2020. Enabling language models to fill in the blanks. arXiv:2005.05339 (2020).","journal-title":"arXiv:2005.05339"},{"key":"e_1_3_2_52_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201919)","author":"Donahue Chris","year":"2019","unstructured":"Chris Donahue, Huanru Henry Mao, Yiting Ethan Li, Garrison W. Cottrell, and Julian McAuley. 2019. LakhNES: Improving multi-instrumental music generation with cross-domain pre-training. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201919)."},{"key":"e_1_3_2_53_2","volume-title":"Proceedings of the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201923)","author":"Dong Hao-Wen","year":"2023","unstructured":"Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, and Taylor Berg-Kirkpatrick. 2023. Multitrack Music Transformer. In Proceedings of the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201923). 1\u20135."},{"key":"e_1_3_2_54_2","volume-title":"Proceedings of the 2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201918)","author":"Dong Linhao","year":"2018","unstructured":"Linhao Dong, Shuang Xu, and Bo Xu. 2018. Speech-Transformer: A no-recurrence sequence-to-sequence model for speech recognition. In Proceedings of the 2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201918). 5884\u20135888."},{"key":"e_1_3_2_55_2","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly et\u00a0al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. In Int. Conf. Learn. Represent. (ICLR)."},{"key":"e_1_3_2_56_2","doi-asserted-by":"crossref","unstructured":"Constance Douwes Giovanni Bindi Antoine Caillon Philippe Esling and Jean-Pierre Briot. 2023. Is quality enough? Integrating energy consumption in a large-scale evaluation of neural audio synthesis models. In ICASSP 2023-2023 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 1\u20135.","DOI":"10.1109\/ICASSP49357.2023.10096975"},{"key":"e_1_3_2_57_2","volume-title":"Evaluating a Simple Approach to Music Information Retrieval: Conceiving Melodic n-Grams as Text","author":"Downie Stephen","year":"1999","unstructured":"Stephen Downie. 1999. Evaluating a Simple Approach to Music Information Retrieval: Conceiving Melodic n-Grams as Text. University of Illinois."},{"key":"e_1_3_2_58_2","doi-asserted-by":"crossref","unstructured":"Wei Duan Yi Yu Xulong Zhang Suhua Tang Wei Li and Keizo Oyama. 2023. Melody generation from lyrics with local interpretability. ACM Trans. Multimedia Comput. Commun. Appl. 19 3 Article 124 (2 2023) 21 pages.","DOI":"10.1145\/3572031"},{"key":"e_1_3_2_59_2","article-title":"MMM: Exploring conditional multi-track music generation with the Transformer","author":"Ens Jeff","year":"2020","unstructured":"Jeff Ens and Philippe Pasquier. 2020. MMM: Exploring conditional multi-track music generation with the Transformer. arXiv:2008.06048 (2020).","journal-title":"arXiv:2008.06048"},{"key":"e_1_3_2_60_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)","author":"Ens Jeffrey","year":"2021","unstructured":"Jeffrey Ens and Philippe Pasquier. 2021. Building the MetaMIDI dataset: Linking symbolic and audio musical data. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921). 182\u2013188."},{"key":"e_1_3_2_61_2","doi-asserted-by":"crossref","unstructured":"Jose D. Fern\u00e1ndez and Francisco Vico. 2013. AI methods in algorithmic composition: A comprehensive survey. Artif. Intell. Res. 48 1 (2013) 513\u2013582.","DOI":"10.1613\/jair.3908"},{"key":"e_1_3_2_62_2","article-title":"Generating music with data: Application of deep learning models for symbolic music composition","author":"Ferreira Pedro","year":"2023","unstructured":"Pedro Ferreira, Ricardo Limongi, and Luiz Paulo F\u00e1vero. 2023. Generating music with data: Application of deep learning models for symbolic music composition. Applied Sciences 13, 7 (2023).","journal-title":"Applied Sciences"},{"key":"e_1_3_2_63_2","doi-asserted-by":"crossref","DOI":"10.1177\/026327697014003005","article-title":"Text and music revisited","author":"Forn\u00e4s Johan","year":"1997","unstructured":"Johan Forn\u00e4s. 1997. Text and music revisited. Theory, Culture & Society 14, 3 (1997), 109\u2013123.","journal-title":"Theory, Culture & Society"},{"key":"e_1_3_2_64_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921): Late-Breaking Demo Session","author":"Fradet Nathan","year":"2021","unstructured":"Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah-Seghrouchni, and Nicolas Gutowski. 2021. MidiTok: A Python package for MIDI file tokenization. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921): Late-Breaking Demo Session."},{"key":"e_1_3_2_65_2","volume-title":"Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing","author":"Fradet Nathan","year":"2023","unstructured":"Nathan Fradet, Nicolas Gutowski, Fabien Chhel, and Jean-Pierre Briot. 2023. Byte pair encoding for symbolic music. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2001\u20132020."},{"key":"e_1_3_2_66_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)","author":"Fradet Nathan","year":"2023","unstructured":"Nathan Fradet, Nicolas Gutowski, Fabien Chhel, and Jean-Pierre Briot. 2023. Impact of time and note duration tokenizations on deep learning symbolic music modeling. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)."},{"key":"e_1_3_2_67_2","doi-asserted-by":"crossref","DOI":"10.1023\/A:1013681528748","article-title":"Hidden Markov models for text categorization in multi-page documents","author":"Frasconi Paolo","year":"2002","unstructured":"Paolo Frasconi, Giovanni Soda, and Alessandro Vullo. 2002. Hidden Markov models for text categorization in multi-page documents. Journal of Intelligent Information Systems 18 (2002), 195\u2013217.","journal-title":"Journal of Intelligent Information Systems"},{"key":"e_1_3_2_68_2","unstructured":"Yingfeng Fu Yusuke Tanimura and Hidemoto Nakada. 2023. Improve symbolic music pre-training model using MusicTransformer structure. In 2023 17th International Conference on Ubiquitous Information Management and Communication (IMCOM). 1\u20136."},{"key":"e_1_3_2_69_2","article-title":"A new algorithm for data compression","author":"Gage Philip","year":"1994","unstructured":"Philip Gage. 1994. A new algorithm for data compression. C~Users Journal 12, 2 (1994), 23\u201338.","journal-title":"C~Users Journal"},{"key":"e_1_3_2_70_2","article-title":"Embeddings as representation for symbolic music","author":"Garcia-Valencia Sebastian","year":"2020","unstructured":"Sebastian Garcia-Valencia. 2020. Embeddings as representation for symbolic music. arXiv:2005.09406 (2020).","journal-title":"arXiv:2005.09406"},{"key":"e_1_3_2_71_2","article-title":"AllenNLP: A deep semantic natural language processing platform","author":"Gardner Matt","year":"2018","unstructured":"Matt Gardner, Joel Grus, Mark Neumann, Oyvind Tafjord, Pradeep Dasigi, Nelson Liu, Matthew Peters, Michael Schmitz, and Luke Zettlemoyer. 2018. AllenNLP: A deep semantic natural language processing platform. arXiv:1803.07640 (2018).","journal-title":"arXiv:1803.07640"},{"key":"e_1_3_2_72_2","volume-title":"Proceedings of the International Conference on Artificial Neural Networks and Machine Learning (ICANN\u201914)","author":"Goel Kratarth","year":"2014","unstructured":"Kratarth Goel, Raunaq Vohra, and J. K. Sahoo. 2014. Polyphonic music generation by modeling temporal dependencies using a RNN-DBN. In Proceedings of the International Conference on Artificial Neural Networks and Machine Learning (ICANN\u201914). Springer International Publishing, Cham, 217\u2013224."},{"key":"e_1_3_2_73_2","volume-title":"Proceedings of the 28th Annual Conference on Neural Information Processing Systems (NeurIPS\u201914).","author":"Goodfellow Ian J.","year":"2014","unstructured":"Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Proceedings of the 28th Annual Conference on Neural Information Processing Systems (NeurIPS\u201914). MIT Press, Cambridge, MA, USA, 2672\u20132680."},{"key":"e_1_3_2_74_2","article-title":"When in Rome: A meta-corpus of functional harmony","author":"Gotham Mark","year":"2023","unstructured":"Mark Gotham, Gianluca Micchi, N\u00e9stor N\u00e1poles L\u00f3pez, and Malcolm Sailor. 2023. When in Rome: A meta-corpus of functional harmony. Transactions of the International Society for Music Information Retrieval 6, 1 (Nov 2023), 150\u2013166.","journal-title":"Transactions of the International Society for Music Information Retrieval"},{"key":"e_1_3_2_75_2","article-title":"Knowledge distillation: A survey","author":"Gou Jianping","year":"2021","unstructured":"Jianping Gou, Baosheng Yu, Stephen J Maybank, and Dacheng Tao. 2021. Knowledge distillation: A survey. International Journal of Computer Vision 129 (2021), 1789\u20131819.","journal-title":"International Journal of Computer Vision"},{"key":"e_1_3_2_76_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922)","author":"Gover Matan","year":"2022","unstructured":"Matan Gover and Oded Zewi. 2022. Music translation: Generating piano arrangements in different playing levels. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922)."},{"key":"e_1_3_2_77_2","unstructured":"Saurabh Goyal Anamitra Roy Choudhury Saurabh Raje Venkatesan Chakaravarthy Yogish Sabharwal and Ashish Verma. 2020. PoWER-BERT: Accelerating BERT inference via progressive word-vector elimination. In International Conference on Machine Learning (ICML). PMLR 3690\u20133699."},{"key":"e_1_3_2_78_2","unstructured":"Ryan Groves. 2013. Automatic harmonization using a hidden semi-Markov model. AAAI Conf. Artif. Intell. Interact. Digit. Entertain."},{"key":"e_1_3_2_79_2","article-title":"Melodic phrase segmentation by deep neural networks","author":"Guan Yixing","year":"2018","unstructured":"Yixing Guan, Jinyu Zhao, Yiqin Qiu, Zheng Zhang, and Gus Xia. 2018. Melodic phrase segmentation by deep neural networks. arXiv:1811.05688 (2018).","journal-title":"arXiv:1811.05688"},{"key":"e_1_3_2_80_2","volume-title":"Artificial Intelligence in Music, Sound, Art and Design","author":"Guo Rui","year":"2022","unstructured":"Rui Guo, Ivor Simpson, Chris Kiefer, Thor Magnusson, and Dorien Herremans. 2022. MusIAC: An extensible generative framework for music infilling applications with multi-level control. In Artificial Intelligence in Music, Sound, Art and Design. Lecture Notes in Computer Science, Vol. 13221. Springer, 341\u2013356."},{"key":"e_1_3_2_81_2","volume-title":"Proceedings of the 37th AAAI Conference on Artificial Intelligence.","author":"Guo Zixun","year":"2023","unstructured":"Zixun Guo, Jaeyong Kang, and Dorien Herremans. 2023. A domain-knowledge-inspired music embedding space and a novel attention mechanism for symbolic music modeling. In Proceedings of the 37th AAAI Conference on Artificial Intelligence. AAAI Press, Article 566, 8 pages."},{"key":"e_1_3_2_82_2","article-title":"The piano inpainting application","author":"Hadjeres Ga\u00ebtan","year":"2021","unstructured":"Ga\u00ebtan Hadjeres and L\u00e9opold Crestel. 2021. The piano inpainting application. arXiv:2107.05944 (2021).","journal-title":"arXiv:2107.05944"},{"key":"e_1_3_2_83_2","article-title":"Interactive music generation with positional constraints using anticipation-RNNs","author":"Hadjeres Ga\u00ebtan","year":"2017","unstructured":"Ga\u00ebtan Hadjeres and Frank Nielsen. 2017. Interactive music generation with positional constraints using anticipation-RNNs. arXiv:1709.06404 (2017).","journal-title":"arXiv:1709.06404"},{"key":"e_1_3_2_84_2","volume-title":"Proceedings of the International Conference on Machine Learning (ICML\u201917)","author":"Hadjeres Ga\u00ebtan","year":"2017","unstructured":"Ga\u00ebtan Hadjeres, Fran\u00e7ois Pachet, and Frank Nielsen. 2017. DeepBach: A steerable model for Bach chorales generation. In Proceedings of the International Conference on Machine Learning (ICML\u201917). PMLR, 1362\u20131371."},{"key":"e_1_3_2_85_2","article-title":"Generating music with structure using self-similarity as attention","author":"Hager Sophia","year":"2024","unstructured":"Sophia Hager, Kathleen Hablutzel, and Katherine M. Kinnaird. 2024. Generating music with structure using self-similarity as attention. arXiv:2406.15647 (2024).","journal-title":"arXiv:2406.15647"},{"key":"e_1_3_2_86_2","article-title":"Systematic analysis of music representations from BERT","author":"Han Sangjun","year":"2023","unstructured":"Sangjun Han, Hyeongrae Ihm, and Woohyung Lim. 2023. Systematic analysis of music representations from BERT. arXiv:2306.04628 (2023).","journal-title":"arXiv:2306.04628"},{"key":"e_1_3_2_87_2","unstructured":"Curtis Hawthorne Andriy Stasyuk Adam Roberts Ian Simon Cheng-Zhi Anna Huang Sander Dieleman Erich Elsen Jesse Engel and Douglas Eck. 2019. Enabling factorized piano music modeling and generation with the MAESTRO dataset. In Int. Conf. Learn. Represent. (ICLR)."},{"key":"e_1_3_2_88_2","doi-asserted-by":"crossref","DOI":"10.5334\/tismir.63","article-title":"The annotated Mozart sonatas: Score, harmony, and cadence","author":"Hentschel Johannes","year":"2021","unstructured":"Johannes Hentschel, Markus Neuwirth, and Martin Rohrmeier. 2021. The annotated Mozart sonatas: Score, harmony, and cadence. Transactions of the International Society for Music Information Retrieval 4, 1 (5 2021), 67\u201380.","journal-title":"Transactions of the International Society for Music Information Retrieval"},{"key":"e_1_3_2_89_2","doi-asserted-by":"crossref","DOI":"10.1016\/j.softx.2023.101365","article-title":"Musicaiz: A Python library for symbolic music generation, analysis and visualization","author":"Hernandez-Olivan Carlos","year":"2023","unstructured":"Carlos Hernandez-Olivan and Jose R. Beltran. 2023. Musicaiz: A Python library for symbolic music generation, analysis and visualization. SoftwareX 22 (2023), 101365.","journal-title":"SoftwareX"},{"key":"e_1_3_2_90_2","volume-title":"Proceedings of the International Workshop on Deep Learning and Music","author":"Herremans Dorien","year":"2017","unstructured":"Dorien Herremans and Ching-Hua Chuan. 2017. Modeling musical context with Word2vec. In Proceedings of the International Workshop on Deep Learning and Music."},{"key":"e_1_3_2_91_2","doi-asserted-by":"crossref","unstructured":"Dorien Herremans Ching-Hua Chuan and Elaine Chew. 2017. A functional taxonomy of music generation systems. ACM Comput. Surv. 50 5 (2017) 30 pages.","DOI":"10.1145\/3108242"},{"key":"e_1_3_2_92_2","volume-title":"International Society for Music Information Retrieval Conference (ISMIR\u201918)","author":"Hillewaere Ruben","year":"2018","unstructured":"Ruben Hillewaere, Bernard Manderick, and Darrell Conklin. 2018. Global feature versus event models for folk song classification. In International Society for Music Information Retrieval Conference (ISMIR\u201918). 729\u2013734."},{"key":"e_1_3_2_93_2","article-title":"Melody2vec: Distributed representations of melodic phrases based on melody segmentation","author":"Hirai Tatsunori","year":"2019","unstructured":"Tatsunori Hirai and Shun Sawada. 2019. Melody2vec: Distributed representations of melodic phrases based on melody segmentation. Journal of Information Processing 27 (2019), 278\u2013286.","journal-title":"Journal of Information Processing"},{"key":"e_1_3_2_94_2","doi-asserted-by":"crossref","DOI":"10.1162\/neco.1997.9.8.1735","article-title":"Long short-term memory","author":"Hochreiter Sepp","year":"1997","unstructured":"Sepp Hochreiter and J\u00fcrgen Schmidhuber. 1997. Long short-term memory. Neural Computation 9, 8 (11 1997), 1735\u20131780.","journal-title":"Neural Computation"},{"key":"e_1_3_2_95_2","doi-asserted-by":"crossref","unstructured":"Wen-Yi Hsiao Jen-Yu Liu Yin-Cheng Yeh and Yi-Hsuan Yang. 2021. Compound Word Transformer: Learning to compose full-song music over dynamic directed hypergraphs. In Proceedings of the AAAI Conf. Artif. Intell. 35 (2021) 178\u2013186.","DOI":"10.1609\/aaai.v35i1.16091"},{"key":"e_1_3_2_96_2","volume-title":"Proceedings of the NeurIPS Workshop on Interpretability and Robustness in Audio, Speech, and Language","author":"Huang Anna","year":"2018","unstructured":"Anna Huang, Monica Dinculescu, Ashish Vaswani, and Douglas Eck. 2018. Visualizing music self-attention. In Proceedings of the NeurIPS Workshop on Interpretability and Robustness in Audio, Speech, and Language. 1."},{"key":"e_1_3_2_97_2","article-title":"Words without boundaries: Computational approaches to Chinese word segmentation","author":"Huang Chu-Ren","year":"2012","unstructured":"Chu-Ren Huang and Nianwen Xue. 2012. Words without boundaries: Computational approaches to Chinese word segmentation. Language and Linguistics Compass 6, 8 (2012), 494\u2013505.","journal-title":"Language and Linguistics Compass"},{"key":"e_1_3_2_98_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201917)","author":"Huang Cheng-Zhi Anna","year":"2017","unstructured":"Cheng-Zhi Anna Huang, Tim Cooijmans, Adam Roberts, Aaron Courville, and Douglas Eck. 2017. Counterpoint by convolution. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201917)."},{"key":"e_1_3_2_99_2","doi-asserted-by":"publisher","DOI":"10.1145\/2856767.2856792"},{"key":"e_1_3_2_100_2","unstructured":"Cheng-Zhi Anna Huang Ashish Vaswani Jakob Uszkoreit Ian Simon Curtis Hawthorne Noam Shazeer Andrew M. Dai Matthew D. Hoffman Monica Dinculescu and Douglas Eck. 2019. Music Transformer. In International Conference on Learning Representations."},{"key":"e_1_3_2_101_2","volume-title":"Proceedings of the CIPS-SIGHAN Joint Conference on Chinese Language Processing","author":"Huang Hen-Hsen","year":"2010","unstructured":"Hen-Hsen Huang, Chuen-Tsai Sun, and Hsin-Hsi Chen. 2010. Classical Chinese sentence segmentation. In Proceedings of the CIPS-SIGHAN Joint Conference on Chinese Language Processing."},{"key":"e_1_3_2_102_2","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413671"},{"key":"e_1_3_2_103_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)","author":"Hung Hsiao-Tzu","year":"2021","unstructured":"Hsiao-Tzu Hung, Joann Ching, Seungheon Doh, Nabin Kim, Juhan Nam, and Yi-Hsuan Yang. 2021. EMOPIA: A multi-modal pop piano dataset for emotion recognition and emotion-based music generation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921). 318\u2013325."},{"key":"e_1_3_2_104_2","doi-asserted-by":"crossref","DOI":"10.1525\/mp.2009.26.3.195","article-title":"Parallels and nonparallels between language and music","author":"Jackendoff Ray","year":"2009","unstructured":"Ray Jackendoff. 2009. Parallels and nonparallels between language and music. Music Perception: An Interdisciplinary Journal 26, 3 (2009), 195\u2013204.","journal-title":"Music Perception: An Interdisciplinary Journal"},{"key":"e_1_3_2_105_2","article-title":"Machine learning techniques in automatic music transcription: A systematic survey","author":"Jamshidi Fatemeh","year":"2024","unstructured":"Fatemeh Jamshidi, Gary Pike, Amit Das, and Richard Chapman. 2024. Machine learning techniques in automatic music transcription: A systematic survey. arXiv:2406.15249 (2024).","journal-title":"arXiv:2406.15249"},{"key":"e_1_3_2_106_2","doi-asserted-by":"crossref","unstructured":"Tommi Jauhiainen Marco Lui Marcos Zampieri Timothy Baldwin and Krister Lind\u00e9n. 2019. Automatic language identification in texts: A survey. J. Artif. Int. Res. 65 1 (2019) 675\u2013682.","DOI":"10.1613\/jair.1.11675"},{"key":"e_1_3_2_107_2","volume-title":"International Society for Music Information Retrieval Conference (ISMIR\u201919)","author":"Jeong Dasaem","year":"2019","unstructured":"Dasaem Jeong, Taegyun Kwon, Yoojin Kim, Kyogu Lee, and Juhan Nam. 2019. VirtuosoNet: A hierarchical RNN-based system for modeling expressive piano performance. In International Society for Music Information Retrieval Conference (ISMIR\u201919). 908\u2013915."},{"key":"e_1_3_2_108_2","doi-asserted-by":"crossref","unstructured":"Shulei Ji Xinyu Yang and Jing Luo. 2023. A survey on deep learning for symbolic music generation: Representations algorithms evaluations and challenges. ACM Comput. Surv. 56 1 (2023) 39 pages.","DOI":"10.1145\/3597493"},{"key":"e_1_3_2_109_2","unstructured":"Albert Q. Jiang Alexandre Sablayrolles Arthur Mensch Chris Bamford Devendra Singh Chaplot Diego de las Casas Florian Bressand Gianna Lengyel Guillaume Lample Lucile Saulnier LA\u013alio Renard Lavaud Marie-Anne Lachaux Pierre Stock Teven Le Scao Thibaut Lavril Thomas Wang TimothA\u013ae Lacroix and William El Sayed. 2023. Mistral 7B. arXiv:2310.06825 [cs.CL]"},{"key":"e_1_3_2_110_2","volume-title":"Proceedings of the 1st Workshop on NLP for Music and Audio (NLP4MusA\u201920)","author":"Jiang Junyan","year":"2020","unstructured":"Junyan Jiang, Gus Xia, and Taylor Berg-Kirkpatrick. 2020. Discovering music relations with sequential attention. In Proceedings of the 1st Workshop on NLP for Music and Audio (NLP4MusA\u201920). Association for Computational Linguistics, Online, 1\u20135."},{"key":"e_1_3_2_111_2","doi-asserted-by":"crossref","unstructured":"Junyan Jiang Gus G. Xia Dave B. Carlton Chris N. Anderson and Ryan H. Miyakawa. 2020. Transformer VAE: A hierarchical model for structure-aware and interpretable music representation learning. In ICASSP 2020-2020 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 516\u2013520.","DOI":"10.1109\/ICASSP40776.2020.9054554"},{"key":"e_1_3_2_112_2","doi-asserted-by":"crossref","unstructured":"Cong Jin Yun Tie Yong Bai Xin Lv and Shouxun Liu. 2020. A style-specific music composition neural network. Neural Process. Lett. 52 3 (2020) 1893\u20131912.","DOI":"10.1007\/s11063-020-10241-8"},{"key":"e_1_3_2_113_2","article-title":"Deep learning for text style transfer: A survey","author":"Jin Di","year":"2022","unstructured":"Di Jin, Zhijing Jin, Zhiting Hu, Olga Vechtomova, and Rada Mihalcea. 2022. Deep learning for text style transfer: A survey. Computational Linguistics 48, 1 (2022), 155\u2013205.","journal-title":"Computational Linguistics"},{"key":"e_1_3_2_114_2","article-title":"TeleMelody: Lyric-to-melody generation with a template-based two-stage method","author":"Ju Zeqian","year":"2022","unstructured":"Zeqian Ju, Peiling Lu, Xu Tan, Rui Wang, Chen Zhang, Songruoyao Wu, Kejun Zhang, Xiangyang Li, Tao Qin, and Tie-Yan Liu. 2022. TeleMelody: Lyric-to-melody generation with a template-based two-stage method. arXiv:2109.09617 (2022).","journal-title":"arXiv:2109.09617"},{"key":"e_1_3_2_115_2","volume-title":"Speech & Language Processing","author":"Jurafsky Dan","year":"2000","unstructured":"Dan Jurafsky. 2000. Speech & Language Processing."},{"key":"e_1_3_2_116_2","article-title":"Video2Music: Suitable music generation from videos using an affective multimodal Transformer model","author":"Kang Jaeyong","year":"2023","unstructured":"Jaeyong Kang, Soujanya Poria, and Dorien Herremans. 2023. Video2Music: Suitable music generation from videos using an affective multimodal Transformer model. arXiv:2311.00968 (2023).","journal-title":"arXiv:2311.00968"},{"key":"e_1_3_2_117_2","unstructured":"Angelos Katharopoulos Apoorv Vyas Nikolaos Pappas and Fran\u00e7ois Fleuret. 2020. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In International Conference on Machine Learning (ICML) (ICML\u201920). JMLR.org Article 478 10 pages."},{"key":"e_1_3_2_118_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922): Late-Breaking Demo Session","author":"Kermarec Mathieu","year":"2022","unstructured":"Mathieu Kermarec, Louis Bigo, and Mikaela Keller. 2022. Improving tokenization expressiveness with pitch intervals. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922): Late-Breaking Demo Session."},{"key":"e_1_3_2_119_2","article-title":"Automatic detection of text genre","author":"Kessler Brett","year":"1997","unstructured":"Brett Kessler, Geoffrey Nunberg, and Hinrich Schuetze. 1997. Automatic detection of text genre. arXiv:cmp-lg\/9707002 (1997).","journal-title":"arXiv:cmp-lg\/9707002"},{"key":"e_1_3_2_120_2","volume-title":"Proceedings of the 8th Joint Conference on Lexical and Computational Semantics","author":"Kim Najoung","year":"2019","unstructured":"Najoung Kim, Roma Patel, Adam Poliak, Patrick Xia, Alex Wang, Tom McCoy, Ian Tenney, Alexis Ross, Tal Linzen, Benjamin Van Durme, et al. 2019. Probing what different NLP tasks teach machines about function word comprehension. In Proceedings of the 8th Joint Conference on Lexical and Computational Semantics. Association for Computational Linguistics, Minneapolis, Minnesota, 235\u2013249."},{"key":"e_1_3_2_121_2","unstructured":"Diederik P. Kingma and Max Welling. 2013. Auto-encoding variational Bayes. In Int. Conf. Learn. Represent. (ICLR)."},{"key":"e_1_3_2_122_2","doi-asserted-by":"crossref","unstructured":"Stephen James Krol Maria Teresa Llano and Jon McCormack. 2022. Towards the generation of musical explanations with GPT-3. In International Conference on Computational Intelligence in Music Sound Art and Design. Springer 131\u2013147.","DOI":"10.1007\/978-3-031-03789-4_9"},{"key":"e_1_3_2_123_2","volume-title":"Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics","author":"Kudo Taku","year":"2018","unstructured":"Taku Kudo. 2018. Subword regularization: Improving neural network translation models with multiple subword candidates. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Melbourne, Australia, 66\u201375."},{"key":"e_1_3_2_124_2","article-title":"From words to music: A study of subword tokenization techniques in symbolic music generation","author":"Kumar Adarsh","year":"2023","unstructured":"Adarsh Kumar and Pedro Sarmento. 2023. From words to music: A study of subword tokenization techniques in symbolic music generation. arXiv:2304.08953 (2023).","journal-title":"arXiv:2304.08953"},{"key":"e_1_3_2_125_2","article-title":"Polyphonic music composition with LSTM neural networks and reinforcement learning","author":"Kumar Harish","year":"2019","unstructured":"Harish Kumar and Balaraman Ravindran. 2019. Polyphonic music composition with LSTM neural networks and reinforcement learning. arXiv:1902.01973 (2019).","journal-title":"arXiv:1902.01973"},{"key":"e_1_3_2_126_2","article-title":"Robust part-of-speech tagging using a hidden Markov model","author":"Kupiec Julian","year":"1992","unstructured":"Julian Kupiec. 1992. Robust part-of-speech tagging using a hidden Markov model. Computer Speech & Language 6, 3 (1992), 225\u2013242.","journal-title":"Computer Speech & Language"},{"key":"e_1_3_2_127_2","volume-title":"Artificial Intelligence in Music, Sound, Art and Design","author":"Lahnala Allison","year":"2021","unstructured":"Allison Lahnala, Gauri Kambhatla, Jiajun Peng, Matthew Whitehead, Gillian Minnehan, Eric Guldan, Jonathan K. Kummerfeld, An\u0131l \u00c7amc\u0131, and Rada Mihalcea. 2021. Chord embeddings: Analyzing what they capture and their role for next chord prediction and artist attribute prediction. In Artificial Intelligence in Music, Sound, Art and Design. 171\u2013186."},{"key":"e_1_3_2_128_2","article-title":"Pitchclass2vec: Symbolic music structure segmentation with chord embeddings","author":"Lazzari Nicolas","year":"2023","unstructured":"Nicolas Lazzari, Andrea Poltronieri, and Valentina Presutti. 2023. Pitchclass2vec: Symbolic music structure segmentation with chord embeddings. arXiv:2303.15306 (2023).","journal-title":"arXiv:2303.15306"},{"key":"e_1_3_2_129_2","unstructured":"Hyun Lee Taehyun Kim Hyolim Kang Minjoo Ki Hyeonchan Hwang Sharang Han Seon Joo Kim et\u00a0al. 2022. ComMU: Dataset for combinatorial music generation. Adv. Neural Inf. Process. Syst. (NeurIPS) 35 (2022) 39103\u201339114."},{"key":"e_1_3_2_130_2","article-title":"Musical Syntax and Its Relation to Linguistic Syntax","author":"Lerdahl Fred","year":"2012","unstructured":"Fred Lerdahl. 2012. Musical Syntax and Its Relation to Linguistic Syntax. Coll\u00e8ge de France.","journal-title":"Coll\u00e8ge de France"},{"key":"e_1_3_2_131_2","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/12513.001.0001","volume-title":"A Generative Theory of Tonal Music","author":"Lerdahl Fred","year":"1996","unstructured":"Fred Lerdahl and Ray S. Jackendoff. 1996. A Generative Theory of Tonal Music. MIT Press."},{"key":"e_1_3_2_132_2","article-title":"BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension","author":"Lewis Mike","year":"2019","unstructured":"Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. 2019. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv:1910.13461 (2019).","journal-title":"arXiv:1910.13461"},{"key":"e_1_3_2_133_2","article-title":"The music maestro or the musically challenged, a massive music evaluation benchmark for large language models","author":"Li Jiajia","year":"2024","unstructured":"Jiajia Li, Lu Yang, Mingni Tang, Cong Chen, Zuchao Li, Ping Wang, and Hai Zhao. 2024. The music maestro or the musically challenged, a massive music evaluation benchmark for large language models. arXiv:2406.15885 (2024).","journal-title":"arXiv:2406.15885"},{"key":"e_1_3_2_134_2","article-title":"MelodyDiffusion: Chord-conditioned melody generation using a Transformer-based diffusion model","author":"Li Shuyu","year":"2023","unstructured":"Shuyu Li and Yunsick Sung. 2023. MelodyDiffusion: Chord-conditioned melody generation using a Transformer-based diffusion model. Mathematics 11, 8 (2023).","journal-title":"Mathematics"},{"key":"e_1_3_2_135_2","article-title":"MRBERT: Pre-training of melody and rhythm for automatic music generation","author":"Li Shuyu","year":"2023","unstructured":"Shuyu Li and Yunsick Sung. 2023. MRBERT: Pre-training of melody and rhythm for automatic music generation. Mathematics 11, 4 (2023), 798.","journal-title":"Mathematics"},{"key":"e_1_3_2_136_2","article-title":"An comparative analysis of different pitch and metrical grid encoding methods in the task of sequential music generation","author":"Li Yuqiang","year":"2023","unstructured":"Yuqiang Li, Shengchen Li, and George Fazekas. 2023. An comparative analysis of different pitch and metrical grid encoding methods in the task of sequential music generation. arXiv:2301.13383 (2023).","journal-title":"arXiv:2301.13383"},{"key":"e_1_3_2_137_2","unstructured":"Yuqiang Li Shengchen Li and George Fazekas. 2023. Pitch class and octave-based pitch embedding training strategies for symbolic music generation. In International Symposium on Computer Music Multidisciplinary Research (CMMR). Zenodo Tokyo Japan 86\u201397."},{"key":"e_1_3_2_138_2","volume-title":"Guide to Big Data Applications","author":"Li Yang","year":"2018","unstructured":"Yang Li and Tao Yang. 2018. Word embedding for understanding natural language: A survey. In Guide to Big Data Applications. Springer International Publishing, Cham, 83\u2013104."},{"key":"e_1_3_2_139_2","doi-asserted-by":"crossref","unstructured":"Hongru Liang Wenqiang Lei Paul Yaozhu Chan Zhenglu Yang Maosong Sun and Tat-Seng Chua. 2020. PiRhDy: Learning pitch- rhythm- and dynamics-aware embeddings for symbolic music. In Proceedings of the 28th ACM International Conference on Multimedia (Seattle WA USA) (MM\u201920). Association for Computing Machinery New York NY USA 574\u2013582.","DOI":"10.1145\/3394171.3414032"},{"key":"e_1_3_2_140_2","article-title":"PianoBART: Symbolic piano music generation and understanding with large-scale pre-training","author":"Liang Xiao","year":"2024","unstructured":"Xiao Liang, Zijian Zhao, Weichao Zeng, Yutong He, Fupeng He, Yiyi Wang, and Chengying Gao. 2024. PianoBART: Symbolic piano music generation and understanding with large-scale pre-training. arXiv:2407.03361 (2024).","journal-title":"arXiv:2407.03361"},{"key":"e_1_3_2_141_2","doi-asserted-by":"crossref","unstructured":"Yaobo Liang Nan Duan Yeyun Gong NingWu Fenfei Guo Weizhen Qi Ming Gong Linjun Shou Daxin Jiang Guihong Cao Xiaodong Fan Ruofei Zhang Rahul Agrawal Edward Cui Sining Wei Taroon Bharti Ying Qiao Jiun-Hung Chen Winnie Wu Shuguang Liu Fan Yang Daniel Campos Rangan Majumder and Ming Zhou. 2020. XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training Understanding and Generation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics Online 6008\u20136018.","DOI":"10.18653\/v1\/2020.emnlp-main.484"},{"key":"e_1_3_2_142_2","doi-asserted-by":"crossref","unstructured":"David Lidov. 1997. Our time with the druids: What (and how) we can recuperate from our obsession with segmental hierarchies and other \u201ctree structures.\u201dContemporary Music Review 16 4 (1997) 1\u201328.","DOI":"10.1080\/07494469700640201"},{"key":"e_1_3_2_143_2","volume-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","author":"Lin Xiang","year":"2019","unstructured":"Xiang Lin, Shafiq Joty, Prathyusha Jwalapuram, and M. Saiful Bari. 2019. A unified linear-time framework for sentence-level discourse parsing. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 4190\u20134200."},{"key":"e_1_3_2_144_2","article-title":"Computational intelligence in music composition: A survey","author":"Liu Chien-Hung","year":"2017","unstructured":"Chien-Hung Liu and Chuan-Kang Ting. 2017. Computational intelligence in music composition: A survey. IEEE Transactions on Emerging Topics in Computational Intelligence 1, 1 (2017), 2\u201315.","journal-title":"IEEE Transactions on Emerging Topics in Computational Intelligence"},{"key":"e_1_3_2_145_2","volume-title":"International Society for Music Information Retrieval Conference (ISMIR\u201922)","author":"Liu Jiafeng","year":"2022","unstructured":"Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, and Maosong Sun. 2022. Symphony generation with permutation invariant language model. In International Society for Music Information Retrieval Conference (ISMIR\u201922)."},{"key":"e_1_3_2_146_2","article-title":"A survey on contextual embeddings","author":"Liu Qi","year":"2020","unstructured":"Qi Liu, Matt J. Kusner, and Phil Blunsom. 2020. A survey on contextual embeddings. arXiv:2003.07278 (2020).","journal-title":"arXiv:2003.07278"},{"key":"e_1_3_2_147_2","article-title":"RoBERTa: A robustly optimized BERT pretraining approach","author":"Liu Yinhan","year":"2019","unstructured":"Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A robustly optimized BERT pretraining approach. arXiv:1907.11692 (2019).","journal-title":"arXiv:1907.11692"},{"key":"e_1_3_2_148_2","unstructured":"Antoine Liutkus Ond\u0159ej C\u00edfka Shih-Lun Wu Umut Simsekli Yi-Hsuan Yang and Gael Richard. 2021. Relative positional encoding for Transformers with linear complexity. In International Conference on Machine Learning (ICML) (Proceedings of Machine Learning Research Vol. 139). PMLR 7067\u20137079."},{"key":"e_1_3_2_149_2","volume-title":"Proceedings of the 2nd Workshop on NLP for Music and Spoken Audio (NLP4MusA\u201921)","author":"Loiseau Gabriel","year":"2021","unstructured":"Gabriel Loiseau, Mikaela Keller, and Louis Bigo. 2021. What musical knowledge does self-attention learn? In Proceedings of the 2nd Workshop on NLP for Music and Spoken Audio (NLP4MusA\u201921). Association for Computational Linguistics, Online, 6\u201310."},{"key":"e_1_3_2_150_2","volume-title":"Proceedings of the 2019 Nordic Sound and Music Computing Conference and the 2019 Interactive Sonification Workshop","author":"Lousseief Elias","year":"2019","unstructured":"Elias Lousseief and Bob Sturm. 2019. MahlerNet: Unbounded orchestral music with neural networks. In Proceedings of the 2019 Nordic Sound and Music Computing Conference and the 2019 Interactive Sonification Workshop. 57\u201363."},{"key":"e_1_3_2_151_2","unstructured":"Peiling Lu Xin Xu Chenfei Kang Botao Yu Chengyi Xing Xu Tan and Jiang Bian. 2023. MuseCoco: Generating symbolic music from text. arXiv:2306.00110 [cs.SD]"},{"key":"e_1_3_2_152_2","article-title":"BandControlNet: Parallel Transformers-based steerable popular music generation with fine-grained spatiotemporal features","author":"Luo Jing","year":"2024","unstructured":"Jing Luo, Xinyu Yang, and Dorien Herremans. 2024. BandControlNet: Parallel Transformers-based steerable popular music generation with fine-grained spatiotemporal features. arXiv:2407.10462 (2024).","journal-title":"arXiv:2407.10462"},{"key":"e_1_3_2_153_2","volume-title":"Proceedings of the Constructive Machine Learning Workshop at NIPS","author":"Madjiheurem Sephora","year":"2016","unstructured":"Sephora Madjiheurem, Lizhen Qu, and Christian Walder. 2016. Chord2vec: Learning musical chord embeddings. In Proceedings of the Constructive Machine Learning Workshop at NIPS."},{"key":"e_1_3_2_154_2","volume-title":"Proceedings of the 2021 International Joint Conference on Neural Networks (IJCNN\u201921)","author":"Makris Dimos","year":"2021","unstructured":"Dimos Makris, Kat R. Agres, and Dorien Herremans. 2021. Generating lead sheets with affect: A novel conditional seq2seq framework. In Proceedings of the 2021 International Joint Conference on Neural Networks (IJCNN\u201921)."},{"key":"e_1_3_2_155_2","volume-title":"Proceedings of the International Conference on Computational Intelligence in Music, Sound, Art, and Design","author":"Makris Dimos","year":"2022","unstructured":"Dimos Makris, Guo Zixun, Maximos Kaliakatsos-Papakostas, and Dorien Herremans. 2022. Conditional drums generation using compound word representations. In Proceedings of the International Conference on Computational Intelligence in Music, Sound, Art, and Design. Springer, 179\u2013194."},{"key":"e_1_3_2_156_2","unstructured":"Martin E. Malandro. 2024. Composer\u2019s Assistant 2: Interactive multi-track MIDI infilling with fine-grained user control. arXiv:2407.14700 [cs.SD]"},{"key":"e_1_3_2_157_2","unstructured":"Kristen Masada and Razvan C. Bunescu. 2017. Chord recognition in symbolic music using semi-Markov conditional random fields. In International Society for Music Information Retrieval Conference (ISMIR). 272\u2013278."},{"key":"e_1_3_2_158_2","volume-title":"Proceedings of the 7th Conference on Natural Language Learning","author":"McCallum Andrew","year":"2003","unstructured":"Andrew McCallum and Wei Li. 2003. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. In Proceedings of the 7th Conference on Natural Language Learning. 188\u2013191."},{"key":"e_1_3_2_159_2","unstructured":"Cory McKay Julie Cumming and Ichiro Fujinaga. 2018. JSymbolic 2.2: Extracting features from symbolic music for use in musicological and MIR research. In International Society for Music Information Retrieval Conference (ISMIR). 348\u2013354."},{"key":"e_1_3_2_160_2","article-title":"MidiCaps: A large-scale MIDI dataset with text captions","author":"Melechovsky Jan","year":"2024","unstructured":"Jan Melechovsky, Abhinaba Roy, and Dorien Herremans. 2024. MidiCaps: A large-scale MIDI dataset with text captions. arXiv:2406.02255 (2024).","journal-title":"arXiv:2406.02255"},{"key":"e_1_3_2_161_2","unstructured":"Paul Michel Omer Levy and Graham Neubig. 2019. Are sixteen heads really better than one? In Adv. Neural Inf. Process. Syst. (NeurIPS) Vol. 32. Curran Associates Inc."},{"key":"e_1_3_2_162_2","article-title":"Between words and characters: A brief history of open-vocabulary modeling and tokenization in NLP","author":"Mielke Sabrina J.","year":"2021","unstructured":"Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gall\u00e9, Arun Raja, Chenglei Si, Wilson Y. Lee, Beno\u00eet Sagot, and Samson Tan. 2021. Between words and characters: A brief history of open-vocabulary modeling and tokenization in NLP. arXiv:2112.10508 (2021).","journal-title":"arXiv:2112.10508"},{"key":"e_1_3_2_163_2","article-title":"Efficient estimation of word representations in vector space","author":"Mikolov Tomas","year":"2013","unstructured":"Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. arXiv:1301.3781 (2013).","journal-title":"arXiv:1301.3781"},{"key":"e_1_3_2_164_2","volume-title":"International Society for Music Information Retrieval Conference (ISMIR\u201923)","author":"Min Lejun","year":"2023","unstructured":"Lejun Min, Junyan Jiang, Gus Xia, and Jingwei Zhao. 2023. Polyffusion: A diffusion model for polyphonic score generation with internal and external controls. In International Society for Music Information Retrieval Conference (ISMIR\u201923)."},{"key":"e_1_3_2_165_2","article-title":"Symbolic music generation with Transformer-GANs","author":"Muhamed Aashiq","year":"2021","unstructured":"Aashiq Muhamed, Liang Li, Xingjian Shi, Suri Yaddanapudi, Wayne Chi, Dylan Jackson, Rahul Suresh, Zachary C. Lipton, and Alex J. Smola. 2021. Symbolic music generation with Transformer-GANs. In Proceedings of the AAAI Conference on Artificial Intelligence. 35, 1 (2021), 408\u2013417.","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence."},{"key":"e_1_3_2_166_2","volume-title":"Proceedings of the 6th International Conference on Digital Libraries for Musicology (DLfM\u201919).","author":"L\u00f3pez N\u00e9stor N\u00e1poles","year":"2019","unstructured":"N\u00e9stor N\u00e1poles L\u00f3pez, Claire Arthur, and Ichiro Fujinaga. 2019. Key-finding based on a hidden Markov model and key profiles. In Proceedings of the 6th International Conference on Digital Libraries for Musicology (DLfM\u201919). 33\u201337."},{"key":"e_1_3_2_167_2","volume-title":"The Analysis and Cognition of Basic Melodic Structures: The Implication-Realization Model. University of Chicago Press.","author":"Narmour Eugene","year":"1990","unstructured":"Eugene Narmour. 1990. The Analysis and Cognition of Basic Melodic Structures: The Implication-Realization Model. University of Chicago Press."},{"key":"e_1_3_2_168_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922)","author":"Neves Pedro","year":"2022","unstructured":"Pedro Neves, Jose Fornari, and Joao Florindo. 2022. Generating music with sentiment using Transformer-GANs. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201922)."},{"issue":"11","key":"e_1_3_2_169_2","article-title":"Analysis of gradient vanishing of RNNs and performance comparison","author":"Noh Seol-Hyun","year":"2021","unstructured":"Seol-Hyun Noh. 2021. Analysis of gradient vanishing of RNNs and performance comparison. Information 12, 11 (2021).","journal-title":"Information"},{"key":"e_1_3_2_170_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201908)","author":"Ogihara Mitsunori","year":"2008","unstructured":"Mitsunori Ogihara and Tao Li. 2008. N-gram chord profiles for composer style representation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201908). 671\u2013676."},{"key":"e_1_3_2_171_2","article-title":"This time with feeling: Learning expressive musical performance","author":"Oore Sageev","year":"2018","unstructured":"Sageev Oore, Ian Simon, Sander Dieleman, Douglas Eck, and Karen Simonyan. 2018. This time with feeling: Learning expressive musical performance. Neural Computing and Applications 32, 4 (2018), 955\u2013967.","journal-title":"Neural Computing and Applications"},{"key":"e_1_3_2_172_2","volume-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics","author":"Ott Myle","year":"2019","unstructured":"Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. 2019. fairseq: A fast, extensible toolkit for sequence modeling. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, Minneapolis, Minnesota, 48\u201353."},{"key":"e_1_3_2_173_2","article-title":"Tokenisation and sentence segmentation","author":"Palmer David D.","year":"2000","unstructured":"David D. Palmer. 2000. Tokenisation and sentence segmentation. In Handbook of Natural Language Processing. CRC Press, 11.","journal-title":"Handbook of Natural Language Processing."},{"key":"e_1_3_2_174_2","article-title":"Mel2Word: A text-based melody representation for symbolic music analysis","author":"Park Saebyul","year":"2024","unstructured":"Saebyul Park, Eunjin Choi, Jeounghoon Kim, and Juhan Nam. 2024. Mel2Word: A text-based melody representation for symbolic music analysis. Music & Science 7 (2024).","journal-title":"Music & Science"},{"key":"e_1_3_2_175_2","unstructured":"Christine Payne. 2019. MuseNet."},{"key":"e_1_3_2_176_2","article-title":"Statistical learning and probabilistic prediction in music cognition: Mechanisms of stylistic enculturation","author":"Pearce Marcus T.","year":"2018","unstructured":"Marcus T. Pearce. 2018. Statistical learning and probabilistic prediction in music cognition: Mechanisms of stylistic enculturation. Annals of the New York Academy of Sciences 1423, 1 (2018), 378\u2013395.","journal-title":"Annals of the New York Academy of Sciences"},{"key":"e_1_3_2_177_2","volume-title":"Proceedings of the 18th BioNLP Workshop and Shared Task","author":"Peng Yifan","year":"2019","unstructured":"Yifan Peng, Shankai Yan, and Zhiyong Lu. 2019. Transfer learning in biomedical natural language processing: An evaluation of BERT and ELMo on ten benchmarking datasets. In Proceedings of the 18th BioNLP Workshop and Shared Task. 58\u201365."},{"key":"e_1_3_2_178_2","article-title":"On the emergence of Zipf\u2019s law in music","author":"Perotti Juan I.","year":"2020","unstructured":"Juan I. Perotti and Orlando V. Billoni. 2020. On the emergence of Zipf\u2019s law in music. Physica A: Statistical Mechanics and Its Applications 549 (2020), 124309.","journal-title":"Physica A: Statistical Mechanics and Its Applications"},{"key":"e_1_3_2_179_2","volume-title":"International Conference on WEB Delivering of Music","author":"Pollastri E.","year":"2001","unstructured":"E. Pollastri and G. Simoncelli. 2001. Classification of melodies by composer with hidden Markov models. In International Conference on WEB Delivering of Music. 88\u201395."},{"key":"e_1_3_2_180_2","doi-asserted-by":"crossref","DOI":"10.1162\/jocn.2007.19.6.971","article-title":"Grammar or serial order?: Discrete combinatorial brain mechanisms reflected by the syntactic mismatch negativity","author":"Pulverm\u00fcller Friedemann","year":"2007","unstructured":"Friedemann Pulverm\u00fcller and Ramin Assadollahi. 2007. Grammar or serial order?: Discrete combinatorial brain mechanisms reflected by the syntactic mismatch negativity. Journal of Cognitive Neuroscience 19, 6 (2007), 971\u2013980.","journal-title":"Journal of Cognitive Neuroscience"},{"key":"e_1_3_2_181_2","article-title":"Bar Transformer: A hierarchical model for learning long-term structure and generating impressive pop music","author":"Qin Yang","year":"2022","unstructured":"Yang Qin, Huiming Xie, Shuxue Ding, Benying Tan, Yujie Li, Bin Zhao, and Mao Ye. 2022. Bar Transformer: A hierarchical model for learning long-term structure and generating impressive pop music. Applied Intelligence 53, 9 (2022), 10130\u201310148.","journal-title":"Applied Intelligence"},{"key":"e_1_3_2_182_2","article-title":"DBTMPE: Deep bidirectional Transformers-based masked predictive encoder approach for music genre classification","author":"Qiu Lvyang","year":"2021","unstructured":"Lvyang Qiu, Shuyu Li, and Yunsick Sung. 2021. DBTMPE: Deep bidirectional Transformers-based masked predictive encoder approach for music genre classification. Mathematics 9, 5 (2021).","journal-title":"Mathematics"},{"key":"e_1_3_2_183_2","unstructured":"Xingwei Qu Yuelin Bai Yinghao Ma Ziya Zhou Ka Man Lo Jiaheng Liu Ruibin Yuan Lejun Min Xueling Liu Tianyu Zhang Xinrun Du Shuyue Guo Yiming Liang Yizhi Li Shangda Wu Junting Zhou Tianyu Zheng Ziyang Ma Fengze Han Wei Xue Gus Xia Emmanouil Benetos Xiang Yue Chenghua Lin Xu Tan Stephen W. Huang Wenhu Chen Jie Fu and Ge Zhang. 2024. MuPT: A Generative Symbolic Music Pretrained Transformer. arXiv:2404.06393 [cs.SD]"},{"key":"e_1_3_2_184_2","unstructured":"Alec Radford Karthik Narasimhan Tim Salimans Ilya Sutskever et\u00a0al. 2018. Improving language understanding by generative pre-training."},{"key":"e_1_3_2_185_2","unstructured":"Alec Radford Jeff Wu Rewon Child David Luan Dario Amodei and Ilya Sutskever. 2019. Language models are unsupervised multitask learners."},{"key":"e_1_3_2_186_2","doi-asserted-by":"crossref","unstructured":"Colin Raffel. 2016. Learning-Based Methods for Comparing Sequences with Applications to Audio-to-MIDI Alignment and Matching.","DOI":"10.1109\/ICASSP.2016.7471641"},{"key":"e_1_3_2_187_2","unstructured":"Colin Raffel Noam Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li and Peter J. Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text Transformer. J. Mach. Learn. Res. 21 1 (2020) 67 pages."},{"key":"e_1_3_2_188_2","volume-title":"Proceedings of the International Conference on Machine Learning (ICML\u201921).","author":"Ramesh Aditya","year":"2021","unstructured":"Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-shot text-to-image generation. In Proceedings of the International Conference on Machine Learning (ICML\u201921). PMLR, 8821\u20138831."},{"key":"e_1_3_2_189_2","article-title":"Sentence-BERT: Sentence embeddings using Siamese BERT-networks","author":"Reimers Nils","year":"2019","unstructured":"Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence embeddings using Siamese BERT-networks. arXiv:1908.10084 (2019).","journal-title":"arXiv:1908.10084"},{"key":"e_1_3_2_190_2","volume-title":"Proceedings of the 28th ACM International Conference on Multimedia","author":"Ren Yi","year":"2020","unstructured":"Yi Ren, Jinzheng He, Xu Tan, Tao Qin, Zhou Zhao, and Tie-Yan Liu. 2020. PopMAG: Pop music accompaniment generation. In Proceedings of the 28th ACM International Conference on Multimedia. 1198\u20131206."},{"key":"e_1_3_2_191_2","article-title":"Grammars as representations for music","author":"Roads C.","year":"1979","unstructured":"C. Roads and Paul Wieneke. 1979. Grammars as representations for music. Computer Music Journal 3, 1 (1979), 48\u201355.","journal-title":"Computer Music Journal"},{"key":"e_1_3_2_192_2","unstructured":"Adam Roberts Jesse Engel Colin Raffel Curtis Hawthorne and Douglas Eck. 2018. A hierarchical latent vector model for learning long-term structure in music. In International Conference on Machine Learning (ICML) (Proceedings of Machine Learning Research). PMLR 4364\u20134373."},{"key":"e_1_3_2_193_2","doi-asserted-by":"crossref","DOI":"10.1080\/17459737.2011.573676","article-title":"Towards a generative syntax of tonal harmony","author":"Rohrmeier Martin","year":"2011","unstructured":"Martin Rohrmeier. 2011. Towards a generative syntax of tonal harmony. Journal of Mathematics and Music 5, 1 (2011), 35\u201353.","journal-title":"Journal of Mathematics and Music"},{"issue":"6088","key":"e_1_3_2_194_2","article-title":"Learning representations by back-propagating errors","author":"Rumelhart David E.","year":"1986","unstructured":"David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. 1986. Learning representations by back-propagating errors. Nature6088 (1986), 533\u2013536.","journal-title":"Nature"},{"key":"e_1_3_2_195_2","article-title":"DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter","author":"Sanh Victor","year":"2020","unstructured":"Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2020. DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter. arXiv:1910.01108 (2020).","journal-title":"arXiv:1910.01108"},{"key":"e_1_3_2_196_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)","author":"Sarmento Pedro","year":"2021","unstructured":"Pedro Sarmento, Adarsh Kumar, C. J. Carr, Zack Zukowski, Mathieu Barthet, and Yi-Hsuan Yang. 2021. DadaGP: A dataset of tokenized GuitarPro songs for sequence models. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)."},{"key":"e_1_3_2_197_2","volume-title":"Artificial Intelligence in Music, Sound, Art and Design","author":"Sarmento Pedro","year":"2023","unstructured":"Pedro Sarmento, Adarsh Kumar, Yu-Hua Chen, C. J. Carr, Zack Zukowski, and Mathieu Barthet. 2023. GTR-CTRL: Instrument and genre conditioning for guitar-focused music generation with Transformers. In Artificial Intelligence in Music, Sound, Art and Design. Lecture Notes in Computer Science, Vol. 13988. Springer, 260\u2013275."},{"key":"e_1_3_2_198_2","volume-title":"Proceedings of the 16th International Symposium on Computer Music Multidisciplinary Research","author":"Sarmento Pedro","year":"2023","unstructured":"Pedro Sarmento, Adarsh Kumar, Dekun Xie, C. J. Carr, Zack Zukowski, and Mathieu Barthet. 2023. ShredGP: Guitarist style-conditioned tablature generation with Transformers. In Proceedings of the 16th International Symposium on Computer Music Multidisciplinary Research. 112\u2013121."},{"key":"e_1_3_2_199_2","unstructured":"Helmut Schaffrath. 1995. The Essen Folksong Collection. Center for Computer Assisted Research in the Humanities."},{"key":"e_1_3_2_200_2","volume-title":"Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201912)","author":"Schuster Mike","year":"2012","unstructured":"Mike Schuster and Kaisuke Nakajima. 2012. Japanese and Korean voice search. In Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201912). 5149\u20135152."},{"key":"e_1_3_2_201_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201917)","author":"Sears David R. W.","year":"2017","unstructured":"David R. W. Sears, Andreas Arzt, Harald Frostel, Reinhard Sonnleitner, and Gerhard Widmer. 2017. Modeling harmony with skip-grams. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201917)."},{"key":"e_1_3_2_202_2","volume-title":"Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics","author":"Sennrich Rico","year":"2016","unstructured":"Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Berlin, Germany, 1715\u20131725."},{"key":"e_1_3_2_203_2","doi-asserted-by":"crossref","DOI":"10.1140\/epjds\/s13688-021-00293-8","article-title":"Heaps\u2019 law and vocabulary richness in the history of classical music harmony","author":"Serra-Peralta Marc","year":"2021","unstructured":"Marc Serra-Peralta, Joan Serr\u00e0, and \u00c1lvaro Corral. 2021. Heaps\u2019 law and vocabulary richness in the history of classical music harmony. EPJ Data Science 10, 1 (2021), 40.","journal-title":"EPJ Data Science"},{"key":"e_1_3_2_204_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201911)","author":"Sertan Senturk","year":"2011","unstructured":"Senturk Sertan and Parag Chordia. 2011. Modeling melodic improvisation in Turkish folk music using variable-length Markov models. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201911). 269\u2013274."},{"key":"e_1_3_2_205_2","volume-title":"Proceedings of the 2023 ACM International Conference on Multimedia Retrieval.","author":"Shen Zhexu","year":"2023","unstructured":"Zhexu Shen, Liang Yang, Zhihan Yang, and Hongfei Lin. 2023. More than simply masking: Exploring pre-training strategies for symbolic music understanding. In Proceedings of the 2023 ACM International Conference on Multimedia Retrieval. 540\u2013544."},{"key":"e_1_3_2_206_2","article-title":"Theme Transformer: Symbolic music generation with theme-conditioned Transformer","author":"Shih Yi-Jen","year":"2023","unstructured":"Yi-Jen Shih, Shih-Lun Wu, Frank Zalkow, Meinard M\u00fcller, and Yi-Hsuan Yang. 2023. Theme Transformer: Symbolic music generation with theme-conditioned Transformer. IEEE Transactions on Multimedia 25 (2023), 3495\u20133508.","journal-title":"IEEE Transactions on Multimedia"},{"key":"e_1_3_2_207_2","article-title":"MuseBarControl: Enhancing fine-grained control in symbolic music generation through pre-training and counterfactual loss","author":"Shu Yangyang","year":"2024","unstructured":"Yangyang Shu, Haiming Xu, Ziqin Zhou, Anton van den Hengel, and Lingqiao Liu. 2024. MuseBarControl: Enhancing fine-grained control in symbolic music generation through pre-training and counterfactual loss. arXiv:2407.04331 (2024).","journal-title":"arXiv:2407.04331"},{"key":"e_1_3_2_208_2","doi-asserted-by":"crossref","DOI":"10.1002\/asi.21001","article-title":"A survey of modern authorship attribution methods","author":"Stamatatos Efstathios","year":"2009","unstructured":"Efstathios Stamatatos. 2009. A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology 60, 3 (2009), 538\u2013556.","journal-title":"Journal of the American Society for Information Science and Technology"},{"key":"e_1_3_2_209_2","doi-asserted-by":"crossref","DOI":"10.2307\/40285282","article-title":"A generative grammar for jazz chord sequences","author":"Steedman Mark J.","year":"1984","unstructured":"Mark J. Steedman. 1984. A generative grammar for jazz chord sequences. Music Perception 2, 1 (10 1984), 52\u201377.","journal-title":"Music Perception"},{"key":"e_1_3_2_210_2","article-title":"Music transcription modelling and composition using deep learning","author":"Sturm Bob L.","year":"2016","unstructured":"Bob L. Sturm, Jo\u00e3o Felipe Santos, Oded Ben-Tal, and Iryna Korshunova. 2016. Music transcription modelling and composition using deep learning. arXiv:1604.08723 (2016).","journal-title":"arXiv:1604.08723"},{"key":"e_1_3_2_211_2","article-title":"Symbolic music generation conditioned on continuous-valued emotions","author":"Sulun Serkan","year":"2022","unstructured":"Serkan Sulun, Matthew E. P. Davies, and Paula Viana. 2022. Symbolic music generation conditioned on continuous-valued emotions. IEEE Access 10 (2022), 44617\u201344626.","journal-title":"IEEE Access"},{"key":"e_1_3_2_212_2","article-title":"Reconstructing human expressiveness in piano performances with a Transformer network","author":"Tang Jingjing","year":"2023","unstructured":"Jingjing Tang, Geraint Wiggins, and Gyorgy Fazekas. 2023. Reconstructing human expressiveness in piano performances with a Transformer network. arXiv:2306.06040 (2023).","journal-title":"arXiv:2306.06040"},{"key":"e_1_3_2_213_2","article-title":"A radical-aware attention-based model for Chinese text classification","author":"Tao Hanqing","year":"2019","unstructured":"Hanqing Tao, Shiwei Tong, Hongke Zhao, Tong Xu, Binbin Jin, and Qi Liu. 2019. A radical-aware attention-based model for Chinese text classification. In Proceedings of the AAAI Conference on Artificial Intelligence. 33, 01 (2019), 5125\u20135132.","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence."},{"key":"e_1_3_2_214_2","volume-title":"Proceedings of the International Joint Conference on Artificial Intelligence.","author":"Tchemeube Renaud Bougueng","year":"2023","unstructured":"Renaud Bougueng Tchemeube, Jeffrey Ens, Cale Plut, Philippe Pasquier, Maryam Safi, Yvan Grabit, and Jean-Baptiste Rolland. 2023. Evaluating human-AI interaction via usability, user experience and acceptance measures for MMM-C: A creative AI system for music composition. In Proceedings of the International Joint Conference on Artificial Intelligence. 10 pages."},{"key":"e_1_3_2_215_2","doi-asserted-by":"crossref","unstructured":"Jinhao Tian Zuchao Li Jiajia Li and Ping Wang. 2024. N-gram unsupervised compoundation and feature injection for better symbolic music understanding. In Proceedings of the AAAI Conf. Artif. Intell. 38 14 (Mar. 2024) 15364\u201315372.","DOI":"10.1609\/aaai.v38i14.29461"},{"key":"e_1_3_2_216_2","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron Hugo","year":"2023","unstructured":"Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023. Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288 (2023).","journal-title":"arXiv:2307.09288"},{"key":"e_1_3_2_217_2","unstructured":"Nicholas Trieu and R. Keller. 2018. JazzGAN: Improvising with generative adversarial networks. In MUME Workshop."},{"key":"e_1_3_2_218_2","volume-title":"Proceedings of the 14th Conference on Creativity and Cognition (C&C\u201922).","author":"Turker Meliksah","year":"2022","unstructured":"Meliksah Turker, Alara Dirik, and Pinar Yanardag. 2022. MIDISpace: Finding linear directions in latent space for music generation. In Proceedings of the 14th Conference on Creativity and Cognition (C&C\u201922). Association for Computing Machinery, New York, NY, USA, 420\u2013427."},{"key":"e_1_3_2_219_2","article-title":"Music generation with Markov models","author":"Merwe Andries Van Der","year":"2011","unstructured":"Andries Van Der Merwe and Walter Schulze. 2011. Music generation with Markov models. IEEE MultiMedia 18, 3 (2011), 78\u201385.","journal-title":"IEEE MultiMedia"},{"key":"e_1_3_2_220_2","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In Adv. Neural Inf. Process. Syst. (NeurIPS) Vol. 30. Curran Associates Inc. 6000\u20136010."},{"key":"e_1_3_2_221_2","volume-title":"Proceedings of the International Conference on Artificial Intelligence","author":"Vercoe Barry Lloyd","year":"2001","unstructured":"Barry Lloyd Vercoe. 2001. Folk music classification using hidden Markov models. In Proceedings of the International Conference on Artificial Intelligence, Vol. 6."},{"key":"e_1_3_2_222_2","volume-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","author":"Voita Elena","year":"2019","unstructured":"Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Florence, Italy, 5797\u20135808."},{"key":"e_1_3_2_223_2","unstructured":"Dimitri von R\u00fctte Luca Biggio Yannic Kilcher and Thomas Hofmann. 2023. FIGARO: Controllable music generation using learned and expert features. In Int. Conf. Learn. Represent. (ICLR)."},{"key":"e_1_3_2_224_2","volume-title":"The Origins of Music","author":"Wallin Nils L.","year":"2001","unstructured":"Nils L. Wallin, Bjorn Merker, and Steven Brown. 2001. The Origins of Music. MIT press."},{"key":"e_1_3_2_225_2","volume-title":"Proceedings of the 2018 EMNLP Workshop BlackboxNLP","author":"Wang Alex","year":"2018","unstructured":"Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. 2018. GLUE: A multi-task benchmark and analysis platform for natural language understanding. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP. Association for Computational Linguistics, Brussels, Belgium, 353\u2013355."},{"key":"e_1_3_2_226_2","article-title":"Evaluating word embedding models: Methods and experimental results","author":"Wang Bin","year":"2019","unstructured":"Bin Wang, Angela Wang, Fenxiao Chen, Yuncheng Wang, and C.-C. Jay Kuo. 2019. Evaluating word embedding models: Methods and experimental results. APSIPA Transactions on Signal and Information Processing 8 (2019), 19.","journal-title":"APSIPA Transactions on Signal and Information Processing"},{"key":"e_1_3_2_227_2","article-title":"A review of intelligent music generation systems","author":"Wang Lei","year":"2023","unstructured":"Lei Wang, Ziyi Zhao, Hanwei Liu, Junwei Pang, Yi Qin, and Qidi Wu. 2023. A review of intelligent music generation systems. arXiv:2211.09124 (2023).","journal-title":"arXiv:2211.09124"},{"key":"e_1_3_2_228_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201920)","author":"Wang Ziyu","year":"2020","unstructured":"Ziyu Wang, Ke Chen, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, and Gus Xia. 2020. POP909: A pop-song dataset for music arrangement generation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201920). ISMIR, Montreal, Canada, 38\u201345."},{"key":"e_1_3_2_229_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921)","author":"Wang Ziyu","year":"2021","unstructured":"Ziyu Wang and Gus Xia. 2021. MuseBERT: Pre-training of music representation for music understanding and controllable generation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201921). 722\u2013729."},{"key":"e_1_3_2_230_2","doi-asserted-by":"crossref","DOI":"10.1007\/s10462-022-10144-1","article-title":"A survey on sentiment analysis methods, applications, and challenges","author":"Wankhade Mayur","year":"2022","unstructured":"Mayur Wankhade, Annavarapu Chandra Sekhara Rao, and Chaitanya Kulkarni. 2022. A survey on sentiment analysis methods, applications, and challenges. Artificial Intelligence Review 55, 7 (2022), 5731\u20135780.","journal-title":"Artificial Intelligence Review"},{"key":"e_1_3_2_231_2","doi-asserted-by":"crossref","DOI":"10.1145\/365153.365168","article-title":"ELIZA\u2014A computer program for the study of natural language communication between man and machine","author":"Weizenbaum Joseph","year":"1966","unstructured":"Joseph Weizenbaum. 1966. ELIZA\u2014A computer program for the study of natural language communication between man and machine. Communications of the ACM 9, 1 (1 1966), 36\u201345.","journal-title":"Communications of the ACM"},{"key":"e_1_3_2_232_2","article-title":"CCNet: Extracting high quality monolingual datasets from web crawl data","author":"Wenzek Guillaume","year":"2019","unstructured":"Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzm\u00e1n, Armand Joulin, and Edouard Grave. 2019. CCNet: Extracting high quality monolingual datasets from web crawl data. arXiv:1911.00359 (2019).","journal-title":"arXiv:1911.00359"},{"key":"e_1_3_2_233_2","volume-title":"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations","author":"Wolf Thomas","year":"2020","unstructured":"Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, et al. 2020. Transformers: State-of-the-art natural language processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics, Online, 38\u201345."},{"key":"e_1_3_2_234_2","volume-title":"Advances in Artificial Intelligence","author":"Wo\u0142kowicz Jacek","year":"2012","unstructured":"Jacek Wo\u0142kowicz and Vlado Ke\u0161elj. 2012. Analysis of important factors for measuring similarity of symbolic music using n-gram-based, bag-of-words approach. In Advances in Artificial Intelligence. Lecture Notes in Computer Science, Vol. 7310. Springer, 230\u2013241."},{"key":"e_1_3_2_235_2","article-title":"N-gram-based approach to composer recognition","author":"Wo\u0142kowicz Jacek","year":"2008","unstructured":"Jacek Wo\u0142kowicz, Zbigniew Kulka, and Vlado Ke\u0161elj. 2008. N-gram-based approach to composer recognition. Archives of Acoustics 33, 1 (2008).","journal-title":"Archives of Acoustics"},{"key":"e_1_3_2_236_2","volume-title":"Introduction to Chinese Natural Language Processing","author":"Wong Kam-Fai","year":"2022","unstructured":"Kam-Fai Wong, Wenjie Li, Ruifeng Xu, and Zheng-Sheng Zhang. 2022. Introduction to Chinese Natural Language Processing. Springer."},{"key":"e_1_3_2_237_2","volume-title":"Proceedings of the AAAI-23 Workshop on Creative AI across Modalities","author":"Wu Shangda","year":"2023","unstructured":"Shangda Wu and Maosong Sun. 2023. Exploring the efficacy of pre-trained checkpoints in text-to-music generation task. In Proceedings of the AAAI-23 Workshop on Creative AI across Modalities."},{"key":"e_1_3_2_238_2","article-title":"MelodyT5: A unified score-to-score Transformer for symbolic music processing","author":"Wu Shangda","year":"2024","unstructured":"Shangda Wu, Yashan Wang, Xiaobing Li, Feng Yu, and Maosong Sun. 2024. MelodyT5: A unified score-to-score Transformer for symbolic music processing. arXiv:2407.02277 (2024).","journal-title":"arXiv:2407.02277"},{"key":"e_1_3_2_239_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)","author":"Wu Shangda","year":"2023","unstructured":"Shangda Wu, Dingyao Yu, Xu Tan, and Maosong Sun. 2023. CLaMP: Contrastive language-music pre-training for cross-modal symbolic music information retrieval. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)."},{"key":"e_1_3_2_240_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201920)","author":"Wu Shih-Lun","year":"2020","unstructured":"Shih-Lun Wu and Yi-Hsuan Yang. 2020. The Jazz Transformer on the front line: Exploring the shortcomings of AI-composed music through quantitative measures. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201920). 142\u2013149."},{"key":"e_1_3_2_241_2","volume-title":"2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201923)","author":"Wu Shih-Lun","year":"2023","unstructured":"Shih-Lun Wu and Yi-Hsuan Yang. 2023. Compose & Embellish: Well-structured piano performance generation via a two-stage approach. In 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP\u201923). 1\u20135."},{"key":"e_1_3_2_242_2","article-title":"MuseMorphose: Full-song and fine-grained piano music style transfer with one Transformer VAE","author":"Wu Shih-Lun","year":"2023","unstructured":"Shih-Lun Wu and Yi-Hsuan Yang. 2023. MuseMorphose: Full-song and fine-grained piano music style transfer with one Transformer VAE. IEEE\/ACM Transactions on Audio, Speech, and Language Processing 31 (2023), 1953\u20131967.","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"e_1_3_2_243_2","volume-title":"Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing","author":"Xu Jiaming","year":"2015","unstructured":"Jiaming Xu, Peng Wang, Guanhua Tian, Bo Xu, Jun Zhao, Fangyuan Wang, and Hongwei Hao. 2015. Short text clustering via convolutional neural networks. In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing. 62\u201369."},{"key":"e_1_3_2_244_2","doi-asserted-by":"crossref","unstructured":"Weihan Xu Julian McAuley Shlomo Dubnov and Hao-Wen Dong. 2023. Equipping pretrained unconditional music Transformers with instrument and genre controls. In 2023 IEEE International Conference on Big Data (BigData). 4512\u20134517.","DOI":"10.1109\/BigData59044.2023.10386311"},{"key":"e_1_3_2_245_2","article-title":"On the evaluation of generative models in music","author":"Yang Li-Chia","year":"2020","unstructured":"Li-Chia Yang and Alexander Lerch. 2020. On the evaluation of generative models in music. Neural Computing and Applications 32, 9 (2020), 4773\u20134784.","journal-title":"Neural Computing and Applications"},{"key":"e_1_3_2_246_2","unstructured":"Zhilin Yang Zihang Dai Yiming Yang Jaime Carbonell Russ R. Salakhutdinov and Quoc V. Le. 2019. XLNet: Generalized autoregressive pretraining for language understanding. In Adv. Neural Inf. Process. Syst. (NeurIPS) Vol. 32. Curran Associates Inc. Vancouver Canada."},{"key":"e_1_3_2_247_2","doi-asserted-by":"crossref","DOI":"10.3389\/fict.2015.00013","article-title":"Ratings are overrated!","author":"Yannakakis Georgios N.","year":"2015","unstructured":"Georgios N. Yannakakis and H\u00e9ctor P. Mart\u00ednez. 2015. Ratings are overrated! Frontiers in ICT 2 (2015).","journal-title":"Frontiers in ICT"},{"key":"e_1_3_2_248_2","unstructured":"Botao Yu Peiling Lu Rui Wang Wei Hu Xu Tan Wei Ye Shikun Zhang Tao Qin and Tie-Yan Liu. 2022. Museformer: Transformer with fine-and coarse-grained attention for music generation. In Adv. Neural Inf. Process. Syst. (NeurIPS) Vol. 35. 1376\u20131388."},{"key":"e_1_3_2_249_2","doi-asserted-by":"crossref","unstructured":"Yi Yu Abhishek Srivastava and Simon Canales. 2021. Conditional LSTM-GAN for melody generation from lyrics. ACM Trans. Multimedia Comput. Commun. Appl. 17 1 Article 35 (4 2021) 20 pages.","DOI":"10.1145\/3424116"},{"key":"e_1_3_2_250_2","article-title":"ChatMusician: Understanding and generating music intrinsically with LLM","author":"Yuan Ruibin","year":"2024","unstructured":"Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, et al. 2024. ChatMusician: Understanding and generating music intrinsically with LLM. arXiv:2402.16153 (2024).","journal-title":"arXiv:2402.16153"},{"key":"e_1_3_2_251_2","doi-asserted-by":"crossref","DOI":"10.1515\/9783110215366.6.359","article-title":"Music, language, and multimodal metaphor","author":"Zbikowski Lawrence M.","year":"2009","unstructured":"Lawrence M. Zbikowski. 2009. Music, language, and multimodal metaphor. Multimodal Metaphor (2009), 359\u2013381.","journal-title":"Multimodal Metaphor"},{"key":"e_1_3_2_252_2","volume-title":"Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021","author":"Zeng Mingliang","year":"2021","unstructured":"Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, and Tie-Yan Liu. 2021. MusicBERT: Symbolic music understanding with large-scale pre-training. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Association for Computational Linguistics. 791\u2013800."},{"key":"e_1_3_2_253_2","volume-title":"Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)","author":"Zhang Huan","year":"2023","unstructured":"Huan Zhang, Emmanouil Karystinaios, Simon Dixon, Gerhard Widmer, and Carlos Eduardo Cancino-Chac\u00f3n. 2023. Symbolic music representations for classification tasks: A systematic evaluation. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR\u201923)."},{"key":"e_1_3_2_254_2","volume-title":"Proceedings of the AAAI-23 Workshop on Creative AI across Modalities","author":"Zhang Li","year":"2023","unstructured":"Li Zhang and Chris Callison-Burch. 2023. Language models are drummers: Drum composition with natural language pre-training. In Proceedings of the AAAI-23 Workshop on Creative AI across Modalities."},{"key":"e_1_3_2_255_2","volume-title":"Mobile Multimedia Communications","author":"Zhang Liumei","year":"2021","unstructured":"Liumei Zhang and Fanzhi Jiang. 2021. Visualizing symbolic music via textualization: An empirical study on Chinese traditional folk music. In Mobile Multimedia Communications. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, Vol. 394. Springer, 647\u2013662."},{"key":"e_1_3_2_256_2","article-title":"Learning adversarial Transformer for symbolic music generation","author":"Zhang Ning","year":"2020","unstructured":"Ning Zhang. 2020. Learning adversarial Transformer for symbolic music generation. IEEE Transactions on Neural Networks and Learning Systems 34, 4 (2020), 1754\u20131763.","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"e_1_3_2_257_2","doi-asserted-by":"crossref","unstructured":"Haiyan Zhao Hanjie Chen Fan Yang Ninghao Liu Huiqi Deng Hengyi Cai Shuaiqiang Wang Dawei Yin and Mengnan Du. 2024. Explainability for large language models: A survey. ACM Trans. Intell. Syst. Technol. 15 2 (1 2024) 1\u201338.","DOI":"10.1145\/3639372"},{"key":"e_1_3_2_258_2","article-title":"Multi-mmlg: A novel framework of extracting multiple main melodies from MIDI files","author":"Zhao Jing","year":"2023","unstructured":"Jing Zhao, David Taniar, Kiki Adhinugraha, Vishnu Monn Baskaran, and KokSheik Wong. 2023. Multi-mmlg: A novel framework of extracting multiple main melodies from MIDI files. Neural Computing and Applications 35, 30 (2023), 22687\u201322704.","journal-title":"Neural Computing and Applications"},{"key":"e_1_3_2_259_2","doi-asserted-by":"crossref","unstructured":"Jing Zhao KokSheik Wong Vishnu Monn Baskaran Kiki Adhinugraha and David Taniar. 2023. Computational music: Analysis of music forms. In Computational Science and Its Applications (ICCSA) (Athens Greece). Springer-Verlag Berlin Heidelberg 366\u2013384.","DOI":"10.1007\/978-3-031-36805-9_25"},{"key":"e_1_3_2_260_2","article-title":"AccoMontage-3: Full-band accompaniment arrangement via sequential style transfer and multi-track function prior","author":"Zhao Jingwei","year":"2023","unstructured":"Jingwei Zhao, Gus Xia, and Ye Wang. 2023. AccoMontage-3: Full-band accompaniment arrangement via sequential style transfer and multi-track function prior. arXiv:2310.16334 (2023).","journal-title":"arXiv:2310.16334"},{"key":"e_1_3_2_261_2","volume-title":"Proceedings of the 32nd International Joint Conference on Artificial Intelligence","author":"Zhao Jingwei","year":"2023","unstructured":"Jingwei Zhao, Gus Xia, and Ye Wang. 2023. Q&A: Query-based representation learning for multi-track symbolic music re-arrangement. In Proceedings of the 32nd International Joint Conference on Artificial Intelligence."},{"key":"e_1_3_2_262_2","article-title":"Choir Transformer: Generating polyphonic music with relative attention on Transformer","author":"Zhou Jiuyang","year":"2023","unstructured":"Jiuyang Zhou, Hong Zhu, and Xingping Wang. 2023. Choir Transformer: Generating polyphonic music with relative attention on Transformer. arXiv:2308.02531 (2023).","journal-title":"arXiv:2308.02531"},{"key":"e_1_3_2_263_2","article-title":"Can LLMs \u201cReason\u201d in music? An evaluation of LLMs\u2019 capability of music understanding and generation","author":"Zhou Ziya","year":"2024","unstructured":"Ziya Zhou, Yuhang Wu, Zhiyue Wu, Xinyue Zhang, Ruibin Yuan, Yinghao Ma, Lu Wang, Emmanouil Benetos, Wei Xue, and Yike Guo. 2024. Can LLMs \u201cReason\u201d in music? An evaluation of LLMs\u2019 capability of music understanding and generation. arXiv:2407.21531 (2024).","journal-title":"arXiv:2407.21531"},{"key":"e_1_3_2_264_2","volume-title":"Proceedings of International Conference on Knowledge Discovery and Data Mining.","author":"Zhu Hongyuan","year":"2018","unstructured":"Hongyuan Zhu, Qi Liu, Nicholas Jing Yuan, Chuan Qin, Jiawei Li, Kun Zhang, Guang Zhou, Furu Wei, Yuanchun Xu, and Enhong Chen. 2018. XiaoIce band: A melody and arrangement generation framework for pop music. In Proceedings of International Conference on Knowledge Discovery and Data Mining. 2837\u20132846."},{"key":"e_1_3_2_265_2","article-title":"A survey on model compression for large language models","author":"Zhu Xunyu","year":"2023","unstructured":"Xunyu Zhu, Jian Li, Yong Liu, Can Ma, and Weiping Wang. 2023. A survey on model compression for large language models. arXiv:2308.07633 (2023).","journal-title":"arXiv:2308.07633"},{"key":"e_1_3_2_266_2","article-title":"A survey of AI music generation tools and models","author":"Zhu Yueyue","year":"2023","unstructured":"Yueyue Zhu, Jared Baca, Banafsheh Rekabdar, and Reza Rawassizadeh. 2023. A survey of AI music generation tools and models. arXiv:2308.12982 (2023).","journal-title":"arXiv:2308.12982"},{"key":"e_1_3_2_267_2","volume-title":"Proceedings of the 2021 International Joint Conference on Neural Networks (IJCNN\u201921)","author":"Zixun Guo","year":"2021","unstructured":"Guo Zixun, Dimos Makris, and Dorien Herremans. 2021. Hierarchical recurrent neural networks for conditional melody generation with long-term structure. In Proceedings of the 2021 International Joint Conference on Neural Networks (IJCNN\u201921)."}],"container-title":["ACM Computing Surveys"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3714457","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3714457","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:56Z","timestamp":1750295876000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3714457"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2,21]]},"references-count":266,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2025,7,31]]}},"alternative-id":["10.1145\/3714457"],"URL":"https:\/\/doi.org\/10.1145\/3714457","relation":{},"ISSN":["0360-0300","1557-7341"],"issn-type":[{"value":"0360-0300","type":"print"},{"value":"1557-7341","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2,21]]},"assertion":[{"value":"2024-02-26","order":0,"name":"received","label":"Received","group":{"name":"publication_history","label":"Publication History"}},{"value":"2025-01-06","order":2,"name":"accepted","label":"Accepted","group":{"name":"publication_history","label":"Publication History"}},{"value":"2025-02-21","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}