{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,30]],"date-time":"2026-06-30T15:22:06Z","timestamp":1782832926134,"version":"3.54.5"},"reference-count":57,"publisher":"SAGE Publications","issue":"3","license":[{"start":{"date-parts":[[2022,4,6]],"date-time":"2022-04-06T00:00:00Z","timestamp":1649203200000},"content-version":"unspecified","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["SW"],"published-print":{"date-parts":[[2022,4,6]]},"abstract":"<jats:p>An important problem in large symbolic music collections is the low availability of high-quality metadata, which is essential for various information retrieval tasks. Traditionally, systems have addressed this by relying either on costly human annotations or on rule-based systems at a limited scale. Recently, embedding strategies have been exploited for representing latent factors in graphs of connected nodes. In this work, we propose MIDI2vec, a new approach for representing MIDI files as vectors based on graph embedding techniques. Our strategy consists of representing the MIDI data as a graph, including the information about tempo, time signature, programs and notes. Next, we run and optimise node2vec for generating embeddings using random walks in the graph. We demonstrate that the resulting vectors can successfully be employed for predicting the musical genre and other metadata such as the composer, the instrument or the movement. In particular, we conduct experiments using those vectors as input to a Feed-Forward Neural Network and we report good comparable accuracy scores in the prediction with respect to other approaches relying purely on symbolic music, avoiding feature engineering and producing highly scalable and reusable models with low dimensionality. Our proposal has real-world applications in automated metadata tagging for symbolic music, for example in digital libraries for musicology, datasets for machine learning, and knowledge graph completion.<\/jats:p>","DOI":"10.3233\/sw-210446","type":"journal-article","created":{"date-parts":[[2021,9,14]],"date-time":"2021-09-14T10:49:34Z","timestamp":1631616574000},"page":"357-377","source":"Crossref","is-referenced-by-count":24,"title":["MIDI2vec: Learning MIDI embeddings for reliable prediction of symbolic music metadata"],"prefix":"10.1177","volume":"13","author":[{"given":"Pasquale","family":"Lisena","sequence":"first","affiliation":[{"name":"EURECOM, Sophia Antipolis, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Albert","family":"Mero\u00f1o-Pe\u00f1uela","sequence":"additional","affiliation":[{"name":"King\u2019s College London, United Kingdom"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Rapha\u00ebl","family":"Troncy","sequence":"additional","affiliation":[{"name":"EURECOM, Sophia Antipolis, France"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"179","reference":[{"key":"10.3233\/SW-210446_ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCC.2018.00023"},{"key":"10.3233\/SW-210446_ref2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-00668-6_1"},{"key":"10.3233\/SW-210446_ref3","unstructured":"A.\u00a0Allik, G.\u00a0Fazekas and M.B.\u00a0Sandler, An ontology for audio features, in: 17th International Society for Music Information Retrieval Conference (ISMIR), New York, NY, USA, 2016."},{"key":"10.3233\/SW-210446_ref5","doi-asserted-by":"crossref","unstructured":"D.\u00a0Bogdanov, N.\u00a0Wack, E.\u00a0G\u00f3mez Guti\u00e9rrez, S.\u00a0Gulati, P.\u00a0Herrera Boyer, O.\u00a0Mayor, G.\u00a0Roma Trepat, J.\u00a0Salamon, J.R.\u00a0Zapata Gonz\u00e1lez and X.\u00a0Serra, Essentia: An audio analysis library for music information retrieval, in: 14th International Society for Music Information Retrieval Conference (ISMIR), Curitiba, Brazil, 2013.","DOI":"10.1145\/2502081.2502229"},{"key":"10.3233\/SW-210446_ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-24775-3_3"},{"key":"10.3233\/SW-210446_ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-77385-4_31"},{"issue":"4","key":"10.3233\/SW-210446_ref8","doi-asserted-by":"publisher","first-page":"668","DOI":"10.1109\/JPROC.2008.916370","article-title":"Content-based multimedia information retrieval: Current directions and future challenges","volume":"96","author":"Casey","year":"2008","journal-title":"Proceedings of the IEEE"},{"key":"10.3233\/SW-210446_ref9","doi-asserted-by":"publisher","DOI":"10.1155\/2007\/36409"},{"issue":"4","key":"10.3233\/SW-210446_ref10","doi-asserted-by":"publisher","first-page":"250","DOI":"10.1016\/j.websem.2008.09.004","article-title":"FOAFing the music: Bridging the semantic gap in music recommendation","volume":"6","author":"Celma","year":"2008","journal-title":"Web Semantics: Science, Services and Agents on the World Wide Web"},{"key":"10.3233\/SW-210446_ref11","unstructured":"M.\u00a0Cochez, M.\u00a0Garofalo, J.\u00a0Len\u00dfen and M.A.\u00a0Pellegrino, A first experiment on including text literals in KGloVe, in: 4th Workshop on Semantic Deep Learning (SemDeep), Monterey, CA, USA, 2018."},{"key":"10.3233\/SW-210446_ref12","unstructured":"F.\u00a0Colombo, J.\u00a0Brea and W.\u00a0Gerstner, Learning to generate music with BachProp, in: 16th Sound and Music Computing Conference (SMC), Malaga, Spain, 2019, pp.\u00a0380\u2013386."},{"key":"10.3233\/SW-210446_ref13","doi-asserted-by":"publisher","first-page":"190","DOI":"10.1016\/j.eswa.2016.04.008","article-title":"A survey on symbolic data-based music genre classification","volume":"60","author":"Corr\u00eaa","year":"2016","journal-title":"Expert Systems with Applications"},{"key":"10.3233\/SW-210446_ref14","unstructured":"M.S.\u00a0Cuthbert, C.\u00a0Ariza and L.\u00a0Friedland, Feature extraction and machine learning on symbolic music using the music21 toolkit, in: 12th International Society for Music Information Retrieval Conference (ISMIR), Porto, Portugal, 2011."},{"key":"10.3233\/SW-210446_ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-53622-3"},{"key":"10.3233\/SW-210446_ref16","unstructured":"C.\u00a0Donahue, H.H.\u00a0Mao and J.\u00a0McAuley, The NES music database: A multi-instrumental dataset with expressive performance attributes, in: 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, 2018."},{"issue":"2","key":"10.3233\/SW-210446_ref17","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1109\/TMM.2010.2098858","article-title":"A survey of audio-based music classification and annotation","volume":"13","author":"Fu","year":"2011","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.3233\/SW-210446_ref18","unstructured":"J.\u00a0Gomez, J.\u00a0Abe\u00dfer and E.\u00a0Cano, Jazz solo instrument classification with convolutional neural networks, source separation, and transfer learning, in: 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, 2018."},{"key":"10.3233\/SW-210446_ref19","doi-asserted-by":"publisher","first-page":"78","DOI":"10.1016\/j.knosys.2018.03.022","article-title":"Graph embedding techniques, applications, and performance: A survey","volume":"151","author":"Goyal","year":"2018","journal-title":"Knowledge-Based Systems"},{"key":"10.3233\/SW-210446_ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3375395.3387641"},{"key":"10.3233\/SW-210446_ref21","doi-asserted-by":"publisher","DOI":"10.1145\/2939672.2939754"},{"key":"10.3233\/SW-210446_ref22","first-page":"1157","article-title":"An introduction to variable and feature selection","volume":"3","author":"Guyon","year":"2003","journal-title":"Journal of Machine Learning Research"},{"key":"10.3233\/SW-210446_ref23","doi-asserted-by":"publisher","DOI":"10.1080\/00437956.1954.11659520"},{"key":"10.3233\/SW-210446_ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-68204-4_14"},{"key":"10.3233\/SW-210446_ref26","unstructured":"F.\u00a0Korzeniowski and G.\u00a0Widmer, Genre-agnostic key classification with convolutional neural networks, in: 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, 2018."},{"key":"10.3233\/SW-210446_ref27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-30793-6_20"},{"key":"10.3233\/SW-210446_ref28","unstructured":"P.\u00a0Lisena, K.\u00a0Todorov, C.\u00a0Cecconi, F.\u00a0Leresche, I.\u00a0Canno, F.\u00a0Puyrenier, M.\u00a0Voisin and R.\u00a0Troncy, Controlled vocabularies for music metadata, in: 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, 2018."},{"key":"10.3233\/SW-210446_ref30","unstructured":"C.\u00a0McKay, J.\u00a0Burgoyne, J.\u00a0Hockman, J.B.L.\u00a0Smith, G.\u00a0Vigliensoni and I.\u00a0Fujinaga, Evaluating the genre classification performance of lyrical features relative to audio, symbolic and cultural features, in: 11th International Society for Music Information Retrieval Conference (ISMIR), Utrecht, The Netherlands, 2010."},{"key":"10.3233\/SW-210446_ref31","unstructured":"C.\u00a0McKay, J.E.\u00a0Cumming and I.\u00a0Fujinaga, jSymbolic 2.2: Extracting features from symbolic music for use in musicological and MIR research, in: 19th International Conference on Music Information Retrieval, ISMIR, Paris, France, 2018."},{"key":"10.3233\/SW-210446_ref32","unstructured":"C.\u00a0McKay and I.\u00a0Fujinaga, Automatic genre classification using large high-level musical feature sets, in: 5th International Conference on Music Information Retrieval (ISMIR), Barcelona, Spain, 2004."},{"key":"10.3233\/SW-210446_ref33","unstructured":"A.\u00a0Mero\u00f1o-Pe\u00f1uela, M.\u00a0Daquino and E.\u00a0Daga, A large-scale semantic library of MIDI linked data, in: 5th International Conference on Digital Libraries for Musicology (DLfM), Paris, France, 2018."},{"key":"10.3233\/SW-210446_ref34","doi-asserted-by":"publisher","first-page":"156","DOI":"10.1007\/978-3-319-68204-4_16","volume-title":"The MIDI Linked Data Cloud, in: 16th International Semantic Web Conference (ISWC)","author":"Mero\u00f1o-Pe\u00f1uela","year":"2017"},{"key":"10.3233\/SW-210446_ref35","unstructured":"T.\u00a0Mikolov, K.\u00a0Chen, G.\u00a0Corrado and D.\u00a0Jeffrey, Efficient estimation of word representations in vector space, in: 1st International Conference on Learning Representations (ICLR), Workshop Track, Scottsdale, AZ, USA, 2013, http:\/\/arxiv.org\/abs\/1301.3781."},{"key":"10.3233\/SW-210446_ref36","unstructured":"A.\u00a0Narayanan, M.\u00a0Chandramohan, R.\u00a0Venkatesan, L.\u00a0Chen, Y.\u00a0Liu and S.\u00a0Jaiswal, graph2vec: Learning distributed representations of graphs, in: 13th International Workshop on Mining and Learning with Graphs (MLG), 2017."},{"key":"10.3233\/SW-210446_ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113235"},{"key":"10.3233\/SW-210446_ref38","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"10.3233\/SW-210446_ref39","doi-asserted-by":"publisher","DOI":"10.1145\/2623330.2623732"},{"key":"10.3233\/SW-210446_ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1184"},{"key":"10.3233\/SW-210446_ref42","unstructured":"C.\u00a0Raffel and D.P.\u00a0Ellis, Intuitive analysis, creation and manipulation of MIDI data with pretty_midi, in: 15th International Conference on Music Information Retrieval (ISMIR), Late Breaking Demo, Taipei, Taiwan, 2014, pp.\u00a084\u201393."},{"key":"10.3233\/SW-210446_ref43","unstructured":"C.\u00a0Raffel and D.P.W.\u00a0Ellis, Extracting ground truth information from MIDI files: A MIDIfesto, in: 17th International Society for Music Information Retrieval Conference (ISMIR), New York, NY, USA, 2016."},{"key":"10.3233\/SW-210446_ref44","unstructured":"Y.\u00a0Raimond, S.A.\u00a0Abdallah, M.B.\u00a0Sandler and F.\u00a0Giasson, The music ontology, in: 15th International Conference on Music Information Retrieval (ISMIR), Vienna, Austria, 2007, pp.\u00a0417\u2013422."},{"key":"10.3233\/SW-210446_ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3243907.3243913"},{"key":"10.3233\/SW-210446_ref47","doi-asserted-by":"publisher","DOI":"10.14778\/3157794.3157797"},{"key":"10.3233\/SW-210446_ref48","unstructured":"A.\u00a0Ratner, C.\u00a0De Sa, S.\u00a0Wu, D.\u00a0Selsam and C.\u00a0R\u00e9, Data programming: Creating large training sets, quickly, in: 30th International Conference on Neural Information Processing Systems (NIPS), NIPS\u201916, Curran Associates Inc., Red Hook, NY, USA, 2016, pp.\u00a03574\u20133582. ISBN 9781510838819."},{"issue":"4","key":"10.3233\/SW-210446_ref49","doi-asserted-by":"publisher","first-page":"721","DOI":"10.3233\/SW-180317","article-title":"RDF2Vec: RDF graph embeddings and their applications","volume":"10","author":"Ristoski","year":"2019","journal-title":"Semantic Web Journal"},{"key":"10.3233\/SW-210446_ref50","unstructured":"A.\u00a0Roberts, J.\u00a0Engel, C.\u00a0Raffel, C.\u00a0Hawthorne and D.\u00a0Eck, A hierarchical latent vector model for learning long-term structure in music, in: 35th International Conference on Machine Learning (ICML), Proceedings of Machine Learning Research, Vol.\u00a080, PMLR, Stockholmsm\u00e4ssan, Sweden, 2018, pp.\u00a04364\u20134373."},{"key":"10.3233\/SW-210446_ref51","unstructured":"C.\u00a0Rosen, The Classical Style: Haydn, Mozart, Beethoven, WW Norton & Company, 1997. ISBN 0393317129."},{"key":"10.3233\/SW-210446_ref52","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-70863-8_21"},{"key":"10.3233\/SW-210446_ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3148011.3148038"},{"key":"10.3233\/SW-210446_ref54","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2019\/640"},{"key":"10.3233\/SW-210446_ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICDS.2009.50"},{"issue":"6","key":"10.3233\/SW-210446_ref56","doi-asserted-by":"publisher","first-page":"1636","DOI":"10.1109\/TMM.2014.2330697","article-title":"A simple method to determine if a music information retrieval system is a \u201chorse\u201d","volume":"16","author":"Sturm","year":"2014","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.3233\/SW-210446_ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-26148-5_36"},{"issue":"v","key":"10.3233\/SW-210446_ref58","first-page":"2579","article-title":"Visualizing data using t-SNE","volume":"9","author":"van der Maaten","year":"2008","journal-title":"Journal of machine learning research"},{"key":"10.3233\/SW-210446_ref60","doi-asserted-by":"publisher","DOI":"10.1145\/3358664.3358666"},{"issue":"1\u20132","key":"10.3233\/SW-210446_ref62","doi-asserted-by":"publisher","first-page":"39","DOI":"10.3233\/DS-170007","article-title":"The knowledge graph as the default data model for learning on heterogeneous knowledge","volume":"1","author":"Wilcke","year":"2017","journal-title":"Data Science"},{"key":"10.3233\/SW-210446_ref63","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46547-0_24"},{"key":"10.3233\/SW-210446_ref64","unstructured":"Y.\u00a0Yan, E.\u00a0Lustig, J.\u00a0VanderStel and Z.\u00a0Duan, Part-invariant model for music generation and harmonization, in: 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, 2018."}],"container-title":["Semantic Web"],"original-title":[],"link":[{"URL":"https:\/\/content.iospress.com\/download?id=10.3233\/SW-210446","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:26:11Z","timestamp":1777613171000},"score":1,"resource":{"primary":{"URL":"https:\/\/journals.sagepub.com\/doi\/full\/10.3233\/SW-210446"}},"subtitle":[],"editor":[{"given":"Mehwish","family":"Alam","sequence":"additional","affiliation":[{"name":"FIZ Karlsruhe \u2013 Leibniz Institute for Information Infrastructure, Germany"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Davide","family":"Buscaldi","sequence":"additional","affiliation":[{"name":"LIPN, Universit\u00e9 Sorbonne Paris Nord, France"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Michael","family":"Cochez","sequence":"additional","affiliation":[{"name":"Vrije University of Amsterdam, the Netherlands"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Francesco","family":"Osborne","sequence":"additional","affiliation":[{"name":"Knowledge Media Institute, (KMi), and The Open University, UK"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Diego","family":"Reforgiato Recupero","sequence":"additional","affiliation":[{"name":"University of Cagliari, Italy"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Harald","family":"Sack","sequence":"additional","affiliation":[{"name":"FIZ Karlsruhe \u2013 Leibniz Institute for Information Infrastructure, Germany"}],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Mehwish","family":"Alam","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Davide","family":"Buscaldi","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Michael","family":"Cochez","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Francesco","family":"Osborne","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Diego","family":"Refogiato Recupero","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]},{"given":"Harald","family":"Sack","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"editor"}]}],"short-title":[],"issued":{"date-parts":[[2022,4,6]]},"references-count":57,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.3233\/sw-210446","relation":{},"ISSN":["2210-4968","1570-0844"],"issn-type":[{"value":"2210-4968","type":"electronic"},{"value":"1570-0844","type":"print"}],"subject":[],"published":{"date-parts":[[2022,4,6]]}}}