{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,19]],"date-time":"2026-02-19T14:09:01Z","timestamp":1771510141262,"version":"3.50.1"},"reference-count":53,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100004543","name":"China Scholarship Council","doi-asserted-by":"publisher","award":["202006280348"],"award-info":[{"award-number":["202006280348"]}],"id":[{"id":"10.13039\/501100004543","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100007040","name":"Singapore University of Technology and Design","doi-asserted-by":"publisher","award":["SKI 2021_04_06"],"award-info":[{"award-number":["SKI 2021_04_06"]}],"id":[{"id":"10.13039\/501100007040","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Expert Systems with Applications"],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1016\/j.eswa.2025.130059","type":"journal-article","created":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T01:49:18Z","timestamp":1761184158000},"page":"130059","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["BandCondiNet: Parallel transformers-based conditional popular music generation with multi-view features"],"prefix":"10.1016","volume":"299","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7138-3705","authenticated-orcid":false,"given":"Jing","family":"Luo","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5117-4914","authenticated-orcid":false,"given":"Xinyu","family":"Yang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8607-1640","authenticated-orcid":false,"given":"Dorien","family":"Herremans","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.eswa.2025.130059_bib0001","doi-asserted-by":"crossref","first-page":"3602","DOI":"10.1109\/TMM.2022.3163543","article-title":"Generating music with emotions","volume":"25","author":"Bao","year":"2023","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.eswa.2025.130059_bib0002","series-title":"Musical composition: Craft and art","author":"Belkin","year":"2018"},{"key":"10.1016\/j.eswa.2025.130059_bib0003","series-title":"ISMIR","first-page":"10","article-title":"The million song dataset","volume":"vol. 2","author":"Bertin-Mahieux","year":"2011"},{"key":"10.1016\/j.eswa.2025.130059_bib0004","series-title":"ICASSP 2023-2023 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"1","article-title":"Pop2piano: Pop audio-based piano cover generation","author":"Choi","year":"2023"},{"key":"10.1016\/j.eswa.2025.130059_bib0005","series-title":"International conference on machine learning","first-page":"1899","article-title":"Encoding musical style with transformer autoencoders","author":"Choi","year":"2020"},{"key":"10.1016\/j.eswa.2025.130059_bib0006","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2022.118190","article-title":"A systematic review of artificial intelligence-based music generation: Scope, applications, and future trends","volume":"209","author":"Civit","year":"2022","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2025.130059_bib0007","first-page":"1","article-title":"Simple and controllable music generation","volume":"36","author":"Copet","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2025.130059_bib0008","unstructured":"Dai, S., Zhang, H., & Dannenberg, R. B. (2020). Automatic analysis and influence of hierarchical structure on melody, rhythm and harmony in popular music. arXiv preprint arXiv: 2010.07518."},{"issue":"20","key":"10.1016\/j.eswa.2025.130059_bib0009","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s10489-023-04664-8","article-title":"Museflow: Music accompaniment generation based on flow","volume":"53","author":"Ding","year":"2023","journal-title":"Applied Intelligence"},{"key":"10.1016\/j.eswa.2025.130059_bib0010","series-title":"ISMIR","article-title":"Towards characterisation of music via rhythmic patterns","author":"Dixon","year":"2004"},{"key":"10.1016\/j.eswa.2025.130059_bib0011","series-title":"Proceedings of the 20th international society for music information retrieval conference, ISMIR 2019, delft, the netherlands, november 4\u20138, 2019","first-page":"685","article-title":"LakhNES: Improving multi-instrumental music generation with cross-domain pre-training","author":"Donahue","year":"2019"},{"key":"10.1016\/j.eswa.2025.130059_bib0012","series-title":"ICASSP 2023-2023 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"1","article-title":"Multitrack music transformer","author":"Dong","year":"2023"},{"key":"10.1016\/j.eswa.2025.130059_bib0013","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"34","article-title":"Musegan: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment","author":"Dong","year":"2018"},{"key":"10.1016\/j.eswa.2025.130059_bib0014","unstructured":"Ens, J., & Pasquier, P. (2020). MMM: Exploring conditional multi-track music generation with the transformer. arXiv preprint arXiv: 2008.06048."},{"key":"10.1016\/j.eswa.2025.130059_bib0015","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"12873","article-title":"Taming transformers for high-resolution image synthesis","author":"Esser","year":"2021"},{"key":"10.1016\/j.eswa.2025.130059_bib0016","series-title":"Proceedings of the 2023 conference on empirical methods in natural language processing","first-page":"2001","article-title":"Byte pair encoding for symbolic music","author":"Fradet","year":"2023"},{"key":"10.1016\/j.eswa.2025.130059_bib0017","unstructured":"Guo, R., Herremans, D., & Magnusson, T. (2019). Midi miner\u2013a python library for tonal tension and track classification. arXiv preprint arXiv: 1910.02049."},{"key":"10.1016\/j.eswa.2025.130059_bib0018","series-title":"International conference on computational intelligence in music, sound, art and design (part of evostar)","first-page":"341","article-title":"MusIAC: An extensible generative framework for music infilling applications with multi-level control","author":"Guo","year":"2022"},{"issue":"5","key":"10.1016\/j.eswa.2025.130059_bib0019","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3108242","article-title":"A functional taxonomy of music generation systems","volume":"50","author":"Herremans","year":"2017","journal-title":"ACM Computing Surveys (CSUR)"},{"key":"10.1016\/j.eswa.2025.130059_bib0020","series-title":"7th international conference on learning representations, ICLR 2019, New Orleans, La, USA, May 6\u20139, 2019","first-page":"1","article-title":"Music transformer: Generating music with long-term structure","author":"Huang","year":"2019"},{"key":"10.1016\/j.eswa.2025.130059_bib0021","series-title":"Forty-first international conference on machine learning","first-page":"1","article-title":"Symbolic music generation with non-differentiable rule guided diffusion","author":"Huang","year":"2024"},{"key":"10.1016\/j.eswa.2025.130059_bib0022","series-title":"Proceedings of the 28th ACM international conference on multimedia","first-page":"1180","article-title":"Pop music transformer: Beat-based modeling and generation of expressive pop piano compositions","author":"Huang","year":"2020"},{"issue":"1","key":"10.1016\/j.eswa.2025.130059_bib0023","doi-asserted-by":"crossref","first-page":"7:1","DOI":"10.1145\/3597493","article-title":"A survey on deep learning for symbolic music generation: Representations, algorithms, evaluations, and challenges","volume":"56","author":"Ji","year":"2024","journal-title":"ACM Computing Surveys"},{"issue":"3","key":"10.1016\/j.eswa.2025.130059_bib0024","doi-asserted-by":"crossref","first-page":"369","DOI":"10.1049\/cit2.12065","article-title":"A transformer generative adversarial network for multi-track music generation","volume":"7","author":"Jin","year":"2022","journal-title":"CAAI Transactions on Intelligence Technology"},{"key":"10.1016\/j.eswa.2025.130059_bib0025","series-title":"International conference on machine learning","first-page":"2390","article-title":"Fast decoding in sequence models using discrete latent variables","author":"Kaiser","year":"2018"},{"key":"10.1016\/j.eswa.2025.130059_bib0026","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.123640","article-title":"Video2music: Suitable music generation from videos using an affective multimodal transformer model","volume":"249","author":"Kang","year":"2024","journal-title":"Expert Systems with Applications"},{"issue":"7","key":"10.1016\/j.eswa.2025.130059_bib0027","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3714457","article-title":"Natural language processing methods for symbolic music generation and information retrieval: A survey","volume":"57","author":"Le","year":"2025","journal-title":"ACM Computing Surveys"},{"key":"10.1016\/j.eswa.2025.130059_bib0028","series-title":"Proceedings of the 28th ACM international conference on multimedia","first-page":"574","article-title":"Pirhdy: Learning pitch-, rhythm-, and dynamics-aware embeddings for symbolic music","author":"Liang","year":"2020"},{"key":"10.1016\/j.eswa.2025.130059_bib0029","series-title":"ICASSP 2024-2024 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"1","article-title":"Multi-view midiVAE: Fusing track-and bar-view representations for long multi-track symbolic music generation","author":"Lin","year":"2024"},{"key":"10.1016\/j.eswa.2025.130059_bib0030","series-title":"Proceedings of the 23rd international society for music information retrieval conference, ISMIR 2022, Bengaluru, India, December 4\u20138, 2022","first-page":"551","article-title":"Symphony generation with permutation invariant language model","author":"Liu","year":"2022"},{"key":"10.1016\/j.eswa.2025.130059_bib0031","unstructured":"Lu, P., Xu, X., Kang, C., Yu, B., Xing, C., Tan, X., & Bian, J. (2023). Musecoco: Generating symbolic music from text. arXiv preprint arXiv: 2306.00110."},{"key":"10.1016\/j.eswa.2025.130059_bib0032","series-title":"Proceedings of the 7th conference on sound and music technology (CSMT)","first-page":"93","article-title":"MG-VAE: Deep chinese folk songs generation with specific regional styles","author":"Luo","year":"2020"},{"key":"10.1016\/j.eswa.2025.130059_bib0033","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2021.116195","article-title":"Composeinstyle: Music composition with and without style transfer","volume":"191","author":"Mukherjee","year":"2022","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2025.130059_bib0034","unstructured":"Payne, C. (2019). Musenet. Retrieved from https:\/\/openai.com\/blog\/musenet. Accessed November 20, 2024."},{"key":"10.1016\/j.eswa.2025.130059_bib0035","series-title":"Learning-based methods for comparing sequences, with applications to audio-to-midi alignment and matching","author":"Raffel","year":"2016"},{"key":"10.1016\/j.eswa.2025.130059_bib0036","series-title":"Proceedings of the 28th ACM international conference on multimedia","first-page":"1198","article-title":"Popmag: Pop music accompaniment generation","author":"Ren","year":"2020"},{"key":"10.1016\/j.eswa.2025.130059_bib0037","series-title":"Proceedings of the international computer music conference 1999, beijing","article-title":"Realtime chord recognition of musical sound: Asystem using common lisp music","author":"Takuya","year":"1999"},{"key":"10.1016\/j.eswa.2025.130059_bib0038","series-title":"Proceedings of the 21th international society for music information retrieval conference","first-page":"109","article-title":"Music fadernets: Controllable music generation based on high-level features via low-level feature modelling","author":"Tan","year":"2020"},{"issue":"2","key":"10.1016\/j.eswa.2025.130059_bib0039","doi-asserted-by":"crossref","first-page":"862","DOI":"10.1109\/TCSS.2024.3486604","article-title":"Hybrid learning module-based transformer for multitrack music generation with music theory","volume":"12","author":"Tie","year":"2025","journal-title":"IEEE Transactions on Computational Social Systems"},{"key":"10.1016\/j.eswa.2025.130059_bib0040","first-page":"1","article-title":"Neural discrete representation learning","volume":"30","author":"Van Den Oord","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2025.130059_bib0041","first-page":"1","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2025.130059_bib0042","series-title":"The eleventh international conference on learning representations","first-page":"1","article-title":"FIGARO: Controllable music generation using learned and expert features","author":"von R\u00fctte","year":"2023"},{"key":"10.1016\/j.eswa.2025.130059_bib0043","doi-asserted-by":"crossref","first-page":"5670","DOI":"10.1109\/TMM.2023.3338089","article-title":"Continuous emotion-based image-to-music generation","volume":"26","author":"Wang","year":"2024","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.eswa.2025.130059_bib0044","series-title":"The twelfth international conference on learning representations, ICLR 2024, Vienna, Austria, May 7\u201311, 2024","first-page":"1","article-title":"Whole-song hierarchical generation of symbolic music using cascaded diffusion models","author":"Wang","year":"2024"},{"key":"10.1016\/j.eswa.2025.130059_bib0045","doi-asserted-by":"crossref","first-page":"1953","DOI":"10.1109\/TASLP.2023.3270726","article-title":"Musemorphose: Full-song and fine-grained piano music style transfer with one transformer VAE","volume":"31","author":"Wu","year":"2023","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"10.1016\/j.eswa.2025.130059_bib0046","first-page":"1376","article-title":"Museformer: Transformer with fine-and coarse-grained attention for music generation","volume":"35","author":"Yu","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2025.130059_bib0047","series-title":"Findings of the association for computational linguistics: ACL-IJCNLP 2021","first-page":"791","article-title":"MusicBERT: Symbolic music understanding with large-scale pre-training","author":"Zeng","year":"2021"},{"key":"10.1016\/j.eswa.2025.130059_bib0048","series-title":"Proceedings of the 30th ACM international conference on multimedia","first-page":"1204","article-title":"Structure-enhanced pop music generation via harmony-aware learning","author":"Zhang","year":"2022"},{"issue":"27","key":"10.1016\/j.eswa.2025.130059_bib0049","doi-asserted-by":"crossref","first-page":"19805","DOI":"10.1007\/s00521-023-08728-1","article-title":"Controllable lyrics-to-melody generation","volume":"35","author":"Zhang","year":"2023","journal-title":"Neural Computing and Applications"},{"key":"10.1016\/j.eswa.2025.130059_bib0050","series-title":"The thirty-eighth annual conference on neural information processing systems","first-page":"1","article-title":"Structured multi-track accompaniment arrangement via style prior modelling","author":"Zhao","year":"2024"},{"key":"10.1016\/j.eswa.2025.130059_bib0051","series-title":"Proceedings of the 20th international society for music information retrieval conference, ISMIR 2019, Delft, the Netherlands, November 4\u20138, 2019","first-page":"655","article-title":"BandNet: A neural network-based, multi-instrument beatles-style MIDI music composition machine","author":"Zhou","year":"2019"},{"key":"10.1016\/j.eswa.2025.130059_bib0052","series-title":"ICASSP 2022-2022 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"191","article-title":"Melons: Generating melody with long-term structure using transformers and structure graph","author":"Zou","year":"2022"},{"key":"10.1016\/j.eswa.2025.130059_bib0053","series-title":"Artificial intelligence in music, sound, art and design: 12th international conference","first-page":"260","article-title":"GTR-CTRL: Instrument and genre conditioning for guitar-focused music generation with transformers","volume":"vol. 13988","author":"Zukowski","year":"2023"}],"container-title":["Expert Systems with Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417425036759?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417425036759?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,2,19]],"date-time":"2026-02-19T13:10:38Z","timestamp":1771506638000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0957417425036759"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":53,"alternative-id":["S0957417425036759"],"URL":"https:\/\/doi.org\/10.1016\/j.eswa.2025.130059","relation":{},"ISSN":["0957-4174"],"issn-type":[{"value":"0957-4174","type":"print"}],"subject":[],"published":{"date-parts":[[2026,3]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"BandCondiNet: Parallel transformers-based conditional popular music generation with multi-view features","name":"articletitle","label":"Article Title"},{"value":"Expert Systems with Applications","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.eswa.2025.130059","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"130059"}}