{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,4]],"date-time":"2026-06-04T00:01:43Z","timestamp":1780531303139,"version":"3.54.1"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T00:00:00Z","timestamp":1779667200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T00:00:00Z","timestamp":1779667200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"2024 National Social Science Foundation of China (NSSFC) General Project in Arts","award":["24BH170"],"award-info":[{"award-number":["24BH170"]}]},{"name":"2024 Jiangsu Provincial Degree and Graduate Education Teaching Reform Project","award":["JGKT24_C044"],"award-info":[{"award-number":["JGKT24_C044"]}]},{"name":"2024 Key Project of New Quality Productivity Research at Nanjing University of the Arts","award":["2024XZZD04"],"award-info":[{"award-number":["2024XZZD04"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["SIViP"],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1007\/s11760-026-05435-x","type":"journal-article","created":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T07:03:01Z","timestamp":1779692581000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["MMIC: A forward-bidirectional mamba architecture for musical instrument classification"],"prefix":"10.1007","volume":"20","author":[{"given":"Enji","family":"Zhao","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jiaxiang","family":"Zheng","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Moxi","family":"Cao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chongbin","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2026,5,25]]},"reference":[{"issue":"1","key":"5435_CR1","doi-asserted-by":"publisher","first-page":"208","DOI":"10.1109\/TASLP.2016.2632307","volume":"25","author":"Y Han","year":"2017","unstructured":"Han, Y., Kim, J., Lee, K.: Deep convolutional neural networks for predominant instrument recognition in polyphonic music. IEEE\/ACM Trans. Audio Speech Lang. Process. 25(1), 208\u2013221 (2017). https:\/\/doi.org\/10.1109\/TASLP.2016.2632307","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"3","key":"5435_CR2","doi-asserted-by":"publisher","first-page":"1043","DOI":"10.1007\/s12530-023-09540-x","volume":"15","author":"SK Mahanta","year":"2024","unstructured":"Mahanta, S.K., Basisth, N.J., Halder, E., Khilji, A.F.U.R., Pakray, P.: Exploiting cepstral coefficients and CNN for efficient musical instrument classification. Evol. Syst. 15(3), 1043\u20131055 (2024). https:\/\/doi.org\/10.1007\/s12530-023-09540-x","journal-title":"Evol. Syst."},{"key":"5435_CR3","doi-asserted-by":"publisher","unstructured":"Gong, Y., Chung, Y.-A., Glass, J.: AST: Audio spectrogram transformer. In: Proceedings of Interspeech 2021, Brno, Czech Republic, pp. 571\u2013575 (2021). https:\/\/doi.org\/10.21437\/Interspeech.2021-698","DOI":"10.21437\/Interspeech.2021-698"},{"key":"5435_CR4","doi-asserted-by":"publisher","unstructured":"Koutini, K., Schl\u00fcter, J., Eghbal-zadeh, H., Widmer, G.: Efficient training of audio transformers with patchout. In: Proceedings of Interspeech 2022, pp. 2753\u20132757. ISCA, Incheon, Korea (2022). https:\/\/doi.org\/10.21437\/Interspeech.2022-227","DOI":"10.21437\/Interspeech.2022-227"},{"key":"5435_CR5","doi-asserted-by":"publisher","unstructured":"Chen, K., Du, X., Zhu, B., Ma, Z., Berg-Kirkpatrick, T., Dubnov, S.: HTS-AT: A hierarchical token-semantic audio transformer for sound classification and detection. In: Proceedings of ICASSP 2022, pp. 646\u2013650. IEEE, Singapore (2022). https:\/\/doi.org\/10.1109\/ICASSP43922.2022.9746312","DOI":"10.1109\/ICASSP43922.2022.9746312"},{"key":"5435_CR6","unstructured":"Gu, A., Dao, T.: Mamba: linear-time sequence modeling with selective state spaces (2023). arXiv:2312.00752"},{"key":"5435_CR7","doi-asserted-by":"publisher","first-page":"2975","DOI":"10.1109\/LSP.2024.3483009","volume":"31","author":"MH Erol","year":"2024","unstructured":"Erol, M.H., Senocak, A., Feng, J., Chung, J.S.: Audio mamba: bidirectional state space model for audio representation learning. IEEE Signal Process. Lett. 31, 2975\u20132979 (2024). https:\/\/doi.org\/10.1109\/LSP.2024.3483009","journal-title":"IEEE Signal Process. Lett."},{"key":"5435_CR8","doi-asserted-by":"crossref","unstructured":"Miyazaki, K., Masuyama, Y., Murata, M.: Exploring the capability of mamba in speech applications (2024). arXiv:2406.16808","DOI":"10.21437\/Interspeech.2024-994"},{"key":"5435_CR9","unstructured":"Marques, J., Moreno, P.J.: A study of musical instrument classification using gaussian mixture models and support vector machines. Technical Report CRL 99\/4, Compaq Computer Corporation, Cambridge Research Laboratory (1999). https:\/\/www.researchgate.net\/publication\/2309594_A_Study_of_Musical_Instrument_Classification_Using_Gaussian_Mixture_Models_and_Support_Vector_Machines"},{"issue":"1","key":"5435_CR10","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1076\/jnmr.32.1.3.16798","volume":"32","author":"P Herrera-Boyer","year":"2003","unstructured":"Herrera-Boyer, P., Peeters, G., Dubnov, S.: Automatic classification of musical instrument sounds. J. New Music Res. 32(1), 3\u201321 (2003). https:\/\/doi.org\/10.1076\/jnmr.32.1.3.16798","journal-title":"J. New Music Res."},{"key":"5435_CR11","unstructured":"Livshin, A., Rodet, X.: Instrument recognition beyond separate notes: Indexing continuous recordings. In: Proceedings of the International Computer Music Conference (ICMC), Miami, FL, USA (2004)"},{"issue":"1","key":"5435_CR12","doi-asserted-by":"publisher","first-page":"68","DOI":"10.1109\/TSA.2005.860351","volume":"14","author":"S Essid","year":"2006","unstructured":"Essid, S., Richard, G., David, B.: Instrument recognition in polyphonic music based on automatic taxonomies. IEEE Trans. Audio Speech Lang. Process. 14(1), 68\u201380 (2006). https:\/\/doi.org\/10.1109\/TSA.2005.860351","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"5435_CR13","unstructured":"Eichner, M., Wolff, M., Hoffmann, R.: Instrument classification using hidden markov models. In: Proceedings of the 7th International Society for Music Information Retrieval Conference (ISMIR), pp. 349\u2013350. Victoria, Canada (2006)"},{"key":"5435_CR14","doi-asserted-by":"publisher","unstructured":"Deng, J.D., Simmermacher, C., Cranefield, S.: A study on feature analysis for musical instrument classification. IEEE Trans. Syst. Man Cybern, Part B (Cybernetics) 38(2), 429\u2013438 (2008). https:\/\/doi.org\/10.1109\/TSMCB.2007.913394","DOI":"10.1109\/TSMCB.2007.913394"},{"key":"5435_CR15","unstructured":"Diment, A., Rajan, P., Heittola, T., Virtanen, T.: Modified group delay feature for musical instrument recognition. In: Proceedings of the 10th International Symposium on Computer Music Multidisciplinary Research (CMMR), Marseille, France, pp. 431\u2013438 (2013). https:\/\/api.semanticscholar.org\/CorpusID:14981919"},{"key":"5435_CR16","unstructured":"Fourer, D., Rouas, J.-L., Hanna, P., Robine, M.: Automatic timbre classification of ethnomusicological audio recordings. In: Proceedings of the 15th International Society for Music Information Retrieval Conference (ISMIR), pp. 295\u2013300, Taipei, Taiwan (2014)"},{"key":"5435_CR17","unstructured":"Park, T., Lee, T.: Musical Instrument Sound Classification with Deep Convolutional Neural Network Using Feature Fusion Approach (2015). arXiv:1512.07370"},{"issue":"3","key":"5435_CR18","doi-asserted-by":"publisher","first-page":"425","DOI":"10.1007\/s10844-015-0360-9","volume":"46","author":"DG Bhalke","year":"2016","unstructured":"Bhalke, D.G., Rao, C.B.R., Bormane, D.S.: Automatic musical instrument classification using fractional fourier transform based-mfcc features and counter propagation neural network. J. Intell. Inf. Syst. 46(3), 425\u2013446 (2016). https:\/\/doi.org\/10.1007\/s10844-015-0360-9","journal-title":"J. Intell. Inf. Syst."},{"key":"5435_CR19","doi-asserted-by":"publisher","unstructured":"Lostanlen, V., And\u00e9n, J., Lagrange, M.: Extended playing techniques: The next milestone in musical instrument recognition. In: Proceedings of the 5th International Conference on Digital Libraries for Musicology (DLfM), Association for Computing Machinery, Paris, France, pp. 1\u201310 (2018). https:\/\/doi.org\/10.1145\/3273024.3273036","DOI":"10.1145\/3273024.3273036"},{"issue":"1","key":"5435_CR20","doi-asserted-by":"publisher","first-page":"45","DOI":"10.51983\/ajes-2020.9.1.2369","volume":"9","author":"S Prabavathy","year":"2020","unstructured":"Prabavathy, S., Rathikarani, V., Dhanalakshmi, P.: Classification of musical instruments sound using pre-trained model with machine learning techniques. Asian J. Electr. Sci. 9(1), 45\u201348 (2020). https:\/\/doi.org\/10.51983\/ajes-2020.9.1.2369","journal-title":"Asian J. Electr. Sci."},{"issue":"7","key":"5435_CR21","first-page":"1487","volume":"6","author":"P Singh","year":"2019","unstructured":"Singh, P., Bachhav, D., Joshi, O., Patil, N.: Implementing musical instrument recognition using CNN and SVM. Int. Res. J. Eng. Tech. (IRJET) 6(7), 1487\u20131493 (2019)","journal-title":"Int. Res. J. Eng. Tech. (IRJET)"},{"issue":"3","key":"5435_CR22","doi-asserted-by":"publisher","first-page":"1659","DOI":"10.1007\/s41870-019-00285-y","volume":"14","author":"A Solanki","year":"2022","unstructured":"Solanki, A., Pandey, S.: Music instrument recognition using deep convolutional neural networks. Int. J. Inf. Technol. 14(3), 1659\u20131668 (2022). https:\/\/doi.org\/10.1007\/s41870-019-00285-y","journal-title":"Int. J. Inf. Technol."},{"issue":"2","key":"5435_CR23","doi-asserted-by":"publisher","first-page":"351","DOI":"10.13053\/cys-25-2-3946","volume":"25","author":"SK Mahanta","year":"2021","unstructured":"Mahanta, S.K., Khilji, A.F.U.R., Pakray, P.: Deep neural network for musical instrument recognition using MFCCs. Computaci\u00f3n y Sistemas 25(2), 351\u2013360 (2021)","journal-title":"Computaci\u00f3n y Sistemas"},{"issue":"1","key":"5435_CR24","doi-asserted-by":"publisher","first-page":"84","DOI":"10.2478\/crdj-2025-0006","volume":"6","author":"K Borov\u010dak","year":"2025","unstructured":"Borov\u010dak, K., Babac, M.B.: Instrument classification in musical audio signals using deep learning. Croatian Regional Development Journal 6(1), 84\u201399 (2025). https:\/\/doi.org\/10.2478\/crdj-2025-0006","journal-title":"Croatian Regional Development Journal"},{"key":"5435_CR25","doi-asserted-by":"publisher","first-page":"21573","DOI":"10.1038\/s41598-025-09493-y","volume":"15","author":"J Zheng","year":"2025","unstructured":"Zheng, J., Cao, M., Zhang, C.: ICKAN: a deep musical instrument classification model incorporating kolmogorov-arnold network. Sci. Rep. 15, 21573 (2025). https:\/\/doi.org\/10.1038\/s41598-025-09493-y","journal-title":"Sci. Rep."},{"key":"5435_CR26","doi-asserted-by":"publisher","unstructured":"Reghunath, L.C., Rajan, R.: Transformer-based ensemble method for multiple predominant instruments recognition in polyphonic music. EURASIP J. Audio, Speech, and Music Processing 2022(11) (2022). https:\/\/doi.org\/10.1186\/s13636-022-00245-8","DOI":"10.1186\/s13636-022-00245-8"},{"key":"5435_CR27","unstructured":"Chen, S., Wu, Y., Wang, C., Liu, S., Tompkins, D., Chen, Z., Wei, F.: BEATs: audio pre-training with acoustic tokenizers. arXiv:2212.09058 (2022)"},{"key":"5435_CR28","doi-asserted-by":"publisher","unstructured":"Khatri, I.A., Mankar, A., Bagade, J., Dedgaonkar, S., Shirurkar, M.: Indian musical instrument recognition using multi-layered neural networks. In: 2025 1st International Conference on AIML-Applications for Engineering & Technology (ICAET), pp. 1\u20136. IEEE, Pune, India (2025). https:\/\/doi.org\/10.1109\/ICAET63349.2025.10932296","DOI":"10.1109\/ICAET63349.2025.10932296"},{"key":"5435_CR29","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1016\/j.aej.2025.01.059","volume":"118","author":"M Chen","year":"2025","unstructured":"Chen, M., Tang, D., Xiang, Y., Shi, L., Tuncer, T., Ozyurt, F., Dogan, S.: Instrument sound classification using a music-based feature extraction model inspired by mozart\u2019s turkish march pattern. Alex. Eng. J. 118, 354\u2013370 (2025). https:\/\/doi.org\/10.1016\/j.aej.2025.01.059","journal-title":"Alex. Eng. J."},{"key":"5435_CR30","doi-asserted-by":"publisher","unstructured":"Sivalingam, P., J, A.K.T., P., S.K., B., Y.R., S., R., R., L.C.: Robust CNN-based musical instrument recognition with enhanced feature learning. In: 2025 International Conference on Inventive Computation Technologies (ICICT), pp. 851\u2013857. IEEE, Kathmandu, Nepal (2025). https:\/\/doi.org\/10.1109\/ICICT64420.2025.11005342","DOI":"10.1109\/ICICT64420.2025.11005342"},{"key":"5435_CR31","unstructured":"Sechet, D., Bugiotti, F., Kowalski, M., d\u2019H\u00e9rouville, E., Langiewicz, F.: A hierarchical deep learning approach for minority instrument detection. arXiv:2506.21167 (2025)"},{"key":"5435_CR32","doi-asserted-by":"publisher","unstructured":"Tamanna, S.E., Ezhan, M., Mahesh, R., Shetter, A., Parameshachari, B.D., Kumar, D.S.S., Puttegowda, K.: Musical instrument classification using deep learning CNN models. In: 2024 International Conference on Integrated Intelligence and Communication Systems (ICIICS), pp. 1\u20137. IEEE, Kalaburagi, Karnataka, India (2024). https:\/\/doi.org\/10.1109\/ICIICS63763.2024.10859695","DOI":"10.1109\/ICIICS63763.2024.10859695"},{"key":"5435_CR33","doi-asserted-by":"publisher","unstructured":"Gu, A., Goel, K., R\u00e9, C.: Efficiently modeling long sequences with structured state spaces. In: International Conference on Learning Representations (ICLR) (2022). https:\/\/doi.org\/10.48550\/arXiv.2111.00396","DOI":"10.48550\/arXiv.2111.00396"},{"key":"5435_CR34","unstructured":"Ayonrinde, K.: Mamba Explained. The Gradient, https:\/\/thegradient.pub\/mamba-explained\/. Online blog post (2024)"},{"key":"5435_CR35","doi-asserted-by":"crossref","unstructured":"Chao, R., Cheng, W.-H., Quatra, M.L., Siniscalchi, S.M., Yang, C.-H.H., Fu, S.-W., Tsao, Y.: An investigation of incorporating mamba for speech enhancement, (2024). arXiv:2405.06573","DOI":"10.1109\/SLT61566.2024.10832332"},{"key":"5435_CR36","doi-asserted-by":"crossref","unstructured":"Jiang, X., Li, Y.A., Florea, A.N., Han, C., Mesgarani, N.: Speech Slytherin: Examining the performance and efficiency of mamba for speech separation, recognition, and synthesis (2024). arXiv:2407.09732","DOI":"10.1109\/ICASSP49660.2025.10889391"},{"key":"5435_CR37","unstructured":"Zhu, L., Liao, B., Zhang, Q., Wang, X., Liu, W., Wang, X.: Vision mamba: Efficient visual representation learning with bidirectional state space model. In: Proceedings of the 41st International Conference on Machine Learning (ICML) (2024). arxiv:2401.09417"},{"key":"5435_CR38","doi-asserted-by":"publisher","unstructured":"Dao, T., Gu, A.: Transformers are SSMs: generalized models and efficient algorithms through structured state space duality. In: Proceedings of the 41st International Conference on Machine Learning (ICML), Vienna, Austria, pp. 10041\u201310071 (2024). https:\/\/doi.org\/10.48550\/arXiv.2405.21060","DOI":"10.48550\/arXiv.2405.21060"},{"key":"5435_CR39","unstructured":"Lieber, O., Lenz, B., Bata, H., Cohen, G., Osin, J., Dalmedigos, I., Safahi, E., Meirom, S., Belinkov, Y., Shalev-Shwartz, S.: Jamba: a hybrid transformer-mamba language model (2024). arXiv:2403.19887"},{"key":"5435_CR40","doi-asserted-by":"publisher","first-page":"2880","DOI":"10.1109\/TASLP.2020.3030497","volume":"28","author":"Q Kong","year":"2020","unstructured":"Kong, Q., Cao, Y., Iqbal, T., Wang, Y., Wang, W., Plumbley, M.D.: PANNs: large-scale pretrained audio neural networks for audio pattern recognition. IEEE\/ACM Trans. Audio Speech Lang. Process. 28, 2880\u20132894 (2020). https:\/\/doi.org\/10.1109\/TASLP.2020.3030497","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"5435_CR41","doi-asserted-by":"publisher","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: transformers for image recognition at scale. In: International Conference on Learning Representations (ICLR) (2021). https:\/\/doi.org\/10.48550\/arXiv.2010.11929","DOI":"10.48550\/arXiv.2010.11929"},{"key":"5435_CR42","doi-asserted-by":"crossref","unstructured":"Pons, J., Slizovskaia, O., Gong, R., G\u00f3mez, E., Serra, X.: Timbre analysis of music audio signals with convolutional neural networks (2017). arXiv:1703.06697","DOI":"10.23919\/EUSIPCO.2017.8081710"}],"container-title":["Signal, Image and Video Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-026-05435-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11760-026-05435-x","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-026-05435-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,3]],"date-time":"2026-06-03T23:11:18Z","timestamp":1780528278000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11760-026-05435-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5,25]]},"references-count":42,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2026,6]]}},"alternative-id":["5435"],"URL":"https:\/\/doi.org\/10.1007\/s11760-026-05435-x","relation":{},"ISSN":["1863-1703","1863-1711"],"issn-type":[{"value":"1863-1703","type":"print"},{"value":"1863-1711","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,5,25]]},"assertion":[{"value":"19 October 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 April 2026","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"8 May 2026","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 May 2026","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"364"}}