{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,20]],"date-time":"2025-08-20T13:06:05Z","timestamp":1755695165617,"version":"3.37.3"},"reference-count":61,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2023,10,19]],"date-time":"2023-10-19T00:00:00Z","timestamp":1697673600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2023,10,19]],"date-time":"2023-10-19T00:00:00Z","timestamp":1697673600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No.62272409"],"award-info":[{"award-number":["No.62272409"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100022963","name":"Key Research and Development Program of Zhejiang Province","doi-asserted-by":"crossref","award":["No.2022C03126"],"award-info":[{"award-number":["No.2022C03126"]}],"id":[{"id":"10.13039\/100022963","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Ministry of Culture and Tourism","award":["No.2022DMKLB001"],"award-info":[{"award-number":["No.2022DMKLB001"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Appropriate background music in e-commerce advertisements can help stimulate consumption and build product image. However, many factors like emotion and product category should be taken into account, which makes manually selecting music time-consuming and require professional knowledge and it becomes crucial to automatically recommend music for video. For there is no e-commerce advertisements dataset, we first establish a large-scale e-commerce advertisements dataset Commercial-98K, which covers major e-commerce categories. Then, we proposed a video-music retrieval model YuYin to learn the correlation between video and music. We introduce a weighted fusion module (WFM) to fuse emotion features and audio features from music to get a more fine-grained music representation. Considering the similarity of music in the same product category, YuYin is trained by multi-task learning to explore the correlation between video and music by cross-matching video, music, and tag as well as a category prediction task. We conduct extensive experiments to prove YuYin achieves a remarkable improvement in video-music retrieval on Commercial-98K.<\/jats:p>","DOI":"10.1186\/s13636-023-00306-6","type":"journal-article","created":{"date-parts":[[2023,10,19]],"date-time":"2023-10-19T12:01:49Z","timestamp":1697716909000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["YuYin: a multi-task learning model of multi-modal e-commerce background music recommendation"],"prefix":"10.1186","volume":"2023","author":[{"given":"Le","family":"Ma","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinda","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ruiyuan","family":"Tang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chongjun","family":"Zhong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kejun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,10,19]]},"reference":[{"issue":"2","key":"306_CR1","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1002\/mar.4220070204","volume":"7","author":"JI Alpert","year":"1990","unstructured":"J.I. Alpert, M.I. Alpert, Music influences on mood and purchase intentions. Psychol. Mark. 7(2), 109\u2013133 (1990)","journal-title":"Psychol. Mark."},{"issue":"4","key":"306_CR2","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1177\/002224299005400408","volume":"54","author":"GC Bruner","year":"1990","unstructured":"G.C. Bruner, Music, mood, and marketing. J. Mark. 54(4), 94\u2013104 (1990)","journal-title":"J. Mark."},{"key":"306_CR3","unstructured":"J.I. Alpert, M.I. Alpert, Background music as an influence in consumer mood and advertising responses (ACR North American Advances, 1989)"},{"issue":"12","key":"306_CR4","doi-asserted-by":"publisher","first-page":"1441","DOI":"10.1093\/scan\/nsaa004","volume":"14","author":"NB Fernandez","year":"2019","unstructured":"N.B. Fernandez, W.J. Trost, P. Vuilleumier, Brain networks mediating the influence of background music on selective attention. Soc. Cogn. Affect. Neurosci. 14(12), 1441\u20131452 (2019)","journal-title":"Soc. Cogn. Affect. Neurosci."},{"issue":"5","key":"306_CR5","doi-asserted-by":"publisher","first-page":"e0251692","DOI":"10.1371\/journal.pone.0251692","volume":"16","author":"I Salakka","year":"2021","unstructured":"I. Salakka, A. Pitk\u00e4niemi, E. Pentik\u00e4inen, K. Mikkonen, P. Saari, P. Toiviainen, T. S\u00e4rk\u00e4m\u00f6, What makes music memorable? relationships between acoustic musical features and music-evoked emotions and memories in older adults. PLoS ONE 16(5), e0251692 (2021)","journal-title":"PLoS ONE"},{"key":"306_CR6","doi-asserted-by":"publisher","first-page":"408","DOI":"10.1016\/j.apacoust.2018.10.029","volume":"145","author":"F Yi","year":"2019","unstructured":"F. Yi, J. Kang, Effect of background and foreground music on satisfaction, behavior, and emotional responses in public spaces of shopping malls. Appl. Acoust. 145, 408\u2013419 (2019)","journal-title":"Appl. Acoust."},{"key":"306_CR7","unstructured":"K.\u00a0Wang, Q.\u00a0Yin, W.\u00a0Wang, S.\u00a0Wu, L.\u00a0Wang, A comprehensive survey on cross-modal retrieval. arXiv preprint arXiv:1607.06215 (2016)"},{"key":"306_CR8","doi-asserted-by":"crossref","unstructured":"A. Zheng, M. Hu, B. Jiang, Y. Huang, Y. Yan, B. Luo, Adversarial-metric learning for audio-visual cross-modal matching. IEEE Trans. Multimed. 24, 338\u2013351 (2021)","DOI":"10.1109\/TMM.2021.3050089"},{"key":"306_CR9","doi-asserted-by":"publisher","unstructured":"Y. Liu, J. Wu, L. Qu, T. Gan, J. Yin and L. Nie, \"Self-Supervised Correlation Learning for Cross-Modal Retrieval,\" in IEEE Transactions on Multimedia.\u00a025, 2851\u20132863\u00a0(2023) https:\/\/doi.org\/10.1109\/TMM.2022.3152086","DOI":"10.1109\/TMM.2022.3152086"},{"key":"306_CR10","unstructured":"A.\u00a0Ramesh, M.\u00a0Pavlov, G.\u00a0Goh, S.\u00a0Gray, C.\u00a0Voss, A.\u00a0Radford, M.\u00a0Chen, I.\u00a0Sutskever, in International Conference on Machine Learning (PMLR, 2021), pp. 8821\u20138831"},{"key":"306_CR11","doi-asserted-by":"publisher","first-page":"1221","DOI":"10.1109\/TMM.2022.3142420","volume":"24","author":"G Wang","year":"2022","unstructured":"G. Wang, X. Xu, F. Shen, H. Lu, Y. Ji, H.T. Shen, Cross-modal dynamic networks for video moment retrieval with text query. IEEE Trans. Multimed. 24, 1221\u20131232 (2022)","journal-title":"IEEE Trans. Multimed."},{"key":"306_CR12","doi-asserted-by":"publisher","unstructured":"X. Song, J. Chen, Z. Wu and Y. -G. Jiang, \"Spatial-Temporal Graphs for Cross-Modal Text2Video Retrieval,\" in IEEE Transactions on Multimedia. 24, 2914\u20132923 (2022) https:\/\/doi.org\/10.1109\/TMM.2021.3090595","DOI":"10.1109\/TMM.2021.3090595"},{"key":"306_CR13","unstructured":"A.\u00a0Radford, J.W. Kim, C.\u00a0Hallacy, A.\u00a0Ramesh, G.\u00a0Goh, S.\u00a0Agarwal, G.\u00a0Sastry, A.\u00a0Askell, P.\u00a0Mishkin, J.\u00a0Clark, et\u00a0al., in International Conference on Machine Learning (PMLR, 2021), pp. 8748\u20138763"},{"key":"306_CR14","doi-asserted-by":"crossref","unstructured":"Owens, A., & Efros, A. A. Audio-visual scene analysis with self-supervised multisensory features. In Proceedings of the European conference on computer vision (ECCV) (2018), pp. 631\u2013648","DOI":"10.1007\/978-3-030-01231-1_39"},{"key":"306_CR15","doi-asserted-by":"crossref","unstructured":"Chen, L., Srivastava, S., Duan, Z., & Xu, C. Deep cross-modal audio-visual generation. In Proceedings of the on Thematic Workshops of ACM Multimedia 2017,\u00a0(2017), pp. 349\u2013357.","DOI":"10.1145\/3126686.3126723"},{"key":"306_CR16","doi-asserted-by":"crossref","unstructured":"Nagrani, A., Albanie, S., & Zisserman, A. Seeing voices and hearing faces: Cross-modal biometric matching. In Proceedings of the IEEE conference on computer vision and pattern recognition. (2018) pp. 8427\u20138436.","DOI":"10.1109\/CVPR.2018.00879"},{"key":"306_CR17","doi-asserted-by":"crossref","unstructured":"R.\u00a0Wang, H.\u00a0Huang, X.\u00a0Zhang, J.\u00a0Ma, A.\u00a0Zheng, in 2019 IEEE International Conference on Multimedia & Expo Workshops (ICMEW) (IEEE, 2019), pp. 300\u2013305","DOI":"10.1109\/ICMEW.2019.00-70"},{"key":"306_CR18","doi-asserted-by":"crossref","unstructured":"Oh, T. H., Dekel, T., Kim, C., Mosseri, I., Freeman, W. T., Rubinstein, M., & Matusik, W. (2019). Speech2face: Learning the face behind a voice. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. (2019) pp. 7539\u20137548.","DOI":"10.1109\/CVPR.2019.00772"},{"key":"306_CR19","unstructured":"Chao, J., Wang, H., Zhou, W., Zhang, W., & Yu, Y. Tunesensor: A semantic-driven music recommendation service for digital photo albums. In Proceedings of the 10th International Semantic Web Conference. (2011). ISWC2011 (October 2011)."},{"issue":"10","key":"306_CR20","doi-asserted-by":"publisher","first-page":"13169","DOI":"10.1007\/s11042-018-5767-1","volume":"78","author":"Y Jia","year":"2019","unstructured":"Y. Jia, L. Bai, S. Liu, P. Wang, J. Guo, Y. Xie, Semantically-enhanced kernel canonical correlation analysis: a multi-label cross-modal retrieval. Multimedia Tools Appl. 78(10), 13169\u201313188 (2019)","journal-title":"Multimedia Tools Appl."},{"key":"306_CR21","doi-asserted-by":"crossref","unstructured":"Hong, S., Im, W., & Yang, H. S. Cbvmr: content-based video-music retrieval using soft intramodal structure constraint. In Proceedings of the 2018 ACM on international conference on multimedia retrieval. (2018) pp. 353\u2013361","DOI":"10.1145\/3206025.3206046"},{"key":"306_CR22","unstructured":"Li, B., & Kumar, A. Query by Video: Cross-modal Music Retrieval. In ISMIR (2019) pp. 604\u2013611"},{"key":"306_CR23","doi-asserted-by":"crossref","unstructured":"Sur\u00eds, D., Duarte, A., Salvador, A., Torres, J., & Gir\u00f3-i-Nieto, X. Cross-modal embeddings for video and audio retrieval. In Proceedings of the european conference on computer vision (eccv) workshops (2018) pp. 0-0","DOI":"10.1007\/978-3-030-11018-5_62"},{"key":"306_CR24","unstructured":"B.\u00a0Dai, The impact of online shopping experience on risk perceptions and online purchase intentions: the moderating role of product category and gender. Ph.D. thesis (2007)"},{"issue":"4","key":"306_CR25","doi-asserted-by":"publisher","first-page":"289","DOI":"10.1108\/09590551111117554","volume":"39","author":"R Jain","year":"2011","unstructured":"R. Jain, S. Bagdare, Music and consumption experience: a review. Int. J. Retail Distrib. Manag. 39(4), 289\u2013302 (2011)","journal-title":"Int. J. Retail Distrib. Manag."},{"issue":"4","key":"306_CR26","doi-asserted-by":"publisher","first-page":"465","DOI":"10.1177\/0305735606067158","volume":"34","author":"MF Zander","year":"2006","unstructured":"M.F. Zander, Musical influences in advertising: How music modifies first impressions of product endorsers and brands. Psychol. Music 34(4), 465\u2013480 (2006)","journal-title":"Psychol. Music"},{"issue":"1","key":"306_CR27","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/T-AFFC.2011.15","volume":"3","author":"S Koelstra","year":"2012","unstructured":"S. Koelstra, Deap: A database for emotion analysis; using physiological signals. IEEE Trans. Affect. Comput. 3(1), 18\u201331 (2012)","journal-title":"IEEE Trans. Affect. Comput."},{"key":"306_CR28","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision (2015) pp. 2425\u20132433","DOI":"10.1109\/ICCV.2015.279"},{"key":"306_CR29","doi-asserted-by":"crossref","unstructured":"Li, T., Sun, Z., Zhang, H., Li, J., Wu, Z., Zhan, H., ... & Shi, H. Deep music retrieval for finegrained videos by exploiting cross-modal-encoded voice-overs. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (2021) pp. 1880\u20131884","DOI":"10.1145\/3404835.3462993"},{"key":"306_CR30","doi-asserted-by":"crossref","unstructured":"C.L. Liu, Y.C. Chen, Background music recommendation based on latent factors and moods. Knowl.-Based Syst. 159, 158\u2013170 (2018)","DOI":"10.1016\/j.knosys.2018.07.001"},{"key":"306_CR31","doi-asserted-by":"crossref","unstructured":"Zhou, L., Xu, C., & Corso, J. Towards automatic learning of procedures from web instructional videos. In Proceedings of the AAAI Conference on Artificial Intelligence. 32(1), (2018)","DOI":"10.1609\/aaai.v32i1.12342"},{"key":"306_CR32","doi-asserted-by":"publisher","first-page":"64","DOI":"10.1016\/j.inffus.2022.10.002","volume":"91","author":"HTP Thao","year":"2023","unstructured":"H.T.P. Thao, G. Roig, D. Herremans, EmoMV: Affective music-video correspondence learning datasets for classification and retrieval. Inf. Fusion 91, 64\u201379 (2023). https:\/\/doi.org\/10.1016\/j.inffus.2022.10.002","journal-title":"Inf. Fusion"},{"key":"306_CR33","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., & Rui, Y. Msr-vtt: A large video description dataset for bridging video and language. In Proceedings of the IEEE conference on computer vision and pattern recognition (2016) pp. 5288\u20135296","DOI":"10.1109\/CVPR.2016.571"},{"key":"306_CR34","doi-asserted-by":"publisher","unstructured":"J. Yi, Y. Zhu, J. Xie and Z. Chen, \"Cross-Modal Variational Auto-Encoder for Content-Based Micro-Video Background Music Recommendation,\" in IEEE Transactions on Multimedia. 25, 515\u2013528 (2023). https:\/\/doi.org\/10.1109\/TMM.2021.3128254.","DOI":"10.1109\/TMM.2021.3128254"},{"key":"306_CR35","unstructured":"S.\u00a0Abu-El-Haija, N.\u00a0Kothari, J.\u00a0Lee, P.\u00a0Natsev, G.\u00a0Toderici, B.\u00a0Varadarajan, S.\u00a0Vijayanarasimhan, Youtube-8m: A large-scale video classification benchmark. arXiv preprint arXiv:1609.08675 (2016)"},{"key":"306_CR36","doi-asserted-by":"crossref","unstructured":"Plummer, B. A., Wang, L., Cervantes, C. M., Caicedo, J. C., Hockenmaier, J., & Lazebnik, S. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to sentence models. In Proceedings of the IEEE international conference on computer vision (2015) pp. 2641\u20132649","DOI":"10.1109\/ICCV.2015.303"},{"key":"306_CR37","doi-asserted-by":"crossref","unstructured":"Miech, A., Zhukov, D., Alayrac, J. B., Tapaswi, M., Laptev, I., & Sivic, J. Howto100m: Learning a textvideo embedding by watching hundred million narrated video clips. In Proceedings of the IEEE\/CVF international conference on computer vision (2019) pp. 2630\u20132640.","DOI":"10.1109\/ICCV.2019.00272"},{"issue":"12","key":"306_CR38","doi-asserted-by":"publisher","first-page":"2639","DOI":"10.1162\/0899766042321814","volume":"16","author":"DR Hardoon","year":"2004","unstructured":"D.R. Hardoon, S. Szedmak, J. Shawe-Taylor, Canonical correlation analysis: An overview with application to learning methods. Neural Comput. 16(12), 2639\u20132664 (2004)","journal-title":"Neural Comput."},{"issue":"4","key":"306_CR39","doi-asserted-by":"publisher","first-page":"614","DOI":"10.1016\/j.physa.2010.10.022","volume":"390","author":"GF Zebende","year":"2011","unstructured":"G.F. Zebende, Dcca cross-correlation coefficient: Quantifying level of cross-correlation. Phys. A Stat. Mech. Appl. 390(4), 614\u2013618 (2011)","journal-title":"Phys. A Stat. Mech. Appl."},{"key":"306_CR40","doi-asserted-by":"crossref","unstructured":"Wu, X., Qiao, Y., Wang, X., & Tang, X. Cross matching of music and image. In Proceedings of the 20th ACM international conference on Multimedia (2012) pp. 837\u2013840","DOI":"10.1145\/2393347.2396325"},{"issue":"3","key":"306_CR41","first-page":"1","volume":"15","author":"Z Wang","year":"2019","unstructured":"Z. Wang, Y. Li, R. Hong, X. Tian, Eigenvector-based distance metric learning for image classification and retrieval. ACM Trans. Multimed. Comput. Commun. Appl. (TOMM) 15(3), 1\u201319 (2019)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"},{"issue":"4","key":"306_CR42","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3356316","volume":"15","author":"L Shen","year":"2019","unstructured":"L. Shen, R. Hong, H. Zhang, X. Tian, M. Wang, Video retrieval with similarity-preserving deep temporal hashing. ACM Trans. Multimed. Comput. Commun. Appl. (TOMM) 15(4), 1\u201316 (2019)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"},{"issue":"1s","key":"306_CR43","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3473341","volume":"18","author":"L Zhang","year":"2022","unstructured":"L. Zhang, H. Guo, K. Zhu, H. Qiao, G. Huang, S. Zhang, H. Zhang, J. Sun, J. Wang, Hybrid modality metric learning for visible-infrared person re-identification. ACM Trans. Multimed. Comput. Commun. Appl. (TOMM) 18(1s), 1\u201315 (2022)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"},{"issue":"2","key":"306_CR44","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1080\/2150704X.2019.1647368","volume":"41","author":"R Cao","year":"2020","unstructured":"R. Cao, Q. Zhang, J. Zhu, Q. Li, Q. Li, B. Liu, G. Qiu, Enhancing remote sensing image retrieval using a triplet deep metric learning network. Int. J. Remote Sens. 41(2), 740\u2013751 (2020)","journal-title":"Int. J. Remote Sens."},{"issue":"10","key":"306_CR45","doi-asserted-by":"publisher","first-page":"6534","DOI":"10.1109\/TPAMI.2021.3088863","volume":"44","author":"J Wei","year":"2021","unstructured":"J. Wei, Y. Yang, X. Xu, X. Zhu, H.T. Shen, Universal weighting metric learning for cross-modal retrieval. IEEE Trans. Pattern. Anal. Mach. Intell. 44(10), 6534\u20136545 (2021)","journal-title":"IEEE Trans. Pattern. Anal. Mach. Intell."},{"issue":"2","key":"306_CR46","doi-asserted-by":"publisher","first-page":"805","DOI":"10.3390\/s23020805","volume":"23","author":"X Gu","year":"2023","unstructured":"X. Gu, Y. Shen, C. Lv, A dual-path cross-modal network for video-music retrieval. Sensors 23(2), 805 (2023)","journal-title":"Sensors"},{"key":"306_CR47","doi-asserted-by":"publisher","unstructured":"L.\u00a0Pretet, G.\u00a0Richard, C.\u00a0Souchier, G.\u00a0Peeters, Video-to-Music Recommendation using Temporal Alignment of Segments. IEEE Trans. Multimed. 1 (2022). https:\/\/doi.org\/10.1109\/TMM.2022.3152598","DOI":"10.1109\/TMM.2022.3152598"},{"key":"306_CR48","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. Inception-v4, inception-resnet and the impact of residual connections on learning. In Proceedings of the AAAI conference on artificial intelligence 31(1), (2017)","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"306_CR49","unstructured":"S.\u00a0Hershey, S.\u00a0Chaudhuri, D.P.W. Ellis, J.F. Gemmeke, A.\u00a0Jansen, C.\u00a0Moore, M.\u00a0Plakal, D.\u00a0Platt, R.A. Saurous, B.\u00a0Seybold, M.\u00a0Slaney, R.\u00a0Weiss, K.\u00a0Wilson, in International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2017). https:\/\/arxiv.org\/abs\/1609.09430"},{"key":"306_CR50","doi-asserted-by":"crossref","unstructured":"Eyben, F., W\u00f6llmer, M., & Schuller, B. Opensmile: the munich versatile and fast open-source audio feature extractor. In Proceedings of the 18th ACM international conference on Multimedia (2010) pp. 1459\u20131462","DOI":"10.1145\/1873951.1874246"},{"key":"306_CR51","unstructured":"Mignon, A., & Jurie, F. CMML: A new metric learning approach for cross modal matching. In Asian Conference on Computer Vision (2012) pp. 14-pages"},{"issue":"9","key":"306_CR52","doi-asserted-by":"publisher","first-page":"4299","DOI":"10.1109\/TIP.2019.2908774","volume":"28","author":"Y Wu","year":"2019","unstructured":"Y. Wu, S. Wang, G. Song, Q. Huang, Online asymmetric metric learning with multi-layer similarity aggregation for cross-modal retrieval. IEEE Trans. Image Process. 28(9), 4299\u20134312 (2019)","journal-title":"IEEE Trans. Image Process."},{"key":"306_CR53","unstructured":"M.\u00a0Gutmann, A.\u00a0Hyv\u00e4rinen, in Proceedings of the thirteenth international conference on artificial intelligence and statistics (JMLR Workshop and Conference Proceedings, 2010), pp. 297\u2013304"},{"key":"306_CR54","doi-asserted-by":"crossref","unstructured":"Ge, W. Deep metric learning with hierarchical triplet loss. In Proceedings of the European conference on computer vision (ECCV) (2018) pp. 269\u2013285","DOI":"10.1007\/978-3-030-01231-1_17"},{"key":"306_CR55","doi-asserted-by":"publisher","unstructured":"Y.\u00a0Zhou, Z.\u00a0Wang, C.\u00a0Fang, T.\u00a0Bui, T.L. Berg, in 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2018), pp. 3550\u20133558. https:\/\/doi.org\/10.1109\/CVPR.2018.00374","DOI":"10.1109\/CVPR.2018.00374"},{"key":"306_CR56","unstructured":"Pons, J., & Serra, X. musicnn: Pre-trained convolutional neural networks for music audio tagging. arXiv preprint arXiv:1909.06654\u00a0(2019)"},{"key":"306_CR57","doi-asserted-by":"crossref","unstructured":"Y.Y. Yang, M.\u00a0Hira, Z.\u00a0Ni, A.\u00a0Astafurov, C.\u00a0Chen, C.\u00a0Puhrsch, D.\u00a0Pollack, D.\u00a0Genzel, D.\u00a0Greenberg, E.Z. Yang, et\u00a0al., in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2022), pp. 6982\u20136986","DOI":"10.1109\/ICASSP43922.2022.9747236"},{"key":"306_CR58","doi-asserted-by":"crossref","unstructured":"Y.\u00a0Gong, Y.A. Chung, J.\u00a0Glass, Ast: Audio spectrogram transformer. arXiv preprint arXiv:2104.01778 (2021)","DOI":"10.21437\/Interspeech.2021-698"},{"key":"306_CR59","doi-asserted-by":"publisher","first-page":"3504","DOI":"10.1109\/TASLP.2021.3124365","volume":"29","author":"Y Cui","year":"2021","unstructured":"Y. Cui, W. Che, T. Liu, B. Qin, Z. Yang, Pre-training with whole word masking for Chinese Bert. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 3504\u20133514 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"306_CR60","first-page":"25","volume":"33","author":"JB Alayrac","year":"2020","unstructured":"J.B. Alayrac, A. Recasens, R. Schneider, R. Arandjelovi\u0107, J. Ramapuram, J. De Fauw, L. Smaira, S. Dieleman, A. Zisserman, Self-supervised multimodal versatile networks. Adv. Neural Inf. Process. Syst. 33, 25\u201337 (2020)","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"306_CR61","unstructured":"G.\u00a0Andrew, R.\u00a0Arora, J.\u00a0Bilmes, K.\u00a0Livescu, in International conference on machine learning (PMLR, 2013), pp. 1247\u20131255"}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-023-00306-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s13636-023-00306-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-023-00306-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,31]],"date-time":"2024-10-31T04:53:23Z","timestamp":1730350403000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-023-00306-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,19]]},"references-count":61,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2023,12]]}},"alternative-id":["306"],"URL":"https:\/\/doi.org\/10.1186\/s13636-023-00306-6","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2023,10,19]]},"assertion":[{"value":"15 June 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 September 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"19 October 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"44"}}