{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,12]],"date-time":"2026-06-12T06:12:47Z","timestamp":1781244767823,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":48,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100004731","name":"Natural Science Foundation of Zhejiang Province","doi-asserted-by":"publisher","award":["LZ25F020010"],"award-info":[{"award-number":["LZ25F020010"]}],"id":[{"id":"10.13039\/501100004731","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,11,10]]},"DOI":"10.1145\/3746252.3761579","type":"proceedings-article","created":{"date-parts":[[2025,11,8]],"date-time":"2025-11-08T00:18:04Z","timestamp":1762561084000},"page":"6119-6127","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9170-1889","authenticated-orcid":false,"given":"Shijia","family":"Wang","sequence":"first","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9868-0367","authenticated-orcid":false,"given":"Tianpei","family":"Ouyang","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China and Hangzhou Dianzi University, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3940-5449","authenticated-orcid":false,"given":"Qiang","family":"Xiao","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2152-0446","authenticated-orcid":false,"given":"Dongjing","family":"Wang","sequence":"additional","affiliation":[{"name":"Hangzhou Dianzi University, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-2090-0974","authenticated-orcid":false,"given":"Yintao","family":"Ren","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-9515-7226","authenticated-orcid":false,"given":"Songpei","family":"Xu","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-1263-5383","authenticated-orcid":false,"given":"Da","family":"Guo","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-7022-8023","authenticated-orcid":false,"given":"Chuanjiang","family":"Luo","sequence":"additional","affiliation":[{"name":"NetEase Cloud Music, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2025,11,10]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.124"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548399"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/3640457.3688098"},{"key":"e_1_3_2_1_4_1","unstructured":"Jiaxin Deng Shiyao Wang Kuo Cai Lejian Ren Qigen Hu Weifeng Ding Qiang Luo and Guorui Zhou. 2025. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv:2502.18965 [cs.IR] https:\/\/arxiv.org\/abs\/2502.18965"},{"key":"e_1_3_2_1_5_1","unstructured":"Sohrab Ferdowsi Slava Voloshynovskiy and Dimche Kostadinov. 2017. Regularized Residual Quantization: a multi-layer sparse dictionary learning approach. arXiv:1705.00522 [cs.LG] https:\/\/arxiv.org\/abs\/1705.00522"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1093\/jmt\/thw005"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01457"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1148\/radiology.143.1.7063747"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.5555\/3015812.3015834"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583434"},{"key":"e_1_3_2_1_11_1","unstructured":"Yupeng Hou Jiacheng Li Zhankui He An Yan Xiusi Chen and Julian McAuley. 2024. Bridging Language and Items for Retrieval and Recommendation. arXiv:2403.03952 [cs.IR] https:\/\/arxiv.org\/abs\/2403.03952"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3614775"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2010.57"},{"key":"e_1_3_2_1_14_1","volume-title":"Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980","author":"Kingma Diederik P","year":"2014","unstructured":"Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-industry.50"},{"key":"e_1_3_2_1_16_1","volume-title":"Subword regularization: Improving neural network translation models with multiple subword candidates. arXiv preprint arXiv:1804.10959","author":"Kudo Taku","year":"2018","unstructured":"Taku Kudo. 2018. Subword regularization: Improving neural network translation models with multiple subword candidates. arXiv preprint arXiv:1804.10959 (2018)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01123"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i11.33311"},{"key":"e_1_3_2_1_19_1","volume-title":"Proceedings of the 35th International Conference on Neural Information Processing Systems (NIPS '21)","author":"Li Junnan","unstructured":"Junnan Li, Ramprasaath R. Selvaraju, Akhilesh D. Gotmare, Shafiq Joty, Caiming Xiong, and Steven C.H. Hoi. 2021b. Align before fuse: vision and language representation learning with momentum distillation. In Proceedings of the 35th International Conference on Neural Information Processing Systems (NIPS '21). Curran Associates Inc., Red Hook, NY, USA, Article 742, 12 pages."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i10.17036"},{"key":"e_1_3_2_1_21_1","volume-title":"Mert: Acoustic music understanding model with large-scale self-supervised training. arXiv preprint arXiv:2306.00107","author":"Li Yizhi","year":"2023","unstructured":"Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, et al., 2023. Mert: Acoustic music understanding model with large-scale self-supervised training. arXiv preprint arXiv:2306.00107 (2023)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.282"},{"key":"e_1_3_2_1_23_1","volume-title":"VILA: On Pre-training for Visual Language Models. arXiv:2312.07533 [cs.CV]","author":"Lin Ji","year":"2023","unstructured":"Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, and Song Han. 2023. VILA: On Pre-training for Visual Language Models. arXiv:2312.07533 [cs.CV]"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/MIC.2003.1167344"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/3627673.3679626"},{"key":"e_1_3_2_1_26_1","volume-title":"QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou. arXiv:2411.11739 [cs.IR] https:\/\/arxiv.org\/abs\/2411.11739","author":"Luo Xinchen","year":"2024","unstructured":"Xinchen Luo, Jiangxia Cao, Tianyu Sun, Jinkai Yu, Rui Huang, Wei Yuan, Hezheng Lin, Yichen Zheng, Shiyao Wang, Qigen Hu, Changqing Qiu, Jiaqi Zhang, Xu Zhang, Zhiheng Yan, Jingming Zhang, Simin Zhang, Mingxing Wen, Zhaojie Liu, Kun Gai, and Guorui Zhou. 2024. QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou. arXiv:2411.11739 [cs.IR] https:\/\/arxiv.org\/abs\/2411.11739"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","unstructured":"Yiqing Ma David Baker Katherine Vukovics Connor Davis and Emily Elliott. 2021. Generalizing the Effect of Lyrics on Emotion Rating. doi:10.31234\/osf.io\/5ku43","DOI":"10.31234\/osf.io\/5ku43"},{"key":"e_1_3_2_1_28_1","unstructured":"Vladimir Malinovskii Andrei Panferov Ivan Ilin Han Guo Peter Richt\u00e1rik and Dan Alistarh. 2024. Pushing the Limits of Large Language Model Quantization via the Linearity Theorem. arXiv:2411.17525 [cs.LG] https:\/\/arxiv.org\/abs\/2411.17525"},{"key":"e_1_3_2_1_29_1","volume-title":"Little","author":"Martinez Julieta","year":"2014","unstructured":"Julieta Martinez, Holger H. Hoos, and James J. Little. 2014. Stacked Quantizers for Compositional Vector Compression. arXiv:1411.2173 [cs.CV] https:\/\/arxiv.org\/abs\/1411.2173"},{"key":"e_1_3_2_1_30_1","unstructured":"Maxim Naumov Dheevatsa Mudigere Hao-Jun Michael Shi Jianyu Huang Narayanan Sundaraman Jongsoo Park Xiaodong Wang Udit Gupta Carole-Jean Wu Alisson G. Azzolini Dmytro Dzhulgakov Andrey Mallevich Ilia Cherniavskii Yinghai Lu Raghuraman Krishnamoorthi Ansha Yu Volodymyr Kondratenko Stephanie Pereira Xianjie Chen Wenlin Chen Vijay Rao Bill Jia Liang Xiong and Misha Smelyanskiy. 2019. Deep Learning Recommendation Model for Personalization and Recommendation Systems. arXiv:1906.00091 [cs.IR] https:\/\/arxiv.org\/abs\/1906.00091"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2017.01.005"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.5555\/3666122.3666574"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2021.3073040"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/IWSSIP48289.2020.9145170"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1145\/3627673.3680068"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/3640457.3688190"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.5555\/3295222.3295378"},{"key":"e_1_3_2_1_38_1","unstructured":"Jiaqi Wang Hanqi Jiang Yiheng Liu Chong Ma Xu Zhang Yi Pan Mengyuan Liu Peiran Gu Sichen Xia Wenjun Li Yutong Zhang Zihao Wu Zhengliang Liu Tianyang Zhong Bao Ge Tuo Zhang Ning Qiang Xintao Hu Xi Jiang Xin Zhang Wei Zhang Dinggang Shen Tianming Liu and Shu Zhang. 2024a. A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks. arXiv:2408.01319 [cs.AI] https:\/\/arxiv.org\/abs\/2408.01319"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/3711896.3737212"},{"key":"e_1_3_2_1_40_1","volume-title":"Database Systems for Advanced Applications, Makoto Onizuka, Jae-Gil Lee, Yongxin Tong, Chuan Xiao, Yoshiharu Ishikawa, Sihem Amer-Yahia","author":"Wang Shijia","unstructured":"Shijia Wang, Yi Zheng, Qiang Xiao, Yilong Zhao, Qimeng Yang, and Chuanjiang Luo. 2024b. Sparsity-Aware Personalized Pattern Extractor Network for\u00a0Music Multi-task Learning. In Database Systems for Advanced Applications, Makoto Onizuka, Jae-Gil Lee, Yongxin Tong, Chuan Xiao, Yoshiharu Ishikawa, Sihem Amer-Yahia, H. V. Jagadish, and Kejing Lu (Eds.). Springer Nature Singapore, Singapore, 352-363."},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351034"},{"key":"e_1_3_2_1_42_1","unstructured":"Songpei Xu Shijia Wang Da Guo Xianwen Guo Qiang Xiao Fangjian Li and Chuanjiang Luo. 2025. An Efficient Large Recommendation Model: Towards a Resource-Optimal Scaling Law. arXiv:2502.09888 [cs.IR] https:\/\/arxiv.org\/abs\/2502.09888"},{"key":"e_1_3_2_1_43_1","unstructured":"Aiyuan Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian Chao Yin Chenxu Lv Da Pan Dian Wang Dong Yan Fan Yang Fei Deng Feng Wang Feng Liu Guangwei Ai Guosheng Dong Haizhou Zhao Hang Xu Haoze Sun Hongda Zhang Hui Liu Jiaming Ji Jian Xie JunTao Dai Kun Fang Lei Su Liang Song Lifeng Liu Liyun Ru Luyao Ma Mang Wang Mickel Liu MingAn Lin Nuolan Nie Peidong Guo Ruiyang Sun Tao Zhang Tianpeng Li Tianyu Li Wei Cheng Weipeng Chen Xiangrong Zeng Xiaochuan Wang Xiaoxi Chen Xin Men Xin Yu Xuehai Pan Yanjun Shen Yiding Wang Yiyu Li Youxin Jiang Yuchen Gao Yupeng Zhang Zenan Zhou and Zhiying Wu. 2023. Baichuan 2: Open Large-scale Language Models. arXiv:2309.10305 [cs.CL] https:\/\/arxiv.org\/abs\/2309.10305"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM59182.2024.00113"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547868"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"Carolina Zheng Minhui Huang Dmitrii Pedchenko Kaushik Rangadurai Siyu Wang Gaby Nahum Jie Lei Yang Yang Tao Liu Zutian Luo et al. 2025. Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID. arXiv preprint arXiv:2504.02137 (2025).","DOI":"10.1145\/3705328.3748123"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1145\/3219819.3219823"},{"key":"e_1_3_2_1_48_1","volume-title":"MDE: Modality Discrimination Enhancement for Multi-modal Recommendation. arXiv:2502.18481 [cs.IR] https:\/\/arxiv.org\/abs\/2502.18481","author":"Zhou Hang","year":"2025","unstructured":"Hang Zhou, Yucheng Wang, and Huijing Zhan. 2025. MDE: Modality Discrimination Enhancement for Multi-modal Recommendation. arXiv:2502.18481 [cs.IR] https:\/\/arxiv.org\/abs\/2502.18481"}],"event":{"name":"CIKM '25: The 34th ACM International Conference on Information and Knowledge Management","location":"Seoul Republic of Korea","acronym":"CIKM '25","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval","SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the 34th ACM International Conference on Information and Knowledge Management"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746252.3761579","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:38:41Z","timestamp":1765503521000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746252.3761579"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,10]]},"references-count":48,"alternative-id":["10.1145\/3746252.3761579","10.1145\/3746252"],"URL":"https:\/\/doi.org\/10.1145\/3746252.3761579","relation":{},"subject":[],"published":{"date-parts":[[2025,11,10]]},"assertion":[{"value":"2025-11-10","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}