{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,20]],"date-time":"2026-05-20T00:59:39Z","timestamp":1779238779859,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":64,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62141608, 62236010, 62372454, 62206291"],"award-info":[{"award-number":["62141608, 62236010, 62372454, 62206291"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680626","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:27Z","timestamp":1729925967000},"page":"7551-7560","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":15,"title":["Modality-Balanced Learning for Multimedia Recommendation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3671-3005","authenticated-orcid":false,"given":"Jinghao","family":"Zhang","sequence":"first","affiliation":[{"name":"NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences &amp; University of Chinese Academy of Sciences, School of Artificial Intelligence, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-5398-1810","authenticated-orcid":false,"given":"Guofan","family":"Liu","sequence":"additional","affiliation":[{"name":"NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences &amp; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9233-3827","authenticated-orcid":false,"given":"Qiang","family":"Liu","sequence":"additional","affiliation":[{"name":"NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences &amp; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2164-3577","authenticated-orcid":false,"given":"Shu","family":"Wu","sequence":"additional","affiliation":[{"name":"NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences &amp; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5224-8647","authenticated-orcid":false,"given":"Liang","family":"Wang","sequence":"additional","affiliation":[{"name":"NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences &amp; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548399"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Jingyuan Chen Hanwang Zhang Xiangnan He Liqiang Nie Wei Liu and Tat-Seng Chua. 2017. Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Attention. In SIGIR. 335--344.","DOI":"10.1145\/3077136.3080797"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Xu Chen Hanxiong Chen Hongteng Xu Yongfeng Zhang Yixin Cao Zheng Qin and Hongyuan Zha. 2019. Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network: Towards Visually Explainable Recommendation. In SIGIR. 765--774.","DOI":"10.1145\/3331184.3331254"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Xu Chen Hanxiong Chen Hongteng Xu Yongfeng Zhang Yixin Cao Zheng Qin and Hongyuan Zha. 2019. Personalized fashion recommendation with visual explanations based on multimodal attention network: Towards visually explainable recommendation. In SIGIR. 765--774.","DOI":"10.1145\/3331184.3331254"},{"key":"e_1_3_2_1_5_1","volume-title":"Recommender systems leveraging multimedia content. ACM Computing Surveys (CSUR)","author":"Deldjoo Yashar","year":"2020","unstructured":"Yashar Deldjoo, Markus Schedl, Paolo Cremonesi, and Gabriella Pasi. 2020. Recommender systems leveraging multimedia content. ACM Computing Surveys (CSUR) (2020)."},{"key":"e_1_3_2_1_6_1","volume-title":"Recommender systems handbook","author":"Deldjoo Yashar","unstructured":"Yashar Deldjoo, Markus Schedl, Bal\u00e1zs Hidasi, Yinwei Wei, and Xiangnan He. 2021. Multimedia recommender systems: Algorithms and challenges. In Recommender systems handbook. Springer, 973--1014."},{"key":"e_1_3_2_1_7_1","volume-title":"Improving multi-modal learning with uni-modal teachers. arXiv preprint arXiv:2106.11059","author":"Du Chenzhuang","year":"2021","unstructured":"Chenzhuang Du, Tingle Li, Yichen Liu, Zixin Wen, Tianyu Hua, Yue Wang, and Hang Zhao. 2021. Improving multi-modal learning with uni-modal teachers. arXiv preprint arXiv:2106.11059 (2021)."},{"key":"e_1_3_2_1_8_1","unstructured":"Xiaoyu Du Zike Wu Fuli Feng Xiangnan He and Jinhui Tang. 2022. Invariant Representation Learning for Multimedia Recommendation. In ACM Multimedia."},{"key":"e_1_3_2_1_9_1","volume-title":"VIP5: Towards Multimodal Foundation Models for Recommendation. arXiv preprint arXiv:2305.14302","author":"Geng Shijie","year":"2023","unstructured":"Shijie Geng, Juntao Tan, Shuchang Liu, Zuohui Fu, and Yongfeng Zhang. 2023. VIP5: Towards Multimodal Foundation Models for Recommendation. arXiv preprint arXiv:2305.14302 (2023)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Tengyue Han Pengfei Wang Shaozhang Niu and Chenliang Li. 2022. Modality Matches Modality: Pretraining Modality-Disentangled Item Representations for Recommendation. In WWW. 2058--2066.","DOI":"10.1145\/3485447.3512079"},{"key":"e_1_3_2_1_11_1","volume-title":"VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback. In AAAI. 144--150.","author":"He Ruining","year":"2016","unstructured":"Ruining He and Julian McAuley. 2016. VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback. In AAAI. 144--150."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"crossref","unstructured":"Xiangnan He Kuan Deng Xiang Wang Yan Li Yong-Dong Zhang and Meng Wang. 2020. LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. In SIGIR. 639--648.","DOI":"10.1145\/3397271.3401063"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"crossref","unstructured":"Xiangnan He Lizi Liao Hanwang Zhang Liqiang Nie Xia Hu and Tat-Seng Chua. 2017. Neural Collaborative Filtering. In WWW. 173--182.","DOI":"10.1145\/3038912.3052569"},{"key":"e_1_3_2_1_14_1","volume-title":"Adaptive Multi-Modalities Fusion in Sequential Recommendation Systems. arXiv preprint arXiv:2308.15980","author":"Hu Hengchang","year":"2023","unstructured":"Hengchang Hu, Wei Guo, Yong Liu, and Min-Yen Kan. 2023. Adaptive Multi-Modalities Fusion in Sequential Recommendation Systems. arXiv preprint arXiv:2308.15980 (2023)."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Wang-Cheng Kang Chen Fang Zhaowen Wang and Julian McAuley. 2017. Visually-Aware Fashion Recommendation and Design with Generative Image Models. In ICDM. 207--216.","DOI":"10.1109\/ICDM.2017.30"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1145\/3511808.3557387"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Xingchen Li Xiang Wang Xiangnan He Long Chen Jun Xiao and Tat-Seng Chua. 2020. Hierarchical fashion graph network for personalized outfit recommendation. In SIGIR. 159--168.","DOI":"10.1145\/3397271.3401080"},{"key":"e_1_3_2_1_18_1","unstructured":"Yongqi Li Meng Liu Jianhua Yin Chaoran Cui Xin-Shun Xu and Liqiang Nie. 2019. Routing micro-videos via a temporal graph-guided recommendation system. In ACM Multimedia. 1464--1472."},{"key":"e_1_3_2_1_19_1","volume-title":"Disentangled Multimodal Representation Learning for Recommendation. arXiv preprint arXiv:2203.05406","author":"Liu Fan","year":"2022","unstructured":"Fan Liu, Zhiyong Cheng, Huilin Chen, Anan Liu, Liqiang Nie, and Mohan Kankanhalli. 2022. Disentangled Multimodal Representation Learning for Recommendation. arXiv preprint arXiv:2203.05406 (2022)."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"Qiang Liu Shu Wu and Liang Wang. 2017. DeepStyle: Learning User Preferences for Visual Recommendation. In SIGIR. 841--844.","DOI":"10.1145\/3077136.3080658"},{"key":"e_1_3_2_1_21_1","volume-title":"Harnessing Large Language Models for Multimodal Product Bundling. arXiv preprint arXiv:2407.11712","author":"Liu Xiaohao","year":"2024","unstructured":"Xiaohao Liu, Jie Wu, Zhulin Tao, Yunshan Ma, Yinwei Wei, and Tat-seng Chua. 2024. Harnessing Large Language Models for Multimodal Product Bundling. arXiv preprint arXiv:2407.11712 (2024)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"Yiyu Liu Qian Liu Yu Tian Changping Wang Yanan Niu Yang Song and Chenliang Li. 2021. Concept-Aware Denoising Graph Neural Network for Micro-Video Recommendation. In CIKM. 1099--1108.","DOI":"10.1145\/3459637.3482417"},{"key":"e_1_3_2_1_23_1","volume-title":"Multi-trends Enhanced Dynamic Micro-video Recommendation. arXiv preprint arXiv:2110.03902","author":"Lu Yujie","year":"2021","unstructured":"Yujie Lu, Yingxuan Huang, Shengyu Zhang, Wei Han, Hui Chen, Zhou Zhao, and Fei Wu. 2021. Multi-trends Enhanced Dynamic Micro-video Recommendation. arXiv preprint arXiv:2110.03902 (2021)."},{"key":"e_1_3_2_1_24_1","volume-title":"WWW","author":"Lv Zheqi","year":"2024","unstructured":"Zheqi Lv, Wenqiao Zhang, Zhengyu Chen, Shengyu Zhang, and Kun Kuang. 2024. Intelligent model update strategy for sequential recommendation. In WWW 2024. 3117--3128."},{"key":"e_1_3_2_1_25_1","first-page":"3077","article-title":"DUET","volume":"2023","author":"Lv Zheqi","year":"2023","unstructured":"Zheqi Lv, Wenqiao Zhang, Shengyu Zhang, Kun Kuang, Feng Wang, Yongwei Wang, Zhengyu Chen, Tao Shen, Hongxia Yang, Beng Chin Ooi, et al. 2023. DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization. In WWW 2023. 3077--3085.","journal-title":"In WWW"},{"key":"e_1_3_2_1_26_1","volume-title":"CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling. arXiv preprint arXiv:2404.01735","author":"Ma Yunshan","year":"2024","unstructured":"Yunshan Ma, Yingzhi He, Wenjun Zhong, Xiang Wang, Roger Zimmermann, and Tat-Seng Chua. 2024. CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling. arXiv preprint arXiv:2404.01735 (2024)."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"crossref","unstructured":"Yunshan Ma Xiaohao Liu Yinwei Wei Zhulin Tao Xiang Wang and Tat-Seng Chua. 2024. Leveraging multimodal features and item-level user feedback for bundle construction. In WSDM. 510--519.","DOI":"10.1145\/3616855.3635854"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Julian McAuley Christopher Targett Qinfeng Shi and Anton van den Hengel. 2015. Image-Based Recommendations on Styles and Substitutes. In SIGIR. 43--52.","DOI":"10.1145\/2766462.2767755"},{"key":"e_1_3_2_1_29_1","volume-title":"Tommaso Di Noia, Daniele Malitesta, and Alberto Carlo Maria Mancino.","author":"Merra Felice Antonio","year":"2023","unstructured":"Felice Antonio Merra, Vito Walter Anelli, Tommaso Di Noia, Daniele Malitesta, and Alberto Carlo Maria Mancino. 2023. Denoise to Protect: A Method to Robustify Visual Recommenders from Adversaries. In SIGIR. 1924--1928."},{"key":"e_1_3_2_1_30_1","unstructured":"Zongshen Mu Yueting Zhuang Jie Tan Jun Xiao and Siliang Tang. 2022. Learning hybrid behavior patterns for multimedia recommendation. In ACM Multimedia. 376--384."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00806"},{"key":"e_1_3_2_1_32_1","volume-title":"Causalrec: Causal inference for visual debiasing in visually-aware recommendation. In ACM Multimedia.","author":"Qiu Ruihong","year":"2021","unstructured":"Ruihong Qiu, Sen Wang, Zhi Chen, Hongzhi Yin, and Zi Huang. 2021. Causalrec: Causal inference for visual debiasing in visually-aware recommendation. In ACM Multimedia."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"crossref","unstructured":"Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In EMNLP. 3980--3990.","DOI":"10.18653\/v1\/D19-1410"},{"key":"e_1_3_2_1_34_1","volume-title":"BPR: Bayesian Personalized Ranking from Implicit Feedback. In UAI. 452--461.","author":"Rendle Steffen","year":"2009","unstructured":"Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian Personalized Ranking from Implicit Feedback. In UAI. 452--461."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1037\/h0037350"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"Yu Shang Chen Gao Jiansheng Chen Depeng Jin Meng Wang and Yong Li. 2023. Learning fine-grained user interests for micro-video recommendation. In SIGIR. 433--442.","DOI":"10.1145\/3539618.3591713"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2021.3101421"},{"key":"e_1_3_2_1_38_1","volume-title":"Dualgnn: Dual graph neural network for multimedia recommendation","author":"Wang Qifan","year":"2021","unstructured":"Qifan Wang, Yinwei Wei, Jianhua Yin, Jianlong Wu, Xuemeng Song, and Liqiang Nie. 2021. Dualgnn: Dual graph neural network for multimedia recommendation. IEEE Transactions on Multimedia (2021)."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01271"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Xiang Wang Xiangnan He Meng Wang Fuli Feng and Tat-Seng Chua. 2019. Neural Graph Collaborative Filtering. In SIGIR. 165--174.","DOI":"10.1145\/3331184.3331267"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Wei Wei Chao Huang Lianghao Xia and Chuxu Zhang. 2023. Multi-Modal Self-Supervised Learning for Recommendation. In WWW. 790--800.","DOI":"10.1145\/3543507.3583206"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Yinwei Wei Wenqi Liu Fan Liu Xiang Wang Liqiang Nie and Tat-Seng Chua. 2023. LightGT: A Light Graph Transformer for Multimedia Recommendation. In SIGIR. 1508--1517.","DOI":"10.1145\/3539618.3591716"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Yinwei Wei Xiang Wang Qi Li Liqiang Nie Yan Li Xuanping Li and Tat-Seng Chua. 2021. Contrastive Learning for Cold-Start Recommendation. In ACM Multimedia.","DOI":"10.1145\/3474085.3475665"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"crossref","unstructured":"Yinwei Wei Xiang Wang Liqiang Nie Xiangnan He and Tat-Seng Chua. 2020. Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback. In ACM Multimedia. 3451--3459.","DOI":"10.1145\/3394171.3413556"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351034"},{"key":"e_1_3_2_1_46_1","unstructured":"Haokun Wen Xuemeng Song Xin Yang Yibing Zhan and Liqiang Nie. 2021. Comprehensive linguistic-visual composition network for image retrieval. In SIGIR. 1369--1378."},{"key":"e_1_3_2_1_47_1","first-page":"4425","article-title":"A survey on accuracy-oriented neural recommendation: From collaborative filtering to information-rich recommendation","volume":"35","author":"Wu Le","year":"2022","unstructured":"Le Wu, Xiangnan He, Xiang Wang, Kun Zhang, and Meng Wang. 2022. A survey on accuracy-oriented neural recommendation: From collaborative filtering to information-rich recommendation. IEEE Transactions on Knowledge and Data Engineering, Vol. 35, 5 (2022), 4425--4445.","journal-title":"IEEE Transactions on Knowledge and Data Engineering"},{"key":"e_1_3_2_1_48_1","volume-title":"Characterizing and Overcoming the Greedy Nature of Learning in Multi-Modal Deep Neural Networks. In ICML","author":"Wu Nan","year":"2022","unstructured":"Nan Wu, Stanis\u0142aw Jastrzkebski, Kyunghyun Cho, and Krzysztof J. Geras. [n.d.]. Characterizing and Overcoming the Greedy Nature of Learning in Multi-Modal Deep Neural Networks. In ICML 2022."},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Lianghao Xia Chao Huang Jiao Shi and Yong Xu. 2023. Graph-less Collaborative Filtering. In WWW. 17--27.","DOI":"10.1145\/3543507.3583196"},{"key":"e_1_3_2_1_50_1","unstructured":"Zixuan Yi Xi Wang Iadh Ounis and Craig Macdonald. 2022. Multi-modal graph contrastive learning for micro-video recommendation. In SIGIR. 1807--1811."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3613915"},{"key":"e_1_3_2_1_52_1","first-page":"443","article-title":"Mining Stable Preferences","volume":"2023","author":"Zhang Jinghao","year":"2023","unstructured":"Jinghao Zhang, Qiang Liu, Shu Wu, and Liang Wang. 2023. Mining Stable Preferences: Adaptive Modality Decorrelation for Multimedia Recommendation. In SIGIR 2023. 443--452.","journal-title":"Adaptive Modality Decorrelation for Multimedia Recommendation. In SIGIR"},{"key":"e_1_3_2_1_53_1","volume-title":"Stealthy attack on large language model based recommendation. arXiv preprint arXiv:2402.14836","author":"Zhang Jinghao","year":"2024","unstructured":"Jinghao Zhang, Yuting Liu, Qiang Liu, Shu Wu, Guibing Guo, and Liang Wang. 2024. Stealthy attack on large language model based recommendation. arXiv preprint arXiv:2402.14836 (2024)."},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"crossref","unstructured":"Jinghao Zhang Yanqiao Zhu Qiang Liu Shu Wu Shuhui Wang and Liang Wang. 2021. Mining Latent Structures for Multimedia Recommendation. In ACM Multimedia. 3872--3880.","DOI":"10.1145\/3474085.3475259"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2022.3221949"},{"key":"e_1_3_2_1_56_1","volume-title":"CCL4Rec: Contrast over Contrastive Learning for Micro-video Recommendation. arXiv preprint arXiv:2208.08024","author":"Zhang Shengyu","year":"2022","unstructured":"Shengyu Zhang, Bofang Li, Dong Yao, Fuli Feng, Jieming Zhu, Wenyan Fan, Zhou Zhao, Xiaofei He, Tat-seng Chua, and Fei Wu. 2022. CCL4Rec: Contrast over Contrastive Learning for Micro-video Recommendation. arXiv preprint arXiv:2208.08024 (2022)."},{"key":"e_1_3_2_1_57_1","volume-title":"Beyond Co-occurrence: Multi-modal Session-based Recommendation","author":"Zhang Xiaokun","year":"2023","unstructured":"Xiaokun Zhang, Bo Xu, Fenglong Ma, Chenliang Li, Liang Yang, and Hongfei Lin. 2023. Beyond Co-occurrence: Multi-modal Session-based Recommendation. IEEE Transactions on Knowledge and Data Engineering (2023)."},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Yan Zhang Hongzhi Yin Zi Huang Xingzhong Du Guowu Yang and Defu Lian. 2018. Discrete deep learning for fast content-aware recommendation. In WSDM. 717--726.","DOI":"10.1145\/3159652.3159688"},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"crossref","unstructured":"Xiaolin Zheng Jiajie Su Weiming Liu and Chaochao Chen. 2022. DDGHM: dual dynamic graph with hybrid metric training for cross-domain sequential recommendation. In ACM Multimedia. 471--481.","DOI":"10.1145\/3503161.3548072"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"crossref","unstructured":"Yu Zheng Chen Gao Jingtao Ding Lingling Yi Depeng Jin Yong Li and Meng Wang. 2022. Dvr: micro-video recommendation optimizing watch-time-gain under duration bias. In ACM Multimedia. 334--345.","DOI":"10.1145\/3503161.3548428"},{"key":"e_1_3_2_1_61_1","volume-title":"MMRec: Simplifying Multimodal Recommendation. arXiv preprint arXiv:2302.03497","author":"Zhou Xin","year":"2023","unstructured":"Xin Zhou. 2023. MMRec: Simplifying Multimodal Recommendation. arXiv preprint arXiv:2302.03497 (2023)."},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"crossref","unstructured":"Xin Zhou and Zhiqi Shen. 2023. A tale of two graphs: Freezing and denoising graph structures for multimodal recommendation. In ACM Multimedia. 935--943.","DOI":"10.1145\/3581783.3611943"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"crossref","unstructured":"Xin Zhou Hongyu Zhou Yong Liu Zhiwei Zeng Chunyan Miao Pengwei Wang Yuan You and Feijun Jiang. 2023. Bootstrap latent representations for multi-modal recommendation. In WWW. 845--854.","DOI":"10.1145\/3543507.3583251"},{"key":"e_1_3_2_1_64_1","volume-title":"Attention-guided Multi-step Fusion: A Hierarchical Fusion Network for Multimodal Recommendation. arXiv preprint arXiv:2304.11979","author":"Zhou Yan","year":"2023","unstructured":"Yan Zhou, Jie Guo, Hao Sun, Bin Song, and Fei Richard Yu. 2023. Attention-guided Multi-step Fusion: A Hierarchical Fusion Network for Multimodal Recommendation. arXiv preprint arXiv:2304.11979 (2023)."}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","location":"Melbourne VIC Australia","acronym":"MM '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680626","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680626","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:57Z","timestamp":1750295877000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680626"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":64,"alternative-id":["10.1145\/3664647.3680626","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680626","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}