{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,19]],"date-time":"2026-07-19T01:55:55Z","timestamp":1784426155672,"version":"3.55.0"},"publisher-location":"New York, NY, USA","reference-count":165,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,8,24]],"date-time":"2024-08-24T00:00:00Z","timestamp":1724457600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,8,25]]},"DOI":"10.1145\/3637528.3671473","type":"proceedings-article","created":{"date-parts":[[2024,8,25]],"date-time":"2024-08-25T04:54:55Z","timestamp":1724561695000},"page":"6566-6576","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":56,"title":["Multimodal Pretraining, Adaptation, and Generation for Recommendation: A Survey"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6087-383X","authenticated-orcid":false,"given":"Qijiong","family":"Liu","sequence":"first","affiliation":[{"name":"The HK PolyU, Hong Kong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5666-8320","authenticated-orcid":false,"given":"Jieming","family":"Zhu","sequence":"additional","affiliation":[{"name":"Huawei Noah's Ark Lab, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1969-0747","authenticated-orcid":false,"given":"Yanting","family":"Yang","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7578-2738","authenticated-orcid":false,"given":"Quanyu","family":"Dai","sequence":"additional","affiliation":[{"name":"Huawei Noah's Ark Lab, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1811-129X","authenticated-orcid":false,"given":"Zhaocheng","family":"Du","sequence":"additional","affiliation":[{"name":"Huawei Noah Ark Lab, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3130-0554","authenticated-orcid":false,"given":"Xiao-Ming","family":"Wu","sequence":"additional","affiliation":[{"name":"The HK PolyU, Hong Kong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6121-0384","authenticated-orcid":false,"given":"Zhou","family":"Zhao","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8132-6250","authenticated-orcid":false,"given":"Rui","family":"Zhang","sequence":"additional","affiliation":[{"name":"Huazhong University of Science and Technology &amp; ruizhang.info, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2231-4663","authenticated-orcid":false,"given":"Zhenhua","family":"Dong","sequence":"additional","affiliation":[{"name":"Huawei Noah's Ark Lab, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2024,8,24]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"et al","author":"Alayrac Jean-Baptiste","year":"2022","unstructured":"Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al . 2022. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems (NeurIPS) (2022), 23716--23736."},{"key":"e_1_3_2_1_2_1","volume-title":"Put Your Voice on Stage: Personalized Headline Generation for News Articles. TKDD 18, 3","author":"Ao Xiang","year":"2023","unstructured":"Xiang Ao, Ling Luo, Xiting Wang, Zhao Yang, Jiun-Hung Chen, Ying Qiao, Qing He, and Xing Xie. 2023. Put Your Voice on Stage: Personalized Headline Generation for News Articles. TKDD 18, 3 (2023)."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.7"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539170"},{"key":"e_1_3_2_1_5_1","volume-title":"CoRR abs\/2003.05991","author":"Bank Dor","year":"2020","unstructured":"Dor Bank, Noam Koenigstein, and Raja Giryes. 2020. Autoencoders. CoRR abs\/2003.05991 (2020)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3614978"},{"key":"e_1_3_2_1_7_1","volume-title":"Advances in Neural Information Processing Systems (NeurIPS) (2020)","author":"Brown Tom","year":"2020","unstructured":"Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. Advances in Neural Information Processing Systems (NeurIPS) (2020), 1877--1901."},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.183"},{"key":"e_1_3_2_1_9_1","volume-title":"Automated Creative Optimization for E-Commerce Advertising. In The ACM Web Conference (WWW). 2304--2313","author":"Chen Jin","year":"2021","unstructured":"Jin Chen, Ju Xu, Gangwei Jiang, Tiezheng Ge, Zhiqiang Zhang, Defu Lian, and Kai Zheng. 2021. Automated Creative Optimization for E-Commerce Advertising. In The ACM Web Conference (WWW). 2304--2313."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414458"},{"key":"e_1_3_2_1_11_1","volume-title":"Proceedings of the 37th International Conference on Machine Learning (ICML). 1597--1607","author":"Chen Ting","unstructured":"Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. 2020. A Simple Framework for Contrastive Learning of Visual Representations. In Proceedings of the 37th International Conference on Machine Learning (ICML). 1597--1607."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531854"},{"key":"e_1_3_2_1_13_1","volume-title":"A Review of Modern Fashion Recommender Systems. ACM Comput. Surv. 56, 4","author":"Deldjoo Yashar","year":"2024","unstructured":"Yashar Deldjoo, Fatemeh Nazary, Arnau Ramisa, Julian J. McAuley, Giovanni Pellegrini, Alejandro Bellog\u00edn, and Tommaso Di Noia. 2024. A Review of Modern Fashion Recommender Systems. ACM Comput. Surv. 56, 4 (2024), 87:1--87:37."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3407190"},{"key":"e_1_3_2_1_15_1","volume-title":"State of the Art, and Challenges. CoRR abs\/2107.11803","author":"Deldjoo Yashar","year":"2021","unstructured":"Yashar Deldjoo, Markus Schedl, and Peter Knees. 2021. Content-driven Mu- sic Recommendation: Evolution, State of the Art, and Challenges. CoRR abs\/2107.11803 (2021)."},{"key":"e_1_3_2_1_16_1","volume-title":"End-to-end training of Multimodal Model and ranking Model. CoRR abs\/2404.06078","author":"Deng Xiuqi","year":"2024","unstructured":"Xiuqi Deng, Lu Xu, Xiyao Li, Jinkai Yu, Erpeng Xue, Zhongyuan Wang, Di Zhang, Zhaojie Liu, Guorui Zhou, Yang Song, Na Mou, Shen Jiang, and Han Li. 2024. End-to-end training of Multimodal Model and ranking Model. CoRR abs\/2404.06078 (2024)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1145\/3507782"},{"key":"e_1_3_2_1_18_1","volume-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). 4171--4186","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). 4171--4186."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"crossref","unstructured":"Zijian Ding Alison Smith-Renner Wenjuan Zhang Joel R. Tetreault and Alejandro Jaimes. 2023. Harnessing the power of LLMs: Evaluating human-AI text co-creation through the lens of news headline generation. In Findings of EMNLP. 3321--3339.","DOI":"10.18653\/v1\/2023.findings-emnlp.217"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02057"},{"key":"e_1_3_2_1_21_1","volume-title":"9th International Conference on Learning Representations (ICLR).","author":"Dosovitskiy Alexey","year":"2021","unstructured":"Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In 9th International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413628"},{"key":"e_1_3_2_1_23_1","volume-title":"Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks. In Advances in Neural Information Processing Systems (NeurIPS).","author":"Duan Haoyi","year":"2023","unstructured":"Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu, and Zhou Zhao. 2023. Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks. In Advances in Neural Information Processing Systems (NeurIPS)."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095889"},{"key":"e_1_3_2_1_25_1","volume-title":"A Multi-Agent Conversational Recommender System. CoRR abs\/2402.01135","author":"Fang Jiabao","year":"2024","unstructured":"Jiabao Fang, Shen Gao, Pengjie Ren, Xiuying Chen, Suzan Verberne, and Zhaochun Ren. 2024. A Multi-Agent Conversational Recommender System. CoRR abs\/2402.01135 (2024)."},{"key":"e_1_3_2_1_26_1","volume-title":"A Large Language Model Enhanced Conversational Recommender System. CoRR abs\/2308.06212","author":"Feng Yue","year":"2023","unstructured":"Yue Feng, Shuchang Liu, Zhenghai Xue, Qingpeng Cai, Lantao Hu, Peng Jiang, Kun Gai, and Fei Sun. 2023. A Large Language Model Enhanced Conversational Recommender System. CoRR abs\/2308.06212 (2023)."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3616855.3635805"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.552"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Yifan Gao Jinpeng Lin Min Zhou Chuanbin Liu Hongtao Xie Tiezheng Ge and Yuning Jiang. 2023. TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster Design. In ACM MM. 7236--7246.","DOI":"10.1145\/3581783.3611929"},{"key":"e_1_3_2_1_30_1","volume-title":"Image Matters: Visually Modeling User Behaviors Using Advanced Model Server. In CIKM. 2087--2095.","author":"Ge Tiezheng","year":"2018","unstructured":"Tiezheng Ge, Liqin Zhao, Guorui Zhou, Keyu Chen, Shuying Liu, Huiming Yi, Zelin Hu, Bochao Liu, Peng Sun, Haoyu Liu, Pengtao Yi, Sui Huang, Zhiqiang Zhang, Xiaoqiang Zhu, Yu Zhang, and Kun Gai. 2018. Image Matters: Visually Modeling User Behaviors Using Advanced Model Server. In CIKM. 2087--2095."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/3523227.3546767"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.644"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01457"},{"key":"e_1_3_2_1_34_1","unstructured":"Litong Gong Yiran Zhu Weijie Li Xiaoyang Kang Biao Wang Tiezheng Ge and Bo Zheng. 2024. AtomoVideo: High Fidelity Image-to-Video Generation. (2024). arXiv:2403.01800"},{"key":"e_1_3_2_1_35_1","volume-title":"Generating Representative Headlines for News Stories. In The Web Conference 2020 (WWW). 1773--1784","author":"Gu Xiaotao","year":"2020","unstructured":"Xiaotao Gu, Yuning Mao, Jiawei Han, Jialu Liu, You Wu, Cong Yu, Daniel Finnie, Hongkun Yu, Jiaqi Zhai, and Nicholas Zukoski. 2020. Generating Representative Headlines for News Stories. In The Web Conference 2020 (WWW). 1773--1784."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539381"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"HsiaoYuan Hsu Xiangteng He Yuxin Peng Hao Kong and Qing Zhang. 2023. PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout. In CVPR. 6018--6026.","DOI":"10.1109\/CVPR52729.2023.00583"},{"key":"e_1_3_2_1_40_1","volume-title":"LoRA: Low-Rank Adaptation of Large Language Models. In The Tenth International Conference on Learning Representations, ICLR 2022","author":"Hu Edward J.","year":"2022","unstructured":"Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. LoRA: Low-Rank Adaptation of Large Language Models. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25--29, 2022."},{"key":"e_1_3_2_1_41_1","volume-title":"Lightweight Modality Adaptation to Sequential Recommendation via Correlation Supervision. arXiv preprint arXiv:2401.07257","author":"Hu Hengchang","year":"2024","unstructured":"Hengchang Hu, Qijiong Liu, Chuang Li, and Min-Yen Kan. 2024. Lightweight Modality Adaptation to Sequential Recommendation via Correlation Supervision. arXiv preprint arXiv:2401.07257 (2024)."},{"key":"e_1_3_2_1_42_1","volume-title":"McAuley","author":"Huang Chengkai","year":"2024","unstructured":"Chengkai Huang, Tong Yu, Kaige Xie, Shuai Zhang, Lina Yao, and Julian J. McAuley. 2024. Foundation Models for Recommender Systems: A Survey and New Perspectives. CoRR abs\/2402.11143 (2024)."},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053240"},{"key":"e_1_3_2_1_44_1","volume-title":"Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (KDD). 3041--3049","author":"Huang Yanhua","year":"2021","unstructured":"Yanhua Huang, Weikun Wang, Lei Zhang, and Ruiwen Xu. 2021. Sliding spec- trum decomposition for diversified recommendation. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (KDD). 3041--3049."},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"crossref","unstructured":"Naoto Inoue Kotaro Kikuchi Edgar Simo-Serra Mayu Otani and Kota Yam- aguchi. 2023. LayoutDM: Discrete Diffusion Model for Controllable Layout Generation. In CVPR. 10167--10176.","DOI":"10.1109\/CVPR52729.2023.00980"},{"key":"e_1_3_2_1_46_1","volume-title":"Contrastive Quantization based Semantic Code for Generative Recommendation. CoRR abs\/2404.14774","author":"Jin Mengqun","year":"2024","unstructured":"Mengqun Jin, Zexuan Qiu, Jieming Zhu, Zhenhua Dong, and Xiu Li. 2024. Contrastive Quantization based Semantic Code for Generative Recommendation. CoRR abs\/2404.14774 (2024)."},{"key":"e_1_3_2_1_47_1","volume-title":"Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 11060--11069","author":"Jin Yang","year":"2023","unstructured":"Yang Jin, Yongzhi Li, Zehuan Yuan, and Yadong Mu. 2023. Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 11060--11069."},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM.2018.00035"},{"key":"e_1_3_2_1_49_1","volume-title":"MaPLe: Multi-modal Prompt Learning. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 19113--19122","author":"Khattak Muhammad Uzair","year":"2023","unstructured":"Muhammad Uzair Khattak, Hanoona Abdul Rasheed, Muhammad Maaz, Salman H. Khan, and Fahad Shahbaz Khan. 2023. MaPLe: Multi-modal Prompt Learning. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 19113--19122."},{"key":"e_1_3_2_1_50_1","volume-title":"Auto-Encoding Variational Bayes. In 2nd International Conference on Learning Representations (ICLR), Yoshua Bengio and Yann LeCun (Eds.).","author":"Diederik","unstructured":"Diederik P. Kingma and Max Welling. 2014. Auto-Encoding Variational Bayes. In 2nd International Conference on Learning Representations (ICLR), Yoshua Bengio and Yann LeCun (Eds.)."},{"key":"e_1_3_2_1_51_1","volume-title":"Proceedings of EACL. 437--450","author":"Krubinski Mateusz","year":"2024","unstructured":"Mateusz Krubinski and Pavel Pecina. 2024. Towards Unified Uni- and Multi-modal News Headline Generation. In Proceedings of EACL. 437--450."},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"e_1_3_2_1_53_1","volume-title":"TagGPT: Large Language Models are Zero-shot Multimodal Taggers. CoRR abs\/2304.03022","author":"Li Chen","year":"2023","unstructured":"Chen Li, Yixiao Ge, Jiayong Mao, Dian Li, and Ying Shan. 2023. TagGPT: Large Language Models are Zero-shot Multimodal Taggers. CoRR abs\/2304.03022 (2023)."},{"key":"e_1_3_2_1_54_1","volume-title":"International Conference on Machine Learning (ICML). 19730--19742","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Boot-strapping language-image pre-training with frozen image encoders and large language models. In International Conference on Machine Learning (ICML). 19730--19742."},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1145\/3580305.3599519"},{"key":"e_1_3_2_1_56_1","volume-title":"MINER: Multi-interest matching network for news recommendation. In Findings of the Association for Computational Linguistics (ACL). 343--352.","author":"Li Jian","year":"2022","unstructured":"Jian Li, Jieming Zhu, Qiwei Bi, Guohao Cai, Lifeng Shang, Zhenhua Dong, Xin Jiang, and Qun Liu. 2022. MINER: Multi-interest matching network for news recommendation. In Findings of the Association for Computational Linguistics (ACL). 343--352."},{"key":"e_1_3_2_1_57_1","volume-title":"Chao Wang, Jiwei Tan, Xiaoyi Zeng, Dan Ou, and Bo Zheng.","author":"Li Lei","year":"2020","unstructured":"Lei Li, Yongfeng Zhang, and Li Chen. 2023. Personalized Prompt Learning for Explainable Recommendation. arXiv:2202.07371 [58] Xiang Li, Chao Wang, Jiwei Tan, Xiaoyi Zeng, Dan Ou, and Bo Zheng. 2020. Adversarial Multimodal Representation Learning for Click-Through Rate Prediction. In WWW. 827--836."},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Xiang Li Chao Wang Jiwei Tan Xiaoyi Zeng Dan Ou and Bo Zheng. 2020. Adversarial Multimodal Representation Learning for Click-Through Rate Prediction. In WWW. 827--836.","DOI":"10.1145\/3366423.3380163"},{"key":"e_1_3_2_1_59_1","volume-title":"Malthouse","author":"Li Xinyi","year":"2023","unstructured":"Xinyi Li, Yongfeng Zhang, and Edward C. Malthouse. 2023. PBNR: Prompt-based News Recommender System. CoRR abs\/2304.07862 (2023)."},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.353"},{"key":"e_1_3_2_1_61_1","volume-title":"et al","author":"Li Yizhi","year":"2023","unstructured":"Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, et al . 2023. MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training. CoRR abs\/2306.00107 (2023)."},{"key":"e_1_3_2_1_62_1","volume-title":"Video-LLaVA: Learning United Visual Representation by Alignment Before Projection. CoRR abs\/2311.10122","author":"Lin Bin","year":"2023","unstructured":"Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, and Li Yuan. 2023. Video-LLaVA: Learning United Visual Representation by Alignment Before Projection. CoRR abs\/2311.10122 (2023)."},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"crossref","unstructured":"Jinpeng Lin Min Zhou Ye Ma Yifan Gao Chenxi Fei Yangjian Chen Zhang Yu and Tiezheng Ge. 2023. AutoPoster: A Highly Automatic and Content-aware Design System for Advertising Poster Generation. In ACM MM. 1250--1260.","DOI":"10.1145\/3581783.3611930"},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i5.16549"},{"key":"e_1_3_2_1_65_1","doi-asserted-by":"crossref","unstructured":"Chang Liu Han Yu Yi Dong Zhiqi Shen Yingxue Yu Ian Dixon Zhanning Gao Pan Wang Peiran Ren Xuansong Xie Lizhen Cui and Chunyan Miao. 2020. Generating Engaging Promotional Videos for E-commerce Platforms (Student Abstract). In AAAI. 13865--13866.","DOI":"10.1609\/aaai.v34i10.7205"},{"key":"e_1_3_2_1_66_1","volume-title":"RecPrompt: A Prompt Tuning Framework for News Recommendation Using Large Language Models. CoRR abs\/2312.10463","author":"Liu Dairui","year":"2023","unstructured":"Dairui Liu, Boming Yang, Honghui Du, Derek Greene, Aonghus Lawlor, Ruihai Dong, and Irene Li. 2023. RecPrompt: A Prompt Tuning Framework for News Recommendation Using Large Language Models. CoRR abs\/2312.10463 (2023)."},{"key":"e_1_3_2_1_67_1","unstructured":"Haotian Liu Chunyuan Li Qingyang Wu and Yong Jae Lee. 2023. Visual Instruction Tuning. In Advances in Neural Information Processing Systems (NeurIPS)."},{"key":"e_1_3_2_1_68_1","volume-title":"Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD). 2686--2696","author":"Liu Hu","year":"2020","unstructured":"Hu Liu, Jing Lu, Hao Yang, Xiwei Zhao, Sulong Xu, Hao Peng, Zehua Zhang, Wenjie Niu, Xiaokun Zhu, Yongjun Bao, et al . 2020. Category-Specific CNN for Visual-aware CTR Prediction at JD. com. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD). 2686--2696."},{"key":"e_1_3_2_1_69_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3251108"},{"key":"e_1_3_2_1_70_1","volume-title":"A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Comput. Surv. 55, 9","author":"Liu Pengfei","year":"2023","unstructured":"Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2023. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Comput. Surv. 55, 9 (2023), 195:1--195:35."},{"key":"e_1_3_2_1_71_1","doi-asserted-by":"publisher","DOI":"10.1145\/3616855.3635845"},{"key":"e_1_3_2_1_72_1","doi-asserted-by":"publisher","DOI":"10.1145\/3589335.3651558"},{"key":"e_1_3_2_1_73_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2302.03883"},{"key":"e_1_3_2_1_74_1","volume-title":"Proceedings of the 29th International Conference on Computational Linguistics. 2823--2833","author":"Liu Qijiong","year":"2022","unstructured":"Qijiong Liu, Jieming Zhu, Quanyu Dai, and Xiao-Ming Wu. 2022. Boosting deep CTR prediction with a plug-and-play pre-trainer for news recommendation. In Proceedings of the 29th International Conference on Computational Linguistics. 2823--2833."},{"key":"e_1_3_2_1_75_1","doi-asserted-by":"publisher","DOI":"10.1145\/3308558.3313513"},{"key":"e_1_3_2_1_76_1","volume-title":"Mandari: Multi-Modal Temporal Knowledge Graph-aware Sub-graph Embedding for Next-POI Recommendation. IEEE International Conference on Multimedia and Expo (ICME)","author":"Liu Xiaoqian","year":"2023","unstructured":"Xiaoqian Liu, Xiuyun Li, Yuan Cao, Fan Zhang, Xiongnan Jin, and Jinpeng Chen. 2023. Mandari: Multi-Modal Temporal Knowledge Graph-aware Sub-graph Embedding for Next-POI Recommendation. IEEE International Conference on Multimedia and Expo (ICME) (2023), 1529--1534."},{"key":"e_1_3_2_1_77_1","volume-title":"Yu","author":"Liu Yuqing","year":"2024","unstructured":"Yuqing Liu, Yu Wang, Lichao Sun, and Philip S. Yu. 2024. Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models. CoRR abs\/2402.08670 (2024)."},{"key":"e_1_3_2_1_78_1","volume-title":"ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation. CoRR abs\/2311.05956","author":"Liu Yuting","year":"2023","unstructured":"Yuting Liu, Enneng Yang, Yizhou Dang, Guibing Guo, Qiang Liu, Yuliang Liang, Linying Jiang, and Xingwei Wang. 2023. ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation. CoRR abs\/2311.05956 (2023)."},{"key":"e_1_3_2_1_79_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475709"},{"key":"e_1_3_2_1_80_1","volume-title":"Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arXiv:2402.17177","author":"Liu Yixin","year":"2024","unstructured":"Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, and Lichao Sun. 2024. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arXiv:2402.17177"},{"key":"e_1_3_2_1_81_1","volume-title":"An Aligning and Training Framework for Multimodal Recommendations. CoRR abs\/2403.12384","author":"Liu Yifan","year":"2024","unstructured":"Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, and Weinan Zhang. 2024. An Aligning and Training Framework for Multimodal Recommendations. CoRR abs\/2403.12384 (2024)."},{"key":"e_1_3_2_1_82_1","doi-asserted-by":"publisher","DOI":"10.1145\/3512527.3531378"},{"key":"e_1_3_2_1_83_1","volume-title":"Language, Audio, and Action. CoRR abs\/2312.17172","author":"Lu Jiasen","year":"2023","unstructured":"Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, and Aniruddha Kembhavi. 2023. Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action. CoRR abs\/2312.17172 (2023)."},{"key":"e_1_3_2_1_84_1","volume-title":"Tommaso Di Noia, and Eugenio Di Sciascio.","author":"Malitesta Daniele","year":"2023","unstructured":"Daniele Malitesta, Giandomenico Cornacchia, Claudio Pomo, Felice Antonio Merra, Tommaso Di Noia, and Eugenio Di Sciascio. 2023. Formalizing Multimedia Recommendation through Multimodal Deep Learning. CoRR abs\/2309.05273 (2023)."},{"key":"e_1_3_2_1_85_1","volume-title":"CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation. CoRR abs\/2309.12030","author":"Mita Masato","year":"2023","unstructured":"Masato Mita, Soichiro Murakami, Akihiko Kato, and Peinan Zhang. 2023. CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation. CoRR abs\/2309.12030 (2023)."},{"key":"e_1_3_2_1_86_1","unstructured":"Soichiro Murakami Sho Hoshino and Peinan Zhang. 2023. Natural Language Generation for Advertising: A Survey. arXiv:2306.12719"},{"key":"e_1_3_2_1_87_1","volume-title":"A Content-Driven Micro-Video Recommendation Dataset at Scale. CoRR abs\/2309.15379","author":"Ni Yongxin","year":"2023","unstructured":"Yongxin Ni, Yu Cheng, Xiangyan Liu, Junchen Fu, Youhua Li, Xiangnan He, Yongfeng Zhang, and Fajie Yuan. 2023. A Content-Driven Micro-Video Recommendation Dataset at Scale. CoRR abs\/2309.15379 (2023)."},{"key":"e_1_3_2_1_88_1","unstructured":"OpenAI. 2023. ChatGPT. https:\/\/chat.openai.com\/chat."},{"key":"e_1_3_2_1_89_1","volume-title":"Gpt-4 technical report. arxiv 2303.08774. View in Article 2, 5","author":"R","year":"2023","unstructured":"R OpenAI. 2023. Gpt-4 technical report. arxiv 2303.08774. View in Article 2, 5 (2023)."},{"key":"e_1_3_2_1_90_1","unstructured":"Maxime Oquab Timoth\u00e9e Darcet Th\u00e9o Moutakanni Huy Vo Marc Szafraniec et al. 2023. DINOv2: Learning Robust Visual Features without Supervision. CoRR abs\/2304.07193 (2023)."},{"key":"e_1_3_2_1_91_1","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531905"},{"key":"e_1_3_2_1_92_1","volume-title":"International Conference on Machine Learning (ICML). PMLR, 8748--8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML). PMLR, 8748--8763."},{"key":"e_1_3_2_1_93_1","unstructured":"Alec Radford Karthik Narasimhan Tim Salimans Ilya Sutskever et al. 2018. Improving language understanding by generative pre-training. (2018)."},{"key":"e_1_3_2_1_94_1","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei Ilya Sutskever et al. 2019. Language models are unsupervised multitask learners. OpenAI blog 1 8 (2019) 9."},{"key":"e_1_3_2_1_95_1","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel Colin","year":"2020","unstructured":"Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research 21, 140 (2020), 1--67.","journal-title":"Journal of Machine Learning Research"},{"key":"e_1_3_2_1_96_1","volume-title":"Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Tran, Jonah Samost, et al .","author":"Rajput Shashank","year":"2024","unstructured":"Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan Hulikal Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Tran, Jonah Samost, et al . 2024. Recommender systems with generative retrieval. Advances in Neural Information Processing Systems (NeurIPS) 36 (2024)."},{"key":"e_1_3_2_1_97_1","volume-title":"Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125 1, 2","author":"Ramesh Aditya","year":"2022","unstructured":"Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. 2022. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125 1, 2 (2022), 3."},{"key":"e_1_3_2_1_98_1","volume-title":"Proceedings of the 38th International Conference on Machine Learning (ICML)","volume":"139","author":"Ramesh Aditya","year":"2021","unstructured":"Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-Shot Text-to-Image Generation. In Proceedings of the 38th International Conference on Machine Learning (ICML), Vol. 139. 8821--8831."},{"key":"e_1_3_2_1_99_1","volume-title":"High-Resolution Image Synthesis with Latent Diffusion Models. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10674--10685","author":"Rombach Robin","year":"2022","unstructured":"Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj\u00f6rn Ommer. 2022. High-Resolution Image Synthesis with Latent Diffusion Models. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10674--10685."},{"key":"e_1_3_2_1_100_1","volume-title":"LaMP: When Large Language Models Meet Personalization. CoRR","author":"Salemi Alireza","year":"2023","unstructured":"Alireza Salemi, Sheshera Mysore, Michael Bendersky, and Hamed Zamani. 2023. LaMP: When Large Language Models Meet Personalization. CoRR (2023)."},{"key":"e_1_3_2_1_101_1","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1873"},{"key":"e_1_3_2_1_102_1","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591713"},{"key":"e_1_3_2_1_103_1","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN48605.2020.9206894"},{"key":"e_1_3_2_1_104_1","volume-title":"PMG: Personalized Multimodal Generation with Large Language Models. In The ACM Web Conference (WWW).","author":"Shen Xiaoteng","year":"2024","unstructured":"Xiaoteng Shen, Rui Zhang, Xiaoyan Zhao, Jieming Zhu, and Xi Xiao. 2024. PMG: Personalized Multimodal Generation with Large Language Models. In The ACM Web Conference (WWW)."},{"key":"e_1_3_2_1_105_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.346"},{"key":"e_1_3_2_1_106_1","volume-title":"FLAVA: A Foundational Language And Vision Alignment Model. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15617--15629","author":"Singh Amanpreet","year":"2022","unstructured":"Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, and Douwe Kiela. 2022. FLAVA: A Foundational Language And Vision Alignment Model. In IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15617--15629."},{"key":"e_1_3_2_1_107_1","volume-title":"Chi, and Maheswaran Sathiamoorthy","author":"Singh Anima","year":"2023","unstructured":"Anima Singh, Trung Vu, Raghunandan H. Keshavan, Nikhil Mehta, Xinyang Yi, Lichan Hong, Lukasz Heldt, Li Wei, Ed H. Chi, and Maheswaran Sathiamoorthy. 2023. Better Generalization with Semantic IDs: A case study in Ranking for Recommendations. CoRR abs\/2306.08121 (2023)."},{"key":"e_1_3_2_1_108_1","volume-title":"Is ChatGPT A Good Keyphrase Generator? A Preliminary Study. CoRR abs\/2303.13001","author":"Song Mingyang","year":"2023","unstructured":"Mingyang Song, Haiyun Jiang, Shuming Shi, Songfang Yao, Shilong Lu, Yi Feng, Huafeng Liu, and Liping Jing. 2023. Is ChatGPT A Good Keyphrase Generator? A Preliminary Study. CoRR abs\/2303.13001 (2023)."},{"key":"e_1_3_2_1_109_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2023.3266423"},{"key":"e_1_3_2_1_110_1","volume-title":"Proceedings of the 22nd International Society for Music Information Retrieval Conference (ISMIR). 673--681","author":"Spijkervet Janne","year":"2021","unstructured":"Janne Spijkervet and John Ashley Burgoyne. 2021. Contrastive Learning of Musical Representations. In Proceedings of the 22nd International Society for Music Information Retrieval Conference (ISMIR). 673--681."},{"key":"e_1_3_2_1_111_1","volume-title":"Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint arXiv:1908.08530","author":"Su Weijie","year":"2019","unstructured":"Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai. 2019. Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint arXiv:1908.08530 (2019)."},{"key":"e_1_3_2_1_112_1","doi-asserted-by":"publisher","DOI":"10.1145\/3357384.3357895"},{"key":"e_1_3_2_1_113_1","volume-title":"Wayne Xin Zhao, and Jie Zhou","author":"Sun Wenqi","year":"2023","unstructured":"Wenqi Sun, Ruobing Xie, Shuqing Bian, Wayne Xin Zhao, and Jie Zhou. 2023. Universal Multi-modal Multi-domain Pre-trained Recommendation. CoRR abs\/2311.01831 (2023)."},{"key":"e_1_3_2_1_114_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2020.102277"},{"key":"e_1_3_2_1_115_1","volume-title":"et al","author":"Touvron Hugo","year":"2023","unstructured":"Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\u00e9e Lacroix, Baptiste Rozi\u00e8re, Naman Goyal, Eric Hambro, Faisal Azhar, et al . 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)."},{"key":"e_1_3_2_1_116_1","unstructured":"Hugo Touvron Louis Martin Kevin Stone Peter Albert Amjad Almahairi Yasmine Babaei Nikolay Bashlykov Soumya Batra Prajjwal Bhargava Shruti Bhosale et al. 2023. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288 (2023)."},{"key":"e_1_3_2_1_117_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3118703"},{"key":"e_1_3_2_1_118_1","volume-title":"AnyText: Multilingual Visual Text Generation And Editing. CoRR abs\/2311.03054","author":"Tuo Yuxiang","year":"2023","unstructured":"Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, and Xuansong Xie. 2023. AnyText: Multilingual Visual Text Generation And Editing. CoRR abs\/2311.03054 (2023)."},{"key":"e_1_3_2_1_119_1","volume-title":"et al","author":"Den Oord Aaron Van","year":"2017","unstructured":"Aaron Van Den Oord, Oriol Vinyals, et al . 2017. Neural discrete representation learning. Advances in Neural Information Processing Systems (NeurIPS) 30 (2017)."},{"key":"e_1_3_2_1_120_1","volume-title":"Voyager: An Open-Ended Embodied Agent with Large Language Models. CoRR abs\/2305.16291","author":"Wang Guanzhi","year":"2023","unstructured":"Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. 2023. Voyager: An Open-Ended Embodied Agent with Large Language Models. CoRR abs\/2305.16291 (2023)."},{"key":"e_1_3_2_1_121_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611967"},{"key":"e_1_3_2_1_122_1","volume-title":"Hanshu Yan, Daquan Zhou, and Jiashi Feng.","author":"Wang Weimin","year":"2024","unstructured":"Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, and Jiashi Feng. 2024. MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation. CoRR abs\/2401.04468 (2024)."},{"key":"e_1_3_2_1_123_1","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3671775"},{"key":"e_1_3_2_1_124_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583420"},{"key":"e_1_3_2_1_125_1","volume-title":"Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond. CoRR","author":"Wei Tianxin","year":"2024","unstructured":"Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang, Jianhui Sun, Qingyu Yin, Hanqing Lu, Suhang Wang, Jingrui He, and Xianfeng Tang. 2024. Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond. CoRR (2024)."},{"key":"e_1_3_2_1_126_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583206"},{"key":"e_1_3_2_1_127_1","doi-asserted-by":"publisher","DOI":"10.1145\/3589334.3645359"},{"key":"e_1_3_2_1_128_1","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591716"},{"key":"e_1_3_2_1_129_1","volume-title":"Contrastive Learning for Cold-Start Recommendation. CoRR abs\/2107.05315","author":"Wei Yinwei","year":"2021","unstructured":"Yinwei Wei, Xiang Wang, Qi Li, Liqiang Nie, Yan Li, Xuanping Li, and Tat-Seng Chua. 2021. Contrastive Learning for Cold-Start Recommendation. CoRR abs\/2107.05315 (2021)."},{"key":"e_1_3_2_1_130_1","volume-title":"Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback. In The 28th ACM International Conference on Multimedia (MM). 3541--3549","author":"Wei Yinwei","year":"2020","unstructured":"Yinwei Wei, Xiang Wang, Liqiang Nie, Xiangnan He, and Tat-Seng Chua. 2020. Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback. In The 28th ACM International Conference on Multimedia (MM). 3541--3549."},{"key":"e_1_3_2_1_131_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351034"},{"key":"e_1_3_2_1_132_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1671"},{"key":"e_1_3_2_1_133_1","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3463069"},{"key":"e_1_3_2_1_134_1","volume-title":"MM-Rec: Visiolinguistic Model Empowered Multimodal News Recommendation. In The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). 2560--2564","author":"Wu Chuhan","year":"2022","unstructured":"Chuhan Wu, Fangzhao Wu, Tao Qi, Chao Zhang, Yongfeng Huang, and Tong Xu. 2022. MM-Rec: Visiolinguistic Model Empowered Multimodal News Recommendation. In The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). 2560--2564."},{"key":"e_1_3_2_1_135_1","volume-title":"Towards open-world recommendation with knowledge augmentation from large language models. arXiv preprint arXiv:2306.10933","author":"Xi Yunjia","year":"2023","unstructured":"Yunjia Xi, Weiwen Liu, Jianghao Lin, Jieming Zhu, Bo Chen, Ruiming Tang, Weinan Zhang, Rui Zhang, and Yong Yu. 2023. Towards open-world recommendation with knowledge augmentation from large language models. arXiv preprint arXiv:2306.10933 (2023)."},{"key":"e_1_3_2_1_136_1","doi-asserted-by":"crossref","unstructured":"Fangxiong Xiao Lixi Deng Jingjing Chen Houye Ji Xiaorui Yang Zhuoye Ding and Bo Long. 2022. From Abstract to Details: A Generative Multimodal Fusion Framework for Recommendation. In MM. 258--267.","DOI":"10.1145\/3503161.3548366"},{"key":"e_1_3_2_1_137_1","volume-title":"Training Large-Scale News Recommenders with Pretrained Language Models in the Loop. In The 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD). 4215--4225","author":"Xiao Shitao","year":"2022","unstructured":"Shitao Xiao, Zheng Liu, Yingxia Shao, Tao Di, Bhuvan Middha, Fangzhao Wu, and Xing Xie. 2022. Training Large-Scale News Recommenders with Pretrained Language Models in the Loop. In The 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD). 4215--4225."},{"key":"e_1_3_2_1_138_1","volume-title":"Wayne Xin Zhao, and Ji-Rong Wen","author":"Xu Lanling","year":"2024","unstructured":"Lanling Xu, Junjie Zhang, Bingqian Li, Jinpeng Wang, Mingchen Cai, Wayne Xin Zhao, and Ji-Rong Wen. 2024. Prompting Large Language Models for Recommender Systems: A Comprehensive Framework and Empirical Analysis. CoRR abs\/2401.04997 (2024)."},{"key":"e_1_3_2_1_139_1","doi-asserted-by":"crossref","unstructured":"Song Xu Haoran Li Peng Yuan Yujia Wang Youzheng Wu Xiaodong He Ying Liu and Bowen Zhou. 2021. K-PLUG: Knowledge-injected Pre-trained Language Model for Natural Language Understanding and Generation in E-Commerce. In Findings of EMNLP. 1--17.","DOI":"10.18653\/v1\/2021.findings-emnlp.1"},{"key":"e_1_3_2_1_140_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475514"},{"key":"e_1_3_2_1_141_1","doi-asserted-by":"publisher","DOI":"10.1145\/3511808.3557721"},{"key":"e_1_3_2_1_142_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.338"},{"key":"e_1_3_2_1_143_1","doi-asserted-by":"crossref","unstructured":"Xiao Yang Tao Deng Weihan Tan Xutian Tao Junwei Zhang Shouke Qin and Zongyao Ding. 2019. Learning Compositional Visual and Relational Representations for CTR Prediction in Sponsored Search. In CIKM. 2851--2859.","DOI":"10.1145\/3357384.3357833"},{"key":"e_1_3_2_1_144_1","unstructured":"Zhiguang Yang Lu Wang Chun Gan Liufang Sang and et al. 2023. Parallel Ranking of Ads and Creatives in Real-Time Advertising Systems. CoRR (2023)."},{"key":"e_1_3_2_1_145_1","volume-title":"MART: Learning Hierarchical Music Audio Representations with Part-Whole Transformer. In Companion Proceedings of the ACM on Web Conference (WWW). 967--970","author":"Yao Dong","year":"2024","unstructured":"Dong Yao, Jieming Zhu, Jiahao Xun, Shengyu Zhang, Zhou Zhao, Liqun Deng, Wenqiao Zhang, Zhenhua Dong, and Xin Jiang. 2024. MART: Learning Hierarchical Music Audio Representations with Part-Whole Transformer. In Companion Proceedings of the ACM on Web Conference (WWW). 967--970."},{"key":"e_1_3_2_1_146_1","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3532027"},{"key":"e_1_3_2_1_147_1","volume-title":"CoCa: Contrastive Captioners are Image-Text Foundation Models. Trans. Mach. Learn. Res. 2022","author":"Yu Jiahui","year":"2022","unstructured":"Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, and Yonghui Wu. 2022. CoCa: Contrastive Captioners are Image-Text Foundation Models. Trans. Mach. Learn. Res. 2022 (2022)."},{"key":"e_1_3_2_1_148_1","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539151"},{"key":"e_1_3_2_1_149_1","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591932"},{"key":"e_1_3_2_1_150_1","unstructured":"Mingliang Zeng Xu Tan Rui Wang Zeqian Ju Tao Qin and Tie-Yan Liu. 2021. MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training. In Findings of the Association for Computational Linguistics (ACL). 791--800."},{"key":"e_1_3_2_1_151_1","unstructured":"Jun Zhan Junqi Dai Jiasheng Ye Yunhua Zhou et al. 2024. AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling. CoRR abs\/2402.12226 (2024)."},{"key":"e_1_3_2_1_152_1","volume-title":"Multimodal pre-training framework for sequential recommendation via contrastive learning. arXiv preprint arXiv:2303.11879","author":"Zhang Lingzi","year":"2023","unstructured":"Lingzi Zhang, Xin Zhou, and Zhiqi Shen. 2023. Multimodal pre-training framework for sequential recommendation via contrastive learning. arXiv preprint arXiv:2303.11879 (2023)."},{"key":"e_1_3_2_1_153_1","first-page":"3356","article-title":"UNBERT: User-News Matching BERT for News Recom- mendation","volume":"21","author":"Zhang Qi","year":"2021","unstructured":"Qi Zhang, Jingjie Li, Qinglin Jia, Chuyuan Wang, Jieming Zhu, Zhaowei Wang, and Xiuqiang He. 2021. UNBERT: User-News Matching BERT for News Recom- mendation.. In IJCAI, Vol. 21. 3356--3362.","journal-title":"IJCAI"},{"key":"e_1_3_2_1_154_1","volume-title":"Meta-Transformer: A Unified Framework for Multimodal Learning. CoRR abs\/2307.10802","author":"Zhang Yiyuan","year":"2023","unstructured":"Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Wanli Ouyang, and Xiangyu Yue. 2023. Meta-Transformer: A Unified Framework for Multimodal Learning. CoRR abs\/2307.10802 (2023)."},{"key":"e_1_3_2_1_155_1","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591752"},{"key":"e_1_3_2_1_156_1","doi-asserted-by":"publisher","DOI":"10.1145\/3337967"},{"key":"e_1_3_2_1_157_1","volume-title":"A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions. CoRR abs\/2302.04473","author":"Zhou Hongyu","year":"2023","unstructured":"Hongyu Zhou, Xin Zhou, Zhiwei Zeng, Lingzi Zhang, and Zhiqi Shen. 2023. A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions. CoRR abs\/2302.04473 (2023)."},{"key":"e_1_3_2_1_158_1","volume-title":"GCOF: Self-iterative Text Generation for Copywriting Using Large Language Model. arXiv:2402.13667","author":"Zhou Jianghui","year":"2024","unstructured":"Jianghui Zhou, Ya Gao, Jie Liu, Xuemin Zhao, Zhaohua Yang, Yue Wu, and Lirong Shi. 2024. GCOF: Self-iterative Text Generation for Copywriting Using Large Language Model. arXiv:2402.13667"},{"key":"e_1_3_2_1_159_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01653-1"},{"key":"e_1_3_2_1_160_1","volume-title":"Proceedings of International Conference on Machine Learning (ICML). 42602--42613","author":"Zhou Wangchunshu","year":"2023","unstructured":"Wangchunshu Zhou, Yuchen Eleanor Jiang, Ethan Wilcox, Ryan Cotterell, and Mrinmaya Sachan. 2023. Controlled Text Generation with Natural Language Instructions. In Proceedings of International Conference on Machine Learning (ICML). 42602--42613."},{"key":"e_1_3_2_1_161_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611943"},{"key":"e_1_3_2_1_162_1","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531723"},{"key":"e_1_3_2_1_163_1","volume-title":"Multimodal Pretraining and Generation for Recommendation: A Tutorial. In Companion Proceedings of the ACM on Web Conference 2024 (WWW). 1272--1275","author":"Zhu Jieming","year":"2024","unstructured":"Jieming Zhu, Xin Zhou, Chuhan Wu, Rui Zhang, and Zhenhua Dong. 2024. Multimodal Pretraining and Generation for Recommendation: A Tutorial. In Companion Proceedings of the ACM on Web Conference 2024 (WWW). 1272--1275."},{"key":"e_1_3_2_1_164_1","volume-title":"TryOn-Diffusion: A Tale of Two UNets. In IEEE\/CVF Conference on Computer Visionand Pattern Recognition (CVPR). 4606--4615","author":"Zhu Luyang","year":"2023","unstructured":"Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, and Ira Kemelmacher-Shlizerman. 2023. TryOn-Diffusion: A Tale of Two UNets. In IEEE\/CVF Conference on Computer Visionand Pattern Recognition (CVPR). 4606--4615."},{"key":"e_1_3_2_1_165_1","volume-title":"Knowledge Perceived Multi-modal Pretraining in E-commerce. In ACM Multimedia Conference (MM). 2744--2752","author":"Zhu Yushan","year":"2021","unstructured":"Yushan Zhu, Huaixiao Zhao, Wen Zhang, Ganqiang Ye, Hui Chen, Ningyu Zhang, and Huajun Chen. 2021. Knowledge Perceived Multi-modal Pretraining in E-commerce. In ACM Multimedia Conference (MM). 2744--2752."}],"event":{"name":"KDD '24: The 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","location":"Barcelona Spain","acronym":"KDD '24","sponsor":["SIGMOD ACM Special Interest Group on Management of Data","SIGKDD ACM Special Interest Group on Knowledge Discovery in Data"]},"container-title":["Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3637528.3671473","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3637528.3671473","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:04:18Z","timestamp":1750291458000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3637528.3671473"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,8,24]]},"references-count":165,"alternative-id":["10.1145\/3637528.3671473","10.1145\/3637528"],"URL":"https:\/\/doi.org\/10.1145\/3637528.3671473","relation":{},"subject":[],"published":{"date-parts":[[2024,8,24]]},"assertion":[{"value":"2024-08-24","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}