{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:25:48Z","timestamp":1765308348990,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":70,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755098","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T05:50:47Z","timestamp":1761371447000},"page":"3487-3496","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["<i>RealSyn<\/i>\n                    : An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-2302-246X","authenticated-orcid":false,"given":"Tiancheng","family":"Gu","sequence":"first","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-6073-9014","authenticated-orcid":false,"given":"Kaicheng","family":"Yang","sequence":"additional","affiliation":[{"name":"DeepGlint, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8492-9711","authenticated-orcid":false,"given":"Chaoyi","family":"Zhang","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0966-5569","authenticated-orcid":false,"given":"Yin","family":"Xie","sequence":"additional","affiliation":[{"name":"DeepGlint, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-4652-8296","authenticated-orcid":false,"given":"Xiang","family":"An","sequence":"additional","affiliation":[{"name":"DeepGlint, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-8689-8366","authenticated-orcid":false,"given":"Ziyong","family":"Feng","sequence":"additional","affiliation":[{"name":"DeepGlint, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8102-3949","authenticated-orcid":false,"given":"Dongnan","family":"Liu","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3706-8896","authenticated-orcid":false,"given":"Weidong","family":"Cai","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3709-6216","authenticated-orcid":false,"given":"Jiankang","family":"Deng","sequence":"additional","affiliation":[{"name":"Imperial College London, London, United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Unicom: Universal and Compact Representation Learning for Image Retrieval. In ICLR.","author":"An Xiang","year":"2023","unstructured":"Xiang An, Jiankang Deng, Kaicheng Yang, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang, and Tongliang Liu. 2023. Unicom: Universal and Compact Representation Learning for Image Retrieval. In ICLR."},{"key":"e_1_3_2_1_2_1","volume-title":"Multimodal machine learning: A survey and taxonomy. TPAMI","author":"Baltru\u0161aitis Tadas","year":"2018","unstructured":"Tadas Baltru\u0161aitis, Chaitanya Ahuja, and Louis-Philippe Morency. 2018. Multimodal machine learning: A survey and taxonomy. TPAMI (2018)."},{"key":"e_1_3_2_1_3_1","volume-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In ACL.","author":"Banerjee Satanjeev","year":"2005","unstructured":"Satanjeev Banerjee and Alon Lavie. 2005. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In ACL."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.3115\/1219044.1219075"},{"key":"e_1_3_2_1_5_1","volume-title":"Latent dirichlet allocation. JMLR","author":"Blei David M","year":"2003","unstructured":"David M Blei, Andrew Y Ng, and Michael I Jordan. 2003. Latent dirichlet allocation. JMLR (2003)."},{"key":"e_1_3_2_1_6_1","unstructured":"Minwoo Byeon Beomhee Park Haecheon Kim Sungjun Lee Woonhyuk Baek and Saehoon Kim. 2022. COYO-700M: Image-Text Pair Dataset. https:\/\/github.com\/kakaobrain\/coyo-dataset."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Lin Chen Jisong Li Xiaoyi Dong Pan Zhang Conghui He Jiaqi Wang Feng Zhao and Dahua Lin. 2024. ShareGPT4V: Improving Large Multi-Modal Models with Better Captions. In ECCV.","DOI":"10.1007\/978-3-031-72643-9_22"},{"key":"e_1_3_2_1_8_1","volume-title":"Microsoft coco captions: Data collection and evaluation server. arXiv:1504.00325","author":"Chen Xinlei","year":"2015","unstructured":"Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll\u00e1r, and C Lawrence Zitnick. 2015. Microsoft coco captions: Data collection and evaluation server. arXiv:1504.00325 (2015)."},{"key":"e_1_3_2_1_9_1","unstructured":"Christopher Clark and Matt Gardner. 2017. Simple and effective multi-paragraph reading comprehension. In ACL."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Jia Deng Wei Dong Richard Socher Li-Jia Li Kai Li and Li Fei-Fei. 2009. ImageNet: A large-scale hierarchical image database. In CVPR.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_2_1_11_1","unstructured":"Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian Ahmad Al-Dahle Aiesha Letman Akhil Mathur Alan Schelten Amy Yang Angela Fan et al. 2024. The llama 3 herd of models. arXiv:2407.21783 (2024)."},{"key":"e_1_3_2_1_12_1","unstructured":"Lijie Fan Dilip Krishnan Phillip Isola Dina Katabi and Yonglong Tian. 2024. Improving clip training with language rewrites. In NeurIPS."},{"key":"e_1_3_2_1_13_1","volume-title":"Datacomp: In search of the next generation of multimodal datasets. In NeurIPS.","author":"Gadre Samir Yitzhak","year":"2024","unstructured":"Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al., 2024. Datacomp: In search of the next generation of multimodal datasets. In NeurIPS."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Yash Goyal Tejas Khot Douglas Summers-Stay Dhruv Batra and Devi Parikh. 2017. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In CVPR.","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_2_1_15_1","volume-title":"Rwkv-clip: A robust vision-language representation learner. In EMNLP.","author":"Gu Tiancheng","year":"2024","unstructured":"Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, and Jiankang Deng. 2024. Rwkv-clip: A robust vision-language representation learner. In EMNLP."},{"key":"e_1_3_2_1_16_1","volume-title":"Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, and Sifei Liu.","author":"Guo Qiushan","year":"2024","unstructured":"Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, and Sifei Liu. 2024a. Regiongpt: Towards region understanding vision language model. In CVPR."},{"key":"e_1_3_2_1_17_1","first-page":"7533","article-title":"Open-Vocabulary Audio-Visual Semantic Segmentation","author":"Guo Ruohao","year":"2024","unstructured":"Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, and Xianghua Ying. 2024b. Open-Vocabulary Audio-Visual Semantic Segmentation. In ACMMM. 7533-7541.","journal-title":"ACMMM."},{"key":"e_1_3_2_1_18_1","volume-title":"Deep multimodal representation learning: A survey","author":"Guo Wenzhong","year":"2019","unstructured":"Wenzhong Guo, Jianwen Wang, and Shiping Wang. 2019. Deep multimodal representation learning: A survey. IEEE Access (2019)."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01078"},{"key":"e_1_3_2_1_20_1","volume-title":"Decoupled Global-Local Alignment for Improving Compositional Understanding. arXiv preprint arXiv:2504.16801","author":"Hu Xiaoxing","year":"2025","unstructured":"Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, and Yupei Wang. 2025. Decoupled Global-Local Alignment for Improving Compositional Understanding. arXiv preprint arXiv:2504.16801 (2025)."},{"key":"e_1_3_2_1_21_1","volume-title":"Demystifying CLIP Data. arXiv:2309.16671","author":"Tan Hu Xu Xiaoqing Ellen","year":"2023","unstructured":"Xiaoqing Ellen Tan Hu Xu, Saining Xie. 2023. Demystifying CLIP Data. arXiv:2309.16671 (2023)."},{"key":"e_1_3_2_1_22_1","volume-title":"Inject semantic concepts into image tagging for open-set recognition. arXiv:2310.15200","author":"Huang Xinyu","year":"2023","unstructured":"Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, and Lei Zhang. 2023. Inject semantic concepts into image tagging for open-set recognition. arXiv:2310.15200 (2023)."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"crossref","unstructured":"Abiodun M. Ikotun Absalom E. Ezugwu Laith Abualigah Belal Abuhaija and Jia Heming. 2023. K-means clustering algorithms: A comprehensive review variants analysis and advances in the era of big data. Inf. Sci. (2023).","DOI":"10.1016\/j.ins.2022.11.139"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/TBDATA.2019.2921572"},{"key":"e_1_3_2_1_25_1","volume-title":"Scaling laws for neural language models. arXiv preprint arXiv:2001.08361","author":"Kaplan Jared","year":"2020","unstructured":"Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361 (2020)."},{"key":"e_1_3_2_1_26_1","volume-title":"Joseph Gonzalez, Hao Zhang, and Ion Stoica.","author":"Kwon Woosuk","year":"2023","unstructured":"Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. 2023. Efficient memory management for large language model serving with pagedattention. In SOSP."},{"key":"e_1_3_2_1_27_1","volume-title":"Wenze Hu, Zhe Gan, Peter Grasch, et al.","author":"Lai Zhengfeng","year":"2025","unstructured":"Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, et al., 2025. Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models. In ICLR."},{"key":"e_1_3_2_1_28_1","unstructured":"Zhengfeng Lai Haotian Zhang Bowen Zhang Wentao Wu Haoping Bai Aleksei Timofeev Xianzhi Du Zhe Gan Jiulong Shan Chen-Nee Chuah Yinfei Yang and Meng Cao. 2024. VeCLIP: Improving CLIP Training via Visual-enriched Captions. In ECCV."},{"key":"e_1_3_2_1_29_1","volume-title":"Obelics: An open web-scale filtered dataset of interleaved image-text documents. In NeurIPS.","author":"Lauren\u00e7on Hugo","year":"2024","unstructured":"Hugo Lauren\u00e7on, Lucile Saulnier, L\u00e9o Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander Rush, Douwe Kiela, et al., 2024. Obelics: An open web-scale filtered dataset of interleaved image-text documents. In NeurIPS."},{"key":"e_1_3_2_1_30_1","volume-title":"International conference on machine learning. PMLR","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning. PMLR, 19730-19742."},{"key":"e_1_3_2_1_31_1","unstructured":"Qingyun Li Zhe Chen Weiyun Wang Wenhai Wang Shenglong Ye Zhenjiang Jin et al. 2025. OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text. In ICLR."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Xiaotong Li Fan Zhang Haiwen Diao Yueze Wang Xinlong Wang and Ling-Yu Duan. 2024b. Densefusion-1m: Merging vision experts for comprehensive multimodal perception. In NeurIPS.","DOI":"10.52202\/079017-0588"},{"key":"e_1_3_2_1_33_1","unstructured":"Yangguang Li Feng Liang Lichen Zhao Yufeng Cui Wanli Ouyang Jing Shao Fengwei Yu and Junjie Yan. 2022. Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm. In ICLR."},{"key":"e_1_3_2_1_34_1","volume-title":"A comprehensive analysis of data, architecture, and training strategies. arXiv preprint arXiv:2404.08197","author":"Li Zichao","year":"2024","unstructured":"Zichao Li, Cihang Xie, and Ekin Dogus Cubuk. 2024a. Scaling (down) clip: A comprehensive analysis of data, architecture, and training strategies. arXiv preprint arXiv:2404.08197 (2024)."},{"key":"e_1_3_2_1_35_1","volume-title":"Gridclip: One-stage object detection by grid-level clip representation learning. arXiv preprint arXiv:2303.09252","author":"Lin Jiayi","year":"2023","unstructured":"Jiayi Lin and Shaogang Gong. 2023. Gridclip: One-stage object detection by grid-level clip representation learning. arXiv preprint arXiv:2303.09252 (2023)."},{"key":"e_1_3_2_1_36_1","unstructured":"Tsung-Yi Lin Michael Maire Serge Belongie James Hays Pietro Perona Deva Ramanan Piotr Doll\u00e1r and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In ECCV."},{"key":"e_1_3_2_1_37_1","first-page":"15305","article-title":"Clip is also an efficient segmenter: A text-driven approach for weakly supervised semantic segmentation","author":"Lin Yuqi","year":"2023","unstructured":"Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, and Xiaofei He. 2023. Clip is also an efficient segmenter: A text-driven approach for weakly supervised semantic segmentation. In CVPR. 15305-15314.","journal-title":"CVPR."},{"key":"e_1_3_2_1_38_1","unstructured":"Haotian Liu Chunyuan Li Yuheng Li and Yong Jae Lee. 2024. Improved baselines with visual instruction tuning. In CVPR."},{"key":"e_1_3_2_1_39_1","unstructured":"I Loshchilov. 2019. Decoupled Weight Decay Regularization. In ICLR."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"S\u00e9gol\u00e8ne Martin Yunshi Huang Fereshteh Shakeri Jean-Christophe Pesquet and Ismail Ben Ayed. 2024. Transductive Zero-Shot and Few-Shot CLIP. In CVPR.","DOI":"10.1109\/CVPR52733.2024.02722"},{"key":"e_1_3_2_1_41_1","volume-title":"Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734","author":"Mokady Ron","year":"2021","unstructured":"Ron Mokady, Amir Hertz, and Amit H Bermano. 2021. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734 (2021)."},{"key":"e_1_3_2_1_42_1","volume-title":"Slip: Self-supervision meets language-image pre-training. In ECCV.","author":"Mu Norman","year":"2022","unstructured":"Norman Mu, Alexander Kirillov, David Wagner, and Saining Xie. 2022. Slip: Self-supervision meets language-image pre-training. In ECCV."},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Kishore Papineni Salim Roukos Todd Ward and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In ACL.","DOI":"10.3115\/1073083.1073135"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"crossref","unstructured":"Filip Radenovic Abhimanyu Dubey Abhishek Kadian Todor Mihaylov Simon Vandenhende Yash Patel Yi Wen Vignesh Ramanathan and Dhruv Mahajan. 2023. Filtering distillation and hard negatives for vision-language pre-training. In CVPR.","DOI":"10.1109\/CVPR52729.2023.00673"},{"key":"e_1_3_2_1_45_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., 2021. Learning transferable visual models from natural language supervision. In ICML."},{"key":"e_1_3_2_1_46_1","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei Ilya Sutskever et al. 2019. Language models are unsupervised multitask learners. OpenAI blog (2019)."},{"key":"e_1_3_2_1_47_1","unstructured":"Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman Mehdi Cherti Theo Coombes Aarush Katta Clayton Mullis Mitchell Wortsman Patrick Schramowski Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt Robert Kaczmarczyk and Jenia Jitsev. 2022. LAION-5B: An open large-scale dataset for training next generation image-text models. In NeurIPS."},{"key":"e_1_3_2_1_48_1","volume-title":"NeurIPS Workshop.","author":"Schuhmann Christoph","year":"2021","unstructured":"Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. 2021. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. In NeurIPS Workshop."},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Shuai Shao Yu Bai Yan Wang Baodi Liu and Yicong Zhou. 2024. DeIL: Direct-and-Inverse CLIP for Open-World Few-Shot Learning. In CVPR.","DOI":"10.1109\/CVPR52733.2024.02693"},{"key":"e_1_3_2_1_50_1","volume-title":"Eva-clip: Improved training techniques for clip at scale. arXiv:2303.15389","author":"Sun Quan","year":"2023","unstructured":"Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, and Yue Cao. 2023. Eva-clip: Improved training techniques for clip at scale. arXiv:2303.15389 (2023)."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"crossref","unstructured":"Yuwei Tang Zhenyi Lin Qilong Wang Pengfei Zhu and Qinghua Hu. 2024. AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning. In CVPR.","DOI":"10.1109\/CVPR52733.2024.02201"},{"key":"e_1_3_2_1_52_1","volume-title":"Efficiency of a good but not linear set union algorithm. JACM","author":"Tarjan Robert Endre","year":"1975","unstructured":"Robert Endre Tarjan. 1975. Efficiency of a good but not linear set union algorithm. JACM (1975)."},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1145\/2812802"},{"key":"e_1_3_2_1_54_1","volume-title":"Visualizing data using t-SNE. JMLR","author":"der Maaten Laurens Van","year":"2008","unstructured":"Laurens Van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-SNE. JMLR (2008)."},{"key":"e_1_3_2_1_55_1","volume-title":"Cider: Consensus-based image description evaluation. In CVPR.","author":"Vedantam Ramakrishna","year":"2015","unstructured":"Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. 2015. Cider: Consensus-based image description evaluation. In CVPR."},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"crossref","unstructured":"Jingyun Wang and Guoliang Kang. 2024. Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation. In CVPR.","DOI":"10.1109\/CVPR52733.2024.00393"},{"key":"e_1_3_2_1_57_1","volume-title":"Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In ICML.","author":"Wang Peng","year":"2022","unstructured":"Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. 2022. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In ICML."},{"key":"e_1_3_2_1_58_1","volume-title":"Scaling Pre-training to One Hundred Billion Data for Vision Language Models. arXiv preprint arXiv:2502.07617","author":"Wang Xiao","year":"2025","unstructured":"Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, and Xiaohua Zhai. 2025. Scaling Pre-training to One Hundred Billion Data for Vision Language Models. arXiv preprint arXiv:2502.07617 (2025)."},{"key":"e_1_3_2_1_59_1","first-page":"7031","article-title":"Cora: Adapting clip for open-vocabulary detection with region prompting and anchor pre-matching","author":"Wu Xiaoshi","year":"2023","unstructured":"Xiaoshi Wu, Feng Zhu, Rui Zhao, and Hongsheng Li. 2023. Cora: Adapting clip for open-vocabulary detection with region prompting and anchor pre-matching. In CVPR. 7031-7040.","journal-title":"CVPR."},{"key":"e_1_3_2_1_60_1","volume-title":"Alip: Adaptive language-image pre-training with synthetic caption. In ICCV.","author":"Yang Kaicheng","year":"2023","unstructured":"Kaicheng Yang, Jiankang Deng, Xiang An, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang, and Tongliang Liu. 2023. Alip: Adaptive language-image pre-training with synthetic caption. In ICCV."},{"key":"e_1_3_2_1_61_1","doi-asserted-by":"crossref","unstructured":"Kaicheng Yang Tiancheng Gu Xiang An Haiqiang Jiang Xiangzi Dai Ziyong Feng Weidong Cai and Jiankang Deng. 2025. CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination. In AAAI.","DOI":"10.1609\/aaai.v39i20.35505"},{"key":"e_1_3_2_1_62_1","first-page":"3877","article-title":"Visual Grounding with Multi-modal Conditional Adaptation","author":"Yao Ruilin","year":"2024","unstructured":"Ruilin Yao, Shengwu Xiong, Yichen Zhao, and Yi Rong. 2024. Visual Grounding with Multi-modal Conditional Adaptation. In ACMMM. 3877-3886.","journal-title":"ACMMM."},{"key":"e_1_3_2_1_63_1","volume-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL","author":"Young Peter","year":"2014","unstructured":"Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier. 2014. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL (2014)."},{"key":"e_1_3_2_1_64_1","volume-title":"Capsfusion: Rethinking image-text data at scale. In CVPR.","author":"Yu Qiying","year":"2024","unstructured":"Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, and Jingjing Liu. 2024. Capsfusion: Rethinking image-text data at scale. In CVPR."},{"key":"e_1_3_2_1_65_1","first-page":"419","article-title":"A Picture Is Worth a Graph","author":"Zheng Changmeng","year":"2024","unstructured":"Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, and Qing Li. 2024a. A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning. In ACMMM. 419-428.","journal-title":"A Blueprint Debate Paradigm for Multimodal Reasoning. In ACMMM."},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"crossref","unstructured":"Kecheng Zheng Yifei Zhang Wei Wu Fan Lu Shuailei Ma Xin Jin Wei Chen and Yujun Shen. 2024b. DreamLIP: Language-Image Pre-training with Long Captions. In ECCV.","DOI":"10.1007\/978-3-031-72649-1_5"},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"crossref","unstructured":"Yaowei Zheng Richong Zhang Junhao Zhang Yanhan Ye Zheyan Luo Zhangchi Feng and Yongqiang Ma. 2024c. LlamaFactory: Unified Efficient Fine-Tuning of 100 Language Models. In ACL.","DOI":"10.18653\/v1\/2024.acl-demos.38"},{"key":"e_1_3_2_1_68_1","first-page":"11175","article-title":"Zegclip: Towards adapting clip for zero-shot semantic segmentation","author":"Zhou Ziqin","year":"2023","unstructured":"Ziqin Zhou, Yinjie Lei, Bowen Zhang, Lingqiao Liu, and Yifan Liu. 2023. Zegclip: Towards adapting clip for zero-shot semantic segmentation. In CVPR. 11175-11185.","journal-title":"CVPR."},{"key":"e_1_3_2_1_69_1","first-page":"48","article-title":"Do LLMs Understand Visual Anomalies","author":"Zhu Jiaqi","year":"2024","unstructured":"Jiaqi Zhu, Shaofeng Cai, Fang Deng, Beng Chin Ooi, and Junran Wu. 2024a. Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection. In ACMMM. 48-57.","journal-title":"Uncovering LLM's Capabilities in Zero-shot Anomaly Detection. In ACMMM."},{"key":"e_1_3_2_1_70_1","volume-title":"Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, and Yejin Choi.","author":"Zhu Wanrong","year":"2024","unstructured":"Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, and Yejin Choi. 2024b. Multimodal c4: An open, billion-scale corpus of images interleaved with text. In NeurIPS."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755098","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:21:10Z","timestamp":1765308070000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755098"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":70,"alternative-id":["10.1145\/3746027.3755098","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755098","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}