{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:13:31Z","timestamp":1765008811942,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":46,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3743093.3770998","type":"proceedings-article","created":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:08:11Z","timestamp":1765008491000},"page":"1-8","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["TriDet-MLLM: Triple-Feature Fusion Prompt Learning for AI-Generated Image Detection"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-8247-4634","authenticated-orcid":false,"given":"Yichen","family":"Liu","sequence":"first","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-4025-751X","authenticated-orcid":false,"given":"Jinqi","family":"Zhang","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-9387-1857","authenticated-orcid":false,"given":"Yuchen","family":"Zhou","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4597-1583","authenticated-orcid":false,"given":"Rongsheng","family":"Li","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8384-9234","authenticated-orcid":false,"given":"Yanxia","family":"Wu","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8177-7724","authenticated-orcid":false,"given":"Qiao","family":"Tian","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1630-4044","authenticated-orcid":false,"given":"Shang","family":"Feng","sequence":"additional","affiliation":[{"name":"Harbin Engineering University, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,12,6]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"[n. d.]. all-MiniLM-L6-v2. https:\/\/huggingface.co\/sentence-transformers\/all-MiniLM-L6-v2. Accessed: 2025-03-05."},{"key":"e_1_3_3_1_3_2","unstructured":"[n. d.]. Claude 3.7 Sonnet. https:\/\/www.anthropic.com\/news\/claude-3-7-sonnet. Accessed: 2025-03-15."},{"key":"e_1_3_3_1_4_2","unstructured":"[n. d.]. Midjourney. https:\/\/www.midjourney.com\/home. Accessed: 2025-02-27."},{"key":"e_1_3_3_1_5_2","unstructured":"Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds et\u00a0al. 2022. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems 35 (2022) 23716\u201323736."},{"key":"e_1_3_3_1_6_2","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang Humen Zhong Yuanzhi Zhu Mingkun Yang Zhaohai Li Jianqiang Wan Pengfei Wang Wei Ding Zheren Fu Yiheng Xu Jiabo Ye Xi Zhang Tianbao Xie Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu and Junyang Lin. 2025. Qwen2.5-VL Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13923 (2025)."},{"key":"e_1_3_3_1_7_2","unstructured":"James Betker Gabriel Goh Li Jing Tim Brooks Jianfeng Wang Linjie Li Long Ouyang Juntang Zhuang Joyce Lee Yufei Guo et\u00a0al. 2023. Improving image generation with better captions. Computer Science. https:\/\/cdn. openai. com\/papers\/dall-e-3. pdf 2 3 (2023) 8."},{"key":"e_1_3_3_1_8_2","unstructured":"Andrew Brock Jeff Donahue and Karen Simonyan. 2018. Large Scale GAN Training for High Fidelity Natural Image Synthesis. CoRR abs\/1809.11096 (2018). arXiv:https:\/\/arXiv.org\/abs\/1809.11096http:\/\/arxiv.org\/abs\/1809.11096"},{"key":"e_1_3_3_1_9_2","unstructured":"Davide Cozzolino Giovanni Poggi Riccardo Corvi Matthias Nie\u00dfner and Luisa Verdoliva. 2024. Raising the Bar of AI-generated Image Detection with CLIP. arxiv:https:\/\/arXiv.org\/abs\/2312.00195\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2312.00195"},{"key":"e_1_3_3_1_10_2","unstructured":"Wenliang Dai Junnan Li Dongxu Li Anthony Meng\u00a0Huat Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung and Steven Hoi. 2023. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arxiv:https:\/\/arXiv.org\/abs\/2305.06500\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2305.06500"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_3_1_12_2","first-page":"8780","volume-title":"Advances in Neural Information Processing Systems","author":"Dhariwal Prafulla","year":"2021","unstructured":"Prafulla Dhariwal and Alexander Nichol. 2021. Diffusion Models Beat GANs on Image Synthesis. In Advances in Neural Information Processing Systems , M.\u00a0Ranzato, A.\u00a0Beygelzimer, Y.\u00a0Dauphin, P.S. Liang, and J.\u00a0Wortman Vaughan (Eds.), Vol.\u00a034. Curran Associates, Inc., 8780\u20138794. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2021\/file\/49ad23d1ec9fa4bd8d77d02681df5cfa-Paper.pdf"},{"key":"e_1_3_3_1_13_2","first-page":"16890","volume-title":"Advances in Neural Information Processing Systems","volume":"35","author":"Ding Ming","year":"2022","unstructured":"Ming Ding, Wendi Zheng, Wenyi Hong, and Jie Tang. 2022. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers. In Advances in Neural Information Processing Systems , S.\u00a0Koyejo, S.\u00a0Mohamed, A.\u00a0Agarwal, D.\u00a0Belgrave, K.\u00a0Cho, and A.\u00a0Oh (Eds.), Vol.\u00a035. Curran Associates, Inc., 16890\u201316902. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2022\/file\/6baec7c4ba0a8734ccbd528a8090cb1f-Paper-Conference.pdf"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"crossref","unstructured":"Seif Eldawlatly. 2024. On the role of generative artificial intelligence in the development of brain-computer interfaces. BMC Biomedical Engineering 6 (2024). https:\/\/api.semanticscholar.org\/CorpusID:269523778","DOI":"10.1186\/s42490-024-00080-2"},{"key":"e_1_3_3_1_15_2","unstructured":"Gemini\u00a0Team et al.2024. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arxiv:https:\/\/arXiv.org\/abs\/2403.05530\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2403.05530"},{"key":"e_1_3_3_1_16_2","unstructured":"OpenAI et al.2024. GPT-4 Technical Report. arxiv:https:\/\/arXiv.org\/abs\/2303.08774\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2303.08774"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01043"},{"key":"e_1_3_3_1_18_2","unstructured":"Jonathan Ho Ajay Jain and Pieter Abbeel. 2020. Denoising Diffusion Probabilistic Models. arxiv:https:\/\/arXiv.org\/abs\/2006.11239\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2006.11239"},{"key":"e_1_3_3_1_19_2","unstructured":"Shaohan Huang Li Dong Wenhui Wang Yaru Hao Saksham Singhal Shuming Ma Tengchao Lv Lei Cui Owais\u00a0Khan Mohammed Barun Patra et\u00a0al. 2023. Language is not all you need: Aligning perception with language models. Advances in Neural Information Processing Systems 36 (2023) 72096\u201372109."},{"key":"e_1_3_3_1_20_2","unstructured":"Zhengchao Huang Bin Xia Zicheng Lin Zhun Mou and Wenming Yang. 2024. FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant. ArXiv abs\/2408.10072 (2024). https:\/\/api.semanticscholar.org\/CorpusID:271902787"},{"key":"e_1_3_3_1_21_2","unstructured":"Shan Jia Reilin Lyu Kangran Zhao Yize Chen Zhiyuan Yan Yan Ju Chuanbo Hu Xin Li Baoyuan Wu and Siwei Lyu. 2024. Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics. arxiv:https:\/\/arXiv.org\/abs\/2403.14077\u00a0[cs.AI] https:\/\/arxiv.org\/abs\/2403.14077"},{"key":"e_1_3_3_1_22_2","unstructured":"Tero Karras Timo Aila Samuli Laine and Jaakko Lehtinen. 2018. Progressive Growing of GANs for Improved Quality Stability and Variation. arxiv:https:\/\/arXiv.org\/abs\/1710.10196\u00a0[cs.NE] https:\/\/arxiv.org\/abs\/1710.10196"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"e_1_3_3_1_24_2","first-page":"19730","volume-title":"International conference on machine learning","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning. PMLR, 19730\u201319742."},{"key":"e_1_3_3_1_25_2","unstructured":"Yixuan Li Xuelin Liu Xiaoyang Wang Bu\u00a0Sung Lee Shiqi Wang Anderson Rocha and Weisi Lin. 2024. FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models. arxiv:https:\/\/arXiv.org\/abs\/2404.13306\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2404.13306"},{"key":"e_1_3_3_1_26_2","unstructured":"Xingchao Liu Chengyue Gong Lemeng Wu Shujian Zhang Hao Su and Qiang Liu. 2021. FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization. arxiv:https:\/\/arXiv.org\/abs\/2112.01573\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2112.01573"},{"key":"e_1_3_3_1_27_2","unstructured":"Yitong Liu. 2023. Implications of generative artificial intelligence for the development of the media industry. Advances in Engineering Innovation (2023). https:\/\/api.semanticscholar.org\/CorpusID:262193971"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01609"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","unstructured":"Luca Maiano Alexandra Benova Lorenzo Papa Mara Stockner Michela Marchetti Gianmarco Convertino Giuliana Mazzoni and Irene Amerini. 2024. Human Versus Machine: A Comparative Analysis in Detecting Artificial Intelligence-Generated Images. IEEE Security & Privacy 22 3 (2024) 77\u201386. 10.1109\/MSEC.2024.3390555","DOI":"10.1109\/MSEC.2024.3390555"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","unstructured":"Prema Nedungadi Kai-Yu Tang and Raghu Raman. 2024. The Transformative Power of Generative Artificial Intelligence for Achieving the Sustainable Development Goal of Quality Education. Sustainability 16 22 (2024). 10.3390\/su16229779","DOI":"10.3390\/su16229779"},{"key":"e_1_3_3_1_31_2","unstructured":"Alex Nichol Prafulla Dhariwal Aditya Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever and Mark Chen. 2021. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. CoRR abs\/2112.10741 (2021). arXiv:https:\/\/arXiv.org\/abs\/2112.10741https:\/\/arxiv.org\/abs\/2112.10741"},{"key":"e_1_3_3_1_32_2","unstructured":"Utkarsh Ojha Yuheng Li and Yong\u00a0Jae Lee. 2024. Towards Universal Fake Image Detectors that Generalize Across Generative Models. arxiv:https:\/\/arXiv.org\/abs\/2302.10174\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2302.10174"},{"key":"e_1_3_3_1_33_2","series-title":"Proceedings of Machine Learning Research","first-page":"8748","volume-title":"Proceedings of the 38th International Conference on Machine Learning","volume":"139","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0139), Marina Meila and Tong Zhang (Eds.). PMLR, 8748\u20138763. https:\/\/proceedings.mlr.press\/v139\/radford21a.html"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"crossref","unstructured":"Raghu Raman Vinith\u00a0Kumar Nair Prema Nedungadi Aditya\u00a0Kumar Sahu Robin Kowalski Sasangan Ramanathan and Krishnashree Achuthan. 2024. Fake news research trends linkages to generative artificial intelligence and sustainable development goals. Heliyon 10 (2024). https:\/\/api.semanticscholar.org\/CorpusID:267250633","DOI":"10.1016\/j.heliyon.2024.e24727"},{"key":"e_1_3_3_1_35_2","unstructured":"Aditya Ramesh Prafulla Dhariwal Alex Nichol Casey Chu and Mark Chen. 2022. Hierarchical Text-Conditional Image Generation with CLIP Latents. arxiv:https:\/\/arXiv.org\/abs\/2204.06125\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2204.06125"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_3_1_37_2","unstructured":"Yichen Shi Yuhao Gao Yingxin Lai Hongyang Wang Jun Feng Lei He Jun Wan Changsheng Chen Zitong Yu and Xiaochun Cao. 2024. SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2402.04178\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2402.04178"},{"key":"e_1_3_3_1_38_2","unstructured":"Gemini Team Rohan Anil Sebastian Borgeaud Jean-Baptiste Alayrac Jiahui Yu Radu Soricut Johan Schalkwyk Andrew\u00a0M Dai Anja Hauth Katie Millican et\u00a0al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.11805 (2023)."},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"crossref","unstructured":"K. Wach Cong\u00a0Doanh Duong Joanna Ejdys R\u016bta Kazlauskait\u0117 Pawe\u0142 Korzy\u0144ski Grzegorz Mazurek Joanna Paliszkiewicz and Ewa\u00a0Wanda Ziemba. 2023. The dark side of generative artificial intelligence: A critical analysis of controversies and risks of ChatGPT. Entrepreneurial Business and Economics Review (2023). https:\/\/api.semanticscholar.org\/CorpusID:259853259","DOI":"10.15678\/EBER.2023.110201"},{"key":"e_1_3_3_1_40_2","unstructured":"Sheng-Yu Wang Oliver Wang Richard Zhang Andrew Owens and Alexei\u00a0A. Efros. 2020. CNN-generated images are surprisingly easy to spot... for now. arxiv:https:\/\/arXiv.org\/abs\/1912.11035\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/1912.11035"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.25"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02051"},{"key":"e_1_3_3_1_43_2","unstructured":"Junyan Ye Baichuan Zhou Zilong Huang Junan Zhang Tianyi Bai Hengrui Kang Jun He Honglin Lin Zihao Wang Tong Wu et\u00a0al. 2025. LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models. ICLR (2025)."},{"key":"e_1_3_3_1_44_2","unstructured":"Fisher Yu Ari Seff Yinda Zhang Shuran Song Thomas Funkhouser and Jianxiong Xiao. 2016. LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop. arxiv:https:\/\/arXiv.org\/abs\/1506.03365\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/1506.03365"},{"key":"e_1_3_3_1_45_2","unstructured":"Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li and Yu Qiao. 2023. Llama-adapter: Efficient fine-tuning of language models with zero-init attention. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.16199 (2023)."},{"key":"e_1_3_3_1_46_2","unstructured":"Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li and Mohamed Elhoseiny. 2023. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2304.10592\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2304.10592"},{"key":"e_1_3_3_1_47_2","first-page":"77771","volume-title":"Advances in Neural Information Processing Systems","author":"Zhu Mingjian","year":"2023","unstructured":"Mingjian Zhu, Hanti4ng Chen, Qiangyu YAN, Xudong Huang, Guanyu Lin, Wei Li, Zhijun Tu, Hailin Hu, Jie Hu, and Yunhe Wang. 2023. GenImage: A Million-Scale Benchmark for Detecting AI-Generated Image. In Advances in Neural Information Processing Systems , A.\u00a0Oh, T.\u00a0Naumann, A.\u00a0Globerson, K.\u00a0Saenko, M.\u00a0Hardt, and S.\u00a0Levine (Eds.), Vol.\u00a036. Curran Associates, Inc., 77771\u201377782. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2023\/file\/f4d4a021f9051a6c18183b059117e8b5-Paper-Datasets_and_Benchmarks.pdf"}],"event":{"name":"MMAsia '25: ACM Multimedia Asia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25"},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3743093.3770998","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:08:30Z","timestamp":1765008510000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3743093.3770998"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":46,"alternative-id":["10.1145\/3743093.3770998","10.1145\/3743093"],"URL":"https:\/\/doi.org\/10.1145\/3743093.3770998","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]},"assertion":[{"value":"2025-12-06","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}