{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:00:21Z","timestamp":1765339221847,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":62,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["52441801"],"award-info":[{"award-number":["52441801"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"TCL Technology Innovation Funding","award":["SS2024105"],"award-info":[{"award-number":["SS2024105"]}]},{"name":"Fundamental Research Funds for the Central Universities (UESTC)","award":["ZYGX2024Z008"],"award-info":[{"award-number":["ZYGX2024Z008"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755740","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T06:55:00Z","timestamp":1761375300000},"page":"5080-5089","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["PatAug: Augmentation of Augmentation for Test-Time Adaptation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5109-9966","authenticated-orcid":false,"given":"Xinyao","family":"Li","sequence":"first","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-9846-7775","authenticated-orcid":false,"given":"Dan","family":"Zhang","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9406-3920","authenticated-orcid":false,"given":"Zhekai","family":"Du","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2993-7142","authenticated-orcid":false,"given":"Lei","family":"Zhu","sequence":"additional","affiliation":[{"name":"Tongji University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9385-144X","authenticated-orcid":false,"given":"Zhi","family":"Chen","sequence":"additional","affiliation":[{"name":"University of Southern Queensland, Toowoomba, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5504-2529","authenticated-orcid":false,"given":"Jingjing","family":"Li","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv:2203.17274","author":"Bahng Hyojin","year":"2022","unstructured":"Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan, and Phillip Isola. 2022. Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv:2203.17274 (2022)."},{"key":"e_1_3_2_1_2_1","first-page":"446","volume-title":"Switzerland","author":"Bossard Lukas","year":"2014","unstructured":"Lukas Bossard, Matthieu Guillaumin, and Luc Van Gool. 2014. Food-101-mining discriminative components with random forests. In Computer vision-ECCV 2014: 13th European conference, zurich, Switzerland, September 6-12, 2014, proceedings, part VI 13. Springer, 446-461."},{"key":"e_1_3_2_1_3_1","volume-title":"Pali: A jointly-scaled multilingual language-image model. arXiv preprint arXiv:2209.06794","author":"Chen Xi","year":"2022","unstructured":"Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, et al., 2022. Pali: A jointly-scaled multilingual language-image model. arXiv preprint arXiv:2209.06794 (2022)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_4_1","DOI":"10.1145\/3581783.3611823"},{"key":"e_1_3_2_1_5_1","volume-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision.","author":"Chen Zhi","year":"2025","unstructured":"Zhi Chen, Zecheng Zhao, Jingcai Guo, Jingjing Li, and Zi Huang. 2025. SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning. In Proceedings of the IEEE\/CVF International Conference on Computer Vision."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_6_1","DOI":"10.1109\/CVPR.2014.461"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_7_1","DOI":"10.1109\/WACVW60836.2024.00106"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_8_1","DOI":"10.1109\/CVPR.2009.5206848"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_9_1","DOI":"10.1109\/CVPR52733.2024.02206"},{"key":"e_1_3_2_1_10_1","volume-title":"Adversarial reprogramming of neural networks. arXiv preprint arXiv:1806.11146","author":"Elsayed Gamaleldin F","year":"2018","unstructured":"Gamaleldin F Elsayed, Ian Goodfellow, and Jascha Sohl-Dickstein. 2018. Adversarial reprogramming of neural networks. arXiv preprint arXiv:1806.11146 (2018)."},{"key":"e_1_3_2_1_11_1","volume-title":"Frustratingly easy test-time adaptation of vision-language models. arXiv preprint arXiv:2405.18330","author":"Farina Matteo","year":"2024","unstructured":"Matteo Farina, Gianni Franchi, Giovanni Iacca, Massimiliano Mancini, and Elisa Ricci. 2024. Frustratingly easy test-time adaptation of vision-language models. arXiv preprint arXiv:2405.18330 (2024)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_12_1","DOI":"10.1109\/CVPR.2004.383"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_13_1","DOI":"10.1109\/ICCV51070.2023.00255"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_14_1","DOI":"10.1609\/aaai.v37i6.25922"},{"key":"e_1_3_2_1_15_1","volume-title":"Domain adaptation via prompt learning","author":"Ge Chunjiang","year":"2023","unstructured":"Chunjiang Ge, Rui Huang, Mixue Xie, Zihang Lai, Shiji Song, Shuang Li, and Gao Huang. 2023. Domain adaptation via prompt learning. IEEE Transactions on Neural Networks and Learning Systems (2023)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_16_1","DOI":"10.1109\/TASLPRO.2025.3547217"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_17_1","DOI":"10.1109\/JSTARS.2019.2918242"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_18_1","DOI":"10.1109\/ICCV48922.2021.00823"},{"key":"e_1_3_2_1_19_1","volume-title":"Augmix: A simple data processing method to improve robustness and uncertainty. arXiv preprint arXiv:1912.02781","author":"Hendrycks Dan","year":"2019","unstructured":"Dan Hendrycks, Norman Mu, Ekin D Cubuk, Barret Zoph, Justin Gilmer, and Balaji Lakshminarayanan. 2019. Augmix: A simple data processing method to improve robustness and uncertainty. arXiv preprint arXiv:1912.02781 (2019)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_20_1","DOI":"10.1109\/CVPR46437.2021.01501"},{"key":"e_1_3_2_1_21_1","volume-title":"A visual-language foundation model for pathology image analysis using medical twitter. Nature medicine","author":"Huang Zhi","year":"2023","unstructured":"Zhi Huang, Federico Bianchi, Mert Yuksekgonul, Thomas J Montine, and James Zou. 2023. A visual-language foundation model for pathology image analysis using medical twitter. Nature medicine, Vol. 29, 9 (2023), 2307-2316."},{"key":"e_1_3_2_1_22_1","volume-title":"Learning loss for test-time augmentation. Advances in neural information processing systems","author":"Kim Ildoo","year":"2020","unstructured":"Ildoo Kim, Younghoon Kim, and Sungwoong Kim. 2020. Learning loss for test-time augmentation. Advances in neural information processing systems, Vol. 33 (2020), 4163-4174."},{"key":"e_1_3_2_1_23_1","volume-title":"Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980","author":"Kingma Diederik P","year":"2014","unstructured":"Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_24_1","DOI":"10.1109\/ICCVW.2013.77"},{"key":"e_1_3_2_1_25_1","volume-title":"Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems","author":"Krizhevsky Alex","year":"2012","unstructured":"Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, Vol. 25 (2012)."},{"key":"e_1_3_2_1_26_1","volume-title":"The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691","author":"Lester Brian","year":"2021","unstructured":"Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691 (2021)."},{"key":"e_1_3_2_1_27_1","volume-title":"Unified Modality Separation: A Vision-Language Framework for Unsupervised Domain Adaptation","author":"Li Xinyao","year":"2025","unstructured":"Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, and Heng Tao Shen. 2025a. Unified Modality Separation: A Vision-Language Framework for Unsupervised Domain Adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence (2025), 1-15."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_28_1","DOI":"10.1609\/aaai.v38i12.29272"},{"key":"e_1_3_2_1_29_1","volume-title":"Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey. arXiv preprint arXiv:2506.18504","author":"Li Xinyao","year":"2025","unstructured":"Xinyao Li, Jingjing Li, Fengling Li, Lei Zhu, Yang Yang, and Heng Tao Shen. 2025b. Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey. arXiv preprint arXiv:2506.18504 (2025)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_30_1","DOI":"10.1109\/CVPR52733.2024.02205"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_31_1","DOI":"10.1007\/s11263-024-02181-w"},{"key":"e_1_3_2_1_32_1","volume-title":"Fine-grained visual classification of aircraft. arXiv preprint arXiv:1306.5151","author":"Maji Subhransu","year":"2013","unstructured":"Subhransu Maji, Esa Rahtu, Juho Kannala, Matthew Blaschko, and Andrea Vedaldi. 2013. Fine-grained visual classification of aircraft. arXiv preprint arXiv:1306.5151 (2013)."},{"key":"e_1_3_2_1_33_1","volume-title":"Test-time augmentation for deep learning-based cell segmentation on microscopy images. Scientific reports","author":"Moshkov Nikita","year":"2020","unstructured":"Nikita Moshkov, Botond Mathe, Attila Kertesz-Farkas, Reka Hollandi, and Peter Horvath. 2020. Test-time augmentation for deep learning-based cell segmentation on microscopy images. Scientific reports, Vol. 10, 1 (2020), 5068."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_34_1","DOI":"10.1109\/ICVGIP.2008.47"},{"key":"e_1_3_2_1_35_1","volume-title":"International conference on machine learning. PMLR, 16888-16905","author":"Niu Shuaicheng","year":"2022","unstructured":"Shuaicheng Niu, Jiaxiang Wu, Yifan Zhang, Yaofo Chen, Shijian Zheng, Peilin Zhao, and Mingkui Tan. 2022. Efficient test-time model adaptation without forgetting. In International conference on machine learning. PMLR, 16888-16905."},{"key":"e_1_3_2_1_36_1","volume-title":"Towards stable test-time adaptation in dynamic wild world. arXiv preprint arXiv:2302.12400","author":"Niu Shuaicheng","year":"2023","unstructured":"Shuaicheng Niu, Jiaxiang Wu, Yifan Zhang, Zhiquan Wen, Yaofo Chen, Peilin Zhao, and Mingkui Tan. 2023. Towards stable test-time adaptation in dynamic wild world. arXiv preprint arXiv:2302.12400 (2023)."},{"key":"e_1_3_2_1_37_1","volume-title":"Moslem Yazdanpanah, Ali Bahri, Milad Cheraghalikhani, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, and Christian Desrosiers.","author":"Osowiechi David","year":"2024","unstructured":"David Osowiechi, Mehrdad Noori, Gustavo Adolfo Vargas Hakim, Moslem Yazdanpanah, Ali Bahri, Milad Cheraghalikhani, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, and Christian Desrosiers. 2024. WATT: Weight Average Test-Time Adaptation of CLIP. arXiv preprint arXiv:2406.13875 (2024)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_38_1","DOI":"10.1109\/WACVW60836.2024.00107"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_39_1","DOI":"10.1109\/CVPR.2012.6248092"},{"key":"e_1_3_2_1_40_1","volume-title":"International conference on machine learning. PMLR, 8748-8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PMLR, 8748-8763."},{"key":"e_1_3_2_1_41_1","volume-title":"International conference on machine learning. PMLR, 5389-5400","author":"Recht Benjamin","year":"2019","unstructured":"Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, and Vaishaal Shankar. 2019. Do imagenet classifiers generalize to imagenet?. In International conference on machine learning. PMLR, 5389-5400."},{"key":"e_1_3_2_1_42_1","first-page":"15270","article-title":"Unadversarial examples: Designing objects for robust vision","volume":"34","author":"Salman Hadi","year":"2021","unstructured":"Hadi Salman, Andrew Ilyas, Logan Engstrom, Sai Vemprala, Aleksander Madry, and Ashish Kapoor. 2021. Unadversarial examples: Designing objects for robust vision. Advances in Neural Information Processing Systems, Vol. 34 (2021), 15270-15284.","journal-title":"Advances in Neural Information Processing Systems"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_43_1","DOI":"10.1109\/ICCV.2017.74"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_44_1","DOI":"10.1109\/ICCV48922.2021.00125"},{"key":"e_1_3_2_1_45_1","volume-title":"A mathematical theory of communication. The Bell system technical journal","author":"Shannon Claude E","year":"1948","unstructured":"Claude E Shannon. 1948. A mathematical theory of communication. The Bell system technical journal, Vol. 27, 3 (1948), 379-423."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_46_1","DOI":"10.1186\/s40537-019-0197-0"},{"key":"e_1_3_2_1_47_1","first-page":"14274","article-title":"Test-time prompt tuning for zero-shot generalization in vision-language models","volume":"35","author":"Shu Manli","year":"2022","unstructured":"Manli Shu, Weili Nie, De-An Huang, Zhiding Yu, Tom Goldstein, Anima Anandkumar, and Chaowei Xiao. 2022. Test-time prompt tuning for zero-shot generalization in vision-language models. Advances in Neural Information Processing Systems, Vol. 35 (2022), 14274-14289.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_48_1","volume-title":"International Conference on Machine Learning. PMLR, 31716-31731","author":"Shu Yang","year":"2023","unstructured":"Yang Shu, Xingzhuo Guo, Jialong Wu, Ximei Wang, Jianmin Wang, and Mingsheng Long. 2023. Clipood: Generalizing clip to out-of-distributions. In International Conference on Machine Learning. PMLR, 31716-31731."},{"key":"e_1_3_2_1_49_1","volume-title":"Centaur: Robust End-to-End Autonomous Driving with Test-Time Training. arXiv preprint arXiv:2503.11650","author":"Sima Chonghao","year":"2025","unstructured":"Chonghao Sima, Kashyap Chitta, Zhiding Yu, Shiyi Lan, Ping Luo, Andreas Geiger, Hongyang Li, and Jose M Alvarez. 2025. Centaur: Robust End-to-End Autonomous Driving with Test-Time Training. arXiv preprint arXiv:2503.11650 (2025)."},{"key":"e_1_3_2_1_50_1","first-page":"1","article-title":"A dataset of 101 human action classes from videos in the wild","volume":"2","author":"Soomro Khurram","year":"2012","unstructured":"Khurram Soomro, Amir Roshan Zamir, and Mubarak Shah. 2012. A dataset of 101 human action classes from videos in the wild. Center for Research in Computer Vision, Vol. 2, 11 (2012), 1-7.","journal-title":"Center for Research in Computer Vision"},{"key":"e_1_3_2_1_51_1","volume-title":"International conference on machine learning. PMLR, 9229-9248","author":"Sun Yu","year":"2020","unstructured":"Yu Sun, Xiaolong Wang, Zhuang Liu, John Miller, Alexei Efros, and Moritz Hardt. 2020. Test-time training with self-supervision for generalization under distribution shifts. In International conference on machine learning. PMLR, 9229-9248."},{"key":"e_1_3_2_1_52_1","volume-title":"Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, et al.","author":"Tschannen Michael","year":"2025","unstructured":"Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, et al., 2025. Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features. arXiv preprint arXiv:2502.14786 (2025)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_53_1","DOI":"10.1109\/CVPR.2017.572"},{"key":"e_1_3_2_1_54_1","volume-title":"Tent: Fully test-time adaptation by entropy minimization. arXiv preprint arXiv:2006.10726","author":"Wang Dequan","year":"2020","unstructured":"Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Olshausen, and Trevor Darrell. 2020. Tent: Fully test-time adaptation by entropy minimization. arXiv preprint arXiv:2006.10726 (2020)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_55_1","DOI":"10.1016\/j.neucom.2019.01.103"},{"key":"e_1_3_2_1_56_1","volume-title":"Advances in Neural Information Processing Systems","volume":"32","author":"Wang Haohan","year":"2019","unstructured":"Haohan Wang, Songwei Ge, Zachary Lipton, and Eric P Xing. 2019a. Learning robust global representations by penalizing local predictive power. Advances in Neural Information Processing Systems, Vol. 32 (2019)."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_57_1","DOI":"10.1109\/CVPR52688.2022.00780"},{"key":"e_1_3_2_1_58_1","first-page":"3485","article-title":"Sun database: Large-scale scene recognition from abbey to zoo. In 2010 IEEE computer society conference on computer vision and pattern recognition","author":"Xiao Jianxiong","year":"2010","unstructured":"Jianxiong Xiao, James Hays, Krista A Ehinger, Aude Oliva, and Antonio Torralba. 2010. Sun database: Large-scale scene recognition from abbey to zoo. In 2010 IEEE computer society conference on computer vision and pattern recognition. IEEE, 3485-3492.","journal-title":"IEEE"},{"key":"e_1_3_2_1_59_1","volume-title":"Memo: Test time robustness via adaptation and augmentation. Advances in neural information processing systems","author":"Zhang Marvin","year":"2022","unstructured":"Marvin Zhang, Sergey Levine, and Chelsea Finn. 2022a. Memo: Test time robustness via adaptation and augmentation. Advances in neural information processing systems, Vol. 35 (2022), 38629-38642."},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_60_1","DOI":"10.1007\/978-3-031-19833-5_29"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_61_1","DOI":"10.1109\/CVPR52688.2022.01631"},{"doi-asserted-by":"publisher","key":"e_1_3_2_1_62_1","DOI":"10.1007\/s11263-022-01653-1"}],"event":{"sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"acronym":"MM '25","name":"MM '25: The 33rd ACM International Conference on Multimedia","location":"Dublin Ireland"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755740","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T03:58:14Z","timestamp":1765339094000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755740"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":62,"alternative-id":["10.1145\/3746027.3755740","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755740","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}