{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T19:10:05Z","timestamp":1755889805594,"version":"3.44.0"},"publisher-location":"New York, NY, USA","reference-count":61,"publisher":"ACM","funder":[{"name":"National Key R&D Program of China","award":["2022ZD0160300"],"award-info":[{"award-number":["2022ZD0160300"]}]},{"DOI":"10.13039\/501100006374","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62276004, 62372054"],"award-info":[{"award-number":["62276004, 62372054"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,7,13]]},"DOI":"10.1145\/3726302.3729899","type":"proceedings-article","created":{"date-parts":[[2025,7,14]],"date-time":"2025-07-14T14:55:26Z","timestamp":1752504926000},"page":"895-905","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1348-9218","authenticated-orcid":false,"given":"Yong","family":"Chen","sequence":"first","affiliation":[{"name":"School of Computer Science, BUPT, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-4124-4151","authenticated-orcid":false,"given":"Yuxiang","family":"Zhou","sequence":"additional","affiliation":[{"name":"School of Computer Science, BUPT, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-6177-8440","authenticated-orcid":false,"given":"Hailiang","family":"Dong","sequence":"additional","affiliation":[{"name":"School of Computer Science, BUPT, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1373-6108","authenticated-orcid":false,"given":"Rui","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Beihang University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1493-7569","authenticated-orcid":false,"given":"Zhouchen","family":"Lin","sequence":"additional","affiliation":[{"name":"School of Intelligence Science and Technology, Peking University, Beijing, China, State Key Lab of General AI &amp; Institute for AI, Peking University, Beijing, China, and Pazhou Laboratory, Guangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8774-3725","authenticated-orcid":false,"given":"Dell","family":"Zhang","sequence":"additional","affiliation":[{"name":"Institute for Artificial Intelligence, China TeleAI, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,7,13]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"Han Cai Ligeng Zhu and Song Han. 2019. ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware. In ICLR."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Boyu Chen Peixia Li Chuming Li Baopu Li Lei Bai Chen Lin Ming Sun Junjie Yan and Wanli Ouyang. 2021c. GLiT: Neural Architecture Search for Global and Local Image Transformer. In ICCV. 12--21.","DOI":"10.1109\/ICCV48922.2021.00008"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.3390\/s21093094"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3610299"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"crossref","unstructured":"Liang Chen Xueming Yan Zilong Wang and Han Huang. 2023b. Neural Architecture Search with Heterogeneous Representation Learning for Zero-Shot Multi-Label Text Classification. In IJCNN. 1--8.","DOI":"10.1109\/IJCNN54540.2023.10191902"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"crossref","unstructured":"Minghao Chen Houwen Peng Jianlong Fu and Haibin Ling. 2021 d. AutoFormer: Searching Transformers for Visual Recognition. In ICCV. 12250--12260.","DOI":"10.1109\/ICCV48922.2021.01205"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Yong Chen Yuqing Hou Shu Leng Qing Zhang Zhouchen Lin and Dell Zhang. 2021a. Long-Tail Hashing. In SIGIR. 1328--1338.","DOI":"10.1145\/3404835.3462888"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2963952"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2020.2995195"},{"key":"e_1_3_2_1_10_1","volume-title":"Mirrokni","author":"Datar Mayur","year":"2004","unstructured":"Mayur Datar, Nicole Immorlica, Piotr Indyk, and Vahab S. Mirrokni. 2004. Locality-sensitive hashing scheme based on p-stable distributions. In SCG. 253--262."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1561\/2200000119"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3368924"},{"key":"e_1_3_2_1_13_1","article-title":"Neural Architecture Search: A Survey","volume":"20","author":"Elsken Thomas","year":"2019","unstructured":"Thomas Elsken, Jan Hendrik Metzen, and Frank Hutter. 2019. Neural Architecture Search: A Survey. J. Mach. Learn. Res., Vol. 20 (2019), 55:1--55:21.","journal-title":"J. Mach. Learn. Res."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Yingying Gao Shilei Zhang Zihao Cui Chao Deng and Junlan Feng. 2023. Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search. In InterSpeech. 246--250.","DOI":"10.21437\/Interspeech.2023-341"},{"key":"e_1_3_2_1_15_1","volume-title":"Ast: Audio spectrogram transformer. arXiv preprint arXiv:2104.01778","author":"Gong Yuan","year":"2021","unstructured":"Yuan Gong, Yu-An Chung, and James Glass. 2021. Ast: Audio spectrogram transformer. arXiv preprint arXiv:2104.01778 (2021)."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Yunchao Gong and Svetlana Lazebnik. 2011. Iterative quantization: A procrustean approach to learning binary codes. In CVPR. 817--824.","DOI":"10.1109\/CVPR.2011.5995432"},{"key":"e_1_3_2_1_17_1","volume-title":"Mamba: Linear-Time Sequence Modeling with Selective State Spaces. CoRR","author":"Gu Albert","year":"2023","unstructured":"Albert Gu and Tri Dao. 2023. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. CoRR, Vol. abs\/2312.00752 (2023)."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Yun Gu Chao Ma and Jie Yang. 2016. Supervised Recurrent Hashing for Large Scale Video Retrieval. In ACM Multimedia. 272--276.","DOI":"10.1145\/2964284.2967225"},{"key":"e_1_3_2_1_19_1","first-page":"544","article-title":"Single Path One-Shot Neural Architecture Search with Uniform Sampling","volume":"12361","author":"Guo Zichao","year":"2020","unstructured":"Zichao Guo, Xiangyu Zhang, Haoyuan Mu, Wen Heng, Zechun Liu, Yichen Wei, and Jian Sun. 2020. Single Path One-Shot Neural Architecture Search with Uniform Sampling. In ECCV, Vol. 12361. 544--560.","journal-title":"ECCV"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"Yanbin Hao Jingru Duan Hao Zhang Bin Zhu Pengyuan Zhou and Xiangnan He. 2022. Unsupervised Video Hashing with Multi-granularity Contextualization and Multi-structure Preservation. In ACM Multimedia. 3754--3763.","DOI":"10.1145\/3503161.3547836"},{"key":"e_1_3_2_1_21_1","volume-title":"Girshick","author":"He Kaiming","year":"2020","unstructured":"Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. 2020. Momentum Contrast for Unsupervised Visual Representation Learning. In CVPR. 9726--9735."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"Fabian Caba Heilbron Victor Escorcia Bernard Ghanem and Juan Carlos Niebles. 2015. ActivityNet: A large-scale video benchmark for human activity understanding. In CVPR. 961--970.","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2670560"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"crossref","unstructured":"Wang-Cheng Kang Wu-Jun Li and Zhi-Hua Zhou. 2016. Column Sampling Based Discrete Supervised Hashing. In AAAI. 1230--1236.","DOI":"10.1609\/aaai.v30i1.10176"},{"key":"e_1_3_2_1_25_1","first-page":"181","article-title":"Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval","volume":"13674","author":"Li Pandeng","year":"2022","unstructured":"Pandeng Li, Hongtao Xie, Jiannan Ge, Lei Zhang, Shaobo Min, and Yongdong Zhang. 2022. Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval. In ECCV, Vol. 13674. 181--197.","journal-title":"ECCV"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Shuyan Li Zhixiang Chen Jiwen Lu Xiu Li and Jie Zhou. 2019. Neighborhood Preserving Hashing for Scalable Video Retrieval. In ICCV. 8211--8220.","DOI":"10.1109\/ICCV.2019.00830"},{"key":"e_1_3_2_1_27_1","unstructured":"Shuyan Li Xiu Li Jiwen Lu and Jie Zhou. 2021. Self-Supervised Video Hashing via Bidirectional Transformers. In CVPR. 13549--13558."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2645404"},{"key":"e_1_3_2_1_29_1","volume-title":"DARTS: Differentiable Architecture Search. In ICLR.","author":"Liu Hanxiao","year":"2019","unstructured":"Hanxiao Liu, Karen Simonyan, and Yiming Yang. 2019. DARTS: Differentiable Architecture Search. In ICLR."},{"key":"e_1_3_2_1_30_1","volume-title":"Lightspeech: Lightweight and Fast Text to Speech with Neural Architecture Search. In ICASSP. 5699--5703.","author":"Luo Renqian","year":"2021","unstructured":"Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Jinzhu Li, Sheng Zhao, Enhong Chen, and Tie-Yan Liu. 2021. Lightspeech: Lightweight and Fast Text to Speech with Neural Architecture Search. In ICASSP. 5699--5703."},{"key":"e_1_3_2_1_31_1","first-page":"4092","article-title":"Efficient Neural Architecture Search via Parameter Sharing","volume":"80","author":"Pham Hieu","year":"2018","unstructured":"Hieu Pham, Melody Y. Guan, Barret Zoph, Quoc V. Le, and Jeff Dean. 2018. Efficient Neural Architecture Search via Parameter Sharing. In ICML, Vol. 80. 4092--4101.","journal-title":"ICML"},{"key":"e_1_3_2_1_32_1","first-page":"8748","article-title":"Learning Transferable Visual Models From Natural Language Supervision","volume":"139","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML, Vol. 139. 8748--8763.","journal-title":"ICML"},{"key":"e_1_3_2_1_33_1","volume-title":"Maciej Szankin, and Sairam Sundaresan.","author":"Sarah Anthony","year":"2024","unstructured":"Anthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, and Sairam Sundaresan. 2024. LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models. CoRR, Vol. abs\/2405.18377 (2024)."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"crossref","unstructured":"Fumin Shen Chunhua Shen Wei Liu and Heng Tao Shen. 2015. Supervised Discrete Hashing. In CVPR. 37--45.","DOI":"10.1109\/CVPR.2015.7298598"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2023.3326994"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-53311-2_13"},{"key":"e_1_3_2_1_37_1","volume-title":"Darts-Conformer: Towards Efficient Gradient-Based Neural Architecture Search For End-to-End ASR. CoRR","author":"Shi Xian","year":"2021","unstructured":"Xian Shi, Pan Zhou, Wei Chen, and Lei Xie. 2021. Darts-Conformer: Towards Efficient Gradient-Based Neural Architecture Search For End-to-End ASR. CoRR, Vol. abs\/2104.02868 (2021)."},{"key":"e_1_3_2_1_38_1","volume-title":"Heng Tao Shen, and Richang Hong","author":"Song Jingkuan","year":"2011","unstructured":"Jingkuan Song, Yi Yang, Zi Huang, Heng Tao Shen, and Richang Hong. 2011. Multiple feature hashing for real-time large scale near-duplicate video retrieval. In ACM Multimedia."},{"key":"e_1_3_2_1_39_1","first-page":"139","article-title":"ViTAS","volume":"13681","author":"Su Xiu","year":"2022","unstructured":"Xiu Su, Shan You, Jiyang Xie, Mingkai Zheng, Fei Wang, Chen Qian, Changshui Zhang, Xiao-Gang Wang, and Chang Xu. 2022. ViTAS: Vision Transformer Architecture Search. In ECCV, Vol. 13681. 139--157.","journal-title":"Vision Transformer Architecture Search. In ECCV"},{"key":"e_1_3_2_1_40_1","first-page":"3597","article-title":"EmotionNAS","author":"Sun Haiyang","year":"2023","unstructured":"Haiyang Sun, Zheng Lian, Bin Liu, Ying Li, Jianhua Tao, Licai Sun, Cong Cai, Meng Wang, and Yuan Cheng. 2023. EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition. In InterSpeech. 3597-3601.","journal-title":"Two-stream Neural Architecture Search for Speech Emotion Recognition. In InterSpeech."},{"key":"e_1_3_2_1_41_1","first-page":"2579","article-title":"Visualizing High-Dimensional Data Using t-SNE","volume":"9","author":"van der Maaten Laurens","year":"2008","unstructured":"Laurens van der Maaten and Geoffrey Hinton. 2008. Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research, Vol. 9 (2008), 2579-2605.","journal-title":"Journal of Machine Learning Research"},{"key":"e_1_3_2_1_42_1","first-page":"5998","article-title":"Attention is All you Need","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In NeurIPS. 5998-6008.","journal-title":"NeurIPS."},{"key":"e_1_3_2_1_43_1","volume-title":"HAT: Hardware-Aware Transformers for Efficient Natural Language Processing. In ACL. 7675--7688.","author":"Wang Hanrui","year":"2020","unstructured":"Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, and Song Han. 2020a. HAT: Hardware-Aware Transformers for Efficient Natural Language Processing. In ACL. 7675--7688."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"crossref","unstructured":"Liangdao Wang Yan Pan Cong Liu Hanjiang Lai Jian Yin and Ye Liu. 2023a. Deep Hashing with Minimal-Distance-Separated Hash Centers. In CVPR. 23455--23464.","DOI":"10.1109\/CVPR52729.2023.02246"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2022.109193"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCDS.2019.2963339"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"crossref","unstructured":"Yuting Wang Jinpeng Wang Bin Chen Ziyun Zeng and Shu-Tao Xia. 2023b. Contrastive Masked Autoencoders for Self-Supervised Video Hashing. In AAAI. 2733--2741.","DOI":"10.1609\/aaai.v37i3.25373"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Yujing Wang Yaming Yang Yiren Chen Jing Bai Ce Zhang Guinan Su Xiaoyu Kou Yunhai Tong Mao Yang and Lidong Zhou. 2020b. TextNAS: A Neural Architecture Search Space Tailored for Text Representation. In AAAI. 9242--9249.","DOI":"10.1609\/aaai.v34i05.6462"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Rukai Wei Yu Liu Jingkuan Song Heng Cui Yanzhao Xie and Ke Zhou. [n. d.]. CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved Self-Supervised Video Hashing. In ACM Multimedia. 1677--1688.","DOI":"10.1145\/3581783.3613440"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2882155"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"crossref","unstructured":"Ke Xia Yuqing Ma Xianglong Liu Yadong Mu and Li Liu. 2017. Temporal Binary Coding for Large-Scale Video Search. In ACM Multimedia. 333--341.","DOI":"10.1145\/3123266.3123273"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2023.3331223"},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"crossref","unstructured":"Jin Xu Xu Tan Renqian Luo Kaitao Song Jian Li Tao Qin and Tie-Yan Liu. 2021. NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search. In KDD. 1933--1943.","DOI":"10.1145\/3447548.3467262"},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3140611"},{"key":"e_1_3_2_1_55_1","unstructured":"Guangnan Ye Dong Liu Jun Wang and Shih-Fu Chang. 2013. Large-Scale Video Hashing via Structure Learning. (2013) 2272--2279."},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"crossref","unstructured":"Li Yuan Tao Wang Xiaopeng Zhang Francis E. H. Tay Zequn Jie Wei Liu and Jiashi Feng. 2020. Central Similarity Quantization for Efficient Image and Video Retrieval. In CVPR. 3080--3089.","DOI":"10.1109\/CVPR42600.2020.00315"},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"crossref","unstructured":"Lin Zhan Jiayuan Fan Peng Ye and Jianjian Cao. 2023. A2S-NAS: Asymmetric Spectral-Spatial Neural Architecture Search for Hyperspectral Image Classification. In ICASSP. 1--5.","DOI":"10.1109\/ICASSP49357.2023.10094640"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Hanwang Zhang Meng Wang Richang Hong and Tat-Seng Chua. 2016. Play and Rewind: Optimizing Binary Representations of Videos by Self-Supervised Temporal Hashing. In ACM Multimedia. 781--790.","DOI":"10.1145\/2964284.2964308"},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"crossref","unstructured":"Yuxiang Zhou Zhe Sun Rui Liu Yong Chen and Dell Zhang. 2024. AVHash: Joint Audio-Visual Hashing for Video Retrieval. In ACM Multimedia. 2370--2378.","DOI":"10.1145\/3664647.3681266"},{"key":"e_1_3_2_1_60_1","volume-title":"Le","author":"Zoph Barret","year":"2017","unstructured":"Barret Zoph and Quoc V. Le. 2017. Neural Architecture Search with Reinforcement Learning. In ICLR."},{"key":"e_1_3_2_1_61_1","volume-title":"Le","author":"Zoph Barret","year":"2018","unstructured":"Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V. Le. 2018. Learning Transferable Architectures for Scalable Image Recognition. In CVPR. 8697--8710."}],"event":{"name":"SIGIR '25: The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval"],"location":"Padua Italy","acronym":"SIGIR '25"},"container-title":["Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3726302.3729899","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T18:35:54Z","timestamp":1755887754000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3726302.3729899"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,13]]},"references-count":61,"alternative-id":["10.1145\/3726302.3729899","10.1145\/3726302"],"URL":"https:\/\/doi.org\/10.1145\/3726302.3729899","relation":{},"subject":[],"published":{"date-parts":[[2025,7,13]]},"assertion":[{"value":"2025-07-13","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}