{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:39Z","timestamp":1781539059056,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":41,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62562057"],"award-info":[{"award-number":["62562057"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Key research and development in Xinjiang Autonomous Region","award":["2024B03041"],"award-info":[{"award-number":["2024B03041"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810618","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1083-1091","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Structure Aware Distillation for Multimodal Intent Understanding Under Missing Modalities"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-6166-1690","authenticated-orcid":false,"given":"Lanlan","family":"Lu","sequence":"first","affiliation":[{"name":"Xinjiang University, Urumqi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5007-8805","authenticated-orcid":false,"given":"Qimeng","family":"Yang","sequence":"additional","affiliation":[{"name":"Xinjiang University, Urumqi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-3409-2092","authenticated-orcid":false,"given":"Yi","family":"Liu","sequence":"additional","affiliation":[{"name":"Xinjiang University, Urumqi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4772-7525","authenticated-orcid":false,"given":"Xinjun","family":"Pei","sequence":"additional","affiliation":[{"name":"Xinjiang University, Urumqi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0847-9813","authenticated-orcid":false,"given":"Jinmiao","family":"Song","sequence":"additional","affiliation":[{"name":"Xinjiang University, Urumqi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Alexei Baevski Yuhao Zhou Abdelrahman Mohamed and Michael Auli. 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems 33 (2020)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.972"},{"key":"e_1_3_3_1_4_2","volume-title":"Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers)","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers)."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1145\/3470482.3479636"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"crossref","unstructured":"Wei Han Hui Chen Min-Yen Kan and Soujanya Poria. 2022. MM-align: Learning optimal transport-based alignment dynamics for fast and accurate inference on missing modality sequences. arXiv:https:\/\/arXiv.org\/abs\/2210.12798 (2022).","DOI":"10.18653\/v1\/2022.emnlp-main.717"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413678"},{"key":"e_1_3_3_1_8_2","unstructured":"Geoffrey Hinton Oriol Vinyals and Jeff Dean. 2015. Distilling the knowledge in a neural network. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1503.02531 (2015)."},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i16.33898"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446922"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-emnlp.302"},{"key":"e_1_3_3_1_12_2","volume-title":"Forty-first International Conference on Machine Learning","author":"Kim Jungeun","year":"2024","unstructured":"Jungeun Kim, Junwon You, Dongjin Lee, Ha\u00a0Young Kim, and Jae-Hun Jung. 2024. Do topological characteristics help in knowledge distillation?. In Forty-first International Conference on Machine Learning."},{"key":"e_1_3_3_1_13_2","unstructured":"Sijie Li Chen Chen and Jungong Han. 2025. SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality. arXiv:https:\/\/arXiv.org\/abs\/2507.19264 (2025)."},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"crossref","unstructured":"Muhammad\u00a0Irzam Liaqat Shah Nawaz Muhammad\u00a0Zaigham Zaheer Muhammad\u00a0Saad Saeed Hassan Sajjad Tom De\u00a0Schepper Karthik Nandakumar Muhammad\u00a0Haris Khan Ignazio Gallo and Markus Schedl. 2025. Chameleon: A Multimodal Learning Framework Robust to Missing Modalities. International Journal of Multimedia Information Retrieval 14 2 (2025) 21.","DOI":"10.1007\/s13735-025-00370-y"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"crossref","unstructured":"Ronghao Lin and Haifeng Hu. 2023. Missmodal: Increasing robustness to missing modality in multimodal sentiment analysis. Transactions of the Association for Computational Linguistics 11 (2023) 1686\u20131702.","DOI":"10.1162\/tacl_a_00628"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"e_1_3_3_1_17_2","unstructured":"Ilya Loshchilov and Frank Hutter. 2017. Decoupled weight decay regularization. arXiv:https:\/\/arXiv.org\/abs\/1711.05101 (2017)."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01764"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"Sijie Mai Ying Zeng and Haifeng Hu. 2022. Multimodal information bottleneck: Learning minimal sufficient unimodal and multimodal representations. IEEE Transactions on Multimedia 25 (2022) 4121\u20134134.","DOI":"10.1109\/TMM.2022.3171679"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1145\/3395035.3425202"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00481"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.214"},{"key":"e_1_3_3_1_23_2","unstructured":"Merey Ramazanova Alejandro Pardo Bernard Ghanem and Motasem Alfarra. 2024. Test-time adaptation for combating missing modalities in egocentric videos. arXiv:https:\/\/arXiv.org\/abs\/2404.15161 (2024)."},{"key":"e_1_3_3_1_24_2","unstructured":"Md\u00a0Kaykobad Reza Ashley Prater-Bennette and M\u00a0Salman Asif. 2024. Robust multimodal learning with missing modalities via parameter-efficient adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence (2024)."},{"key":"e_1_3_3_1_25_2","unstructured":"Muhammad\u00a0Saad Saeed Shah Nawaz Muhammad\u00a0Zaigham Zaheer Muhammad\u00a0Haris Khan Karthik Nandakumar Muhammad\u00a0Haroon Yousaf Hassan Sajjad Tom De\u00a0Schepper and Markus Schedl. 2024. Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach. arXiv:https:\/\/arXiv.org\/abs\/2408.07445 (2024)."},{"key":"e_1_3_3_1_26_2","unstructured":"Zhongyi Sang Kotaro Funakoshi and Manabu Okumura. 2024. Contrastive Knowledge Distillation for Robust Multimodal Sentiment Analysis. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.08692 (2024)."},{"key":"e_1_3_3_1_27_2","unstructured":"Maria Santos-Villafranca Dustin Carri\u00f3n-Ojeda Alejandro Perez-Yus Jesus Bermudez-Cameo Jose\u00a0J Guerrero and Simone Schaub-Meyer. 2025. Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.08578 (2025)."},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Yaomin Shen Xiaojian Lin and Wei Fan. 2025. A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition. arXiv:https:\/\/arXiv.org\/abs\/2503.19474 (2025).","DOI":"10.1109\/ICME59968.2025.11209824"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.636"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1656"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i14.29474"},{"key":"e_1_3_3_1_32_2","unstructured":"Qi Wang and Jinjia Zhou. 2025. TopKD: Top-scaled Knowledge Distillation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.04539 (2025)."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02013"},{"key":"e_1_3_3_1_34_2","unstructured":"Renjie Wu Hu Wang Hsiang-Ting Chen and Gustavo Carneiro. 2024. Deep multimodal learning with missing modality: A survey. arXiv:https:\/\/arXiv.org\/abs\/2409.07825 (2024)."},{"key":"e_1_3_3_1_35_2","unstructured":"Kaining Ying Fanqing Meng Jin Wang Zhiqian Li Han Lin Yue Yang Hao Zhang Wenbo Zhang Yuqi Lin Shuo Liu et\u00a0al. 2024. Mmt-bench: A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask agi. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.16006 (2024)."},{"key":"e_1_3_3_1_36_2","unstructured":"Hanlei Zhang Xin Wang Hua Xu Qianrui Zhou Kai Gao Jianhua Su Wenrui Li Yanting Chen et\u00a0al. 2024. Mintrec2. 0: A large-scale benchmark dataset for multimodal intent recognition and out-of-scope detection in conversations. arXiv:https:\/\/arXiv.org\/abs\/2403.10943 (2024)."},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547906"},{"key":"e_1_3_3_1_38_2","unstructured":"Jingwei Zhao Yuhua Wen Qifei Li Minchi Hu Yingying Zhou Jingyao Xue Junyang Wu Yingming Gao Zhengqi Wen Jianhua Tao et\u00a0al. 2025. Deep Learning Approaches for Multimodal Intent Recognition: A Survey. arXiv:https:\/\/arXiv.org\/abs\/2507.22934 (2025)."},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICMEW63481.2024.10645412"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i15.29656"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"crossref","unstructured":"Songling Zhu Ronghua Shang Bo Yuan Weitong Zhang Wenjie Li Yangyang Li and Licheng Jiao. 2024. DynamicKD: An effective knowledge distillation via dynamic entropy correction-based distillation for gap optimizing. Pattern Recognition 153 (2024) 110545.","DOI":"10.1016\/j.patcog.2024.110545"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681623"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:43:12Z","timestamp":1781538192000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810618"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":41,"alternative-id":["10.1145\/3805622.3810618","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810618","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}