{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T23:53:43Z","timestamp":1781740423695,"version":"3.54.5"},"reference-count":58,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,9]],"date-time":"2026-04-09T00:00:00Z","timestamp":1775692800000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100010834","name":"Education Department of Hainan Province","doi-asserted-by":"publisher","award":["Hnky2025ZD-17"],"award-info":[{"award-number":["Hnky2025ZD-17"]}],"id":[{"id":"10.13039\/501100010834","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004761","name":"Natural Science Foundation of Hainan Province","doi-asserted-by":"publisher","award":["625RC794"],"award-info":[{"award-number":["625RC794"]}],"id":[{"id":"10.13039\/501100004761","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Expert Systems with Applications"],"published-print":{"date-parts":[[2026,8]]},"DOI":"10.1016\/j.eswa.2026.132367","type":"journal-article","created":{"date-parts":[[2026,4,9]],"date-time":"2026-04-09T17:07:53Z","timestamp":1775754473000},"page":"132367","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["A collaborative optimization framework for efficient long-sequence Audio-Visual understanding"],"prefix":"10.1016","volume":"323","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-9567-7771","authenticated-orcid":false,"given":"Yiqun","family":"Ma","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-7801-5071","authenticated-orcid":false,"given":"Hao","family":"Bai","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-8828-3726","authenticated-orcid":false,"given":"Xueren","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-2552-4159","authenticated-orcid":false,"given":"Bichen","family":"Shang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9057-7519","authenticated-orcid":false,"given":"Liwei","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3099-0298","authenticated-orcid":false,"given":"Weijie","family":"Sun","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.eswa.2026.132367_sbref0001","article-title":"Madtp: Multimodal alignment-guided dynamic token pruning for accelerating vision-language transformer","author":"Cao","year":"2024","journal-title":"CoRR"},{"key":"10.1016\/j.eswa.2026.132367_bib0002","doi-asserted-by":"crossref","unstructured":"Cao, Z., Cao, Q., Lu, Y., Peng, N., Huang, L., Cheng, S., & Su, J. (2024b). Retaining key information under high compression ratios: Query-guided compressor for LLMs. https:\/\/arxiv.org\/abs\/2406.02376.","DOI":"10.18653\/v1\/2024.acl-long.685"},{"key":"10.1016\/j.eswa.2026.132367_bib0003","unstructured":"Chen, Y., Xu, J., Zhang, X.-Y., Liu, W.-Z., Liu, Y.-Y., & Liu, C.-L. (2024). Recoverable compression: A multimodal vision token recovery mechanism guided by text information. https:\/\/arxiv.org\/abs\/2409.01179."},{"key":"10.1016\/j.eswa.2026.132367_sbref0004","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103623","article-title":"A comprehensive survey of vision-language models: Pretrained models, fine-tuning, prompt engineering, adapters, and benchmark datasets","volume":"126","author":"Danish","year":"2026","journal-title":"Information Fusion"},{"key":"10.1016\/j.eswa.2026.132367_bib0005","doi-asserted-by":"crossref","unstructured":"Dao, T., Fu, D. Y., Ermon, S., Rudra, A., & Christopher, R. (2022). Flashattention: Fast and memory-efficient exact attention with IO-awareness. https:\/\/arxiv.org\/abs\/2205.14135.","DOI":"10.52202\/068431-1189"},{"issue":"1","key":"10.1016\/j.eswa.2026.132367_bib0006","doi-asserted-by":"crossref","first-page":"12","DOI":"10.1186\/s13640-025-00675-2","article-title":"Motion-driven adaptive frame selection strategy for video action recognition","volume":"2025","author":"Ding","year":"2025","journal-title":"EURASIP Journal on Image and Video Processing"},{"key":"10.1016\/j.eswa.2026.132367_bib0007","series-title":"Proceedings of the 37th international conference on neural information processing systems","article-title":"Cross-modal prompts: Adapting large pre-trained models for audio-visual downstream tasks","author":"Duan","year":"2023"},{"key":"10.1016\/j.eswa.2026.132367_sbref0008","doi-asserted-by":"crossref","DOI":"10.1016\/j.future.2025.108056","article-title":"Mosaic: Composite projection pruning for resource-efficient LLMs","volume":"175","author":"Eccles","year":"2026","journal-title":"Future Generation Computer Systems"},{"key":"10.1016\/j.eswa.2026.132367_bib0009","series-title":"Icassp 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (Icassp)","first-page":"1","article-title":"Clap learning audio concepts from natural language supervision","author":"Elizalde","year":"2023"},{"issue":"1","key":"10.1016\/j.eswa.2026.132367_bib0010","article-title":"Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity","volume":"23","author":"Fedus","year":"2022","journal-title":"Journal of Machine Learning Research"},{"key":"10.1016\/j.eswa.2026.132367_bib0011","first-page":"1","article-title":"UniAV: Unified audio-visual perception for multi-task video event localization","author":"Geng","year":"2025","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.eswa.2026.132367_bib0012","unstructured":"Huang, X., Zhou, H., & Han, K. (2024). Prunevid: Visual token pruning for efficient video large language models. https:\/\/arxiv.org\/abs\/2412.16117."},{"issue":"5","key":"10.1016\/j.eswa.2026.132367_bib0013","doi-asserted-by":"crossref","first-page":"2581","DOI":"10.1007\/s11263-024-02289-z","article-title":"Clip-powered tass: Target-aware single-stream network for audio-visual question answering","volume":"133","author":"Jiang","year":"2025","journal-title":"International Journal of Computer Vision"},{"key":"10.1016\/j.eswa.2026.132367_bib0014","unstructured":"Katharopoulos, A., Vyas, A., Pappas, N., & Fleuret, F. (2020). Transformers are RNNs: Fast autoregressive transformers with linear attention. https:\/\/arxiv.org\/abs\/2006.16236."},{"issue":"5","key":"10.1016\/j.eswa.2026.132367_bib0015","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1371\/journal.pone.0321856","article-title":"Audio-visual source separation with localization and individual control","volume":"20","author":"Kothandaraman","year":"2025","journal-title":"PLOS ONE"},{"key":"10.1016\/j.eswa.2026.132367_bib0016","unstructured":"Lei, L., Gu, J., Ma, X., Tang, C., Chen, J., & Xu, T. (2025). Generic token compression in multimodal large language models from an explainability perspective. https:\/\/arxiv.org\/abs\/2506.01097."},{"key":"10.1016\/j.eswa.2026.132367_bib0017","series-title":"Proceedings of the 32nd ACM international conference on multimedia","first-page":"5997","article-title":"Boosting audio visual question answering via key semantic-aware cues","author":"Li","year":"2024"},{"key":"10.1016\/j.eswa.2026.132367_bib0018","series-title":"2023 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"18919","article-title":"Svitt: Temporal learning of sparse video-text transformers","author":"Li","year":"2023"},{"key":"10.1016\/j.eswa.2026.132367_bib0019","series-title":"2023 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"2299","article-title":"Vision transformers are parameter-efficient audio-visual learners","author":"Lin","year":"2023"},{"key":"10.1016\/j.eswa.2026.132367_sbref0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.109403","article-title":"Leveraging contrastive language-image pre-training and bidirectional cross-attention for multimodal keyword spotting","volume":"138","author":"Liu","year":"2024","journal-title":"Engineering Applications of Artificial Intelligence"},{"key":"10.1016\/j.eswa.2026.132367_bib0021","unstructured":"Liu, T., Shi, L., Hong, R., Hu, Y., Yin, Q., & Zhang, L. (2024b). Multi-stage vision token dropping: Towards efficient multimodal large language model. https:\/\/arxiv.org\/abs\/2411.10803."},{"key":"10.1016\/j.eswa.2026.132367_sbref0022","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128997","article-title":"Audio-visual correspondences based joint learning for instrumental playing source separation","volume":"618","author":"Liu","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.eswa.2026.132367_bib0023","doi-asserted-by":"crossref","unstructured":"Liu, Z., Xie, C.-W., Li, P., Zhao, L., Tang, L., Zheng, Y., Liu, C., & Xie, H. (2025b). Hybrid-level instruction injection for video token compression in multi-modal large language models. https:\/\/arxiv.org\/abs\/2503.16036.","DOI":"10.1109\/CVPR52734.2025.00801"},{"key":"10.1016\/j.eswa.2026.132367_bib0024","doi-asserted-by":"crossref","first-page":"4945","DOI":"10.1109\/TASLP.2024.3497586","article-title":"Clapsep: Leveraging contrastive pre-trained model for multi-modal query-conditioned target sound extraction","volume":"32","author":"Ma","year":"2024","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"10.1016\/j.eswa.2026.132367_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.127449","article-title":"Efficient token pruning in vision transformers using an attention-based multilayer network","volume":"279","author":"Marchetti","year":"2025","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.132367_bib0026","unstructured":"Mehta, S., & Rastegari, M. (2021). Mobilevit: Light-weight, general-purpose, and mobile-friendly vision transformer. arXiv preprint arXiv: 2110.02178."},{"key":"10.1016\/j.eswa.2026.132367_bib0027","doi-asserted-by":"crossref","first-page":"1219","DOI":"10.1109\/TASLP.2022.3156758","article-title":"Audio-visual based online multi-source separation","volume":"30","author":"Ong","year":"2022","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"10.1016\/j.eswa.2026.132367_bib0028","doi-asserted-by":"crossref","DOI":"10.1007\/s11263-025-02510-7","article-title":"Guiding audio-visual question answering with collective question reasoning","author":"Pei","year":"2025","journal-title":"International Journal of Computer Vision"},{"key":"10.1016\/j.eswa.2026.132367_sbref0029","series-title":"International conference on machine learning","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.eswa.2026.132367_bib0030","series-title":"Proceedings of the 19th international joint conference on computer vision, imaging and computer graphics theory and applications - volume 2: VISAPP","first-page":"730","article-title":"Av-pea : Parameter-efficient adapter for audio-visual multimodal learning","author":"Radman","year":"2024"},{"key":"10.1016\/j.eswa.2026.132367_bib0031","unstructured":"Rho, K., Lee, H., Cho, J. W., & Chung, J. S. (2025). MoLT: Mixture of layer-wise tokens for efficient audio-visual learning. arXiv preprint arXiv: 2512.00115."},{"key":"10.1016\/j.eswa.2026.132367_bib0032","doi-asserted-by":"crossref","first-page":"2650","DOI":"10.1109\/TMM.2025.3535359","article-title":"Listen with seeing: Cross-modal contrastive learning for audio-visual event localization","volume":"27","author":"Sun","year":"2025","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.eswa.2026.132367_bib0033","unstructured":"Tan, X., Ye, P., Tu, C., Cao, J., Yang, Y., Zhang, L., Zhou, D., & Chen, T. (2025). Tokencarve: Information-preserving visual token compression in multimodal large language models. https:\/\/arxiv.org\/abs\/2503.10501."},{"key":"10.1016\/j.eswa.2026.132367_bib0034","unstructured":"Tao, C., Shen, T., Gao, S., Zhang, J., Li, Z., Hua, K., Hu, W., Tao, Z., & Ma, S. (2025a). Llms are also effective embedding models: An in-depth overview. https:\/\/arxiv.org\/abs\/2412.12591."},{"key":"10.1016\/j.eswa.2026.132367_bib0035","series-title":"2025 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"18992","article-title":"Dycoke : Dynamic compression of tokens for fast video large language models","author":"Tao","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0036","series-title":"Computer vision - ECCV 2020 - 16th European conference, Glasgow, UK, August 23-28, 2020, proceedings, part III","first-page":"436","article-title":"Unified multisensory perception: Weakly-supervised audio-visual video parsing","volume":"vol. 12348","author":"Tian","year":"2020"},{"key":"10.1016\/j.eswa.2026.132367_bib0037","series-title":"Computer vision \u2013 ECCV 2018","first-page":"252","article-title":"Audio-visual event localization in unconstrained videos","author":"Tian","year":"2018"},{"key":"10.1016\/j.eswa.2026.132367_bib0038","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"14570","article-title":"Flashsloth : Lightning multimodal large language models via embedded visual compression","author":"Tong","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0039","doi-asserted-by":"crossref","unstructured":"Tong, Z., Song, Y., Wang, J., & Wang, L. (2022). VideoMAE: Masked autoencoders are data-efficient learners for self-supervised video pre-training. https:\/\/arxiv.org\/abs\/2203.12602.","DOI":"10.52202\/068431-0732"},{"key":"10.1016\/j.eswa.2026.132367_sbref0040","doi-asserted-by":"crossref","DOI":"10.1016\/j.autcon.2024.105863","article-title":"Construction safety inspection with contrastive language-image pre-training (CLIP) image captioning and attention","volume":"169","author":"Tsai","year":"2025","journal-title":"Automation in Construction"},{"key":"10.1016\/j.eswa.2026.132367_sbref0041","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103415","article-title":"Towards enhanced LLM pretraining: Dynamic checkpoint merging via generation quality","volume":"125","author":"Wang","year":"2026","journal-title":"Information Fusion"},{"key":"10.1016\/j.eswa.2026.132367_bib0042","series-title":"Findings of the association for computational linguistics: ACL 2025","first-page":"15537","article-title":"Token pruning in multimodal large language models: Are we solving the right problem?","author":"Wen","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0043","series-title":"2025 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"19792","article-title":"Visionzip: Longer is better but not necessary in vision language models","author":"Yang","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0044","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.128206","article-title":"Kff: K-feature fusion token merging for vision transformer","volume":"288","author":"Yang","year":"2025","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.132367_bib0045","unstructured":"Yao, L., Li, L., Ren, S., Wang, L., Liu, Y., Sun, X., & Hou, L. (2024). Deco: Decoupling token compression from semantic abstraction in multimodal large language models. https:\/\/arxiv.org\/abs\/2405.20985."},{"key":"10.1016\/j.eswa.2026.132367_bib0046","doi-asserted-by":"crossref","unstructured":"Ye, X., Gan, Y., Ge, Y., Zhang, X.-P., & Tang, Y. (2024). Atp-llava: Adaptive token pruning for large vision language models. https:\/\/arxiv.org\/abs\/2412.00447.","DOI":"10.1109\/CVPR52734.2025.02325"},{"key":"10.1016\/j.eswa.2026.132367_bib0047","series-title":"2025 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"24972","article-title":"Atp-llava: Adaptive token pruning for large vision language models","author":"Ye","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0048","series-title":"2025 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"29836","article-title":"Voco-LLaMA: Towards vision compression with large language models","author":"Ye","year":"2025"},{"key":"10.1016\/j.eswa.2026.132367_bib0049","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"2031","article-title":"Pano-avqa: Grounded audio-visual question answering on 360deg videos","author":"Yun","year":"2021"},{"key":"10.1016\/j.eswa.2026.132367_sbref0050","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112925","article-title":"Multi-relation learning network for audio-visual event localization","volume":"310","author":"Zhang","year":"2025","journal-title":"Knowledge-Based Systems"},{"issue":"1","key":"10.1016\/j.eswa.2026.132367_bib0051","doi-asserted-by":"crossref","first-page":"15","DOI":"10.1007\/s40747-024-01654-2","article-title":"Audio-visual event localization with dual temporal-aware scene understanding and image-text knowledge bridging","volume":"11","author":"Zhang","year":"2024","journal-title":"Complex & Intelligent Systems"},{"key":"10.1016\/j.eswa.2026.132367_sbref0052","series-title":"The thirteenth international conference on learning representations","article-title":"LLaVA-mini: Efficient image and video large multimodal models with one vision token","author":"Zhang","year":"2025"},{"issue":"6","key":"10.1016\/j.eswa.2026.132367_bib0053","doi-asserted-by":"crossref","first-page":"7239","DOI":"10.1109\/TPAMI.2022.3223688","article-title":"Contrastive positive sample propagation along the audio-visual event line","volume":"45","author":"Zhou","year":"2022","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.eswa.2026.132367_bib0054","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TPAMI.2025.3561248","article-title":"Mettle: Meta-token learning for memory-efficient audio-visual adaptation","author":"Zhou","year":"2025","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.eswa.2026.132367_bib0055","series-title":"European conference on computer vision","first-page":"386","article-title":"Audio\u2013visual segmentation","author":"Zhou","year":"2022"},{"key":"10.1016\/j.eswa.2026.132367_bib0056","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"8436","article-title":"Positive sample propagation along the audio-visual event line","author":"Zhou","year":"2021"},{"key":"10.1016\/j.eswa.2026.132367_sbref0057","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.129333","article-title":"Enhanced recommendation with hypergraph mixture of experts","volume":"297","author":"Zhou","year":"2026","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.132367_sbref0058","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103638","article-title":"Multi-type context-aware conversational recommender systems via mixture-of-experts","volume":"126","author":"Zou","year":"2026","journal-title":"Information Fusion"}],"container-title":["Expert Systems with Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426012807?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426012807?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T23:24:26Z","timestamp":1781738666000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0957417426012807"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,8]]},"references-count":58,"alternative-id":["S0957417426012807"],"URL":"https:\/\/doi.org\/10.1016\/j.eswa.2026.132367","relation":{},"ISSN":["0957-4174"],"issn-type":[{"value":"0957-4174","type":"print"}],"subject":[],"published":{"date-parts":[[2026,8]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"A collaborative optimization framework for efficient long-sequence Audio-Visual understanding","name":"articletitle","label":"Article Title"},{"value":"Expert Systems with Applications","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.eswa.2026.132367","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Author(s). Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"132367"}}