{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T14:20:22Z","timestamp":1778768422769,"version":"3.51.4"},"reference-count":60,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["624B2049"],"award-info":[{"award-number":["624B2049"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neurocomputing"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.neucom.2026.133693","type":"journal-article","created":{"date-parts":[[2026,4,15]],"date-time":"2026-04-15T08:53:23Z","timestamp":1776243203000},"page":"133693","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Fusion-regularized alignment modality-adaptive audio-visual network for audio-visual zero-shot learning"],"prefix":"10.1016","volume":"685","author":[{"given":"Siteng","family":"Ma","sequence":"first","affiliation":[]},{"given":"Xiaoyu","family":"Niu","sequence":"additional","affiliation":[]},{"given":"Haocheng","family":"Tang","sequence":"additional","affiliation":[]},{"given":"Zhe","family":"Yang","sequence":"additional","affiliation":[]},{"given":"Jisheng","family":"Chu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2393-9016","authenticated-orcid":false,"given":"Wenrui","family":"Li","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neucom.2026.133693_bib0005","doi-asserted-by":"crossref","first-page":"4840","DOI":"10.1109\/TIP.2024.3430080","article-title":"Spiking tucker fusion transformer for audio-visual zero-shot learning","volume":"33","author":"Li","year":"2024","journal-title":"IEEE Trans. Image Process."},{"issue":"11","key":"10.1016\/j.neucom.2026.133693_bib0010","doi-asserted-by":"crossref","first-page":"10772","DOI":"10.1109\/TCSVT.2025.3574499","article-title":"Multi-timescale motion-decoupled spiking transformer for audio-visual zero-shot learning","volume":"35","author":"Li","year":"2025","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.neucom.2026.133693_bib0015","series-title":"Proceedings of the 31st ACM International Conference on Multimedia (MM \u201923)","first-page":"3994","article-title":"Motion-decoupled spiking transformer for audio-visual zero-shot learning","author":"Li","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0020","series-title":"2023 IEEE International Conference on Multimedia and Expo (ICME)","first-page":"426","article-title":"Modality-fusion spiking transformer network for audio-visual zero-shot learning","author":"Li","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0025","doi-asserted-by":"crossref","first-page":"9706","DOI":"10.1109\/TCSVT.2024.3394551","article-title":"Multi-layer probabilistic association reasoning network for image-text retrieval","volume":"34","author":"Li","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.neucom.2026.133693_bib0030","series-title":"Proceedings of the 33rd ACM International Conference on Multimedia (MM \u201925)","first-page":"1112","article-title":"Discrepancy-aware attention network for enhanced audio-visual generalized zero-shot learning","author":"Yu","year":"2025"},{"key":"10.1016\/j.neucom.2026.133693_bib0035","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2025.129636","article-title":"Multi-modal spiking tensor regression network for audio-visual zero-shot learning","volume":"629","author":"Yang","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.neucom.2026.133693_bib0040","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"11671","article-title":"Adaptive confidence smoothing for generalized zero-shot learning","author":"Atzmon","year":"2019"},{"key":"10.1016\/j.neucom.2026.133693_bib0045","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"572","article-title":"A boundary-based out-of-distribution classifier for generalized zero-shot learning","author":"Chen","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0050","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"10553","article-title":"Audio-visual generalised zero-shot learning with cross-modal attention and language","author":"Mercea","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0055","series-title":"Computer Vision \u2013 ECCV 2022","first-page":"488","article-title":"Temporal and cross-modal attention for audio-visual zero-shot learning","volume":"vol. 13672","author":"Mercea","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0060","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"3090","article-title":"AVGZSLNet: audio-visual generalized zero-shot learning by reconstructing label features from multi-modal embeddings","author":"Mazumder","year":"2021"},{"key":"10.1016\/j.neucom.2026.133693_bib0065","series-title":"Proceedings of the 2023 International Joint Conference on Neural Networks (IJCNN)","first-page":"1","article-title":"A generative approach to audio-visual generalized zero-shot learning: combining contrastive and discriminative techniques","author":"Zheng","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0070","doi-asserted-by":"crossref","first-page":"2200","DOI":"10.3390\/math12142200","article-title":"Temporal\u2013semantic aligning and reasoning transformer for audio-visual zero-shot learning","volume":"12","author":"Zhang","year":"2024","journal-title":"Mathematics"},{"key":"10.1016\/j.neucom.2026.133693_bib0075","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV)","first-page":"3251","article-title":"Coordinated joint multimodal embeddings for generalized audio-visual zero-shot classification and retrieval of videos","author":"Parida","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0080","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"7873","article-title":"Hyperbolic audio-visual zero-shot learning","author":"Hong","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0085","series-title":"Advances in Neural Information Processing Systems","article-title":"Gated attention for large language models: non-linearity, sparsity, and attention-sink-free","author":"Qiu","year":"2025"},{"key":"10.1016\/j.neucom.2026.133693_bib0090","first-page":"1","article-title":"Language-guided graph representation learning for video summarization","author":"Li","year":"2025","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133693_bib0095","series-title":"Proceedings of the Fifth Workshop on Insights from Negative Results in NLP","first-page":"51","article-title":"On the limits of multi-modal meta-learning with auxiliary task modulation using conditional batch normalization","author":"Armengol-Estap\u00e9","year":"2024"},{"key":"10.1016\/j.neucom.2026.133693_bib0100","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"12054","article-title":"Audio-enhanced text-to-video retrieval using text-conditioned feature alignment","author":"Ibrahimi","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0105","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107222","article-title":"Tf-BERT: tensor-based fusion BERT for multimodal sentiment analysis","volume":"185","author":"Hou","year":"2025","journal-title":"Neural Netw."},{"key":"10.1016\/j.neucom.2026.133693_bib0110","first-page":"373","article-title":"Performance VS. Complexity comparative analysis of multimodal bilinear pooling fusion approaches for deep learning-based visual Arabic-question answering systems","volume":"143","author":"Kamel","year":"2025","journal-title":"Comput. Model. Eng. Sci."},{"key":"10.1016\/j.neucom.2026.133693_bib0115","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"8436","article-title":"Positive sample propagation along the audio-visual event line","author":"Zhou","year":"2021"},{"key":"10.1016\/j.neucom.2026.133693_bib0120","doi-asserted-by":"crossref","first-page":"7239","DOI":"10.1109\/TPAMI.2022.3223688","article-title":"Contrastive positive sample propagation along the audio-visual event line","volume":"45","author":"Zhou","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133693_bib0125","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"8362","article-title":"Towards open-vocabulary audio-visual event localization","author":"Zhou","year":"2025"},{"key":"10.1016\/j.neucom.2026.133693_bib0130","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"247","article-title":"Audio-visual event localization in unconstrained videos","author":"Tian","year":"2018"},{"key":"10.1016\/j.neucom.2026.133693_bib0135","doi-asserted-by":"crossref","first-page":"5308","DOI":"10.1007\/s11263-024-02142-3","article-title":"Advancing weakly-supervised audio-visual video parsing via segment-wise pseudo labeling","volume":"132","author":"Zhou","year":"2024","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.neucom.2026.133693_bib0140","series-title":"European Conference on Computer Vision","first-page":"35","article-title":"Label-anticipated event disentanglement for audio-visual video parsing","author":"Zhou","year":"2024"},{"key":"10.1016\/j.neucom.2026.133693_bib0145","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"10448","article-title":"Multimodal class-aware semantic enhancement network for audio-visual video parsing","volume":"vol. 39","author":"Zhao","year":"2025"},{"key":"10.1016\/j.neucom.2026.133693_bib0150","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"1326","article-title":"Exploring heterogeneous clues for weakly-supervised audio-visual video parsing","author":"Wu","year":"2021"},{"key":"10.1016\/j.neucom.2026.133693_bib0155","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"10905","article-title":"Dense audio-visual event localization under cross-modal consistency and multi-temporal granularity collaboration","volume":"vol. 39","author":"Zhou","year":"2025"},{"key":"10.1016\/j.neucom.2026.133693_bib0160","author":"Zhou"},{"key":"10.1016\/j.neucom.2026.133693_bib0165","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"22942","article-title":"Dense-localizing audio-visual events in untrimmed videos: a large-scale benchmark and baseline","author":"Geng","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0170","doi-asserted-by":"crossref","first-page":"3582","DOI":"10.1109\/TASLPRO.2025.3597461","article-title":"SHMamba: structured hyperbolic state space model for audio-visual question answering","volume":"33","author":"Yang","year":"2025","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.neucom.2026.133693_bib0175","author":"Li"},{"key":"10.1016\/j.neucom.2026.133693_bib0180","series-title":"2024 IEEE International Conference on Multimedia and Expo (ICME)","first-page":"1","article-title":"Smile: spiking multi-modal interactive label-guided enhancement network for emotion recognition","author":"Guo","year":"2024"},{"key":"10.1016\/j.neucom.2026.133693_bib0185","first-page":"1","article-title":"Mettle: meta-token learning for memory-efficient audio-visual adaptation","author":"Zhou","year":"2025","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133693_bib0190","series-title":"Findings of the Association for Computational Linguistics: ACL","first-page":"1824","article-title":"Modality-specific learning rates for effective multimodal additive late-fusion","author":"Yao","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0195","series-title":"Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence (IJCAI-24)","first-page":"5753","article-title":"Balancing multimodal learning via online logit modulation","author":"Zong","year":"2024"},{"key":"10.1016\/j.neucom.2026.133693_bib0200","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"20029","article-title":"PMR: prototypical modal rebalance for multimodal learning","author":"Fan","year":"2023"},{"key":"10.1016\/j.neucom.2026.133693_bib0205","author":"Kontras"},{"key":"10.1016\/j.neucom.2026.133693_bib0210","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"8228","article-title":"Balanced multimodal learning via on-the-fly gradient modulation","author":"Peng","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0215","series-title":"Proceedings of the 27th ACM International Conference on Multimedia (MM \u201919)","first-page":"1587","article-title":"Alleviating feature confusion for generative zero-shot learning","author":"Li","year":"2019"},{"key":"10.1016\/j.neucom.2026.133693_bib0220","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"1234","article-title":"Semantics disentangling for generalized zero-shot learning","author":"Chen","year":"2021"},{"key":"10.1016\/j.neucom.2026.133693_bib0225","series-title":"Proceedings of the 28th ACM International Conference on Multimedia (MM \u201920)","first-page":"1348","article-title":"Learning modality-invariant latent representations for generalized zero-shot learning","author":"Li","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0230","series-title":"Computer Vision \u2013 ECCV","first-page":"479","article-title":"Latent embedding feedback and discriminative features for zero-shot classification","author":"Narayan","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0235","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"8247","article-title":"Generalized zero- and few-shot learning via aligned variational autoencoders","author":"Schonfeld","year":"2019"},{"key":"10.1016\/j.neucom.2026.133693_bib0240","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"4281","article-title":"Generalized zero-shot learning via synthesized examples","author":"Verma","year":"2018"},{"key":"10.1016\/j.neucom.2026.133693_bib0245","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"5542","article-title":"Feature generating networks for zero-shot learning","author":"Xian","year":"2018"},{"key":"10.1016\/j.neucom.2026.133693_bib0250","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"7890","article-title":"Distinguishing unseen from seen for generalized zero-shot learning","author":"Su","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0255","doi-asserted-by":"crossref","DOI":"10.1007\/s11432-023-4174-4","article-title":"Aligning enhanced feature representation for generalized zero-shot learning","volume":"68","author":"Fang","year":"2025","journal-title":"Sci. China Inf. Sci."},{"key":"10.1016\/j.neucom.2026.133693_bib0260","author":"Arevalo"},{"key":"10.1016\/j.neucom.2026.133693_bib0265","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"6698","article-title":"Attribute attention for semantic disambiguation in zero-shot learning","author":"Liu","year":"2019"},{"key":"10.1016\/j.neucom.2026.133693_bib0270","doi-asserted-by":"crossref","first-page":"5172","DOI":"10.1109\/TIP.2022.3153138","article-title":"A gating model for bias calibration in generalized zero-shot learning","volume":"34","author":"Kwon","year":"2022","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.neucom.2026.133693_bib0275","series-title":"Findings of the Association for Computational Linguistics: ACL 2022","first-page":"1360","article-title":"Refinement matters: textual description needs to be refined for zero-shot learning","author":"Gautam","year":"2022"},{"key":"10.1016\/j.neucom.2026.133693_bib0280","author":"Verma"},{"key":"10.1016\/j.neucom.2026.133693_bib0285","series-title":"Advances in Neural Information Processing Systems (NeurIPS)","first-page":"4660","article-title":"Labelling unlabelled videos from scratch with multi-modal self-supervision","volume":"vol. 33","author":"Asano","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0290","series-title":"Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)","first-page":"721","article-title":"VGGSound: a large-scale audio-visual dataset","author":"Chen","year":"2020"},{"key":"10.1016\/j.neucom.2026.133693_bib0295","author":"Soomro"},{"key":"10.1016\/j.neucom.2026.133693_bib0300","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"961","article-title":"ActivityNet: a large-scale video benchmark for human activity understanding","author":"Caba Heilbron","year":"2015"}],"container-title":["Neurocomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010908?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010908?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T13:53:48Z","timestamp":1778766828000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0925231226010908"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":60,"alternative-id":["S0925231226010908"],"URL":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133693","relation":{},"ISSN":["0925-2312"],"issn-type":[{"value":"0925-2312","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Fusion-regularized alignment modality-adaptive audio-visual network for audio-visual zero-shot learning","name":"articletitle","label":"Article Title"},{"value":"Neurocomputing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133693","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"133693"}}