{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T05:57:28Z","timestamp":1777874248923,"version":"3.51.4"},"reference-count":62,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62476226"],"award-info":[{"award-number":["62476226"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neurocomputing"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.neucom.2026.133626","type":"journal-article","created":{"date-parts":[[2026,4,12]],"date-time":"2026-04-12T16:31:10Z","timestamp":1776011470000},"page":"133626","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Look and check: A multi-label classification pipeline via multi-agent cooperation"],"prefix":"10.1016","volume":"685","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-3669-8486","authenticated-orcid":false,"given":"Mingyu","family":"Fu","sequence":"first","affiliation":[]},{"given":"Wei","family":"Suo","sequence":"additional","affiliation":[]},{"given":"Yukun","family":"Li","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3084-9860","authenticated-orcid":false,"given":"Lingyan","family":"Ran","sequence":"additional","affiliation":[]},{"given":"Peng","family":"Wang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neucom.2026.133626_bib0005","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"5177","article-title":"Multi-label image recognition with graph convolutional networks","author":"Chen","year":"2019"},{"key":"10.1016\/j.neucom.2026.133626_bib0010","series-title":"Proceedings of the ACM International Conference on Image and Video Retrieval","first-page":"1","article-title":"Nus-wide: a real-world web image database from national university of Singapore","author":"Chua","year":"2009"},{"key":"10.1016\/j.neucom.2026.133626_bib0015","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"12265","article-title":"Multi-label classification with label graph superimposing","volume":"vol. 34","author":"Wang","year":"2020"},{"key":"10.1016\/j.neucom.2026.133626_bib0020","series-title":"Proceedings of the European Conference on Computer Vision","first-page":"649","article-title":"Attention-driven dynamic graph convolutional network for multi-label image recognition","author":"Ye","year":"2020"},{"key":"10.1016\/j.neucom.2026.133626_bib0025","author":"Kipf"},{"key":"10.1016\/j.neucom.2026.133626_bib0030","doi-asserted-by":"crossref","first-page":"5920","DOI":"10.1109\/TIP.2021.3088605","article-title":"Learning to discover multi-class attentional regions for multi-label image recognition","volume":"30","author":"Gao","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.neucom.2026.133626_bib0035","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"12709","article-title":"Cross-modality attention with semantic graph embedding for multi-label classification","volume":"vol. 34","author":"You","year":"2020"},{"key":"10.1016\/j.neucom.2026.133626_bib0040","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"8731","article-title":"Discriminative region-based multi-label zero-shot learning","author":"Narayan","year":"2021"},{"key":"10.1016\/j.neucom.2026.133626_bib0045","series-title":"Advances in Neural Information Processing Systems","first-page":"30569","article-title":"Dualcoop: fast adaptation to multi-label recognition with limited annotations","volume":"vol. 35","author":"Sun","year":"2022"},{"key":"10.1016\/j.neucom.2026.133626_bib0050","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"808","article-title":"Open-vocabulary multi-label classification via multi-modal knowledge transfer","volume":"vol. 37","author":"He","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0055","author":"Xia"},{"key":"10.1016\/j.neucom.2026.133626_bib0060","author":"Zhang"},{"key":"10.1016\/j.neucom.2026.133626_bib0065","author":"Huang"},{"key":"10.1016\/j.neucom.2026.133626_bib0070","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.neucom.2026.133626_bib0075","series-title":"Proceedings of the European Conference on Computer Vision","first-page":"740","article-title":"Microsoft COCO: common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.neucom.2026.133626_bib0080","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"32","article-title":"Ml-decoder: scalable and versatile classification head","author":"Ridnik","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0085","author":"Liu"},{"key":"10.1016\/j.neucom.2026.133626_bib0090","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"82","article-title":"Asymmetric loss for multi-label classification","author":"Ridnik","year":"2021"},{"issue":"8","key":"10.1016\/j.neucom.2026.133626_bib0095","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","article-title":"Long short-term memory","volume":"9","author":"Hochreiter","year":"1997","journal-title":"Neural Comput."},{"key":"10.1016\/j.neucom.2026.133626_bib0100","series-title":"International Conference on Machine Learning","first-page":"4904","article-title":"Scaling up visual and vision-language representation learning with noisy text supervision","author":"Jia","year":"2021"},{"key":"10.1016\/j.neucom.2026.133626_bib0105","series-title":"Proceedings of the European Conference on Computer Vision","article-title":"Tip-adapter: training-free adaption of CLIP for few-shot classification","author":"Zhang","year":"2022"},{"key":"10.1016\/j.neucom.2026.133626_bib0110","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","article-title":"Not all features matter: enhancing few-shot CLIP with adaptive prior refinement","author":"Zhu","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0115","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","article-title":"Preventing zero-shot transfer degradation in continual learning of vision-language models","author":"Zheng","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0120","author":"Liu"},{"key":"10.1016\/j.neucom.2026.133626_bib0125","series-title":"International Conference on Learning Representations","article-title":"Open-vocabulary object detection via vision and language knowledge distillation","author":"Gu","year":"2022"},{"key":"10.1016\/j.neucom.2026.133626_bib0130","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"15254","article-title":"Aligning bag of regions for open-vocabulary object detection","author":"Wu","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0135","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","article-title":"Side adapter network for open-vocabulary semantic segmentation","author":"Xu","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0140","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","article-title":"Zegclip: towards adapting CLIP for zero-shot semantic segmentation","author":"Zhou","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0145","author":"Xu"},{"key":"10.1016\/j.neucom.2026.133626_bib0150","author":"Huang"},{"key":"10.1016\/j.neucom.2026.133626_bib0155","author":"Touvron"},{"key":"10.1016\/j.neucom.2026.133626_bib0160","series-title":"Stanford alpaca: an instruction-following Llama model","author":"Taori","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0165","series-title":"The Falcon Series of Language Models: Towards Open Frontier Models","author":"Almazrouei","year":"2023"},{"key":"10.1016\/j.neucom.2026.133626_bib0170","author":"Du"},{"key":"10.1016\/j.neucom.2026.133626_bib0175","author":"Li"},{"key":"10.1016\/j.neucom.2026.133626_bib0180","author":"Dai"},{"key":"10.1016\/j.neucom.2026.133626_bib0185","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"26296","article-title":"Improved baselines with visual instruction tuning","author":"Liu","year":"2024"},{"key":"10.1016\/j.neucom.2026.133626_bib0190","author":"Zhu"},{"key":"10.1016\/j.neucom.2026.133626_bib0195","author":"Zhu"},{"key":"10.1016\/j.neucom.2026.133626_bib0200","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2020.107256","article-title":"Semantic-aware scene recognition","volume":"102","author":"L\u00f3pez-Cifuentes","year":"2020","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.neucom.2026.133626_bib0205","author":"Aminimehr"},{"key":"10.1016\/j.neucom.2026.133626_bib0210","doi-asserted-by":"crossref","first-page":"24","DOI":"10.1016\/j.patrec.2024.01.022","article-title":"A deep learning-based global and segmentation-based semantic feature fusion approach for indoor scene classification","volume":"179","author":"Pereira","year":"2024","journal-title":"Pattern Recognit. Lett."},{"key":"10.1016\/j.neucom.2026.133626_bib0215","author":"Zeng"},{"key":"10.1016\/j.neucom.2026.133626_bib0220","first-page":"2734","article-title":"Interventional few-shot learning","volume":"33","author":"Yue","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133626_bib0225","article-title":"Rubi: reducing unimodal biases for visual question answering","volume":"32","author":"Cadene","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133626_bib0230","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"633","article-title":"Scene parsing through ade20k dataset","author":"Zhou","year":"2017"},{"key":"10.1016\/j.neucom.2026.133626_bib0235","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"891","article-title":"The role of context for object detection and semantic segmentation in the wild","author":"Mottaghi","year":"2014"},{"key":"10.1016\/j.neucom.2026.133626_bib0240","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","article-title":"The pascal visual object classes (VOC) challenge","volume":"88","author":"Everingham","year":"2010","journal-title":"Int. J. Comput. Vis."},{"issue":"4","key":"10.1016\/j.neucom.2026.133626_bib0245","doi-asserted-by":"crossref","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","article-title":"Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFS","volume":"40","author":"Chen","year":"2017","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133626_bib0250","author":"Gong"},{"key":"10.1016\/j.neucom.2026.133626_bib0255","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"6609","article-title":"Unified visual-semantic embeddings: bridging vision and language with structured meaning representations","author":"Wu","year":"2019"},{"key":"10.1016\/j.neucom.2026.133626_bib0260","series-title":"Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit","author":"Bird","year":"2009"},{"key":"10.1016\/j.neucom.2026.133626_bib0265","series-title":"32nd Annual Meeting of the Association for Computational Linguistics","first-page":"133","article-title":"Verb semantics and lexical selection","author":"Wu","year":"1994"},{"key":"10.1016\/j.neucom.2026.133626_bib0270","author":"Zheng"},{"key":"10.1016\/j.neucom.2026.133626_bib0275","author":"Touvron"},{"key":"10.1016\/j.neucom.2026.133626_bib0280","author":"Bai"},{"key":"10.1016\/j.neucom.2026.133626_bib0285","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"13872","article-title":"Mitigating object hallucinations in large vision-language models through visual contrastive decoding","author":"Leng","year":"2024"},{"key":"10.1016\/j.neucom.2026.133626_bib0290","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"13418","article-title":"Opera: alleviating hallucination in multi-modal large language models via over-trust penalty and retrospection-allocation","author":"Huang","year":"2024"},{"key":"10.1016\/j.neucom.2026.133626_bib0295","author":"Wang"},{"key":"10.1016\/j.neucom.2026.133626_bib0300","series-title":"European Conference on Computer Vision","first-page":"19","article-title":"An image is worth 1\/2 tokens after layer 2: plug-and-play inference acceleration for large vision-language models","author":"Chen","year":"2024"},{"key":"10.1016\/j.neucom.2026.133626_bib0305","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"22857","article-title":"Llava-prumerge: adaptive token reduction for efficient large multimodal models","author":"Shang","year":"2025"},{"key":"10.1016\/j.neucom.2026.133626_bib0310","series-title":"Findings of the Association for Computational Linguistics: EMNLP 2025","first-page":"11870","article-title":"Agentinit: initializing llm-based multi-agent systems via diversity and expertise orchestration for effective and efficient collaboration","author":"Tian","year":"2025"}],"container-title":["Neurocomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010234?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010234?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T19:24:29Z","timestamp":1777577069000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0925231226010234"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":62,"alternative-id":["S0925231226010234"],"URL":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133626","relation":{},"ISSN":["0925-2312"],"issn-type":[{"value":"0925-2312","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Look and check: A multi-label classification pipeline via multi-agent cooperation","name":"articletitle","label":"Article Title"},{"value":"Neurocomputing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133626","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"133626"}}