{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T17:07:20Z","timestamp":1780765640361,"version":"3.54.1"},"reference-count":51,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01882","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"20237-20246","source":"Crossref","is-referenced-by-count":3,"title":["LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents"],"prefix":"10.1109","author":[{"given":"Boyu","family":"Chen","sequence":"first","affiliation":[{"name":"Shenzhen Key Lab of Computer Vision and Pattern Recognition, Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciences"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhengrong","family":"Yue","sequence":"additional","affiliation":[{"name":"Shanghai Artificial Intelligence Laboratory"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Siran","family":"Chen","sequence":"additional","affiliation":[{"name":"Shenzhen Key Lab of Computer Vision and Pattern Recognition, Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciences"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zikang","family":"Wang","sequence":"additional","affiliation":[{"name":"Shanghai Artificial Intelligence Laboratory"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yang","family":"Liu","sequence":"additional","affiliation":[{"name":"Institute for AI Industry Research (AIR), Tsinghua University,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Peng","family":"Li","sequence":"additional","affiliation":[{"name":"Institute for AI Industry Research (AIR), Tsinghua University,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yali","family":"Wang","sequence":"additional","affiliation":[{"name":"Shenzhen Key Lab of Computer Vision and Pattern Recognition, Shenzhen Institutes of Advanced Technology,Chinese Academy of Sciences"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2024.111189"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0614"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3321503"},{"key":"ref4","article-title":"Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref5","article-title":"Improving video-text retrieval by multi-stream corpus alignment and dual softmax loss","author":"Cheng","year":"2021","journal-title":"arXiv preprint"},{"key":"ref6","article-title":"VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs","author":"Cheng","year":"2024","journal-title":"arXiv preprint"},{"key":"ref7","article-title":"Improving factuality and reasoning in language models through multiagent debate","author":"Yilun","year":"2023","journal-title":"arXiv preprint"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72670-5_5"},{"key":"ref9","article-title":"Clip2video: Mastering video-text retrieval via image clip","author":"Fang","year":"2021","journal-title":"arXiv preprint"},{"key":"ref10","author":"Fei","year":"2024","journal-title":"Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition"},{"key":"ref11","article-title":"Video-ccam: Enhancing video-language understanding with causal cross-attention masks for short and long videos","author":"Fei","year":"2024","journal-title":"arXiv preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02245"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01282"},{"key":"ref14","first-page":"356","article-title":"An Empirical Study on Activity Recognition in Long Surgical Videos","volume-title":"In Proceedings of the 2nd Machine Learning for Health symposium","author":"He"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.aacl-main.48"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.1096"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.792"},{"key":"ref18","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv preprint"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref20","article-title":"LLaVA-OneVision: Easy Visual Task Transfer","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2060"},{"key":"ref22","article-title":"Aria: An Open Multimodal Native Mixture-ofExperts Model","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref23","article-title":"CAMEL: Communicative agents for \u201cmind\u201d exploration of large language model society","volume-title":"In Proceedings of Thirty-seventh Conference on Neural Information Processing Systems","author":"Li"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4321-9"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02095"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_19"},{"key":"ref27","article-title":"World Model on Million-Length Video and Language with RingAttention","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref28","article-title":"Oryx MLLM: On-Demand SpatialTemporal Understanding at Arbitrary Resolution","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref29","article-title":"A dynamic LLM-powered agent network for task-oriented agent collaboration","volume-title":"In First Conference on Language Modeling","author":"Liu"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00390"},{"key":"ref31","article-title":"Clip4clip: An empirical study of clip for end to end video clip retrieval","author":"Luo","year":"2021","journal-title":"arXiv preprint"},{"key":"ref32","author":"Luo","year":"2024","journal-title":"Video-RAG: Visually-aligned RetrievalAugmented Long Video Comprehension"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01764"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2004"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1177\/07356331211053848"},{"key":"ref36","author":"Nan","year":"2025","journal-title":"OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.3102\/0034654321990713"},{"key":"ref38","article-title":"OpenAI","year":"2024","journal-title":"GPT-4o System Card"},{"key":"ref39","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"In International conference on machine learning","author":"Radford"},{"key":"ref40","author":"Shen","year":"2024","journal-title":"LongVU: Spatiotemporal Adaptive Compression for Long VideoLanguage Understanding"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.52202\/075280-0377"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02436"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01725"},{"key":"ref44","article-title":"Gemini 1","year":"2024","journal-title":"5: Unlocking multimodal understanding across millions of tokens of context"},{"key":"ref45","article-title":"Unlocking multimodal understanding across millions of tokens of context","volume":"5","author":"Team","year":"2024","journal-title":"arXiv preprint"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.898"},{"key":"ref47","article-title":"Qwen2-VL: Enhancing Vision-Language Model\u2019s Perception of the World at Any Resolution","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref48","article-title":"LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72989-8_4"},{"key":"ref50","article-title":"Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/2815546.2815559"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11444974.pdf?arnumber=11444974","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T06:35:27Z","timestamp":1777530927000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11444974\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":51,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01882","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}