{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T09:59:58Z","timestamp":1777888798992,"version":"3.51.4"},"reference-count":52,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.02222","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"23968-23978","source":"Crossref","is-referenced-by-count":1,"title":["Minerva: Evaluating Complex Video Reasoning"],"prefix":"10.1109","author":[{"given":"Arsha","family":"Nagrani","sequence":"first","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sachit","family":"Menon","sequence":"additional","affiliation":[{"name":"Columbia University,Berkeley"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ahmet","family":"Iscen","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shyamal","family":"Buch","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramin","family":"Mehran","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nilpa","family":"Jha","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anja","family":"Hauth","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yukun","family":"Zhu","sequence":"additional","affiliation":[{"name":"Columbia University,Berkeley"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Carl","family":"Vondrick","sequence":"additional","affiliation":[{"name":"Columbia University,Berkeley"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mikhail","family":"Sirotenko","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cordelia","family":"Schmid","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tobias","family":"Weyand","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Gpt-4 technical report","author":"Achiam","year":"2023","journal-title":"arXiv preprint"},{"key":"ref2","volume-title":"Open AI","year":"2025"},{"key":"ref3","volume-title":"Open AI","year":"2025"},{"key":"ref4","article-title":"Claude 3.5 sonnet v2. Anthropic API, 2023","volume-title":"A language model from Anthropic, featuring improved capabilities over the original Claude 3.5 Sonnet, including enhanced computer action generation."},{"key":"ref5","article-title":"InfiniBench: A comprehensive benchmark for large multimodal models in very long video understanding","author":"Ataallah","year":"2024","journal-title":"arXiv preprint"},{"key":"ref6","article-title":"Qwen2. 5-vl technical report","author":"Bai","year":"2025","journal-title":"arXiv preprint"},{"key":"ref7","article-title":"TemporalBench: Benchmarking finegrained temporal understanding for multimodal video models","author":"Cai","year":"2024","journal-title":"arXiv preprint"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1684"},{"key":"ref9","article-title":"Mllm-as-a-judge: Assessing multimodal llm-as-a-judge with vision-language benchmark","volume-title":"Forty-first International Conference on Machine Learning","author":"Chen","year":"2024"},{"key":"ref10","article-title":"Cg-bench: Clue-grounded question answering benchmark for long video understanding","volume-title":"ICLR","author":"Chen","year":"2025"},{"key":"ref11","article-title":"TVBench: Redesigning video-language evaluation","author":"Cores","year":"2024","journal-title":"arXiv preprint"},{"key":"ref12","volume-title":"Deepseek-r1: Incentivizing reasoning capability in 11 ms via reinforcement learning","year":"2025"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.753"},{"key":"ref14","article-title":"Video-of-thought: Step-by-step video reasoning from perception to cognition","author":"Fei","year":"2024","journal-title":"arXiv preprint"},{"key":"ref15","article-title":"Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal 11 ms in video analysis","author":"Fu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref16","article-title":"Roscoe: A suite of metrics for scoring step-by-step reasoning","author":"Golovneva","year":"2022","journal-title":"arXiv preprint"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02438"},{"key":"ref19","article-title":"Llm reasoners: New evaluation, library, and analysis of step-by-step reasoning with large language models","author":"Hao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1355"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73039-9_12"},{"key":"ref22","article-title":"Large language models cannot self-correct reasoning yet","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref23","article-title":"Openai o1 system card","author":"Jaech","year":"2024","journal-title":"arXiv preprint"},{"key":"ref24","article-title":"Scaling scaling laws with board games","author":"Jones","year":"2021","journal-title":"arXiv preprint"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00713"},{"key":"ref26","article-title":"The kinetics human action video dataset","author":"Kay","year":"2017","journal-title":"arXiv preprint"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1613"},{"key":"ref28","first-page":"1078","article-title":"Adversarial filters of dataset biases","volume-title":"International conference on machine learning","author":"Le Bras","year":"2020"},{"key":"ref29","article-title":"Videovista: A versatile benchmark for video understanding and reasoning","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref30","first-page":"74","article-title":"Rouge: A package for automatic evaluation of summaries","author":"Lin","year":"2004","journal-title":"Text summarization branches out"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1516"},{"key":"ref32","article-title":"E.T. bench: Towards open-ended event-level video-language understanding","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref33","article-title":"Beyond accuracy: Evaluating the reasoning behavior of large language models-a survey","author":"Mondorf","year":"2024","journal-title":"arXiv preprint"},{"key":"ref34","article-title":"Neptune: The long orbit to benchmarking long video understanding","author":"Nagrani","year":"2024","journal-title":"arXiv preprint"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1852"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.622"},{"key":"ref38","article-title":"CinePile: A Long Video Question Answering Dataset and Benchmark","author":"Rawal","year":"2024","journal-title":"arXiv preprint"},{"key":"ref39","article-title":"Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context","author":"Reid","year":"2024","journal-title":"arXiv preprint"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/s00799-022-00329-y"},{"key":"ref41","first-page":"86128642","article-title":"Visual cot: Advancing multi-modal language models with a comprehensive dataset and benchmark for chain-of-thought reasoning","volume":"37","author":"Shao","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref42","article-title":"Scaling $l l \\mathrm{m}$ test-time compute optimally can be more effective than scaling model parameters","author":"Snell","year":"2024","journal-title":"arXiv preprint"},{"key":"ref43","volume-title":"Gemini 2.5: Our most intelligent ai model.","year":"2025"},{"key":"ref44","article-title":"Llms cannot find reasoning errors, but can correct them given the error location","author":"Tyen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref45","article-title":"Lvbench: An extreme long video understanding benchmark","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref46","article-title":"Internvideo: General video foundation models via generative and discriminative learning","author":"Wang","year":"2022","journal-title":"arXiv preprint"},{"key":"ref47","article-title":"Videocot: A video chain-ofthought dataset with active annotation tool","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref48","first-page":"2482424837","article-title":"Chain-ofthought prompting elicits reasoning in large language models","volume":"35","author":"Wei","year":"2022","journal-title":"Advances in neural information processing systems"},{"key":"ref49","article-title":"Llavacritic: Learning to evaluate multimodal models","author":"Xiong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019127"},{"key":"ref51","article-title":"Videollama 3: Frontier multimodal foundation models for image and video understanding","author":"Zhang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref52","article-title":"Judging llm-as-a-judge with mtbench and chatbot arena","author":"Zheng","year":"2023","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11445745.pdf?arnumber=11445745","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T04:57:02Z","timestamp":1777611422000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11445745\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":52,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.02222","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}