{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:51:58Z","timestamp":1781538718198,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":52,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Fundamental Research Funds for the Central Universities","award":["CUC25GT29, CUC25SG012, CUC25SG008"],"award-info":[{"award-number":["CUC25GT29, CUC25SG012, CUC25SG008"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810669","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1514-1522","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["TCRS-QA: Training-Free Chain-of-Thought Reasoning for Shot-Aware Storyline Question Answering in Long-Form Videos"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-6827-139X","authenticated-orcid":false,"given":"Zhenpeng","family":"Zeng","sequence":"first","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3481-7820","authenticated-orcid":false,"given":"Xiaoyu","family":"Wu","sequence":"additional","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-8096-7243","authenticated-orcid":false,"given":"Xuxu","family":"Wang","sequence":"additional","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-7694-0829","authenticated-orcid":false,"given":"Qian","family":"Yu","sequence":"additional","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-9145-8147","authenticated-orcid":false,"given":"Yudong","family":"Wang","sequence":"additional","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0917-001X","authenticated-orcid":false,"given":"Zihao","family":"Liu","sequence":"additional","affiliation":[{"name":"Communication University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1723"},{"key":"e_1_3_3_1_3_2","unstructured":"D. Bolya P.\u00a0Y. Huang P. Sun et\u00a0al. 2025. Perception Encoder: The best visual embeddings are not at the output of the network. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.13181 (2025)."},{"key":"e_1_3_3_1_4_2","volume-title":"ICML","author":"Chen D.","year":"2024","unstructured":"D. Chen, R. Chen, S. Zhang, et\u00a0al. 2024. MLLM-as-a-Judge: Assessing multimodal LLM-as-a-judge with vision-language benchmark. In ICML."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i2.16203"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3755537"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2142"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01229"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02253"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02245"},{"key":"e_1_3_3_1_11_2","unstructured":"R. Ghermi X. Wang V. Kalogeiton et\u00a0al. 2024. Long Story Short: Story-level Video Understanding from 20K Short Films. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.10221 (2024)."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10584-0_33"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02438"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00292"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"crossref","unstructured":"T. Hannan M.\u00a0M. Islam J. Gu et\u00a0al. 2025. ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos. (2025) 19012\u201319022.","DOI":"10.1109\/CVPR52734.2025.01771"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV61041.2025.00843"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.149"},{"key":"e_1_3_3_1_18_2","first-page":"4904","volume-title":"ICML","author":"Jia C.","year":"2021","unstructured":"C. Jia, Y. Yang, Y. Xia, et\u00a0al. 2021. Scaling up visual and vision-language representation learning with noisy text supervision. In ICML. 4904\u20134916."},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01300"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01944"},{"key":"e_1_3_3_1_21_2","first-page":"22199","volume-title":"NeurIPS","author":"Kojima T.","year":"2022","unstructured":"T. Kojima, S.\u00a0S. Gu, M. Reid, et\u00a0al. 2022. Large language models are zero-shot reasoners. In NeurIPS. 22199\u201322213."},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00999"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1167"},{"key":"e_1_3_3_1_24_2","first-page":"19730","volume-title":"ICML","author":"Li J.","year":"2023","unstructured":"J. Li, D. Li, S. Savarese, et\u00a0al. 2023. BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML. 19730\u201319742."},{"key":"e_1_3_3_1_25_2","first-page":"9694","volume-title":"NeurIPS","author":"Li J.","year":"2021","unstructured":"J. Li, R. Selvaraju, A. Gotmare, et\u00a0al. 2021. Align before fuse: Vision and language representation learning with momentum distillation. In NeurIPS. 9694\u20139705."},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018658"},{"key":"e_1_3_3_1_27_2","first-page":"34892","volume-title":"NeurIPS","author":"Liu H.","year":"2023","unstructured":"H. Liu, C. Li, Q. Wu, et\u00a0al. 2023. Visual instruction tuning. In NeurIPS. 34892\u201334916."},{"key":"e_1_3_3_1_28_2","unstructured":"Y. Luo X. Zheng G. Li et\u00a0al. 2024. Video-RAG: Visually-aligned retrieval-augmented long video comprehension. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2411.13093 (2024)."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01764"},{"key":"e_1_3_3_1_30_2","first-page":"46212","volume-title":"NeurIPS","author":"Mangalam K.","year":"2023","unstructured":"K. Mangalam, R. Akshulakov, and J. Malik. 2023. EgoSchema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS. 46212\u201346244."},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10599-4_35"},{"key":"e_1_3_3_1_32_2","first-page":"8748","volume-title":"ICML","author":"Radford A.","year":"2021","unstructured":"A. Radford, J.\u00a0W. Kim, C. Hallacy, et\u00a0al. 2021. Learning transferable visual models from natural language supervision. In ICML. 8748\u20138763."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01357"},{"key":"e_1_3_3_1_34_2","first-page":"8612","volume-title":"NeurIPS","author":"Shao H.","year":"2024","unstructured":"H. Shao, S. Qian, H. Xiao, et\u00a0al. 2024. Visual CoT: Advancing multi-modal language models with a comprehensive dataset and benchmark for chain-of-thought reasoning. In NeurIPS. 8612\u20138642."},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00797"},{"key":"e_1_3_3_1_36_2","first-page":"8634","volume-title":"NeurIPS","author":"Shinn N.","year":"2023","unstructured":"N. Shinn, F. Cassano, A. Gopinath, et\u00a0al. 2023. Reflexion: Language agents with verbal reinforcement learning. In NeurIPS , Vol.\u00a036. 8634\u20138652."},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02711"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.501"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"crossref","unstructured":"L. Wang Y. Xiong Z. Wang et\u00a0al. 2018. Temporal segment networks for action recognition in videos. TPAMI 41 11 (2018) 2740\u20132755.","DOI":"10.1109\/TPAMI.2018.2868668"},{"key":"e_1_3_3_1_40_2","first-page":"58","volume-title":"ECCV","author":"Wang X.","year":"2024","unstructured":"X. Wang, Y. Zhang, O. Zohar, et\u00a0al. 2024. VideoAgent: Long-form Video Understanding with Large Language Model as Agent. In ECCV. 58\u201376."},{"key":"e_1_3_3_1_41_2","first-page":"24824","volume-title":"NeurIPS","author":"Wei J.","year":"2022","unstructured":"J. Wei, X. Wang, D. Schuurmans, et\u00a0al. 2022. Chain-of-thought prompting elicits reasoning in large language models. In NeurIPS. 24824\u201324837."},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73414-4_26"},{"key":"e_1_3_3_1_43_2","first-page":"28828","volume-title":"NeurIPS","author":"Wu H.","year":"2024","unstructured":"H. Wu, D. Li, B. Chen, et\u00a0al. 2024. LongVideoBench: A benchmark for long-context interleaved video-language understanding. In NeurIPS. 28828\u201328857."},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01770"},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.544"},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00171"},{"key":"e_1_3_3_1_48_2","volume-title":"ICLR","author":"Yao S.","year":"2022","unstructured":"S. Yao, J. Zhao, D. Yu, et\u00a0al. 2022. ReAct: Synergizing reasoning and acting in language models. In ICLR."},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00802"},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01413"},{"key":"e_1_3_3_1_51_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01589"},{"key":"e_1_3_3_1_52_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00446"},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3758313"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:52:10Z","timestamp":1781535130000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810669"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":52,"alternative-id":["10.1145\/3805622.3810669","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810669","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}