{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,10]],"date-time":"2026-02-10T14:28:44Z","timestamp":1770733724864,"version":"3.49.0"},"reference-count":100,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1109\/tpami.2025.3626549","type":"journal-article","created":{"date-parts":[[2025,10,28]],"date-time":"2025-10-28T17:33:50Z","timestamp":1761672830000},"page":"2628-2645","source":"Crossref","is-referenced-by-count":1,"title":["<i>MECD+:<\/i>\n                    Unlocking Event-Level Causal Graph Discovery for Video Reasoning"],"prefix":"10.1109","volume":"48","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-7939-7139","authenticated-orcid":false,"given":"Tieyuan","family":"Chen","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9174-1696","authenticated-orcid":false,"given":"Huabin","family":"Liu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9134-1203","authenticated-orcid":false,"given":"Yi","family":"Wang","sequence":"additional","affiliation":[{"name":"Shanghai AI Laboratory, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1127-1570","authenticated-orcid":false,"given":"Yihang","family":"Chen","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Tianyao","family":"He","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Chaofan","family":"Gan","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Huanyu","family":"He","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8307-7107","authenticated-orcid":false,"given":"Weiyao","family":"Lin","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00107"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2985219"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1155\/2011\/530325"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3418857"},{"key":"ref5","article-title":"Self-chained image-language model for video localization and question answering","author":"Yu","year":"2023"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00965"},{"key":"ref7","article-title":"CLEVRER: Collision events for video representation and reasoning","author":"Yi","year":"2019"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72920-1_18"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00171"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72920-1_18"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01254"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00311"},{"key":"ref13","first-page":"92","article-title":"Timecraft: Navigate weakly-supervised temporal grounded video question answering via bi-directional reasoning","volume-title":"Proc. Eur. Conf. Comput. Vis.","author":"Huabin"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/springerreference_7419"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01512"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0900"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.4249\/scholarpedia.1667"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.46298\/jpe.10676"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-statistics-040120-010930"},{"key":"ref20","first-page":"39","article-title":"Causal inference","volume-title":"Proc. Workshop Causality: Objectives Assessment","author":"Pearl"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00972"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462962"},{"key":"ref23","first-page":"24824","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Wei"},{"key":"ref24","first-page":"22199","article-title":"Large language models are zero-shot reasoners","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kojima"},{"key":"ref25","article-title":"A survey of chain of thought reasoning: Advances, frontiers and future","author":"Chu","year":"2023"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2939"},{"key":"ref27","article-title":"Momentor: Advancing video large language model with fine-grained temporal reasoning","author":"Qian","year":"2024"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.alvr-1.8"},{"key":"ref29","first-page":"13109","article-title":"Video-of-thought: Step-by-step video reasoning from perception to cognition","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Hao Fei"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02438"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3696410.3714559"},{"key":"ref32","first-page":"34247","article-title":"Glance and focus: Memory prompting for multi-event video question answering","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Bai"},{"key":"ref33","article-title":"CATER: A diagnostic dataset for compositional actions and temporal reasoning","author":"Girdhar","year":"2019"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351040"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00324"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01067"},{"key":"ref37","first-page":"12615","article-title":"High-recall causal discovery for autocorrelated time series with latent confounders","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Gerhardus"},{"key":"ref38","first-page":"96","article-title":"Discovery of extended summary graphs in time series","volume-title":"Proc. Uncertainty Artif. Intell.","author":"Assaad"},{"key":"ref39","article-title":"NTS-NOTEARS: Learning nonparametric DBNs with prior knowledge","author":"Sun","year":"2021"},{"key":"ref40","first-page":"1595","article-title":"DYNOTEARS: Structure learning from time-series data","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Pamfil"},{"key":"ref41","article-title":"THP: Topological hawkes processes for learning granger causality on event sequences","author":"Cai","year":"2021"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2021.10.030"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p18-1212"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-srw.2"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.190"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531758"},{"key":"ref47","first-page":"11235","article-title":"CAUSE: Learning granger causality from event sequences using attribution methods","volume-title":"Proc. 37th Int. Conf. Mach. Learn.","author":"Zhang"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref49","first-page":"46212","article-title":"EgoSchema: A diagnostic benchmark for very long-form video language understanding","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Mangalam"},{"key":"ref50","article-title":"Towards event-oriented long video understanding","author":"Du","year":"2024"},{"key":"ref51","article-title":"VideoLLaMA 2: Advancing spatial-temporal modeling and audio understanding in video-LLMs","author":"Cheng","year":"2024"},{"key":"ref52","article-title":"Gemini: A family of highly capable multimodal models","author":"Anil","year":"2023"},{"key":"ref53","article-title":"GPT-4 technical report","author":"Achiam","year":"2023"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-023-01842-6"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1177\/1609406920949338"},{"key":"ref56","first-page":"2901","article-title":"The randomized causation coefficient","volume":"16","author":"Lopez-Paz","year":"2015","journal-title":"J. Mach. Learn. Res."},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i11.17189"},{"key":"ref58","article-title":"Supervised whole DAG causal discovery","author":"Li","year":"2020"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.233"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00677"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01329"},{"key":"ref62","first-page":"460","article-title":"Nonlinear ICA of temporally dependent stationary sources","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Hyvarinen"},{"key":"ref63","first-page":"3772","article-title":"Unsupervised feature extraction by time-contrastive learning and nonlinear ICA","volume-title":"Proc. Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Hyvarinen"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511803161"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3284038"},{"key":"ref66","first-page":"11235","article-title":"Cause: Learning granger causality from event sequences using attribution methods","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1080\/23273798.2015.1029498"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.743"},{"key":"ref69","first-page":"1513","article-title":"Long-tailed classification by keeping the good and removing the bad momentum causal effect","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Tang"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3065601"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00756"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1145\/3580305.3599552"},{"key":"ref75","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref76","article-title":"Mixtral of experts","author":"Jiang","year":"2024"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.342"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02095"},{"key":"ref79","article-title":"Long context transfer from language to vision","author":"Zhang","year":"2024"},{"key":"ref80","article-title":"Qwen2. 5-VL technical report","author":"Bai","year":"2025"},{"key":"ref81","first-page":"15614","article-title":"Large language models are latent variable models: Explaining and finding good demonstrations for in-context learning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Wang"},{"key":"ref82","first-page":"33","article-title":"Open event causality extraction by the assistance of LLM in task annotation, dataset, and method","volume-title":"Proc. Workshop: Bridging Neurons Symbols Natural Lang. Process. Knowl. Graphs Reasoning","author":"Luo"},{"key":"ref83","article-title":"Causal inference using LLM-guided discovery","author":"Vashishtha","year":"2023"},{"key":"ref84","article-title":"DeepSeek-Coder-V2: Breaking the barrier of closed-source models in code intelligence","author":"Zhu","year":"2024"},{"key":"ref85","article-title":"Qwen technical report","author":"Bai","year":"2023"},{"key":"ref86","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023"},{"key":"ref87","article-title":"MiniGPT4-video: Advancing multimodal LLMs for video understanding with interleaved visual-textual tokens","author":"Ataallah","year":"2024"},{"key":"ref88","article-title":"PLLaVA : Parameter-free LLaVA extension from images to videos for video dense captioning","author":"Xu","year":"2024"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01100"},{"key":"ref90","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-97-9440-9_6"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijar.2021.12.010"},{"key":"ref93","first-page":"17","article-title":"Tuning causal discovery algorithms","volume-title":"Proc. Int. Conf. Probabilistic Graphical Models","author":"Biza"},{"key":"ref94","article-title":"EVA-CLIP: Improved training techniques for CLIP at scale","author":"Sun","year":"2023"},{"key":"ref95","article-title":"ChatGLM: A family of large language models from GLM-130B to GLM-4 all tools","author":"Zeng","year":"2024"},{"key":"ref96","article-title":"Introducing meta llama 3: The most capable openly available LLM to date","year":"2024"},{"key":"ref97","article-title":"UniVL: A unified video and language pre-training model for multimodal understanding and generation","author":"Luo","year":"2020"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00638"},{"key":"ref99","article-title":"Languagebind: Extending video-language pretraining to N-modality by language-based semantic alignment","author":"Zhu","year":"2023"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019127"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/34\/11372200\/11219357.pdf?arnumber=11219357","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,9]],"date-time":"2026-02-09T21:05:28Z","timestamp":1770671128000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11219357\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":100,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2025.3626549","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,3]]}}}