{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,2]],"date-time":"2025-12-02T19:47:17Z","timestamp":1764704837285,"version":"3.46.0"},"reference-count":62,"publisher":"Association for Computing Machinery (ACM)","issue":"4","funder":[{"DOI":"10.13039\/501100019814","name":"Fullgraf Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100019814","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007268","name":"Washington University in St. Louis","doi-asserted-by":"publisher","award":["Here and Next Seed Grant (Tier 2: Interdisciplinary Project Support)"],"award-info":[{"award-number":["Here and Next Seed Grant (Tier 2: Interdisciplinary Project Support)"]}],"id":[{"id":"10.13039\/100007268","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":["Proc. ACM Interact. Mob. Wearable Ubiquitous Technol."],"published-print":{"date-parts":[[2025,12,2]]},"abstract":"<jats:p>\n                    Minimally obtrusive support for individuals with subjective cognitive decline (SCD) is important for fostering independence in completing daily tasks. In overseeing these tasks, occupational therapists may choose to help as errors arise and provide corrective courses of action. To accomplish this, therapists must be able to recognize task-specific actions, as well as the appropriate sequence for them to occur. However, manual monitoring by therapists is not always feasible in real-world environments, motivating the need for automated systems capable of recognizing actions and detecting sequencing errors. To address this, we present CHEF-VL, an online\n                    <jats:bold>C<\/jats:bold>\n                    ognitive\n                    <jats:bold>H<\/jats:bold>\n                    uman\n                    <jats:bold>E<\/jats:bold>\n                    rror Detection\n                    <jats:bold>F<\/jats:bold>\n                    ramework with\n                    <jats:bold>V<\/jats:bold>\n                    ision\n                    <jats:bold>-L<\/jats:bold>\n                    anguage Models in smart kitchen environments. CHEF-VL combines two novel vision-language models, with one fine-tuned for online human action recognition and the other specially engineered to track key environmental states. An Action-State Merger integrates these two streams of information to reduce prediction noise and correct misrecognized actions. A two-year occupational therapy project of over 100 participants with and without SCD was organized to collect video data for task evaluation. Empirical results demonstrate that CHEF-VL improves both action recognition and sequencing error detection performance, offering a promising solution for real-world assistive technologies in smart home settings.\n                  <\/jats:p>","DOI":"10.1145\/3770714","type":"journal-article","created":{"date-parts":[[2025,12,2]],"date-time":"2025-12-02T19:42:32Z","timestamp":1764704552000},"page":"1-35","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["CHEF-VL: Detecting Cognitive Sequencing Errors in Cooking with Vision-language Models"],"prefix":"10.1145","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3430-5411","authenticated-orcid":false,"given":"Ruiqi","family":"Wang","sequence":"first","affiliation":[{"name":"Computer Science &amp; Engineering, Washington University in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-2755-104X","authenticated-orcid":false,"given":"Peiqi","family":"Gao","sequence":"additional","affiliation":[{"name":"Computer Science &amp; Engineering, Washington University in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-4844-3304","authenticated-orcid":false,"given":"Patrick","family":"Lynch","sequence":"additional","affiliation":[{"name":"Computer Science &amp; Engineering, Washington University in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-7849-4867","authenticated-orcid":false,"given":"Tingjun","family":"Liu","sequence":"additional","affiliation":[{"name":"Computer Science &amp; Engineering, Washington University in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5140-9952","authenticated-orcid":false,"given":"Yejin","family":"Lee","sequence":"additional","affiliation":[{"name":"Occupational Therapy, Washington University School of Medicine in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7972-1200","authenticated-orcid":false,"given":"Carolyn","family":"Baum","sequence":"additional","affiliation":[{"name":"Occupational Therapy, Washington University School of Medicine in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9776-8328","authenticated-orcid":false,"given":"Lisa Tabor","family":"Connor","sequence":"additional","affiliation":[{"name":"Occupational Therapy, Washington University School of Medicine in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1709-6769","authenticated-orcid":false,"given":"Chenyang","family":"Lu","sequence":"additional","affiliation":[{"name":"Computer Science &amp; Engineering, Washington University in St. Louis, St. Louis, Missouri, USA and AI for Health Institute, Washington University in St. Louis, St. Louis, Missouri, USA"}]}],"member":"320","published-online":{"date-parts":[[2025,12,2]]},"reference":[{"key":"e_1_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-25446-8_4"},{"key":"e_1_2_1_2_1","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang Humen Zhong Yuanzhi Zhu Mingkun Yang Zhaohai Li Jianqiang Wan Pengfei Wang Wei Ding Zheren Fu Yiheng Xu Jiabo Ye Xi Zhang Tianbao Xie Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu and Junyang Lin. 2025. Qwen2.5-VL Technical Report. arXiv:2502.13923 [cs.CV] https:\/\/arxiv.org\/abs\/2502.13923"},{"key":"e_1_2_1_3_1","volume-title":"Tracy Morrison, Michelle Hahn, Alexander W Dromerick, and Dorothy F Edwards.","author":"Baum Carolyn M","year":"2008","unstructured":"Carolyn M Baum, Lisa Tabor Connor, Tracy Morrison, Michelle Hahn, Alexander W Dromerick, and Dorothy F Edwards. 2008. Reliability, validity, and clinical utility of the Executive Function Performance Test: A measure of executive function in a sample of people with stroke. The American journal of occupational therapy 62, 4 (2008), 446\u2013455."},{"key":"e_1_2_1_4_1","volume-title":"Cynthia H Chen, Kim Walker, AC Young, Noelle E Carlozzi, David S Tulsky, RK Heaton, and Allen W Heinemann.","author":"Baum Carolyn M","year":"2017","unstructured":"Carolyn M Baum, Timothy J Wolf, Alex WK Wong, Cynthia H Chen, Kim Walker, AC Young, Noelle E Carlozzi, David S Tulsky, RK Heaton, and Allen W Heinemann. 2017. Validation and clinical utility of the executive function performance test in persons with traumatic brain injury. Neuropsychological rehabilitation 27, 5 (2017), 603\u2013617."},{"key":"e_1_2_1_5_1","unstructured":"Szeyi Chan Jiachen Li Bingsheng Yao Amama Mahmood Chien-Ming Huang Holly Jimison Elizabeth D Mynatt and Dakuo Wang. 2023. \u201cMango Mango How to Let The Lettuce Dry Without A Spinner?\u201d: Exploring User Perceptions of Using An LLM-Based Conversational Assistant Toward Cooking Partner. arXiv preprint arXiv:2310.05853 (2023)."},{"key":"e_1_2_1_6_1","unstructured":"DeepSeek-AI. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [cs.CL] https:\/\/arxiv.org\/abs\/2501.12948"},{"key":"e_1_2_1_7_1","unstructured":"Guodong Ding Fadime Sener and Angela Yao. 2023. Temporal Action Segmentation: An Analysis of Modern Techniques. arXiv:2210.10352 [cs.CV]"},{"key":"e_1_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICHMS49158.2020.9209362"},{"key":"e_1_2_1_9_1","first-page":"89098","article-title":"Mmbench-video: A long-form multi-shot benchmark for holistic video understanding","volume":"37","author":"Fang Xinyu","year":"2024","unstructured":"Xinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, and Kai Chen. 2024. Mmbench-video: A long-form multi-shot benchmark for holistic video understanding. Advances in Neural Information Processing Systems 37 (2024), 89098\u201389124.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01749"},{"key":"e_1_2_1_11_1","volume-title":"Gptq: Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323","author":"Frantar Elias","year":"2022","unstructured":"Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. 2022. Gptq: Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323 (2022)."},{"key":"e_1_2_1_12_1","volume-title":"Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075","author":"Fu Chaoyou","year":"2024","unstructured":"Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, et al. 2024. Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075 (2024)."},{"key":"e_1_2_1_13_1","volume-title":"Int. 2020 (April","author":"Hagihara Hiromichi","year":"2020","unstructured":"Hiromichi Hagihara, Naoto Ienaga, Daiki Enomoto, Shuhei Takahata, Hiroyuki Ishihara, Haruka Noda, Koji Tsuda, and Kei Terayama. 2020. Computer vision-based approach for quantifying occupational therapists' qualitative evaluations of postural control. Occup. Ther. Int. 2020 (April 2020), 8542191."},{"key":"e_1_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.5014\/ajot.2014.008565"},{"key":"e_1_2_1_15_1","volume-title":"LoRA: Low-Rank Adaptation of Large Language Models. In International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=nZeVKeeFYf9","author":"Hu Edward J","year":"2022","unstructured":"Edward J Hu, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. LoRA: Low-Rank Adaptation of Large Language Models. In International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=nZeVKeeFYf9"},{"key":"e_1_2_1_16_1","volume-title":"Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos. arXiv preprint arXiv:2501.13826","author":"Hu Kairui","year":"2025","unstructured":"Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, and Ziwei Liu. 2025. Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos. arXiv preprint arXiv:2501.13826 (2025)."},{"key":"e_1_2_1_17_1","volume-title":"Emma: End-to-end multimodal model for autonomous driving. arXiv preprint arXiv:2410.23262","author":"Hwang Jyh-Jing","year":"2024","unstructured":"Jyh-Jing Hwang, Runsheng Xu, Hubert Lin, Wei-Chih Hung, Jingwei Ji, Kristy Choi, Di Huang, Tong He, Paul Covington, Benjamin Sapp, et al. 2024. Emma: End-to-end multimodal model for autonomous driving. arXiv preprint arXiv:2410.23262 (2024)."},{"key":"e_1_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2016.10.018"},{"key":"e_1_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1016\/S1474-4422(19)30368-0"},{"key":"e_1_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.jstrokecerebrovasdis.2016.12.013"},{"key":"e_1_2_1_21_1","volume-title":"Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246","author":"Kim Moo Jin","year":"2024","unstructured":"Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246 (2024)."},{"key":"e_1_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3517625"},{"key":"e_1_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1038\/s41597-024-03132-3"},{"key":"e_1_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1145\/3316782.3321524"},{"key":"e_1_2_1_25_1","volume-title":"The Hungarian method for the assignment problem. Naval research logistics quarterly 2, 1\u20132","author":"Kuhn Harold W","year":"1955","unstructured":"Harold W Kuhn. 1955. The Hungarian method for the assignment problem. Naval research logistics quarterly 2, 1\u20132 (1955), 83\u201397."},{"key":"e_1_2_1_26_1","unstructured":"Weicheng Kuo Yin Cui Xiuye Gu AJ Piergiovanni and Anelia Angelova. 2023. F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models. arXiv:2209.15639 [cs.CV] https:\/\/arxiv.org\/abs\/2209.15639"},{"key":"e_1_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_2_1_28_1","volume-title":"Ren\u00e9 Vidal, and Gregory D Hager.","author":"Lea Colin","year":"2016","unstructured":"Colin Lea, Austin Reiter, Ren\u00e9 Vidal, and Gregory D Hager. 2016. Segmental spatiotemporal cnns for fine-grained action segmentation. In Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part III 14. Springer, 36\u201352."},{"key":"e_1_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.5014\/ajot.2025.050948"},{"key":"e_1_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1145\/3678545"},{"key":"e_1_2_1_31_1","first-page":"28541","article-title":"Llava-med: Training a large language-and-vision assistant for biomedicine in one day","volume":"36","author":"Li Chunyuan","year":"2023","unstructured":"Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, and Jianfeng Gao. 2023. Llava-med: Training a large language-and-vision assistant for biomedicine in one day. Advances in Neural Information Processing Systems 36 (2023), 28541\u201328564.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02095"},{"key":"e_1_2_1_33_1","volume-title":"Proceedings of machine learning and systems 6","author":"Lin Ji","year":"2024","unstructured":"Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, and Song Han. 2024. Awq: Activation-aware weight quantization for on-device llm compression and acceleration. Proceedings of machine learning and systems 6 (2024), 87\u2013100."},{"key":"e_1_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"e_1_2_1_35_1","volume-title":"Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101","author":"Loshchilov Ilya","year":"2017","unstructured":"Ilya Loshchilov and Frank Hutter. 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017)."},{"key":"e_1_2_1_36_1","volume-title":"The Language Archive","author":"Max Planck Institute for Psycholinguistics","year":"2023","unstructured":"Max Planck Institute for Psycholinguistics, The Language Archive. 2023. ELAN (Version 6.7) [Computer software]. https:\/\/archive.mpi.nl\/tla\/elan"},{"key":"e_1_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1111\/j.1532-5415.2005.53221.x"},{"key":"e_1_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01378"},{"key":"e_1_2_1_39_1","unstructured":"OpenAI. 2024. Hello GPT-4o. https:\/\/openai.com\/index\/hello-gpt-4o\/. Accessed: 2025-03-30."},{"key":"e_1_2_1_40_1","volume-title":"PyTorch: An Imperative Style","author":"Paszke Adam","unstructured":"Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 2019. PyTorch: An Imperative Style, High-Performance Deep Learning Library. In Advances in Neural Information Processing Systems. 8024\u20138035."},{"key":"e_1_2_1_41_1","first-page":"135626","article-title":"CaptainCook4D: A dataset for understanding errors in procedural activities","volume":"37","author":"Peddi Rohith","year":"2024","unstructured":"Rohith Peddi, Shivvrat Arya, Bharath Challa, Likhitha Pallapothula, Akshay Vyas, Bhavya Gouripeddi, Qifan Zhang, Jikai Wang, Vasundhara Komaragiri, Eric Ragan, et al. 2024. CaptainCook4D: A dataset for understanding errors in procedural activities. Advances in Neural Information Processing Systems 37 (2024), 135626\u2013135679.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_2_1_42_1","volume-title":"Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, and Peter Washington.","author":"Qian Yang","year":"2024","unstructured":"Yang Qian, Yinan Sun, Ali Kargarandehkordi, Parnian Azizian, Onur Cezmi Mutlu, Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, and Peter Washington. 2024. Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos. arXiv:2402.08875 [cs.CV] https:\/\/arxiv.org\/abs\/2402.08875"},{"key":"e_1_2_1_43_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01741"},{"key":"e_1_2_1_44_1","volume-title":"Characterizing cognition in everyday life of older adults with subjective cognitive decline. OTJR: occupation, participation and health 42, 4","author":"Rotenberg Shlomit","year":"2022","unstructured":"Shlomit Rotenberg and Deirdre R Dawson. 2022. Characterizing cognition in everyday life of older adults with subjective cognitive decline. OTJR: occupation, participation and health 42, 4 (2022), 269\u2013276."},{"key":"e_1_2_1_45_1","volume-title":"Occupational performance issues in older adults with subjective cognitive decline. Disability and rehabilitation 44, 17","author":"Rotenberg Shlomit","year":"2022","unstructured":"Shlomit Rotenberg, Calvin Leung, Henry Quach, Nicole D Anderson, and Deirdre R Dawson. 2022. Occupational performance issues in older adults with subjective cognitive decline. Disability and rehabilitation 44, 17 (2022), 4681\u20134688."},{"key":"e_1_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.3389\/fneur.2019.01393"},{"key":"e_1_2_1_47_1","volume-title":"Two-stream convolutional networks for action recognition in videos. Advances in neural information processing systems 27","author":"Simonyan Karen","year":"2014","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. Advances in neural information processing systems 27 (2014)."},{"key":"e_1_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1145\/2493432.2493482"},{"key":"e_1_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang Teng Wang Daoan Zhang Jie An Jingyang Lin Rongyi Zhu Ali Vosoughi Chao Huang Zeliang Zhang Pinxin Liu Mingqian Feng Feng Zheng Jianguo Zhang Ping Luo Jiebo Luo and Chenliang Xu. 2024. Video Understanding with Large Language Models: A Survey. arXiv:2312.17432 [cs.CV] https:\/\/arxiv.org\/abs\/2312.17432","DOI":"10.1109\/TCSVT.2025.3566695"},{"key":"e_1_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03302-1"},{"key":"e_1_2_1_51_1","unstructured":"Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux Timoth\u00e9e Lacroix Baptiste Rozi\u00e8re Naman Goyal Eric Hambro Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave and Guillaume Lample. 2023. LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs.CL] https:\/\/arxiv.org\/abs\/2302.13971"},{"key":"e_1_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3761795"},{"key":"e_1_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00747"},{"key":"e_1_2_1_54_1","volume-title":"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics, Online, 38\u201345","author":"Wolf Thomas","year":"2020","unstructured":"Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R\u00e9mi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 2020. Transformers: State-of-the-Art Natural Language Processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics, Online, 38\u201345. https:\/\/www.aclweb.org\/anthology\/2020.emnlp-demos.6"},{"key":"e_1_2_1_55_1","first-page":"28828","article-title":"Longvideobench: A benchmark for long-context interleaved video-language understanding","volume":"37","author":"Wu Haoning","year":"2024","unstructured":"Haoning Wu, Dongxu Li, Bei Chen, and Junnan Li. 2024. Longvideobench: A benchmark for long-context interleaved video-language understanding. Advances in Neural Information Processing Systems 37 (2024), 28828\u201328857.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_2_1_56_1","volume-title":"Long Short-Term Transformer for Online Action Detection. In Conference on Neural Information Processing Systems (NeurIPS).","author":"Xu Mingze","year":"2021","unstructured":"Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu, and Stefano Soatto. 2021. Long Short-Term Transformer for Online Action Detection. In Conference on Neural Information Processing Systems (NeurIPS)."},{"key":"e_1_2_1_57_1","volume-title":"Drivegpt4: Interpretable end-to-end autonomous driving via large language model","author":"Xu Zhenhua","year":"2024","unstructured":"Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee K Wong, Zhenguo Li, and Hengshuang Zhao. 2024. Drivegpt4: Interpretable end-to-end autonomous driving via large language model. IEEE Robotics and Automation Letters (2024)."},{"key":"e_1_2_1_58_1","volume-title":"arXiv preprint arXiv:2412.15115","author":"Yang An","year":"2024","unstructured":"An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, and Zihan Qiu. 2024. Qwen2.5 Technical Report. arXiv preprint arXiv:2412.15115 (2024)."},{"key":"e_1_2_1_59_1","doi-asserted-by":"publisher","DOI":"10.1109\/FMSys62467.2024.00010"},{"key":"e_1_2_1_60_1","volume-title":"Mathis","author":"Ye Shaokai","year":"2025","unstructured":"Shaokai Ye, Haozhe Qi, Alexander Mathis, and Mackenzie W. Mathis. 2025. LLaVAction: evaluating and training multi-modal large language models for action recognition. arXiv:2503.18712 [cs.CV] https:\/\/arxiv.org\/abs\/2503.18712"},{"key":"e_1_2_1_61_1","volume-title":"Yong jae Lee, Liangke Gui, Di Fu, Jiashi Feng, Ziwei Liu, and Chunyuan Li.","author":"Zhang Yuanhan","year":"2024","unstructured":"Yuanhan Zhang, Bo Li, haotian Liu, Yong jae Lee, Liangke Gui, Di Fu, Jiashi Feng, Ziwei Liu, and Chunyuan Li. 2024. LLaVA-NeXT: A Strong Zero-shot Video Understanding Model. https:\/\/llava-vl.github.io\/blog\/2024-04-30-llava-next-video\/"},{"key":"e_1_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-demos.38"}],"container-title":["Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3770714","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,2]],"date-time":"2025-12-02T19:44:25Z","timestamp":1764704665000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3770714"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,2]]},"references-count":62,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2025,12,2]]}},"alternative-id":["10.1145\/3770714"],"URL":"https:\/\/doi.org\/10.1145\/3770714","relation":{},"ISSN":["2474-9567"],"issn-type":[{"value":"2474-9567","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12,2]]},"assertion":[{"value":"2025-12-02","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}