{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T09:04:26Z","timestamp":1765357466906,"version":"3.44.0"},"publisher-location":"New York, NY, USA","reference-count":66,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Industry-University-Research Innovation Fund of Universities in China","award":["2021ITA07005"],"award-info":[{"award-number":["2021ITA07005"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62072048"],"award-info":[{"award-number":["62072048"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612035","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:27:12Z","timestamp":1698391632000},"page":"173-183","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":8,"title":["View while Moving: Efficient Video Recognition in Long-untrimmed Videos"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6683-5524","authenticated-orcid":false,"given":"Ye","family":"Tian","sequence":"first","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7832-0926","authenticated-orcid":false,"given":"Mengyu","family":"Yang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0674-7864","authenticated-orcid":false,"given":"Lanshan","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9837-9845","authenticated-orcid":false,"given":"Zhizhen","family":"Zhang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9224-3277","authenticated-orcid":false,"given":"Yang","family":"Liu","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9413-4461","authenticated-orcid":false,"given":"Xiaohui","family":"Xie","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9759-767X","authenticated-orcid":false,"given":"Xirong","family":"Que","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6418-8087","authenticated-orcid":false,"given":"Wendong","family":"Wang","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Relja Arandjelovic and Andrew Zisserman. 2017. Look listen and learn. In ICCV. 609--617.","DOI":"10.1109\/ICCV.2017.73"},{"key":"e_1_3_2_1_2_1","volume-title":"19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22)","author":"Bhardwaj Romil","year":"2022","unstructured":"Romil Bhardwaj, Zhengxu Xia, Ganesh Ananthanarayanan, Junchen Jiang, Yuanchao Shu, Nikolaos Karianakis, Kevin Hsieh, Paramvir Bahl, and Ion Stoica. 2022. Ekya: Continuous learning of video analytics models on edge compute servers. In 19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22). 119--135."},{"key":"e_1_3_2_1_3_1","volume-title":"Activitynet: A large-scale video benchmark for human activity understanding. In CVPR. 961--970.","author":"Heilbron Fabian Caba","year":"2015","unstructured":"Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Carlos Niebles. 2015. Activitynet: A large-scale video benchmark for human activity understanding. In CVPR. 961--970."},{"key":"e_1_3_2_1_4_1","volume-title":"Soft actor-critic for discrete action settings. arXiv preprint arXiv:1910.07207","author":"Christodoulou Petros","year":"2019","unstructured":"Petros Christodoulou. 2019. Soft actor-critic for discrete action settings. arXiv preprint arXiv:1910.07207 (2019)."},{"key":"e_1_3_2_1_5_1","volume-title":"Imagenet: A large-scale hierarchical image database","author":"Deng Jia","year":"2009","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In CVPR. IEEE, 248--255."},{"key":"e_1_3_2_1_6_1","volume-title":"Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell.","author":"Donahue Jeffrey","year":"2015","unstructured":"Jeffrey Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell. 2015. Long-term recurrent convolutional networks for visual recognition and description. In CVPR. 2625--2634."},{"key":"e_1_3_2_1_7_1","volume-title":"Anne GE Collins, and Etienne Koechlin","author":"Donoso Ma\u00ebl","year":"2014","unstructured":"Ma\u00ebl Donoso, Anne GE Collins, and Etienne Koechlin. 2014. Foundations of human reasoning in the prefrontal cortex. Science, Vol. 344, 6191 (2014), 1481--1486."},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/3387514.3405887"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"crossref","unstructured":"Hehe Fan Zhongwen Xu Linchao Zhu Chenggang Yan Jianjun Ge and Yi Yang. 2018. Watching a small portion could be as good as watching all: Towards efficient video classification. In IJCAI.","DOI":"10.24963\/ijcai.2018\/98"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Christoph Feichtenhofer. 2020. X3D: Expanding Architectures for Efficient Video Recognition. In CVPR. 203--213.","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Christoph Feichtenhofer Haoqi Fan Jitendra Malik and Kaiming He. 2019. Slowfast networks for video recognition. In ICCV. 6202--6211.","DOI":"10.1109\/ICCV.2019.00630"},{"key":"e_1_3_2_1_12_1","unstructured":"Ruohan Gao Tae-Hyun Oh Kristen Grauman and Lorenzo Torresani. 2020. Listen to look: Action recognition by previewing audio. In CVPR. 10457--10467."},{"key":"e_1_3_2_1_13_1","volume-title":"Babak Ehteshami Bejnordi, and Amirhossein Habibian","author":"Ghodrati Amir","year":"2021","unstructured":"Amir Ghodrati, Babak Ehteshami Bejnordi, and Amirhossein Habibian. 2021. Frameexit: Conditional early exiting for efficient video recognition. In CVPR. 15608--15618."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Kensho Hara Hirokatsu Kataoka and Yutaka Satoh. 2018. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?. In CVPR. 6546--6555.","DOI":"10.1109\/CVPR.2018.00685"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR. 770--778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_1_16_1","volume-title":"Long short-term memory. Neural computation","author":"Hochreiter Sepp","year":"1997","unstructured":"Sepp Hochreiter and J\u00fcrgen Schmidhuber. 1997. Long short-term memory. Neural computation, Vol. 9, 8 (1997), 1735--1780."},{"key":"e_1_3_2_1_17_1","volume-title":"Actionbytes: Learning from trimmed videos to localize actions. In CVPR. 1171--1180.","author":"Jain Mihir","year":"2020","unstructured":"Mihir Jain, Amir Ghodrati, and Cees GM Snoek. 2020. Actionbytes: Learning from trimmed videos to localize actions. In CVPR. 1171--1180."},{"key":"e_1_3_2_1_18_1","volume-title":"TPAMI","volume":"40","author":"Jiang Yu-Gang","year":"2017","unstructured":"Yu-Gang Jiang, Zuxuan Wu, Jun Wang, Xiangyang Xue, and Shih-Fu Chang. 2017. Exploiting feature and class relationships in video categorization with regularized deep neural networks. TPAMI, Vol. 40, 2 (2017), 352--364."},{"key":"e_1_3_2_1_19_1","unstructured":"Will Kay Joao Carreira Karen Simonyan Brian Zhang Chloe Hillier Sudheendra Vijayanarasimhan Fabio Viola Tim Green Trevor Back Paul Natsev et al. 2017. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950 (2017)."},{"key":"e_1_3_2_1_20_1","volume-title":"Epic-fusion: Audio-visual temporal binding for egocentric action recognition. In ICCV. 5492--5501.","author":"Kazakos Evangelos","year":"2019","unstructured":"Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, and Dima Damen. 2019. Epic-fusion: Audio-visual temporal binding for egocentric action recognition. In ICCV. 5492--5501."},{"key":"e_1_3_2_1_21_1","volume-title":"Scsampler: Sampling salient clips from video for efficient action recognition. In ICCV. 6232--6242.","author":"Korbar Bruno","year":"2019","unstructured":"Bruno Korbar, Du Tran, and Lorenzo Torresani. 2019. Scsampler: Sampling salient clips from video for efficient action recognition. In ICCV. 6232--6242."},{"key":"e_1_3_2_1_22_1","unstructured":"Hengduo Li Zuxuan Wu Abhinav Shrivastava and Larry S Davis. 2021. 2d or not 2d? adaptive 3d convolution selection for efficient video recognition. In CVPR. 6155--6164."},{"key":"e_1_3_2_1_23_1","volume-title":"Tsm: Temporal shift module for efficient video understanding. In ICCV. 7083--7093.","author":"Lin Ji","year":"2019","unstructured":"Ji Lin, Chuang Gan, and Song Han. 2019. Tsm: Temporal shift module for efficient video understanding. In ICCV. 7083--7093."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6836"},{"key":"e_1_3_2_1_25_1","volume-title":"NIPS","volume":"30","author":"Lowe Ryan","year":"2017","unstructured":"Ryan Lowe, Yi I Wu, Aviv Tamar, Jean Harb, OpenAI Pieter Abbeel, and Igor Mordatch. 2017. Multi-agent actor-critic for mixed cooperative-competitive environments. NIPS, Vol. 30 (2017)."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2022.07.028"},{"key":"e_1_3_2_1_27_1","volume-title":"Ar-net: Adaptive frame resolution for efficient action recognition","author":"Meng Yue","year":"2020","unstructured":"Yue Meng, Chung-Ching Lin, Rameswar Panda, Prasanna Sattigeri, Leonid Karlinsky, Aude Oliva, Kate Saenko, and Rogerio Feris. 2020. Ar-net: Adaptive frame resolution for efficient action recognition. In ECCV. Springer, 86--104."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Yue Meng Rameswar Panda Chung-Ching Lin Prasanna Sattigeri Leonid Karlinsky Kate Saenko Aude Oliva and Rogerio Feris. 2021. AdaFuse: Adaptive Temporal Fusion Network for Efficient Action Recognition. In ICLR.","DOI":"10.1007\/978-3-030-58571-6_6"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475594"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3551581"},{"key":"e_1_3_2_1_31_1","volume-title":"Quanfu Fan, Ximeng Sun, Kate Saenko, Aude Oliva, and Rogerio Feris.","author":"Panda Rameswar","year":"2021","unstructured":"Rameswar Panda, Chun-Fu Richard Chen, Quanfu Fan, Ximeng Sun, Kate Saenko, Aude Oliva, and Rogerio Feris. 2021. Adamml: Adaptive multi-modal learning for efficient video recognition. In ICCV. 7576--7585."},{"key":"e_1_3_2_1_32_1","volume-title":"Tiny Video Networks. arXiv preprint arXiv:1910.06961","author":"Piergiovanni AJ","year":"2019","unstructured":"AJ Piergiovanni, Anelia Angelova, and Michael S Ryoo. 2019. Tiny Video Networks. arXiv preprint arXiv:1910.06961 (2019)."},{"key":"e_1_3_2_1_33_1","unstructured":"Zhaofan Qiu Ting Yao and Tao Mei. 2017. Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV. 5533--5541."},{"key":"e_1_3_2_1_34_1","volume-title":"Deep auto-encoder with neural response. arXiv preprint arXiv:2111.15309","author":"Ran Xuming","year":"2021","unstructured":"Xuming Ran, Jie Zhang, Ziyuan Ye, Haiyan Wu, Qi Xu, Huihui Zhou, and Quanying Liu. 2021. Deep auto-encoder with neural response. arXiv preprint arXiv:2111.15309 (2021)."},{"key":"e_1_3_2_1_35_1","volume-title":"Doubts about double dissociations between short-and long-term memory. Trends in cognitive sciences","author":"Ranganath Charan","year":"2005","unstructured":"Charan Ranganath and Robert S Blumenfeld. 2005. Doubts about double dissociations between short-and long-term memory. Trends in cognitive sciences, Vol. 9, 8 (2005), 374--380."},{"key":"e_1_3_2_1_36_1","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. In NIPS. 568--576."},{"key":"e_1_3_2_1_37_1","volume-title":"Aude Oliva, Rogerio Feris, and Kate Saenko.","author":"Sun Ximeng","year":"2021","unstructured":"Ximeng Sun, Rameswar Panda, Chun-Fu Richard Chen, Aude Oliva, Rogerio Feris, and Kate Saenko. 2021. Dynamic network quantization for efficient video inference. In ICCV. 7375--7385."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Du Tran Lubomir Bourdev Rob Fergus Lorenzo Torresani and Manohar Paluri. 2015. Learning spatiotemporal features with 3d convolutional networks. In ICCV. 4489--4497.","DOI":"10.1109\/ICCV.2015.510"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun and Manohar Paluri. 2018. A closer look at spatiotemporal convolutions for action recognition. In CVPR. 6450--6459.","DOI":"10.1109\/CVPR.2018.00675"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2712608"},{"key":"e_1_3_2_1_41_1","volume-title":"NIPS","volume":"30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. NIPS, Vol. 30 (2017)."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108146"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Heng Wang and Cordelia Schmid. 2013. Action recognition with improved trajectories. In ICCV. 3551--3558.","DOI":"10.1109\/ICCV.2013.441"},{"key":"e_1_3_2_1_44_1","volume-title":"Tdn: Temporal difference networks for efficient action recognition. In CVPR. 1895--1904.","author":"Wang Limin","year":"2021","unstructured":"Limin Wang, Zhan Tong, Bin Ji, and Gangshan Wu. 2021b. Tdn: Temporal difference networks for efficient action recognition. In CVPR. 1895--1904."},{"volume-title":"Temporal segment networks: Towards good practices for deep action recognition","author":"Wang Limin","key":"e_1_3_2_1_45_1","unstructured":"Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. 2016. Temporal segment networks: Towards good practices for deep action recognition. In ECCV. Springer, 20--36."},{"key":"e_1_3_2_1_46_1","volume-title":"Disentangled representation learning for text-video retrieval. arXiv preprint arXiv:2203.07111","author":"Wang Qiang","year":"2022","unstructured":"Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, and Xian-Sheng Hua. 2022c. Disentangled representation learning for text-video retrieval. arXiv preprint arXiv:2203.07111 (2022)."},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"crossref","unstructured":"Xiaolong Wang Ross Girshick Abhinav Gupta and Kaiming He. 2018. Non-local neural networks. In CVPR. 7794--7803.","DOI":"10.1109\/CVPR.2018.00813"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Yulin Wang Zhaoxi Chen Haojun Jiang Shiji Song Yizeng Han and Gao Huang. 2021a. Adaptive Focus for Efficient Video Recognition. In ICCV.","DOI":"10.1109\/ICCV48922.2021.01594"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Yulin Wang Yang Yue Yuanze Lin Haojun Jiang Zihang Lai Victor Kulikov Nikita Orlov Humphrey Shi and Gao Huang. 2022a. AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01943"},{"volume-title":"AdaFocusV3: On Unified Spatial-Temporal Dynamic Video Recognition","author":"Wang Yulin","key":"e_1_3_2_1_50_1","unstructured":"Yulin Wang, Yang Yue, Xinhong Xu, Ali Hassani, Victor Kulikov, Nikita Orlov, Shiji Song, Humphrey Shi, and Gao Huang. 2022b. AdaFocusV3: On Unified Spatial-Temporal Dynamic Video Recognition. In ECCV. Springer, 226--243."},{"key":"e_1_3_2_1_51_1","unstructured":"Chao-Yuan Wu Christoph Feichtenhofer Haoqi Fan Kaiming He Philipp Krahenbuhl and Ross Girshick. 2019a. Long-term feature banks for detailed video understanding. In CVPR. 284--293."},{"key":"e_1_3_2_1_52_1","volume-title":"Memvit: Memory-augmented multiscale vision transformer for efficient long-term video recognition. In CVPR. 13587--13597.","author":"Wu Chao-Yuan","year":"2022","unstructured":"Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, and Christoph Feichtenhofer. 2022. Memvit: Memory-augmented multiscale vision transformer for efficient long-term video recognition. In CVPR. 13587--13597."},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i4.16401"},{"key":"e_1_3_2_1_54_1","unstructured":"Wenhao Wu Dongliang He Xiao Tan Shifeng Chen and Shilei Wen. 2019b. Multi-agent reinforcement learning based frame sampling for effective untrimmed video recognition. In ICCV. 6222--6231."},{"key":"e_1_3_2_1_55_1","unstructured":"Zuxuan Wu Caiming Xiong Yu-Gang Jiang and Larry S Davis. 2019c. LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition. In NIPS. 7778--7787."},{"key":"e_1_3_2_1_56_1","volume-title":"Adaframe: Adaptive frame selection for fast video recognition. In CVPR. 1278--1287.","author":"Wu Zuxuan","year":"2019","unstructured":"Zuxuan Wu, Caiming Xiong, Chih-Yao Ma, Richard Socher, and Larry S Davis. 2019d. Adaframe: Adaptive frame selection for fast video recognition. In CVPR. 1278--1287."},{"volume-title":"Temporal saliency query network for efficient video recognition","author":"Xia Boyang","key":"e_1_3_2_1_57_1","unstructured":"Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, and Jungong Han. 2022a. Temporal saliency query network for efficient video recognition. In ECCV. Springer, 741--759."},{"key":"e_1_3_2_1_58_1","volume-title":"Nsnet: Non-saliency suppression sampler for efficient video recognition","author":"Xia Boyang","year":"2022","unstructured":"Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, and Wanli Ouyang. 2022b. Nsnet: Non-saliency suppression sampler for efficient video recognition. In ECCV. Springer, 705--723."},{"key":"e_1_3_2_1_59_1","volume-title":"Micro-video Popularity Prediction via Multimodal Variational Information Bottleneck","author":"Xie Jiayi","year":"2021","unstructured":"Jiayi Xie, Yaochen Zhu, and Zhenzhong Chen. 2021. Micro-video Popularity Prediction via Multimodal Variational Information Bottleneck. IEEE Transactions on Multimedia (2021)."},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3232106"},{"key":"e_1_3_2_1_61_1","doi-asserted-by":"publisher","DOI":"10.1145\/3485447.3512273"},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"crossref","unstructured":"Shusheng Yang Xinggang Wang Yu Li Yuxin Fang Jiemin Fang Wenyu Liu Xun Zhao and Ying Shan. 2022b. Temporally efficient vision transformer for video instance segmentation. In CVPR. 2885--2895.","DOI":"10.1109\/CVPR52688.2022.00290"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"crossref","unstructured":"Serena Yeung Olga Russakovsky Greg Mori and Li Fei-Fei. 2016. End-to-end learning of action detection from frame glimpses in videos. In CVPR. 2678--2687.","DOI":"10.1109\/CVPR.2016.293"},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"crossref","unstructured":"Bowen Zhang Hexiang Hu and Fei Sha. 2018. Cross-modal and hierarchical modeling of video and text. In ECCV. 374--390.","DOI":"10.1007\/978-3-030-01261-8_23"},{"key":"e_1_3_2_1_65_1","volume-title":"Look More but Care Less in Video Recognition. arXiv preprint arXiv:2211.09992","author":"Zhang Yitian","year":"2022","unstructured":"Yitian Zhang, Yue Bai, Huan Wang, Yi Xu, and Yun Fu. 2022. Look More but Care Less in Video Recognition. arXiv preprint arXiv:2211.09992 (2022)."},{"key":"e_1_3_2_1_66_1","volume-title":"Eco: Efficient convolutional network for online video understanding. In ECCV. 695--712.","author":"Zolfaghari Mohammadreza","year":"2018","unstructured":"Mohammadreza Zolfaghari, Kamaljeet Singh, and Thomas Brox. 2018. Eco: Efficient convolutional network for online video understanding. In ECCV. 695--712."}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Ottawa ON Canada","acronym":"MM '23"},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612035","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612035","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:07:01Z","timestamp":1755821221000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612035"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":66,"alternative-id":["10.1145\/3581783.3612035","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612035","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}