{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T04:23:28Z","timestamp":1750220608331,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":65,"publisher":"ACM","license":[{"start":{"date-parts":[[2020,6,8]],"date-time":"2020-06-08T00:00:00Z","timestamp":1591574400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/501100014438","name":"Business Finland","doi-asserted-by":"publisher","award":["1660\/31\/2018"],"award-info":[{"award-number":["1660\/31\/2018"]}],"id":[{"id":"10.13039\/501100014438","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100007601","name":"Horizon 2020","doi-asserted-by":"publisher","award":["777222"],"award-info":[{"award-number":["777222"]}],"id":[{"id":"10.13039\/501100007601","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2020,6,8]]},"DOI":"10.1145\/3372278.3390675","type":"proceedings-article","created":{"date-parts":[[2020,6,2]],"date-time":"2020-06-02T04:35:27Z","timestamp":1591072527000},"page":"63-72","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["Heterogeneous Non-Local Fusion for Multimodal Activity Recognition"],"prefix":"10.1145","author":[{"given":"Petr","family":"Byvshev","sequence":"first","affiliation":[{"name":"Aalto University, Espoo, Finland"}]},{"given":"Pascal","family":"Mettes","sequence":"additional","affiliation":[{"name":"University of Amsterdam, Amsterdam, Netherlands"}]},{"given":"Yu","family":"Xiao","sequence":"additional","affiliation":[{"name":"Aalto University, Espoo, Finland"}]}],"member":"320","published-online":{"date-parts":[[2020,6,8]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Fakhreddine Ababsa Hicham Hadj-Abdelkader and Marouane Boui. 2019. 3D Human Tracking with Catadioptric Omnidirectional Camera. In ICMR.  Fakhreddine Ababsa Hicham Hadj-Abdelkader and Marouane Boui. 2019. 3D Human Tracking with Catadioptric Omnidirectional Camera. In ICMR.","DOI":"10.1145\/3323873.3325027"},{"key":"e_1_3_2_1_2_1","volume-title":"A Smart Glove to Track Fitness Exercises by Reading Hand Palm. Journal of Sensors","author":"Akpa A.","year":"2019","unstructured":"A. Akpa , Masashi Fujiwara , Hirohiko Suwa , Yutaka Arakawa , and Keiichi Yasumoto . 2019. A Smart Glove to Track Fitness Exercises by Reading Hand Palm. Journal of Sensors ( 2019 ). A. Akpa, Masashi Fujiwara, Hirohiko Suwa, Yutaka Arakawa, and Keiichi Yasumoto. 2019. A Smart Glove to Track Fitness Exercises by Reading Hand Palm. Journal of Sensors (2019)."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Xavier Alameda-Pineda Soraya Arias Yutong Ban Guillaume Delorme Laurent Girin Radu Horaud Xiaofei Li Bastien Mourgue and Guillaume Sarrazin. 2019. Audio-Visual Variational Fusion for Multi-Person Tracking with Robots. In ACM MM.  Xavier Alameda-Pineda Soraya Arias Yutong Ban Guillaume Delorme Laurent Girin Radu Horaud Xiaofei Li Bastien Mourgue and Guillaume Sarrazin. 2019. Audio-Visual Variational Fusion for Multi-Person Tracking with Robots. In ACM MM.","DOI":"10.1145\/3343031.3350590"},{"key":"e_1_3_2_1_4_1","volume-title":"Ensar Arif Sagbas, and Musa Peker","author":"Balli Serkan","year":"2019","unstructured":"Serkan Balli , Ensar Arif Sagbas, and Musa Peker . 2019 . Human activity recognition from smart watch sensor data using a hybrid of principal component analysis and random forest algorithm. Measurement and Control ( 2019). Serkan Balli, Ensar Arif Sagbas, and Musa Peker. 2019. Human activity recognition from smart watch sensor data using a hybrid of principal component analysis and random forest algorithm. Measurement and Control (2019)."},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"crossref","unstructured":"T. Bates K. Ramirez-Amaro T. Inamura and G. Cheng. 2017. On-line simultaneous learning and recognition of everyday activities from virtual reality performances. In IROS.  T. Bates K. Ramirez-Amaro T. Inamura and G. Cheng. 2017. On-line simultaneous learning and recognition of everyday activities from virtual reality performances. In IROS.","DOI":"10.1109\/IROS.2017.8206193"},{"key":"e_1_3_2_1_6_1","unstructured":"Captoglove. [n.d.]. Captoglove smart gloves' website; https:\/\/www.captoglove.com\/. https:\/\/www.captoglove.com\/  Captoglove. [n.d.]. Captoglove smart gloves' website; https:\/\/www.captoglove.com\/. https:\/\/www.captoglove.com\/"},{"key":"e_1_3_2_1_7_1","volume-title":"Action Recognition? A New Model and the Kinetics Dataset. CVPR","author":"Carreira Jo","year":"2017","unstructured":"Jo ao Carreira and Andrew Zisserman . 2017. Quo Vadis , Action Recognition? A New Model and the Kinetics Dataset. CVPR ( 2017 ). Jo ao Carreira and Andrew Zisserman. 2017. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. CVPR (2017)."},{"key":"e_1_3_2_1_8_1","volume-title":"Pau Climent-P\u00e9rez, and Francisco Fl\u00f3rez-Revuelta.","author":"Chaaraoui Alexandros Andre","year":"2014","unstructured":"Alexandros Andre Chaaraoui , Jos\u00e9 Ram\u00f3n Padilla-L\u00f3pez , Pau Climent-P\u00e9rez, and Francisco Fl\u00f3rez-Revuelta. 2014 . Evolutionary joint selection to improve human action recognition with RGB-D devices. Expert systems with applications, Vol. 41 , 3 (2014), 786--794. Alexandros Andre Chaaraoui, Jos\u00e9 Ram\u00f3n Padilla-L\u00f3pez, Pau Climent-P\u00e9rez, and Francisco Fl\u00f3rez-Revuelta. 2014. Evolutionary joint selection to improve human action recognition with RGB-D devices. Expert systems with applications, Vol. 41, 3 (2014), 786--794."},{"key":"e_1_3_2_1_9_1","first-page":"6","article-title":"Sensor-Based Activity Recognition","volume":"42","author":"Chen L.","year":"2012","unstructured":"L. Chen , J. Hoey , C. D. Nugent , D. J. Cook , and Z. Yu . 2012 . Sensor-Based Activity Recognition . IEEE Transactions on Systems, Man, and Cybernetics , Vol. 42 , 6 (Nov 2012), 790--808. L. Chen, J. Hoey, C. D. Nugent, D. J. Cook, and Z. Yu. 2012. Sensor-Based Activity Recognition. IEEE Transactions on Systems, Man, and Cybernetics, Vol. 42, 6 (Nov 2012), 790--808.","journal-title":"IEEE Transactions on Systems, Man, and Cybernetics"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Lu Chi Guiyu Tian Yadong Mu and Qi Tian. 2019. Two-Stream Video Classification with Cross-Modality Attention. In ICCVw.  Lu Chi Guiyu Tian Yadong Mu and Qi Tian. 2019. Two-Stream Video Classification with Cross-Modality Attention. In ICCVw.","DOI":"10.1109\/ICCVW.2019.00552"},{"key":"e_1_3_2_1_11_1","volume-title":"Divide and Conquer-Based 1D CNN Human Activity Recognition Using Test Data Sharpening. MDPI Sensors","author":"Cho Heeryon","year":"2018","unstructured":"Heeryon Cho and Sang Min Yoon . 2018. Divide and Conquer-Based 1D CNN Human Activity Recognition Using Test Data Sharpening. MDPI Sensors ( 2018 ). Heeryon Cho and Sang Min Yoon. 2018. Divide and Conquer-Based 1D CNN Human Activity Recognition Using Test Data Sharpening. MDPI Sensors (2018)."},{"key":"e_1_3_2_1_12_1","volume-title":"User activity recognition via kinect in an ambient intelligence scenario. IERI Procedia","author":"Cottone Pietro","year":"2014","unstructured":"Pietro Cottone , Gabriele Maida , and Marco Morana . 2014. User activity recognition via kinect in an ambient intelligence scenario. IERI Procedia ( 2014 ). Pietro Cottone, Gabriele Maida, and Marco Morana. 2014. User activity recognition via kinect in an ambient intelligence scenario. IERI Procedia (2014)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.3390\/s17061287"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"J. Deng W. Dong R. Socher L.-J. Li K. Li and L. Fei-Fei. 2009. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09.  J. Deng W. Dong R. Socher L.-J. Li K. Li and L. Fei-Fei. 2009. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_2_1_15_1","unstructured":"P. Dollar V. Rabaud G. Cottrell and S. Belongie. 2005. Behavior Recognition via Sparse Spatio-Temporal Features. In ICCCN. IEEE Computer Society USA.  P. Dollar V. Rabaud G. Cottrell and S. Belongie. 2005. Behavior Recognition via Sparse Spatio-Temporal Features. In ICCCN. IEEE Computer Society USA."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"L. Fan Z. Wang and H. Wang. 2013. Human Activity Recognition Model Based on Decision Tree. In CBD.  L. Fan Z. Wang and H. Wang. 2013. Human Activity Recognition Model Based on Decision Tree. In CBD.","DOI":"10.1109\/CBD.2013.19"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Christoph Feichtenhofer Haoqi Fan Jitendra Malik and Kaiming He. 2019. SlowFast Networks for Video Recognition. In ICCV.  Christoph Feichtenhofer Haoqi Fan Jitendra Malik and Kaiming He. 2019. SlowFast Networks for Video Recognition. In ICCV.","DOI":"10.1109\/ICCV.2019.00630"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Christoph Feichtenhofer Axel Pinz and Richard Wildes. 2016a. Spatiotemporal residual networks for video action recognition. In Advances in neural information processing systems.  Christoph Feichtenhofer Axel Pinz and Richard Wildes. 2016a. Spatiotemporal residual networks for video action recognition. In Advances in neural information processing systems.","DOI":"10.1109\/CVPR.2017.787"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"crossref","unstructured":"Christoph Feichtenhofer Axel Pinz and Richard P Wildes. 2017. Spatiotemporal multiplier networks for video action recognition. In CVPR. 4768--4777.  Christoph Feichtenhofer Axel Pinz and Richard P Wildes. 2017. Spatiotemporal multiplier networks for video action recognition. In CVPR. 4768--4777.","DOI":"10.1109\/CVPR.2017.787"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"C. Feichtenhofer A. Pinz and A. Zisserman. 2016b. Convolutional Two-Stream Network Fusion for Video Action Recognition. In CVPR.  C. Feichtenhofer A. Pinz and A. Zisserman. 2016b. Convolutional Two-Stream Network Fusion for Video Action Recognition. In CVPR.","DOI":"10.1109\/CVPR.2016.213"},{"key":"e_1_3_2_1_21_1","unstructured":"Z. Feng L. Mo and M. Li. 2015. A Random Forest-based ensemble method for activity recognition. In IEEE EMBC.  Z. Feng L. Mo and M. Li. 2015. A Random Forest-based ensemble method for activity recognition. In IEEE EMBC."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-017-0992-z"},{"key":"e_1_3_2_1_23_1","volume-title":"Patrick Robertson, and Tom Pfeifer.","author":"Frank Korbinian","year":"2010","unstructured":"Korbinian Frank , Mar\u00eda Jos\u00e9 Vera , Patrick Robertson, and Tom Pfeifer. 2010 . Bayesian Recognition of Motion Related Activities with Inertial Sensors. In UbiComp '10. Korbinian Frank, Mar\u00eda Jos\u00e9 Vera, Patrick Robertson, and Tom Pfeifer. 2010. Bayesian Recognition of Motion Related Activities with Inertial Sensors. In UbiComp'10."},{"key":"e_1_3_2_1_24_1","unstructured":"Yuqian Fu Chengrong Wang Yanwei Fu Yu-Xiong Wang Cong Bai Xiangyang Xue and Yu-Gang Jiang. 2019. Embodied One-Shot Video Recognition: Learning from Actions of a Virtual Embodied Agent. In ACM MM.  Yuqian Fu Chengrong Wang Yanwei Fu Yu-Xiong Wang Cong Bai Xiangyang Xue and Yu-Gang Jiang. 2019. Embodied One-Shot Video Recognition: Learning from Actions of a Virtual Embodied Agent. In ACM MM."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"crossref","unstructured":"Ralph Gasser Luca Rossetto and Heiko Schuldt. 2019. Multimodal Multimedia Retrieval with vitrivr. In ICMR.  Ralph Gasser Luca Rossetto and Heiko Schuldt. 2019. Multimodal Multimedia Retrieval with vitrivr. In ICMR.","DOI":"10.1145\/3323873.3326921"},{"key":"e_1_3_2_1_26_1","volume-title":"Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? CoRR","author":"Hara Kensho","year":"2017","unstructured":"Kensho Hara , Hirokatsu Kataoka , and Yutaka Satoh . 2017. Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? CoRR ( 2017 ). Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. 2017. Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? CoRR (2017)."},{"key":"e_1_3_2_1_27_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR.  Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Fabian Caba Heilbron Victor Escorcia Bernard Ghanem and Juan Carlos Niebles. 2015. ActivityNet: A large-scale video benchmark for human activity understanding.. In CVPR.  Fabian Caba Heilbron Victor Escorcia Bernard Ghanem and Juan Carlos Niebles. 2015. ActivityNet: A large-scale video benchmark for human activity understanding.. In CVPR.","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"e_1_3_2_1_29_1","volume-title":"Sensors","volume":"16","author":"Ord\u00f3\u00f1ez Francisco Javier","year":"2016","unstructured":"Francisco Javier Ord\u00f3\u00f1ez and Daniel Roggen . 2016 . Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition . Sensors , Vol. 16 (01 2016), 115. Francisco Javier Ord\u00f3\u00f1ez and Daniel Roggen. 2016. Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition. Sensors, Vol. 16 (01 2016), 115."},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Andrej Karpathy George Toderici Sanketh Shetty Thomas Leung Rahul Sukthankar and Li Fei-Fei. 2014. Large-scale Video Classification with Convolutional Neural Networks. In CVPR.  Andrej Karpathy George Toderici Sanketh Shetty Thomas Leung Rahul Sukthankar and Li Fei-Fei. 2014. Large-scale Video Classification with Convolutional Neural Networks. In CVPR.","DOI":"10.1109\/CVPR.2014.223"},{"key":"e_1_3_2_1_31_1","volume-title":"Venieris","author":"Kasnesis Panagiotis","year":"2018","unstructured":"Panagiotis Kasnesis , Charalampos Z. Patrikakis , and Iakovos S . Venieris . 2018 . PerceptionNet: A Deep Convolutional Neural Network for Late Sensor Fusion. CoRR ( 2018). arxiv: 1811.00170 Panagiotis Kasnesis, Charalampos Z. Patrikakis, and Iakovos S. Venieris. 2018. PerceptionNet: A Deep Convolutional Neural Network for Late Sensor Fusion. CoRR (2018). arxiv: 1811.00170"},{"key":"e_1_3_2_1_32_1","volume-title":"Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman.","author":"Kay Will","year":"2017","unstructured":"Will Kay , Jo a o Carreira , Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. 2017 . The Kinetics Human Action Video Dataset. CoRR ( 2017). Will Kay, Jo a o Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. 2017. The Kinetics Human Action Video Dataset. CoRR (2017)."},{"key":"e_1_3_2_1_33_1","volume-title":"Video-based emotion recognition in the wild using deep transfer learning and score fusion. Image and Vision Computing","author":"Kaya Heysem","year":"2017","unstructured":"Heysem Kaya , Furkan G\u00fcrp?nar, and Albert Ali Salah . 2017. Video-based emotion recognition in the wild using deep transfer learning and score fusion. Image and Vision Computing ( 2017 ). Heysem Kaya, Furkan G\u00fcrp?nar, and Albert Ali Salah. 2017. Video-based emotion recognition in the wild using deep transfer learning and score fusion. Image and Vision Computing (2017)."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"crossref","unstructured":"Alexander Kl\u00e4ser Marcin Marszalek and Cordelia Schmid. 2008. A Spatio-Temporal Descriptor Based on 3D-Gradients. In BMVC.  Alexander Kl\u00e4ser Marcin Marszalek and Cordelia Schmid. 2008. A Spatio-Temporal Descriptor Based on 3D-Gradients. In BMVC.","DOI":"10.5244\/C.22.99"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"H. Koskimaki V. Huikari P. Siirtola P. Laurinen and J. Roning. 2009. Activity recognition using a wrist-worn inertial measurement unit: A case study for industrial assembly lines. In MED.  H. Koskimaki V. Huikari P. Siirtola P. Laurinen and J. Roning. 2009. Activity recognition using a wrist-worn inertial measurement unit: A case study for industrial assembly lines. In MED.","DOI":"10.1109\/MED.2009.5164574"},{"volume-title":"ICCV. 432--439","author":"Lindeberg Laptev","key":"e_1_3_2_1_36_1","unstructured":"Laptev and Lindeberg . 2003. Space-time interest points . In ICCV. 432--439 vol. 1 . Laptev and Lindeberg. 2003. Space-time interest points. In ICCV. 432--439 vol.1."},{"key":"e_1_3_2_1_37_1","unstructured":"Tsung-Yi Lin Priya Goyal Ross Girshick Kaiming He and Piotr Doll\u00e1r. 2017. Focal loss for dense object detection. In ICCV.  Tsung-Yi Lin Priya Goyal Ross Girshick Kaiming He and Piotr Doll\u00e1r. 2017. Focal loss for dense object detection. In ICCV."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1023\/B:VISI.0000029664.99615.94"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Julien Maitre Cl\u00e9ment Rendu K\u00e9vin Bouchard Bruno Bouchard and Sebastien Gaboury. 2019. Basic Daily Activity Recognition with a Data Glove. In Procedia Computer Science. 108--115.  Julien Maitre Cl\u00e9ment Rendu K\u00e9vin Bouchard Bruno Bouchard and Sebastien Gaboury. 2019. Basic Daily Activity Recognition with a Data Glove. In Procedia Computer Science. 108--115.","DOI":"10.1016\/j.procs.2019.04.018"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"K. G. Manosha Chathuramali and R. Rodrigo. 2012. Faster human activity recognition with SVM. In ICTer. 197--203.  K. G. Manosha Chathuramali and R. Rodrigo. 2012. Faster human activity recognition with SVM. In ICTer. 197--203.","DOI":"10.1109\/ICTer.2012.6421415"},{"key":"e_1_3_2_1_41_1","unstructured":"Yang Mi Kang Zheng and Song Wang. 2018. Recognizing Actions in Wearable-Camera Videos by Training Classifiers on Fixed-Camera Videos. In ICMR.  Yang Mi Kang Zheng and Song Wang. 2018. Recognizing Actions in Wearable-Camera Videos by Training Classifiers on Fixed-Camera Videos. In ICMR."},{"key":"e_1_3_2_1_42_1","volume-title":"Alex Andonian, Tom Yan, Kandan Ramakrishnan, Lisa M. Brown, Quanfu Fan, Dan Gutfreund, Carl Vondrick, and Aude Oliva.","author":"Monfort Mathew","year":"2018","unstructured":"Mathew Monfort , Bolei Zhou , Sarah Adel Bargal , Alex Andonian, Tom Yan, Kandan Ramakrishnan, Lisa M. Brown, Quanfu Fan, Dan Gutfreund, Carl Vondrick, and Aude Oliva. 2018 . Moments in Time Dataset: one million videos for event understanding. IEEE TPAMI ( 2018). Mathew Monfort, Bolei Zhou, Sarah Adel Bargal, Alex Andonian, Tom Yan, Kandan Ramakrishnan, Lisa M. Brown, Quanfu Fan, Dan Gutfreund, Carl Vondrick, and Aude Oliva. 2018. Moments in Time Dataset: one million videos for event understanding. IEEE TPAMI (2018)."},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Tomokazu Murakami. 2018. Industrial Applications of Image Recognition and Retrieval Technologies for Public Safety and IT Services. In ACM ICMR. 4.  Tomokazu Murakami. 2018. Industrial Applications of Image Recognition and Retrieval Technologies for Public Safety and IT Services. In ACM ICMR. 4.","DOI":"10.1145\/3206025.3210492"},{"key":"e_1_3_2_1_44_1","volume-title":"Sensors","volume":"16","author":"Ord\u00f3\u00f1ez Francisco Javier","year":"2016","unstructured":"Francisco Javier Ord\u00f3\u00f1ez and Daniel Roggen . 2016 . Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition . Sensors , Vol. 16 , 1 (2016). Francisco Javier Ord\u00f3\u00f1ez and Daniel Roggen. 2016. Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition. Sensors, Vol. 16, 1 (2016)."},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1142\/S1793351X16400171"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"Daniel Rotman Dror Porat Gal Ashour and Udi Barzelay. 2018. Optimally Grouped Deep Features Using Normalized Cost for Video Scene Detection. In ACM ICMR.  Daniel Rotman Dror Porat Gal Ashour and Udi Barzelay. 2018. Optimally Grouped Deep Features Using Normalized Cost for Video Scene Detection. In ACM ICMR.","DOI":"10.1145\/3206025.3206055"},{"key":"e_1_3_2_1_47_1","volume-title":"Black","author":"Sevilla-Lara Laura","year":"2019","unstructured":"Laura Sevilla-Lara , Yiyi Liao , Fatma G\u00fcney , Varun Jampani , Andreas Geiger , and Michael J . Black . 2019 . On the Integration of Optical Flow and Action Recognition. In Pattern Recognition, Thomas Brox, Andr\u00e9s Bruhn, and Mario Fritz (Eds.). Springer International Publishing , Cham, 281--297. Laura Sevilla-Lara, Yiyi Liao, Fatma G\u00fcney, Varun Jampani, Andreas Geiger, and Michael J. Black. 2019. On the Integration of Optical Flow and Action Recognition. In Pattern Recognition, Thomas Brox, Andr\u00e9s Bruhn, and Mario Fritz (Eds.). Springer International Publishing, Cham, 281--297."},{"key":"e_1_3_2_1_48_1","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. In Advances in neural information processing systems.  Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. In Advances in neural information processing systems."},{"key":"e_1_3_2_1_49_1","volume-title":"Tsinghua Science and Technology","volume":"19","author":"Su Xing","year":"2014","unstructured":"Xing Su , Hanghang Tong , and Ping Ji . 2014 . Activity Recognition with Smartphone Sensors . Tsinghua Science and Technology , Vol. 19 (06 2014), 235--249. Xing Su, Hanghang Tong, and Ping Ji. 2014. Activity Recognition with Smartphone Sensors. Tsinghua Science and Technology, Vol. 19 (06 2014), 235--249."},{"volume-title":"Decision Trees for Human Activity Recognition in Smart House Environments","author":"S\u00e1nchez Veralia Gabriela","key":"e_1_3_2_1_50_1","unstructured":"Veralia Gabriela S\u00e1nchez and Nils-Olav Skeie . 2018. Decision Trees for Human Activity Recognition in Smart House Environments . In SIMS. Link\u00f6ping University Electronic Press , Link\u00f6pings universitet. Veralia Gabriela S\u00e1nchez and Nils-Olav Skeie. 2018. Decision Trees for Human Activity Recognition in Smart House Environments. In SIMS. Link\u00f6ping University Electronic Press, Link\u00f6pings universitet."},{"key":"e_1_3_2_1_51_1","volume-title":"A Closer Look at Spatiotemporal Convolutions for Action Recognition. CoRR","author":"Tran Du","year":"2017","unstructured":"Du Tran , Heng Wang , Lorenzo Torresani , Jamie Ray , Yann LeCun , and Manohar Paluri . 2017. A Closer Look at Spatiotemporal Convolutions for Action Recognition. CoRR ( 2017 ). Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, and Manohar Paluri. 2017. A Closer Look at Spatiotemporal Convolutions for Action Recognition. CoRR (2017)."},{"key":"e_1_3_2_1_52_1","volume-title":"Long-term temporal convolutions for action recognition","author":"Varol G\u00fcl","year":"2017","unstructured":"G\u00fcl Varol , Ivan Laptev , and Cordelia Schmid . 2017. Long-term temporal convolutions for action recognition . IEEE transactions on pattern analysis and machine intelligence, Vol. 40 , 6 ( 2017 ), 1510--1517. G\u00fcl Varol, Ivan Laptev, and Cordelia Schmid. 2017. Long-term temporal convolutions for action recognition. IEEE transactions on pattern analysis and machine intelligence, Vol. 40, 6 (2017), 1510--1517."},{"key":"e_1_3_2_1_53_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998--6008.  Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998--6008."},{"key":"e_1_3_2_1_54_1","volume-title":"St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie","author":"Vielzeuf Valentin","year":"2018","unstructured":"Valentin Vielzeuf , Alexis Lechervy , St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie . 2018 . Multi-Level Sensor Fusion with Deep Learning. CoRR ( 2018). Valentin Vielzeuf, Alexis Lechervy, St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie. 2018. Multi-Level Sensor Fusion with Deep Learning. CoRR (2018)."},{"key":"e_1_3_2_1_55_1","volume-title":"St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie","author":"Vielzeuf Valentin","year":"2017","unstructured":"Valentin Vielzeuf , St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie . 2017 . Temporal Multimodal Fusion for Video Emotion Classification in the Wild. CoRR ( 2017). Valentin Vielzeuf, St\u00e9 phane Pateux, and Fr\u00e9 d\u00e9 ric Jurie. 2017. Temporal Multimodal Fusion for Video Emotion Classification in the Wild. CoRR (2017)."},{"key":"e_1_3_2_1_56_1","volume-title":"Sensors","volume":"19","author":"Voicu Robert-Andrei","year":"2019","unstructured":"Robert-Andrei Voicu , Ciprian Dobre , Lidia Bajenaru , and Radu-Ioan Ciobanu . 2019 . Human Physical Activity Recognition Using Smartphone Sensors . Sensors , Vol. 19 , 3 (2019). Robert-Andrei Voicu, Ciprian Dobre, Lidia Bajenaru, and Radu-Ioan Ciobanu. 2019. Human Physical Activity Recognition Using Smartphone Sensors. Sensors, Vol. 19, 3 (2019)."},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.5244\/C.23.124"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Limin Wang Wei Li Wen Li and Luc Van Gool. 2018. Appearance-and-relation networks for video classification. In CVPR.  Limin Wang Wei Li Wen Li and Luc Van Gool. 2018. Appearance-and-relation networks for video classification. In CVPR.","DOI":"10.1109\/CVPR.2018.00155"},{"key":"e_1_3_2_1_59_1","volume-title":"Non-local Neural Networks. CoRR","author":"Wang Xiaolong","year":"2017","unstructured":"Xiaolong Wang , Ross B. Girshick , Abhinav Gupta , and Kaiming He. 2017. Non-local Neural Networks. CoRR ( 2017 ). Xiaolong Wang, Ross B. Girshick, Abhinav Gupta, and Kaiming He. 2017. Non-local Neural Networks. CoRR (2017)."},{"volume-title":"An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector","author":"Willems Geert","key":"e_1_3_2_1_60_1","unstructured":"Geert Willems , Tinne Tuytelaars , and Luc Van Gool . 2008. An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector . In ECCV, David Forsyth, Philip Torr, and Andrew Zisserman (Eds.). Springer Berlin Heidelberg , Berlin, Heidelberg , 650--663. Geert Willems, Tinne Tuytelaars, and Luc Van Gool. 2008. An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector. In ECCV, David Forsyth, Philip Torr, and Andrew Zisserman (Eds.). Springer Berlin Heidelberg, Berlin, Heidelberg, 650--663."},{"key":"e_1_3_2_1_61_1","doi-asserted-by":"crossref","unstructured":"J. Wu A. Osuntogun T. Choudhury M. Philipose and J. M. Rehg. 2007. A Scalable Approach to Activity Recognition based on Object Use. In ICCV. 1--8.  J. Wu A. Osuntogun T. Choudhury M. Philipose and J. M. Rehg. 2007. A Scalable Approach to Activity Recognition based on Object Use. In ICCV. 1--8.","DOI":"10.1109\/ICCV.2007.4408865"},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.pmcj.2016.06.012"},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2018.08.035"},{"key":"e_1_3_2_1_65_1","volume-title":"Deep Residual Bidir-LSTM for Human Activity Recognition Using Wearable Sensors. CoRR","author":"Zhao Yu","year":"2017","unstructured":"Yu Zhao , Rennong Yang , Guillaume Chevalier , and Maoguo Gong . 2017. Deep Residual Bidir-LSTM for Human Activity Recognition Using Wearable Sensors. CoRR ( 2017 ). Yu Zhao, Rennong Yang, Guillaume Chevalier, and Maoguo Gong. 2017. Deep Residual Bidir-LSTM for Human Activity Recognition Using Wearable Sensors. CoRR (2017)."}],"event":{"name":"ICMR '20: International Conference on Multimedia Retrieval","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"ICMR '20"},"container-title":["Proceedings of the 2020 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3372278.3390675","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3372278.3390675","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T21:32:10Z","timestamp":1750195930000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3372278.3390675"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,6,8]]},"references-count":65,"alternative-id":["10.1145\/3372278.3390675","10.1145\/3372278"],"URL":"https:\/\/doi.org\/10.1145\/3372278.3390675","relation":{},"subject":[],"published":{"date-parts":[[2020,6,8]]},"assertion":[{"value":"2020-06-08","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}