{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,20]],"date-time":"2026-07-20T13:02:43Z","timestamp":1784552563870,"version":"3.55.0"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,26]],"date-time":"2025-05-26T00:00:00Z","timestamp":1748217600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,26]],"date-time":"2025-05-26T00:00:00Z","timestamp":1748217600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100004823","name":"Nagoya University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004823","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,26]]},"DOI":"10.1109\/fg61629.2025.11099071","type":"proceedings-article","created":{"date-parts":[[2025,8,6]],"date-time":"2025-08-06T17:55:00Z","timestamp":1754502900000},"page":"1-10","source":"Crossref","is-referenced-by-count":5,"title":["MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion"],"prefix":"10.1109","author":[{"given":"Trung Thanh","family":"Nguyen","sequence":"first","affiliation":[{"name":"Nagoya University,Graduate School of Informatics,Nagoya,Aichi,Japan,464-8601"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yasutomo","family":"Kawanishi","sequence":"additional","affiliation":[{"name":"Guardian Robot Project, Information R&#x0026;D and Strategy Headquarters, RIKEN,Seika,Kyoto,Japan,619-0288"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Vijay","family":"John","sequence":"additional","affiliation":[{"name":"Guardian Robot Project, Information R&#x0026;D and Strategy Headquarters, RIKEN,Seika,Kyoto,Japan,619-0288"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Takahiro","family":"Komamizu","sequence":"additional","affiliation":[{"name":"Nagoya University,Center for Artificial Intelligence, Mathematical and Data Science,Nagoya,Aichi,Japan,464-8601"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ichiro","family":"Ide","sequence":"additional","affiliation":[{"name":"Nagoya University,Graduate School of Informatics,Nagoya,Aichi,Japan,464-8601"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"ref2","first-page":"1","article-title":"Collaborative attention mechanism for multi-view action recognition","author":"Bai","year":"2020","journal-title":"Computing Research Repository arXiv Preprints, arXiv:2009.06599"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2102.05095"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00092"},{"key":"ref5","first-page":"1","article-title":"An image is worth 16 times 16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"Computing Research Repository arXiv Preprints, arXiv:2010.11929"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01047"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-698"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-021-01470-y"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/MIPR62202.2024.00044"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-020-08806-9"},{"key":"ref11","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"Computing Research Repository arXiv Preprints, arXiv:1412.6980"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00722"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01594-9"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2916873"},{"key":"ref15","first-page":"1","article-title":"SGDR: Stochastic Gradient Descent with warm Restarts","author":"Loshchilov","year":"2016","journal-title":"Computing Research Repository arXiv Preprints, arXiv:1608.03983"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547910"},{"key":"ref17","first-page":"14200","article-title":"Attention bottlenecks for multimodal fusion","volume":"34","author":"Nagrani","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3696409.3700211"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3024568"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-020-09904-8"},{"key":"ref21","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"In Proceedings of the 38th International Conference on Machine Learning","author":"Radford"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-23808-6_10"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00338"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.115"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-69541-5_3"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01316"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3183112"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/s00170-021-07613-2"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58583-9_26"},{"key":"ref31","first-page":"1","article-title":"YOLOv10: Real-time end-to-end object detection","author":"Wang","year":"2024","journal-title":"Computing Research Repository arXiv Preprints, arXiv:2405.14458"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.339"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3112214"},{"key":"ref34","first-page":"1","article-title":"Guided masked self-distillation modeling for distributed multimedia sensor event analysis","author":"Yasuda","year":"2024","journal-title":"Computing Research Repository arXiv Preprints"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746006"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2896631"}],"event":{"name":"2025 IEEE 19th International Conference on Automatic Face and Gesture Recognition (FG)","location":"Tampa\/Clearwater, FL, USA","start":{"date-parts":[[2025,5,26]]},"end":{"date-parts":[[2025,5,30]]}},"container-title":["2025 IEEE 19th International Conference on Automatic Face and Gesture Recognition (FG)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11099084\/11099070\/11099071.pdf?arnumber=11099071","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T04:59:43Z","timestamp":1754542783000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11099071\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,26]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/fg61629.2025.11099071","relation":{},"subject":[],"published":{"date-parts":[[2025,5,26]]}}}