{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T16:19:34Z","timestamp":1771949974556,"version":"3.50.1"},"reference-count":33,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,9,11]],"date-time":"2023-09-11T00:00:00Z","timestamp":1694390400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,9,11]],"date-time":"2023-09-11T00:00:00Z","timestamp":1694390400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001798","name":"Edith Cowan University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001798","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,9,11]]},"DOI":"10.1109\/euvip58404.2023.10323051","type":"proceedings-article","created":{"date-parts":[[2023,11,22]],"date-time":"2023-11-22T19:07:44Z","timestamp":1700680064000},"page":"1-6","source":"Crossref","is-referenced-by-count":4,"title":["MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers"],"prefix":"10.1109","author":[{"given":"Muhammad Bilal","family":"Shaikh","sequence":"first","affiliation":[{"name":"Edith Cowan University,School of Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Douglas","family":"Chai","sequence":"additional","affiliation":[{"name":"Edith Cowan University,School of Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Syed Mohammed","family":"Shamsul Islam","sequence":"additional","affiliation":[{"name":"Edith Cowan University,School of Science"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Naveed","family":"Akhtar","sequence":"additional","affiliation":[{"name":"The University of Western Australia,Department of Computer Science &amp; Software Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i18.18022"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.aar7650"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.4324\/9781351252928-6"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-96068-1_1"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00806"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01047"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.3390\/s21124246"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.4.541"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref13","article-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/vcip56404.2022.10008833"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00718"},{"key":"ref16","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018"},{"key":"ref17","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2738401"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/5.664274"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638346"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00559"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/j.simpa.2023.100544"},{"key":"ref24","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","volume-title":"ICLR","author":"Dosovitskiy"},{"key":"ref25","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014"},{"issue":"1","key":"ref26","first-page":"1929","article-title":"Dropout: a simple way to prevent neural networks from overfit-ting","volume":"15","author":"Srivastava","year":"2014","journal-title":"JMLR"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/iccv.2015.510"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2751969"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01216-8_16"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2022.03.001"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3029554"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0265115"}],"event":{"name":"2023 11th European Workshop on Visual Information Processing (EUVIP)","location":"Gjovik, Norway","start":{"date-parts":[[2023,9,11]]},"end":{"date-parts":[[2023,9,14]]}},"container-title":["2023 11th European Workshop on Visual Information Processing (EUVIP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10322878\/10323033\/10323051.pdf?arnumber=10323051","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,3,2]],"date-time":"2024-03-02T21:50:04Z","timestamp":1709416204000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10323051\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,9,11]]},"references-count":33,"URL":"https:\/\/doi.org\/10.1109\/euvip58404.2023.10323051","relation":{},"subject":[],"published":{"date-parts":[[2023,9,11]]}}}