{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,12]],"date-time":"2025-06-12T12:48:27Z","timestamp":1749732507962,"version":"3.37.3"},"reference-count":233,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"European Union\u2019s Horizon Europe Research and Innovation Program","award":["101094831"],"award-info":[{"award-number":["101094831"]}]},{"DOI":"10.13039\/501100001871","name":"Funda\u00e7\u00e3o para a Ci\u00eancia e a Tecnologia","doi-asserted-by":"publisher","award":["SFRH\/BD\/14600\/2019"],"award-info":[{"award-number":["SFRH\/BD\/14600\/2019"]}],"id":[{"id":"10.13039\/501100001871","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/access.2023.3283495","type":"journal-article","created":{"date-parts":[[2023,6,7]],"date-time":"2023-06-07T17:38:12Z","timestamp":1686159492000},"page":"57916-57933","source":"Crossref","is-referenced-by-count":2,"title":["From a Visual Scene to a Virtual Representation: A Cross-Domain Review"],"prefix":"10.1109","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1939-2126","authenticated-orcid":false,"given":"Am\u00e9rico","family":"Pereira","sequence":"first","affiliation":[{"name":"Centre for Telecommunications and Multimedia, Institute for Systems and Computer Engineering, Technology and Science (INESC TEC), Porto, Portugal"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4983-4316","authenticated-orcid":false,"given":"Pedro","family":"Carvalho","sequence":"additional","affiliation":[{"name":"Centre for Telecommunications and Multimedia, Institute for Systems and Computer Engineering, Technology and Science (INESC TEC), Porto, Portugal"}]},{"given":"Nuno","family":"Pereira","sequence":"additional","affiliation":[{"name":"Centre for Telecommunications and Multimedia, Institute for Systems and Computer Engineering, Technology and Science (INESC TEC), Porto, Portugal"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8447-2360","authenticated-orcid":false,"given":"Paula","family":"Viana","sequence":"additional","affiliation":[{"name":"Centre for Telecommunications and Multimedia, Institute for Systems and Computer Engineering, Technology and Science (INESC TEC), Porto, Portugal"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2116-7056","authenticated-orcid":false,"given":"Lu\u00eds","family":"C\u00f4rte-Real","sequence":"additional","affiliation":[{"name":"Centre for Telecommunications and Multimedia, Institute for Systems and Computer Engineering, Technology and Science (INESC TEC), Porto, Portugal"}]}],"member":"263","reference":[{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.3390\/app10165608"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01112"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6883"},{"key":"ref208","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.396"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.458"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.5244\/C.24.12"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108220"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.471"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01591-y"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2015.51"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01252-6_42"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2878349"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018634"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126413"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2731842"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654966"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00542"},{"key":"ref210","article-title":"Human in events: A large-scale benchmark for human-centric video analysis in complex events","author":"lin","year":"2020","journal-title":"arXiv 2005 04490"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2013.248"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.46"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2018.8486604"},{"key":"ref46","article-title":"Efficient visual tracking via hierarchical cross-attention transformer","author":"chen","year":"2022","journal-title":"arXiv 2203 13537"},{"key":"ref218","first-page":"441","article-title":"A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition","author":"yu","year":"2006","journal-title":"Proc Int Conf Pattern Recognit (ICPR)"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00864"},{"key":"ref219","first-page":"1000","article-title":"Efficient night gait recognition based on template matching","author":"tan","year":"2006","journal-title":"Proc Int Conf Pattern Recognit (ICPR)"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.06.006"},{"key":"ref216","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.492"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2477680"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01225-0_27"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19812-0_38"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00554"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00973"},{"key":"ref215","article-title":"MoVi: A large multipurpose motion and video dataset","author":"ghorbani","year":"2020","journal-title":"arXiv 2003 01888"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00858"},{"key":"ref212","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.381"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20047-2_9"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01249-6_37"},{"key":"ref49","article-title":"Localization guided learning for pedestrian attribute recognition","author":"liu","year":"2018","journal-title":"arXiv 1808 09102"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref7","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","volume":"1","author":"krizhevsky","year":"2012","journal-title":"Proc 25th Int Conf Neural Inf Process Syst (NIPS)"},{"key":"ref9","first-page":"1","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume":"28","author":"ren","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3205910"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00432"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2005.177"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2001.990517"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01401-3"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.1109\/TIFS.2012.2204253"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2022.01.022"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.1186\/s41074-018-0039-6"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3105118"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1109\/BTAS.2012.6374606"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.3390\/s18072004"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2018.8545450"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-021-01527-y"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2901520"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2019.11.023"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/s00138-013-0523-z"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2016.7533003"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2020.103448"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2017.8296962"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/IPEC54454.2022.9777554"},{"key":"ref24","article-title":"Mask DINO: Towards a unified transformer-based framework for object detection and segmentation","author":"li","year":"2022","journal-title":"arXiv 2206 02777"},{"key":"ref23","article-title":"Integrally migrating pre-trained transformer encoder&#x2013;decoders for visual object detection","author":"liu","year":"2022","journal-title":"arXiv 2205 09613"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/3505244"},{"key":"ref25","article-title":"DINO: DETR with improved DeNoising anchor boxes for end-to-end object detection","author":"zhang","year":"2022","journal-title":"arXiv 2203 03605"},{"key":"ref20","first-page":"213","article-title":"End-to-end object detection with transformers","author":"carion","year":"2020","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_17"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref28","article-title":"Multiple object tracking in recent times: A literature review","author":"bashar","year":"2022","journal-title":"arXiv 2209 04796"},{"key":"ref27","article-title":"Object detection in 20 years: A survey","author":"zou","year":"2019","journal-title":"arXiv 1905 05055"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2022.103514"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.5244\/C.25.6"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01138"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01883"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref126","article-title":"Scene graph parsing by attention graph","author":"andrews","year":"2019","journal-title":"arXiv 1909 06273"},{"key":"ref96","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2014","journal-title":"arXiv 1409 1556"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01888"},{"key":"ref99","first-page":"801","article-title":"Encoder&#x2013;decoder with atrous separable convolution for semantic image segmentation","author":"chen","year":"2018","journal-title":"Proc Eur Conf Comput Vis (ECCV)"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00611"},{"key":"ref98","article-title":"Rethinking atrous convolution for semantic image segmentation","author":"chen","year":"2017","journal-title":"arXiv 1706 05587"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_41"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1007\/s11431-020-1582-8"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475297"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2022.10.073"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108300"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2022.103441"},{"key":"ref131","first-page":"18","article-title":"OpenImages: A public dataset for large-scale multi-label and multi-class image classification","volume":"2","author":"krasin","year":"2017","journal-title":"Dataset"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.12.089"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01096"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0981-7"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/3DV57658.2022.00077"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2022.3179365"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.3390\/electronics11010076"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01889"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01594-9"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01606"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01542"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01343"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00062"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298990"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01094"},{"key":"ref136","first-page":"2","article-title":"Multi-view scene graph generation in videos","volume":"3","author":"lu","year":"2021","journal-title":"Proc Int Challenge Activity Recognit"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2021.103055"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4613-8476-2"},{"key":"ref81","article-title":"A survey on 3D skeleton-based action recognition using learning method","author":"ren","year":"2020","journal-title":"arXiv 2002 05907"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1145\/383259.383292"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1007\/s00371-021-02339-4"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19812-0_22"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3210973"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00335"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01350"},{"key":"ref141","article-title":"RelTR: Relation transformer for scene graph generation","author":"cong","year":"2022","journal-title":"arXiv 2201 11460"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00053"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01025"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1080\/24751839.2018.1437696"},{"key":"ref229","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_34"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108487"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-019-00610-2"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.5220\/0006931700750083"},{"key":"ref227","article-title":"ShapeNet: An information-rich 3D model repository","author":"chang","year":"2015","journal-title":"arXiv 1512 03012"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/IV51971.2022.9827441"},{"key":"ref228","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.500"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093361"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/ITSC55140.2022.9922469"},{"key":"ref225","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298655"},{"key":"ref74","article-title":"Unifying graph embedding features with graph convolutional networks for skeleton-based action recognition","author":"yang","year":"2020","journal-title":"arXiv 2003 03007"},{"journal-title":"Dot language","year":"2022","key":"ref105"},{"key":"ref226","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.261"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2021.103219"},{"key":"ref102","first-page":"67","author":"antoniou","year":"2004","journal-title":"Web ontology language OWL"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.1109\/TBIOM.2020.3008862"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00033"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/IVS.2014.6856556"},{"key":"ref224","first-page":"14789","article-title":"Gait recognition in the wild: A benchmark","author":"zhu","year":"2021","journal-title":"Proc IEEE\/CVF Int Conf Comput Vis"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3080822"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2011.189"},{"key":"ref232","first-page":"1110","article-title":"RELLIS-3D dataset: Data, benchmarks and analysis","author":"jiang","year":"2020","journal-title":"Proc IEEE Int Conf Robot Automat (ICRA)"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/IPAS50080.2020.9334943"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1007\/s10115-022-01669-6"},{"key":"ref233","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01073"},{"key":"ref73","article-title":"Temporal contrastive graph learning for video action recognition and retrieval","author":"liu","year":"2021","journal-title":"arXiv 2101 00820"},{"key":"ref230","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00272"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00113"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-009-0395-4"},{"key":"ref231","article-title":"KITTI-360: A novel dataset and benchmarks for urban scene understanding in 2D and 3D","author":"liao","year":"2021","journal-title":"arXiv 2109 13410"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1145\/3524497"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/ICME52920.2022.9859841"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108046"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-88361-4_7"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2022.103628"},{"key":"ref118","article-title":"Understanding the role of scene graphs in visual question answering","author":"damodaran","year":"2021","journal-title":"arXiv 2101 05479 [cs]"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01584"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01094"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW54805.2022.00074"},{"key":"ref116","article-title":"Scene graph generation for better image captioning?","author":"mozes","year":"2021","journal-title":"arXiv 2109 11398"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01280"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2022.118998"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3141231"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00133"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.214"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_21"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.330"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.256"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR56361.2022.9956620"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.143"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3137605"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.3390\/ijgi9050330"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1016\/j.cag.2020.12.004"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1016\/j.cosrev.2021.100400"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1145\/219717.219748"},{"key":"ref178","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"2014","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"journal-title":"The PASCAL Visual Object Classes challenge","year":"2007","author":"everingham","key":"ref173"},{"journal-title":"The PASCAL Visual Object Classes challenge","year":"2012","author":"everingham","key":"ref174"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1023\/A:1008162616689"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206631"},{"journal-title":"Amazon&#x2019;s mechanical turk A new source of inexpensive yet high-quality data?","year":"2016","author":"buhrmester","key":"ref179"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_51"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.01050"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1145\/2812802"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_31"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123380"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1145\/3323873.3325056"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.554"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12260"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00278"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46484-8_38"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1145\/1814256.1814257"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16234-3_9"},{"key":"ref155","first-page":"1","article-title":"Scene representation networks: Continuous 3D-structure-aware neural scene representations","author":"sitzmann","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref153","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00013"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00872"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00253"},{"key":"ref152","article-title":"3D-C2FT: Coarse-to-fine transformer for multi-view 3D reconstruction","author":"tiong","year":"2022","journal-title":"arXiv 2205 14575"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19769-7_4"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01120"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/3DV50981.2020.00055"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00025"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.230"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-020-09722-8"},{"key":"ref164","article-title":"GET3D: A generative model of high quality 3D textured shapes learned from images","author":"gao","year":"2022","journal-title":"arXiv 2209 11163"},{"key":"ref165","first-page":"8821","article-title":"Zero-shot text-to-image generation","author":"ramesh","year":"2021","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref162","article-title":"Text2Shape: Generating shapes from natural language by learning joint embeddings","author":"chen","year":"2018","journal-title":"arXiv 1803 08495"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01737"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1111\/cgf.14109"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1145\/3514248"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01283"},{"key":"ref12","article-title":"YOLOv4: Optimal speed and accuracy of object detection","author":"bochkovskiy","year":"2020","journal-title":"arXiv 2004 10934"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00644"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref11","article-title":"YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors","author":"wang","year":"2022","journal-title":"arXiv 2207 02696"},{"key":"ref10","article-title":"You only learn one representation: Unified network for multiple tasks","author":"wang","year":"2021","journal-title":"arXiv 2105 04206"},{"key":"ref17","first-page":"1","article-title":"Attention is all you need","volume":"30","author":"vaswani","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2020.3041019"},{"key":"ref19","article-title":"Toward transformer-based object detection","author":"beal","year":"2020","journal-title":"arXiv 2012 09958"},{"key":"ref18","article-title":"An image is worth 16?16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"2020","journal-title":"arXiv 2010 11929"},{"key":"ref2","article-title":"Recovering 3D human mesh from monocular images: A survey","author":"tian","year":"2022","journal-title":"arXiv 2203 01923"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3140070"},{"key":"ref191","article-title":"The kinetics human action video dataset","author":"kay","year":"2017","journal-title":"arXiv 1705 06950"},{"key":"ref192","article-title":"A short note about kinetics-600","author":"carreira","year":"2018","journal-title":"arXiv 1808 01340"},{"key":"ref190","article-title":"YouTube-8M: A large-scale video classification benchmark","author":"abu-el-haija","year":"2016","journal-title":"arXiv 1609 08675"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00078"},{"key":"ref197","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58558-7_35"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2901464"},{"key":"ref195","article-title":"A short note on the Kinetics-700&#x2013;2020 human action dataset","author":"smaira","year":"2020","journal-title":"arXiv 2010 10864"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00876"},{"key":"ref193","article-title":"A short note on the kinetics-700 human action dataset","author":"carreira","year":"2019","journal-title":"arXiv 1907 06987"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00633"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/10005208\/10145441.pdf?arnumber=10145441","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,3]],"date-time":"2023-07-03T18:29:47Z","timestamp":1688408987000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10145441\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":233,"URL":"https:\/\/doi.org\/10.1109\/access.2023.3283495","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2023]]}}}