{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T18:16:22Z","timestamp":1775067382340,"version":"3.50.1"},"reference-count":79,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001659","name":"Deutsche Forschungsgemeinschaft","doi-asserted-by":"publisher","award":["454648639-SFB"],"award-info":[{"award-number":["454648639-SFB"]}],"id":[{"id":"10.13039\/501100001659","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3637990","type":"journal-article","created":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T18:59:03Z","timestamp":1764269943000},"page":"201990-202009","source":"Crossref","is-referenced-by-count":1,"title":["Adaptive Multimodal Graph Reasoning With Foundation Models for Fine-Grained Action Recognition"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1159-3588","authenticated-orcid":false,"given":"Fatemeh","family":"Ziaeetabar","sequence":"first","affiliation":[{"name":"School of Mathematics, Statistics and Computer Science, College of Science, University of Tehran, Tehran, Iran"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8206-9738","authenticated-orcid":false,"given":"Florentin","family":"W\u00f6rg\u00f6tter","sequence":"additional","affiliation":[{"name":"Department for Computational Neuroscience, Bernstein Center for Computational Neuroscience, III Physikalisches Institut-Biophysik, Georg-Agust-Universit&#x00E4;t G&#x00F6;ttingen, G&#x00F6;ttingen, Germany"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610288"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3389\/fnbot.2023.1084000"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-021-10005-w"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.mechatronics.2024.103240"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.rcim.2021.102231"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989536"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2018.10.005"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593717"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3509674"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s00138-024-01547-x"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2929257"},{"key":"ref13","article-title":"VideoMAE: Masked autoencoders are data-efficient learners for self-supervised video pre-training","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Tong"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2025.3548729"},{"key":"ref16","article-title":"LLM as GNN: Graph vocabulary learning for graph foundation model","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Zhu"},{"key":"ref17","article-title":"Towards graph foundation models: A study on the generalization of positional and structural encodings","author":"Franks","year":"2025","journal-title":"arXiv:2412.07407"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2015.00028"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.339"},{"key":"ref20","article-title":"Human action recognition: A comprehensive review of methods and datasets","author":"Verma","year":"2024","journal-title":"Results Phys."},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-020-60923-5"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0243829"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28440"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161132"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-023-05259-z"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2025\/1166"},{"key":"ref27","article-title":"TWLV-I: Analysis and insights from holistic evaluation on video foundation models","year":"2024"},{"key":"ref28","article-title":"Adaptsign: Efficient transfer learning with a frozen clip backbone for continuous sign language recognition","author":"Hu","year":"2024","journal-title":"arXiv:2404.08226"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28347"},{"key":"ref30","article-title":"Learnable expansion of graph operators for multi-modal feature fusion","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Ding"},{"key":"ref31","article-title":"Attention bottlenecks for multimodal fusion","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Nagrani"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00209"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.456"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref35","article-title":"ALow-cost real-time framework for industrial action recognition using foundation models","author":"Wang","year":"2024","journal-title":"arXiv:2403.08420"},{"key":"ref36","article-title":"Advancing human action recognition with foundation models trained on unlabeled public videos","author":"Qian","year":"2024","journal-title":"arXiv:2402.08875"},{"key":"ref37","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. 38th Int. Conf. Mach. Learn. (ICML)","author":"Radford"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.544"},{"key":"ref39","first-page":"1","article-title":"InternVideo: General video foundation models via generative and discriminative learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Wang"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01426"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610763"},{"key":"ref42","article-title":"RDT-1B: A diffusion foundation model for bimanual manipulation","author":"Liu","year":"2024","journal-title":"arXiv:2410.07864"},{"key":"ref43","first-page":"753","article-title":"Scaling egocentric vision: The EPIC-KITCHENS dataset","volume-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","author":"Damen"},{"key":"ref44","first-page":"10138","article-title":"H2O: Two hands manipulating objects for first person interaction recognition","volume-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","author":"Li"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01230"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.3390\/s21238092"},{"key":"ref48","article-title":"Bimanual action recognition using graph-based hand interaction modeling","volume-title":"Proc. 43rd ACM Conf. Hum. Factors Comput. Syst. (CHI)","author":"Lyu"},{"key":"ref49","first-page":"15989","article-title":"Attentional composition networks for long-tailed action recognition","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Wang"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01568"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00200"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-024-01531-5"},{"key":"ref53","article-title":"Graph sparsification via mixture of graphs","author":"Zhang","year":"2024","journal-title":"arXiv:2405.14260"},{"key":"ref54","first-page":"17904","article-title":"OpenGSL: A comprehensive benchmark for graph structure learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. Datasets Benchmarks","author":"Zhou"},{"key":"ref55","article-title":"A survey on graph structure learning: Progress and opportunities","author":"Zhu","year":"2021","journal-title":"arXiv:2103.03036"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00641"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-92659-5_17"},{"key":"ref58","article-title":"Representing videos as discriminative sub-graphs for action recognition","author":"Li","year":"2022","journal-title":"arXiv:2201.04027"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12342"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00130"},{"key":"ref62","first-page":"18798","article-title":"Transformer-based object-centric representation learning for egocentric hand-object interaction","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Cho"},{"key":"ref63","article-title":"Utility of hand representations in egocentric video understanding","author":"Shamil","year":"2024","journal-title":"arXiv:2401.07652"},{"key":"ref64","first-page":"2341","article-title":"ActionCLIP: A new paradigm for video action recognition","volume-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","author":"Wang"},{"key":"ref65","first-page":"34","article-title":"RDT: Robotics diffusion transformer for bimanual manipulation tasks","volume":"41","author":"Liu","year":"2025","journal-title":"IEEE Trans. Robot."},{"key":"ref66","first-page":"15640","article-title":"VideoMAE v2: Scaling video masked autoencoders with dual masking","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Tong"},{"key":"ref67","first-page":"17913","article-title":"UniFormer: Unified transformer for efficient spatiotemporal representation learning","volume-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","author":"Li"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2102.05095"},{"key":"ref69","first-page":"12345","article-title":"Hat: Hierarchical action transfer for few-shot learning","volume-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","author":"Liu"},{"key":"ref70","first-page":"11032","article-title":"Cdan: Cross-domain adaptive networks for action recognition","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Li"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-26316-3_11"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/access.2024.3349510"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.5555\/3294996.3295163"},{"key":"ref74","first-page":"3637","article-title":"Matching networks for one shot learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"29","author":"Vinyals"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00131"},{"key":"ref76","first-page":"2121","article-title":"DeViSE: A deep visual-semantic embedding model","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"26","author":"Frome"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2020.3015848"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00725"},{"key":"ref79","article-title":"UniVL: A unified video and language pre-training model for multimodal understanding and generation","author":"Luo","year":"2020","journal-title":"arXiv:2002.06353"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11270975.pdf?arnumber=11270975","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,5]],"date-time":"2025-12-05T06:20:01Z","timestamp":1764915601000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11270975\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":79,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3637990","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}