{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,20]],"date-time":"2026-05-20T21:12:07Z","timestamp":1779311527707,"version":"3.51.4"},"reference-count":84,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["2450068,2242243"],"award-info":[{"award-number":["2450068,2242243"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00653","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"6948-6958","source":"Crossref","is-referenced-by-count":2,"title":["Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics"],"prefix":"10.1109","author":[{"given":"Taowen","family":"Wang","sequence":"first","affiliation":[{"name":"Rochester Institute of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cheng","family":"Han","sequence":"additional","affiliation":[{"name":"University of Missouri - Kansas City"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"James","family":"Liang","sequence":"additional","affiliation":[{"name":"U.S. Naval Research Laboratory"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenhao","family":"Yang","sequence":"additional","affiliation":[{"name":"Lamar University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dongfang","family":"Liu","sequence":"additional","affiliation":[{"name":"Rochester Institute of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Luna Xinyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Rochester Institute of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qifan","family":"Wang","sequence":"additional","affiliation":[{"name":"Meta AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiebo","family":"Luo","sequence":"additional","affiliation":[{"name":"University of Rochester"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ruixiang","family":"Tang","sequence":"additional","affiliation":[{"name":"Rutgers University"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.3390\/s24082461"},{"key":"ref2","article-title":"Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples","author":"Athalye","year":"2018","journal-title":"ICML"},{"key":"ref3","article-title":"Synthesizing robust adversarial examples","author":"Athalye","year":"2018","journal-title":"ICML"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.biosystemseng.2020.09.009"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.cie.2021.107827"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1126\/science.aat8414"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref8","author":"Brown","year":"2018","journal-title":"Adversarial patch"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3128572.3140444"},{"key":"ref10","author":"Chen","year":"2023","journal-title":"Pali-3 vision language models: Smaller, faster, stronger"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1108\/13552511111134619"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3412632"},{"key":"ref13","author":"Lewis Chiang","year":"2024","journal-title":"Mobility vla: Multimodal instruction navigation with long-context vlms and topological graphs"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.abd9461"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/3632181"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72652-1_21"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00385"},{"key":"ref18","author":"Karolina Dziugaite","year":"2016","journal-title":"A study of the effect of JPG compression on adversarial images"},{"key":"ref19","article-title":"One-shot visual imitation learning via metalearning","author":"Finn","year":"2017","journal-title":"In CoRL"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139726"},{"key":"ref21","article-title":"Explaining and harnessing adversarial examples","author":"Goodfellow","year":"2015","journal-title":"In ICLR"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2017.04.004"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2021.3138382"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.procir.2018.03.043"},{"key":"ref25","author":"Huang","year":"2023","journal-title":"An embodied generalist agent in 3d world"},{"key":"ref26","article-title":"Voxposer: Composable 3d value maps for robotic manipulation with language models","author":"Huang","year":"2023","journal-title":"In CoRL"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2014.11.003"},{"key":"ref28","article-title":"ISO 10218\u20131\/2:2011. Robots and Robotic Devices Safety Requirements for Industrial Robots Part 1: Robots\/Part 2: Robot Systems and Integration","year":"2011","journal-title":"Standard, International Organization for Standardization"},{"key":"ref29","article-title":"ISO13482. Robots and robotic devices - safety requirements for personal care robots","year":"2014","journal-title":"International Organization for Standardization"},{"key":"ref30","article-title":"Robots and Robotic Devices Collaborative Robots","year":"2016","journal-title":"Standard, International Organization for Standardization"},{"key":"ref31","article-title":"Task-embedded control networks for few-shot imitation learning","author":"James","year":"2018","journal-title":"In CoRL"},{"key":"ref32","author":"Jiang","year":"2022","journal-title":"VIMA: general robot manipulation with multimodal prompts"},{"key":"ref33","author":"Karamcheti","year":"2024","journal-title":"Prismatic vlms: Investigating the design space of visually-conditioned language models"},{"key":"ref34","author":"Jin Kim","year":"2024","journal-title":"Openvla: An open-source vision-language-action model"},{"key":"ref35","article-title":"Learning spatio-temporal structure from RGB-D videos for human activity detection and anticipation","author":"Swetha Koppula","year":"2013","journal-title":"In ICML"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2015.2430335"},{"key":"ref37","first-page":"30:1","article-title":"A review of robot learning for manipulation: Challenges, representations, and algorithms","volume":"22","author":"Kroemer","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref38","volume-title":"Dynamics and control of robotic systems","author":"Kurdila","year":"2019"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1561\/2300000052"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1177\/0278364917710318"},{"key":"ref41","author":"Li","year":"2023","journal-title":"Vision-language foundation models as effective robot imitators"},{"key":"ref42","author":"Li","year":"2024","journal-title":"Llara: Supercharging robot learning data for vision-language policy"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33011028"},{"key":"ref44","article-title":"LIBERO: benchmarking knowledge transfer for lifelong robot learning","author":"Liu","year":"2023","journal-title":"In NeurIPS"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"ref46","article-title":"Visual instruction tuning","author":"Liu","year":"2024","journal-title":"In NeurIPS"},{"key":"ref47","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2019","journal-title":"In ICLR"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2006.282053"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.06083"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2013.6696368"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/4527.001.0001"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-060117-104848"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3196123"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/87.338648"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1201\/9781315136370"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487517"},{"key":"ref57","article-title":"Skew-fit: State-covering self-supervised reinforcement learning","author":"Pong","year":"2020","journal-title":"ICML"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i19.30150"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/2976749.2978392"},{"key":"ref60","article-title":"Design of a low cost, general purpose robot","author":"Smith","year":"1973","journal-title":"In IJCAI"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/TEVC.2019.2890858"},{"key":"ref62","article-title":"Intriguing properties of neural networks","author":"Szegedy","year":"2014","journal-title":"ICLR"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i27.35095"},{"key":"ref64","author":"Model Team","year":"2024","journal-title":"Octo: An open-source generalist robot policy"},{"key":"ref65","article-title":"Detecting adversarial examples is (nearly) as hard as classifying them","author":"Tram\u00e8r","year":"2022","journal-title":"In ICML"},{"key":"ref66","article-title":"On adaptive attacks to adversarial example defenses","author":"Tram\u00e8r","year":"2020","journal-title":"In NeurIPS"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.mechatronics.2018.02.009"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2013.6697132"},{"key":"ref69","article-title":"Bridgedata V2: A dataset for robot learning at scale","author":"Rich Walke","year":"2023","journal-title":"CoRL"},{"key":"ref70","article-title":"M2 pt: Multimodal prompt tuning for zero-shot instruction learning","author":"Wang","year":"2024","journal-title":"EMNLP"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00843"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/RAIIC61787.2024.10671357"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1145\/3729343"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/lra.2025.3544909"},{"key":"ref75","volume-title":"Wikipedia contributors. Finch (film) - Wikipedia, the free encyclopedia","year":"2024"},{"key":"ref76","author":"Henry Wu","year":"2024","journal-title":"Adversarial attacks on multimodal agents"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58558-7_39"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.14722\/ndss.2018.23198"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.905"},{"key":"ref80","article-title":"Defending against whitebox adversarial attacks via randomized discretization","author":"Zhang","year":"2019","journal-title":"In AISTATS"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/233"},{"key":"ref82","author":"Zhao","year":"2023","journal-title":"Svit: Scaling up visual instruction tuning"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TMECH.2021.3072675"},{"key":"ref84","article-title":"RT-2: vision-language-action models transfer web knowledge to robotic control","author":"Zitkovich","year":"2023","journal-title":"CoRL"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11444341.pdf?arnumber=11444341","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:08:20Z","timestamp":1777612100000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11444341\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":84,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00653","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}