{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,22]],"date-time":"2026-07-22T03:06:45Z","timestamp":1784689605534,"version":"3.55.0"},"reference-count":43,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"12","license":[{"start":{"date-parts":[[2023,12,1]],"date-time":"2023-12-01T00:00:00Z","timestamp":1701388800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,12,1]],"date-time":"2023-12-01T00:00:00Z","timestamp":1701388800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,12,1]],"date-time":"2023-12-01T00:00:00Z","timestamp":1701388800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2023,12]]},"DOI":"10.1109\/lra.2023.3324590","type":"journal-article","created":{"date-parts":[[2023,10,13]],"date-time":"2023-10-13T18:13:21Z","timestamp":1697220801000},"page":"8018-8025","source":"Crossref","is-referenced-by-count":2,"title":["Trade-Off Between Robustness and Rewards Adversarial Training for Deep Reinforcement Learning Under Large Perturbations"],"prefix":"10.1109","volume":"8","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-8358-5435","authenticated-orcid":false,"given":"Jeffrey","family":"Huang","sequence":"first","affiliation":[{"name":"Department of Electrical and Systems Engineering, University of Pennsylvania, Philadelphia, PA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ho Jin","family":"Choi","sequence":"additional","affiliation":[{"name":"Department of Mechanical Engineering and Applied Mechanics, University of Pennsylvania, Philadelphia, PA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6873-4671","authenticated-orcid":false,"given":"Nadia","family":"Figueroa","sequence":"additional","affiliation":[{"name":"Department of Mechanical Engineering and Applied Mechanics, University of Pennsylvania, Philadelphia, PA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref13","article-title":"Adversarial policies: Attacking deep reinforcement learning","author":"gleave","year":"2019"},{"key":"ref35","article-title":"EPOpt: Learning robust neural network policies using model ensembles","author":"rajeswaran","year":"2016"},{"key":"ref12","first-page":"2817","article-title":"Robust adversarial reinforcement learning","author":"pinto","year":"0","journal-title":"Proc 34th Int Conf Mach Learn"},{"key":"ref34","article-title":"Adversarial example defense: Ensembles of weak defenses are not strong","author":"he","year":"0","journal-title":"Proc 11th USENIX Workshop Offensive Technol"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAI.2021.3111139"},{"key":"ref37","first-page":"844","article-title":"Adversarially regularized policy learning guided by trajectory optimization","author":"zhao","year":"0","journal-title":"Proc Learn Dyn Control Conf"},{"key":"ref14","article-title":"On covariate shift of latent confounders in imitation and reinforcement learning","author":"tennenholtz","year":"0"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206245"},{"key":"ref31","first-page":"1094","article-title":"Meta-World: A benchmark and evaluation for multi-task and meta reinforcement learning","author":"yu","year":"0","journal-title":"Proc Conf Robot Learn"},{"key":"ref30","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref11","article-title":"Robust reinforcement learning for continuous control with model misspecification","author":"mankowitz","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref33","first-page":"2206","article-title":"Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks","author":"croce","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref10","article-title":"Toward evaluating robustness of deep reinforcement learning with continuous control","author":"weng","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref32","first-page":"2137","article-title":"Black-box adversarial attacks with limited queries and information","author":"ilyas","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460756"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989385"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.153"},{"key":"ref39","article-title":"Adversarial logit pairing","author":"kannan","year":"2018"},{"key":"ref16","article-title":"Intriguing properties of neural networks","author":"szegedy","year":"0","journal-title":"Proc 2nd Int Conf Learn Representations"},{"key":"ref38","first-page":"24177","article-title":"Robust deep reinforcement learning through bootstrapped opportunistic curriculum","author":"wu","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00032"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1215"},{"key":"ref24","first-page":"21024","article-title":"Robust deep reinforcement learning against adversarial perturbations on state observations","author":"zhang","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref23","first-page":"10056","article-title":"Neural network control policy verification with persistent adversarial perturbations","author":"wang","year":"0","journal-title":"Proc 37th Int Conf Mach Learn"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561036"},{"key":"ref25","first-page":"26156","article-title":"Robust deep reinforcement learning through adversarial loss","author":"oikarinen","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref20","first-page":"2021","article-title":"Robustbench: A standardized adversarial robustness benchmark","author":"croce","year":"0","journal-title":"Proc 35th Conf Neural Inf Process Syst Datasets Benchmarks Track"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2015.2509025"},{"key":"ref41","author":"billard","year":"2022","journal-title":"Learning for Adaptive and Reactive Robot Control A Dynamical Systems Approach"},{"key":"ref22","first-page":"2040","article-title":"Robust deep reinforcement learning with adversarial attacks","author":"pattanaik","year":"0","journal-title":"Proc 17th Int Conf Auton Agents MultiAgent Syst"},{"key":"ref21","article-title":"Delving into transferable adversarial examples and black-box attacks","author":"liu","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref43","article-title":"OpenAI Gym","author":"brockman","year":"2016"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.10295"},{"key":"ref27","article-title":"Playing Atari with deep reinforcement learning","author":"mnih","year":"2013"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/SMC.2017.8122622"},{"key":"ref8","article-title":"Adversarial attacks on neural network policies","author":"huang","year":"2017"},{"key":"ref7","article-title":"Improving adversarial robustness requires revisiting misclassified examples","author":"wang","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/525"},{"key":"ref4","article-title":"Explaining and harnessing adversarial examples","author":"goodfellow","year":"2014"},{"key":"ref3","article-title":"QT-Opt: Scalable deep reinforcement learning for vision-based robotic manipulation","author":"kalashnikov","year":"2018"},{"key":"ref6","first-page":"7472","article-title":"Theoretically principled trade-off between robustness and accuracy","author":"zhang","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref5","article-title":"Towards deep learning models resistant to adversarial attacks","author":"madry","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref40","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2014"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/10287676\/10284990.pdf?arnumber=10284990","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,13]],"date-time":"2023-11-13T19:36:30Z","timestamp":1699904190000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10284990\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,12]]},"references-count":43,"journal-issue":{"issue":"12"},"URL":"https:\/\/doi.org\/10.1109\/lra.2023.3324590","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,12]]}}}