{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T15:35:06Z","timestamp":1780760106409,"version":"3.54.1"},"reference-count":70,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Agency for Science, Technology and Research (A*STAR), Singapore, through Advanced Manufacturing and Engineering (AME) Young Individual Research","award":["A2084c0156"],"award-info":[{"award-number":["A2084c0156"]}]},{"name":"MTC Individual Research","award":["M22K2c0079"],"award-info":[{"award-number":["M22K2c0079"]}]},{"name":"ANR-NRF Joint","award":["NRF2021-NRF-ANR003 HM Science"],"award-info":[{"award-number":["NRF2021-NRF-ANR003 HM Science"]}]},{"name":"Ministry of Education (MOE), Singapore, through the Tier 2","award":["MOE-T2EP50222-0002"],"award-info":[{"award-number":["MOE-T2EP50222-0002"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["51975311"],"award-info":[{"award-number":["51975311"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2025,4]]},"DOI":"10.1109\/tnnls.2024.3397393","type":"journal-article","created":{"date-parts":[[2024,5,23]],"date-time":"2024-05-23T14:10:47Z","timestamp":1716473447000},"page":"6368-6382","source":"Crossref","is-referenced-by-count":10,"title":["Robust Multiobjective Reinforcement Learning Considering Environmental Uncertainties"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9818-0879","authenticated-orcid":false,"given":"Xiangkun","family":"He","sequence":"first","affiliation":[{"name":"School of Mechanical and Aerospace Engineering, Nanyang Technological University, Jurong West, Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0422-8235","authenticated-orcid":false,"given":"Jianye","family":"Hao","sequence":"additional","affiliation":[{"name":"College of Intelligence and Computing, Tianjin University, Tianjin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0144-1775","authenticated-orcid":false,"given":"Xu","family":"Chen","sequence":"additional","affiliation":[{"name":"Jailing School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4021-4228","authenticated-orcid":false,"given":"Jun","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Computer Science, University College London, London, U.K."}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5242-8119","authenticated-orcid":false,"given":"Xuewu","family":"Ji","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Automotive Safety and Energy, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6897-4512","authenticated-orcid":false,"given":"Chen","family":"Lv","sequence":"additional","affiliation":[{"name":"School of Mechanical and Aerospace Engineering, Nanyang Technological University, Jurong West, Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2985588"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1002\/rnc.5624"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2023.3264540"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2021.10.083"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2022.3215788"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/s10458-022-09552-y"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2023.3317628"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-010-5232-5"},{"key":"ref9","first-page":"11","article-title":"Dynamic weights in multi-objective deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Abels"},{"key":"ref10","first-page":"10607","article-title":"Prediction-guided multi-objective reinforcement learning for continuous robot control","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Xu"},{"key":"ref11","first-page":"14636","article-title":"A generalized algorithm for multi-objective reinforcement learning and policy adaptation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Yang"},{"key":"ref12","first-page":"11","article-title":"A distributional view on multi-objective policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Abdolmaleki"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3322426"},{"key":"ref14","first-page":"701","article-title":"Reinforcement learning in robust Markov decision processes","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"26","author":"Lim"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1287\/moor.1120.0566"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2022.3229518"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/4235.797969"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref19","first-page":"1","article-title":"Evolutionary algorithms for multiobjective optimization: methods and applications","author":"Zitzler","year":"1999"},{"key":"ref20","doi-asserted-by":"crossref","first-page":"197","DOI":"10.1016\/B978-0-12-416743-8.00014-2","article-title":"Chapter 14 - multi-objective optimization","volume-title":"Nature-Inspired Optimization Algorithms","author":"Yang","year":"2014"},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.126986","article-title":"Personalized robotic control via constrained multi-objective reinforcement learning","volume":"565","author":"He","year":"2024","journal-title":"Neurocomputing"},{"key":"ref22","first-page":"325","article-title":"A geometric approach to multi-criterion reinforcement learning","volume":"5","author":"Mannor","year":"2004","journal-title":"J. Mach. Learn. Res."},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/j.trc.2023.104352"},{"key":"ref24","first-page":"601","article-title":"Dynamic preferences in multi-criteria reinforcement learning","volume-title":"Proc. 22nd Int. Conf. Mach. Learn.","author":"Natarajan"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ADPRL.2013.6615007"},{"issue":"1","key":"ref26","first-page":"3619","article-title":"\u03b5-Pal: An active learning approach to the multi-objective optimization problem","volume":"17","author":"Zuluaga","year":"2016","journal-title":"J. Mach. Learn. Res."},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2012.6252759"},{"issue":"1","key":"ref28","first-page":"3483","article-title":"Multi-objective reinforcement learning using sets of Pareto dominating policies","volume":"15","author":"Van Moffaert","year":"2014","journal-title":"J. Mach. Learn. Res."},{"key":"ref29","article-title":"Multi-objective deep reinforcement learning","author":"Mossalam","year":"2016","journal-title":"arXiv:1610.02707"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3072571"},{"key":"ref31","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1016\/j.neucom.2016.11.094","article-title":"Manifold-based multi-objective policy search with sample reuse","volume":"263","author":"Parisi","year":"2017","journal-title":"Neurocomputing"},{"key":"ref32","first-page":"3371","article-title":"Generating behavior-diverse game AIs with evolutionary multi-objective deep reinforcement learning","volume-title":"Proc. 29th Int. Joint Conf. Artif. Intell.","author":"Shen"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3148435"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8968092"},{"key":"ref35","first-page":"96","article-title":"Robust multi-objective reinforcement learning with dynamic preferences","volume-title":"Proc. Asian Conf. Mach. Learn.","author":"Buet-Golfouse"},{"key":"ref36","first-page":"648","article-title":"A Bayesian approach to robust reinforcement learning","volume-title":"Proc. 35th Uncertainty Artif. Intell. Conf.","volume":"115","author":"Derman"},{"key":"ref37","article-title":"Lightning does not strike twice: Robust MDPs with coupled uncertainty","author":"Mannor","year":"2012","journal-title":"arXiv:1206.4643"},{"key":"ref38","article-title":"Robust Markov decision process: Beyond rectangularity","author":"Goyal","year":"2018","journal-title":"arXiv:1811.00215"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2015.2495174"},{"key":"ref40","first-page":"8939","article-title":"Policy-conditioned uncertainty sets for robust Markov decision processes","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Tirinzoni"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3165178"},{"key":"ref42","first-page":"1","article-title":"Robust reinforcement learning on state observations with learned optimal adversary","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhang"},{"key":"ref43","doi-asserted-by":"crossref","DOI":"10.1016\/j.trc.2024.104632","article-title":"Trustworthy autonomous driving via defense-aware robust reinforcement learning against worst-case observational perturbations","volume":"163","author":"He","year":"2024","journal-title":"Transp. Res. C, Emerg. Technol."},{"key":"ref44","first-page":"2817","article-title":"Robust adversarial reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Pinto"},{"key":"ref45","first-page":"6215","article-title":"Action robust reinforcement learning and applications in continuous control","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Tessler"},{"key":"ref46","doi-asserted-by":"crossref","first-page":"41","DOI":"10.1016\/j.conengprac.2018.04.007","article-title":"Adaptive-neural-network-based robust lateral motion control for autonomous vehicle at driving limits","volume":"76","author":"Ji","year":"2018","journal-title":"Control Eng. Pract."},{"issue":"2","key":"ref47","doi-asserted-by":"crossref","first-page":"671","DOI":"10.1016\/j.ejor.2018.10.006","article-title":"Algorithms and uncertainty sets for data-driven robust shortest path problems","volume":"274","author":"Chassein","year":"2019","journal-title":"Eur. J. Oper. Res."},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1016\/j.eng.2023.10.005"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2021.3130092"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2018.2836189"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3113158"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/s10898-022-01262-9"},{"key":"ref53","first-page":"4831","article-title":"Robust multi-objective Bayesian optimization under input noise","volume-title":"Proc. 39th Int. Conf. Mach. Learn.","volume":"162","author":"Daulton"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1016\/j.swevo.2019.03.015"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1080\/0305215X.2019.1577413"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejor.2014.03.013"},{"key":"ref57","volume-title":"Mathematical Game Theory and Applications","author":"Mazalov","year":"2014"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.39.10.1953"},{"key":"ref59","doi-asserted-by":"crossref","DOI":"10.1137\/1.9781611971132","volume-title":"Dynamic Noncooperative Game Theory","author":"Ba\u015far","year":"1998"},{"key":"ref60","first-page":"1","article-title":"Multi-objective reinforcement learning for the expected utility of the return","volume-title":"Proc. Adapt. Learn. Agents Workshop FAIM","author":"Roijers"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1017\/S0269888920000351"},{"key":"ref62","first-page":"1","article-title":"Explaining and harnessing adversarial examples","volume-title":"Proc. 3rd Int. Conf. Learn. Represent.","author":"Goodfellow"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/TCI.2016.2644865"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511804441"},{"key":"ref65","first-page":"1","article-title":"Continuous control with deep reinforcement learning","volume-title":"Proc. Int. Conf. Represent. Learn. (ICRL)","author":"Lillicrap"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2023.3312453"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejor.2020.11.016"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1002\/9780470479216.corpsy0524"},{"key":"ref69","first-page":"2736","article-title":"Provably efficient policy optimization for two-player zero-sum Markov games","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Zhao"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1137\/s0363012996299557"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5962385\/10949581\/10537218.pdf?arnumber=10537218","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,5]],"date-time":"2025-12-05T18:38:57Z","timestamp":1764959937000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10537218\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4]]},"references-count":70,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2024.3397393","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,4]]}}}