{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,30]],"date-time":"2025-08-30T16:30:29Z","timestamp":1756571429437,"version":"3.28.0"},"reference-count":35,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,12,6]],"date-time":"2022-12-06T00:00:00Z","timestamp":1670284800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,12,6]],"date-time":"2022-12-06T00:00:00Z","timestamp":1670284800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,12,6]]},"DOI":"10.1109\/cdc51059.2022.9993026","type":"proceedings-article","created":{"date-parts":[[2023,1,10]],"date-time":"2023-01-10T19:26:56Z","timestamp":1673378816000},"page":"115-122","source":"Crossref","is-referenced-by-count":1,"title":["Performance-Driven Controller Tuning via Derivative-Free Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Yuheng","family":"Lei","sequence":"first","affiliation":[{"name":"Tsinghua University,School of Vehicle and Mobility,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianyu","family":"Chen","sequence":"additional","affiliation":[{"name":"Tsinghua University,Institute for Interdisciplinary Information Sciences,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shengbo Eben","family":"Li","sequence":"additional","affiliation":[{"name":"Tsinghua University,School of Vehicle and Mobility,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sifa","family":"Zheng","sequence":"additional","affiliation":[{"name":"Tsinghua University,School of Vehicle and Mobility,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TCST.2018.2886159"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.23919\/ACC50511.2021.9482827"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487144"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1142\/p575"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1021\/ie900323c"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8968102"},{"key":"ref7","first-page":"761","article-title":"Objective mismatch in model-based reinforcement learning","volume-title":"Learning for Dynamics and Control","author":"Lambert","year":"2020"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2017.8264425"},{"key":"ref9","first-page":"7207","article-title":"Goal-aware prediction: Learning to model what matters","volume-title":"International Conference on Machine Learning","author":"Nair"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.3166\/ejc.11.335-352"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2019.2913347"},{"key":"ref12","article-title":"Learning to predict without looking ahead: World models without forward prediction","volume":"32","author":"Freeman","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3321707.3321817"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2020.2981895"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2015.2494218"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2020.12.276"},{"article-title":"Evolution strategies as a scalable alternative to reinforcement learning","year":"2017","author":"Salimans","key":"ref17"},{"key":"ref18","first-page":"1205","article-title":"Optimal cost design for model predictive control","volume-title":"Learning for Dynamics and Control","author":"Jain","year":"2021"},{"key":"ref19","article-title":"Simple random search of static linear policies is competitive for reinforcement learning","volume":"31","author":"Mania","year":"2018","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref20","first-page":"91","article-title":"From pixels to legs: Hierarchical learning of quadruped locomotion","volume-title":"Conference on Robot Learning","author":"Jain"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3095179"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/tnn.1998.712192"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CDC40024.2019.9029916"},{"key":"ref24","article-title":"Differentiable mpc for end-to-end planning and control","volume":"31","author":"Amos","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref25","first-page":"361","article-title":"Learning convex optimization control policies","author":"Agrawal","year":"2020","journal-title":"Learning for Dynamics and Control"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-04331-8_1"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2019.2913768"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.23919\/ACC50511.2021.9482765"},{"key":"ref29","first-page":"1634","article-title":"Smooth exploration for robotic reinforcement learning","volume-title":"Conference on Robot Learning","author":"Raffin"},{"key":"ref30","first-page":"387","article-title":"Deterministic policy gradient algorithms","volume-title":"International conference on machine learning","author":"Silver"},{"article-title":"High-dimensional continuous control using generalized advantage estimation","year":"2015","author":"Schulman","key":"ref31"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1137\/S036301299731669X"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/IVWorkshops54471.2021.9669260"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TCST.2010.2049203"},{"article-title":"Nevergrad - A gradient-free optimization platform","year":"2018","author":"Rapin","key":"ref35"}],"event":{"name":"2022 IEEE 61st Conference on Decision and Control (CDC)","start":{"date-parts":[[2022,12,6]]},"location":"Cancun, Mexico","end":{"date-parts":[[2022,12,9]]}},"container-title":["2022 IEEE 61st Conference on Decision and Control (CDC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9992315\/9992317\/09993026.pdf?arnumber=9993026","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,3,14]],"date-time":"2024-03-14T02:42:00Z","timestamp":1710384120000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9993026\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,12,6]]},"references-count":35,"URL":"https:\/\/doi.org\/10.1109\/cdc51059.2022.9993026","relation":{},"subject":[],"published":{"date-parts":[[2022,12,6]]}}}