{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,16]],"date-time":"2025-10-16T07:00:42Z","timestamp":1760598042970,"version":"3.37.3"},"reference-count":31,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2021,4,1]],"date-time":"2021-04-01T00:00:00Z","timestamp":1617235200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,4,1]],"date-time":"2021-04-01T00:00:00Z","timestamp":1617235200000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,4,1]],"date-time":"2021-04-01T00:00:00Z","timestamp":1617235200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,4,1]],"date-time":"2021-04-01T00:00:00Z","timestamp":1617235200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Key R&amp;D Program of Guangdong Province","award":["2019B090915001","2019A050510040","2017B050506008"],"award-info":[{"award-number":["2019B090915001","2019A050510040","2017B050506008"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61950410758","51975126","51905105","61872238"],"award-info":[{"award-number":["61950410758","51975126","51905105","61872238"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Guangzhou Basic and Applied Basic Research","award":["202002030237"],"award-info":[{"award-number":["202002030237"]}]},{"name":"Shanghai NSF","award":["19ZR1426700"],"award-info":[{"award-number":["19ZR1426700"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2021,4]]},"DOI":"10.1109\/lra.2021.3064509","type":"journal-article","created":{"date-parts":[[2021,3,8]],"date-time":"2021-03-08T21:13:42Z","timestamp":1615238022000},"page":"3537-3544","source":"Crossref","is-referenced-by-count":10,"title":["Hyperparameter Auto-Tuning in Self-Supervised Robotic Learning"],"prefix":"10.1109","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4959-6664","authenticated-orcid":false,"given":"Jiancong","family":"Huang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6552-4572","authenticated-orcid":false,"given":"Juan","family":"Rojas","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8029-308X","authenticated-orcid":false,"given":"Matthieu","family":"Zimmer","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongmin","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7011-0331","authenticated-orcid":false,"given":"Yisheng","family":"Guan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2008-4569","authenticated-orcid":false,"given":"Paul","family":"Weng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref31","first-page":"1017","article-title":"P3O: Policy-on policy-off policy optimization","volume":"115","author":"fakoor","year":"2020","journal-title":"Uncertainty Artif Intell"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"436","DOI":"10.1038\/nature14539","article-title":"Deep learning","volume":"521","author":"goodfellow","year":"2015","journal-title":"Nat"},{"article-title":"Skew-Fit: State-covering self-supervised reinforcement learning","year":"2019","author":"pong","key":"ref10"},{"key":"ref11","first-page":"1312","article-title":"Universal value function approximators","author":"schaul","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref12","article-title":"Auto-encoding variational Bayes","author":"diederik","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref13","first-page":"1278","article-title":"Stochastic backpropagation and approximate inference in deep generative models","author":"rezende","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref14","first-page":"159","article-title":"Fixing a broken elbo","author":"alemi","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref15","article-title":"Beta-Vae: Learning basic visual concepts with a constrained variational framework","author":"higgins","year":"2017","journal-title":"in Proc Int Conf Learn Representations"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2211477"},{"article-title":"Fashion-MNIST: A novel image dataset for benchmarking machine learning algorithms","year":"2017","author":"xiao","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2012.05.008"},{"key":"ref19","first-page":"5062","article-title":"Self-supervised exploration via disagreement","author":"pathak","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref28","first-page":"148","article-title":"Taking the human out of the loop: A review of bayesian optimization","author":"shahriari","year":"2015","journal-title":"Proc IEEE"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3292500.3330701"},{"key":"ref27","first-page":"2546","article-title":"Algorithms for hyper-parameter optimization","volume":"24","author":"bergstra","year":"2011","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref3","article-title":"Random search for hyper-parameter optimization","volume":"13","author":"bergstra","year":"2012","journal-title":"J Mach Learn Res"},{"key":"ref6","first-page":"557","article-title":"A greedy approach to adapting the trace parameter for temporal difference learning","author":"white","year":"0","journal-title":"Proc 1st Int Conf Autonomous Agents Multiagent Syst"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3219819.3219837"},{"key":"ref5","article-title":"Finite-time performance bounds and adaptive learning rate selection for two time-scale reinforcement learning","volume":"32","author":"gupta","year":"2019","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref8","article-title":"Visual reinforcement learning with imagined goals","volume":"31","author":"nair","year":"2018","journal-title":"Adv Neural Inf Process Syst"},{"article-title":"Self-tuning deep reinforcement learning","year":"2020","author":"zahavy","key":"ref7"},{"key":"ref2","article-title":"A closer look at deep policy gradients","author":"ilyas","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref9","first-page":"530","article-title":"Contextual imagined goals for self-supervised robotic learning","author":"nair","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref1","article-title":"Deep reinforcement learning that matters","author":"henderson","year":"0","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"ref20","article-title":"Unsupervised control through non-parametric discriminative rewards","author":"warde-farley","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref22","article-title":"Variational state encoding as intrinsic motivation in reinforcement learning","author":"klissarov","year":"2019","journal-title":"Proc Task-Agnostic Reinforcement Learn Workshop Int Conf Learn Representations"},{"key":"ref21","first-page":"1515","article-title":"Automatic goal generation for reinforcement learning agents","author":"florensa","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref24","first-page":"2180","article-title":"Infogan: Interpretable representation learning by information maximizing generative adversarial nets","author":"chen","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref23","first-page":"3379","article-title":"Curiosity-bottleneck: Exploration by distilling task-specific novelty","author":"kim","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33015885"},{"key":"ref25","first-page":"5171","article-title":"On variational bounds of mutual information","author":"poole","year":"0","journal-title":"Proc Int Conf Mach Learn"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/7083369\/9285111\/9372868-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/9285111\/09372868.pdf?arnumber=9372868","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:54:26Z","timestamp":1652194466000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9372868\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,4]]},"references-count":31,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/lra.2021.3064509","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"type":"electronic","value":"2377-3766"},{"type":"electronic","value":"2377-3774"}],"subject":[],"published":{"date-parts":[[2021,4]]}}}