{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T22:10:34Z","timestamp":1769724634916,"version":"3.49.0"},"reference-count":52,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100009023","name":"Japan Science and Technology Agency (JST) Precursory Research for Embryonic Science and Technology (PRESTO), Japan","doi-asserted-by":"publisher","award":["JPMJPR20C3"],"award-info":[{"award-number":["JPMJPR20C3"]}],"id":[{"id":"10.13039\/501100009023","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/access.2021.3125000","type":"journal-article","created":{"date-parts":[[2021,11,2]],"date-time":"2021-11-02T21:28:51Z","timestamp":1635888531000},"page":"148783-148799","source":"Crossref","is-referenced-by-count":14,"title":["Meta-Optimization of Bias-Variance Trade-Off in Stochastic Model Learning"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5774-767X","authenticated-orcid":false,"given":"Takumi","family":"Aotani","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3760-249X","authenticated-orcid":false,"given":"Taisuke","family":"Kobayashi","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5149-5643","authenticated-orcid":false,"given":"Kenji","family":"Sugimoto","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1162\/089976698300017232"},{"key":"ref38","first-page":"231","article-title":"A unified bias-variance decomposition","author":"domingos","year":"2000","journal-title":"Proc 17th Int Conf Mach Learn"},{"key":"ref33","article-title":"Evolved policy gradients","author":"houthooft","year":"2018","journal-title":"arXiv 1802 04821"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CEC48606.2020.9185777"},{"key":"ref31","first-page":"9310","article-title":"Discovery of useful questions as auxiliary tasks","author":"veeriah","year":"2019","journal-title":"Proc NeurIPS"},{"key":"ref30","article-title":"Online meta-critic learning for off-policy actor-critic methods","author":"zhou","year":"2020","journal-title":"arXiv 2003 05334"},{"key":"ref37","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","author":"sutton","year":"2000","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref36","first-page":"26","article-title":"Hyperparameter optimization for machine learning models based on Bayesian optimization","volume":"17","author":"wu","year":"2019","journal-title":"J Electron Sci Technol"},{"key":"ref35","first-page":"1","article-title":"Initializing Bayesian hyperparameter optimization via meta-learning","volume":"29","author":"feurer","year":"2015","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1126\/science.aau6249"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR48806.2021.9412010"},{"key":"ref27","article-title":"Learning surrogate losses","author":"grabocka","year":"2019","journal-title":"arXiv 1905 10108"},{"key":"ref29","first-page":"2891","article-title":"Addressing the loss-metric mismatch with adaptive loss alignment","author":"huang","year":"2019","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1177\/1729881419839584"},{"key":"ref1","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref20","first-page":"8438","article-title":"A quantile-based approach for hyperparameter transfer learning","author":"salinas","year":"2020","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/BF02591870"},{"key":"ref21","article-title":"Merging deterministic policy gradient estimations with varied bias-variance tradeoff for effective deep reinforcement learning","author":"chen","year":"2019","journal-title":"arXiv 1911 10527"},{"key":"ref24","article-title":"Meta-learning: A survey","author":"vanschoren","year":"2018","journal-title":"arXiv 1810 03548"},{"key":"ref23","article-title":"An adaptive augmented weighted Tchebycheff method to solve discrete, integer-valued bicriteria optimization problems","author":"d\u00e4chert","year":"2010"},{"key":"ref26","first-page":"998","article-title":"MetaReg: Towards domain generalization using meta-regularization","volume":"31","author":"balaji","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref25","first-page":"3915","article-title":"Feature-critic networks for heterogeneous domain generalization","author":"li","year":"2019","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553380"},{"key":"ref51","first-page":"1417","article-title":"Online linear regression and its application to model-based reinforcement learning","volume":"20","author":"strehl","year":"2007","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref52","first-page":"617","article-title":"Model-based reinforcement learning via meta-policy optimization","author":"clavera","year":"2018","journal-title":"Proc Conf Robot Learn"},{"key":"ref10","article-title":"Safe reinforcement learning with stability & safety guarantees using robust MPC","author":"gros","year":"2020","journal-title":"arXiv 2012 07369"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/j.aei.2015.07.007"},{"key":"ref40","article-title":"Information criteria and model selection","author":"bierens","year":"2004"},{"key":"ref12","first-page":"4754","article-title":"Deep reinforcement learning in a handful of trials using probabilistic dynamics models","author":"chua","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.2010.2048503"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1287\/ijoc.2018.0834"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1992.4.1.1"},{"key":"ref16","article-title":"A modern take on the bias-variance tradeoff in neural networks","author":"neal","year":"2018","journal-title":"arXiv 1810 08591"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1903070116"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.3390\/mca25020037"},{"key":"ref19","article-title":"Fast efficient hyperparameter tuning for policy gradients","author":"paul","year":"2019","journal-title":"arXiv 1902 06583"},{"key":"ref4","first-page":"1","article-title":"Robust multi-agent reinforcement learning with model uncertainty","author":"zhang","year":"2020","journal-title":"Proc NeurIPS"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.jmsy.2020.06.018"},{"key":"ref6","first-page":"1","article-title":"Safe reinforcement learning via shielding","author":"alshiekh","year":"2018","journal-title":"Proc 32nd AAAI Conf Artif Intell"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-020-02034-2"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2020.XVI.087"},{"key":"ref7","article-title":"MAMPS: Safe multi-agent reinforcement learning via model predictive shielding","author":"zhang","year":"2019","journal-title":"arXiv 1910 12639"},{"key":"ref49","article-title":"Surprise-based intrinsic motivation for deep reinforcement learning","author":"achiam","year":"2017","journal-title":"arXiv 1703 01732"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.23919\/ACC.2019.8814758"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3041755"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/s10479-006-0058-z"},{"key":"ref48","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","author":"lowe","year":"2017","journal-title":"arXiv 1706 02275"},{"key":"ref47","article-title":"OpenAI gym","author":"brockman","year":"2016","journal-title":"arXiv 1606 01540 [cs]"},{"key":"ref42","first-page":"282","article-title":"Evaluating the CMA evolution strategy on multimodal test functions","author":"hansen","year":"2004","journal-title":"Proc Int Conf Parallel Problem Solving Nature"},{"key":"ref41","volume":"2","author":"williams","year":"2006","journal-title":"Gaussian Processes for Machine Learning"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1287\/moor.2016.0796"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1023\/A:1015059928466"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9312710\/09599708.pdf?arnumber=9599708","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,3,14]],"date-time":"2022-03-14T21:43:40Z","timestamp":1647294220000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9599708\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":52,"URL":"https:\/\/doi.org\/10.1109\/access.2021.3125000","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}