{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,30]],"date-time":"2026-01-30T03:04:06Z","timestamp":1769742246365,"version":"3.49.0"},"reference-count":41,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/access.2021.3069975","type":"journal-article","created":{"date-parts":[[2021,3,31]],"date-time":"2021-03-31T19:45:02Z","timestamp":1617219902000},"page":"51996-52007","source":"Crossref","is-referenced-by-count":14,"title":["Hindsight Goal Ranking on Replay Buffer for Sparse Reward Environment"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9488-7463","authenticated-orcid":false,"given":"Tung M.","family":"Luu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0756-7179","authenticated-orcid":false,"given":"Chang D.","family":"Yoo","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","author":"wang","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref38","first-page":"1","article-title":"Deep reinforcement learning with double q-learning","author":"van hasselt","year":"2016","journal-title":"Proc Assoc Adv Artif Intell (AAAI)"},{"key":"ref33","doi-asserted-by":"crossref","first-page":"484","DOI":"10.1038\/nature16961","article-title":"Mastering the game of go with deep neural networks and tree search","volume":"529","author":"silver","year":"2016","journal-title":"Nature"},{"key":"ref32","first-page":"1","article-title":"Prioritized experience replay","author":"schaul","year":"2016","journal-title":"Proc Int Conf Learn Represent (ICLR)"},{"key":"ref31","first-page":"1312","article-title":"Universal value function approximators","author":"schaul","year":"2015","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref30","first-page":"1","article-title":"Hindsight policy gradients","author":"rauber","year":"2019","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref36","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref35","first-page":"387","article-title":"Deterministic policy gradient algorithms","author":"silver","year":"2014","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref34","article-title":"Mastering chess and shogi by self-play with a general reinforcement learning algorithm","author":"silver","year":"2017","journal-title":"arXiv 1712 01815"},{"key":"ref10","first-page":"482","article-title":"Reverse curriculum generation for reinforcement learning","volume":"78","author":"florensa","year":"2017","journal-title":"Proc 1st Annu Conf Robot Learn"},{"key":"ref40","first-page":"7553","article-title":"Maximum entropy-regularized multi-goal reinforcement learning","author":"zhao","year":"2019","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref11","article-title":"Intrinsically motivated goal exploration processes with automatic curriculum learning","author":"forestier","year":"2017","journal-title":"arXiv 1708 02190"},{"key":"ref12","first-page":"1587","article-title":"Addressing function approximation error in actor-critic methods","author":"fujimoto","year":"2018","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref13","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"2018","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref14","first-page":"4565","article-title":"Generative adversarial imitation learning","author":"ho","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref15","first-page":"1","article-title":"QT-Opt: Scalable deep reinforcement learning for vision-based robotic manipulation","author":"kalashnikov","year":"2018","journal-title":"Proc Conf Robot Learn (CoRL)"},{"key":"ref16","first-page":"799","article-title":"Autonomous helicopter flight via reinforcement learning","author":"ng","year":"2004","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref17","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2015","journal-title":"Proc 3rd Int Conf Learn Represent"},{"key":"ref18","first-page":"1334","article-title":"End-to-end training of deep visuomotor policies","volume":"17","author":"levine","year":"2015","journal-title":"J Mach Learn Res"},{"key":"ref19","article-title":"Generalized hindsight for reinforcement learning","author":"li","year":"2020","journal-title":"arXiv 2002 11708"},{"key":"ref28","first-page":"305","article-title":"ALVINN: An autonomous land vehicle in a neural network","author":"pomerleau","year":"1989","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref4","first-page":"1331","article-title":"Curious: Intrinsically motivated modular multi-goal reinforcement learning","author":"colas","year":"2019","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref27","article-title":"Multi-goal reinforcement learning: Challenging robotics environments and request for research","author":"plappert","year":"2018","journal-title":"arXiv 1802 09464"},{"key":"ref3","article-title":"OpenAI gym","author":"brockman","year":"2016","journal-title":"arXiv 1606 01540 [cs]"},{"key":"ref6","first-page":"1329","article-title":"Benchmarking deep reinforcement learning for continuous control","author":"duan","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref29","article-title":"Skew-fit: State-covering self-supervised reinforcement learning","author":"pong","year":"2019","journal-title":"arXiv 1903 03698"},{"key":"ref5","first-page":"15324","article-title":"Goal-conditioned imitation learning","author":"ding","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref8","first-page":"1","article-title":"DHER: Hindsight experience replay for dynamic goals","author":"fang","year":"2019","journal-title":"Proc Int Conf Learn Represent (ICML)"},{"key":"ref7","article-title":"Rewriting history with inverse RL: Hindsight inference for policy improvement","author":"eysenbach","year":"2020","journal-title":"arXiv 2002 11089"},{"key":"ref2","first-page":"5048","article-title":"Hindsight experience replay","author":"andrychowicz","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref9","first-page":"1515","article-title":"Automatic goal generation for reinforcement learning agents","volume":"80","author":"florensa","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn"},{"key":"ref1","first-page":"1001","article-title":"Generalized prioritized sweeping","author":"andre","year":"1998","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"},{"key":"ref20","first-page":"1","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref22","first-page":"1","article-title":"Playing Atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"Proc Adv Neural Inf Process Syst Deep Learn Workshop (NeurIPS)"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992699"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463162"},{"key":"ref41","first-page":"113","article-title":"Energy-based hindsight experience prioritization","author":"zhao","year":"2018","journal-title":"Proc Conf Robot Learn (CoRL)"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/11552246_35"},{"key":"ref25","first-page":"9191","article-title":"Visual reinforcement learning with imagined goals","author":"nair","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst (NeurIPS)"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9312710\/09391700.pdf?arnumber=9391700","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,26]],"date-time":"2022-01-26T18:16:27Z","timestamp":1643220987000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9391700\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":41,"URL":"https:\/\/doi.org\/10.1109\/access.2021.3069975","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}