{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,14]],"date-time":"2026-03-14T20:59:48Z","timestamp":1773521988052,"version":"3.50.1"},"reference-count":37,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2024,4,1]],"date-time":"2024-04-01T00:00:00Z","timestamp":1711929600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,4,1]],"date-time":"2024-04-01T00:00:00Z","timestamp":1711929600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,4,1]],"date-time":"2024-04-01T00:00:00Z","timestamp":1711929600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Natural Science Foundation of Guangxi","award":["2023GXNSFBA026069"],"award-info":[{"award-number":["2023GXNSFBA026069"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2024,4]]},"DOI":"10.1109\/lra.2024.3366023","type":"journal-article","created":{"date-parts":[[2024,2,14]],"date-time":"2024-02-14T19:00:54Z","timestamp":1707937254000},"page":"3179-3186","source":"Crossref","is-referenced-by-count":8,"title":["SC-AIRL: Share-Critic in Adversarial Inverse Reinforcement Learning for Long-Horizon Task"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-0899-6236","authenticated-orcid":false,"given":"Guangyu","family":"Xiang","sequence":"first","affiliation":[{"name":"School of Electrical Engineering, Guangxi University, Nanning, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5034-8721","authenticated-orcid":false,"given":"Shaodong","family":"Li","sequence":"additional","affiliation":[{"name":"School of Electrical Engineering, Guangxi University, Nanning, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4733-4732","authenticated-orcid":false,"given":"Feng","family":"Shuang","sequence":"additional","affiliation":[{"name":"School of Electrical Engineering, Guangxi University, Nanning, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1816-5420","authenticated-orcid":false,"given":"Fang","family":"Gao","sequence":"additional","affiliation":[{"name":"School of Electrical Engineering, Guangxi University, Nanning, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-3842-2807","authenticated-orcid":false,"given":"Xiaogang","family":"Yuan","sequence":"additional","affiliation":[{"name":"School of Electrical Engineering, Guangxi University, Nanning, China"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref2","first-page":"1479","article-title":"Unifying count-based exploration and intrinsic motivation","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Bellemare"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463162"},{"key":"ref4","first-page":"49","article-title":"Guided cost learning: Deep inverse optimal control via policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Finn"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139555"},{"key":"ref6","first-page":"1","article-title":"Learning a decision module by imitating drivers control behaviors","volume-title":"Proc. Conf. Robot Learn.","author":"Huang"},{"key":"ref7","first-page":"21","article-title":"Neuro-symbolic program search for autonomous driving decision module design","volume-title":"Proc. Conf. Robot Learn.","author":"Sun"},{"key":"ref8","first-page":"663","article-title":"Algorithms for inverse reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Ng"},{"key":"ref9","article-title":"Learning robust rewards with adversarial inverse reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Fu"},{"key":"ref10","first-page":"4565","article-title":"Generative adversarial imitation learning","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref11","article-title":"Discriminator-actor-critic: Addressing sample inefficiency and reward bias in adversarial imitation learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kostrikov"},{"key":"ref12","first-page":"14656","article-title":"What matters for adversarial imitation learning","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Orsini"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-020-03157-9"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2022.3226108"},{"key":"ref15","first-page":"540","article-title":"Voxposer: Composable 3D value maps for robotic manipulation with language models","volume-title":"Proc. Conf. Robot Learn.","author":"Huang","year":"2023"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161317"},{"key":"ref17","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume-title":"Proc. 23rd AAAI Conf. Artif. Intell.","author":"Ziebart"},{"key":"ref18","article-title":"A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models","author":"Finn","year":"2016"},{"key":"ref19","article-title":"CLARE: Conservative model-based reward learning for offline inverse reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Yue","year":"2023"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3061397"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3236882"},{"key":"ref22","first-page":"4344","article-title":"Learning by playing solving sparse reward tasks from scratch","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","author":"Riedmiller"},{"key":"ref23","first-page":"1235","article-title":"Multimodal imitation learning from unstructured demonstrations using generative adversarial nets","volume-title":"Proc. 31st Int. Conf. Neural Inf. Process. Syst.","author":"Hausman"},{"key":"ref24","article-title":"Directed-info GAIL: Learning hierarchical policies from unsegmented demonstrations using directed information","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Sharma"},{"key":"ref25","first-page":"1113","article-title":"Learning latent plans from play","volume-title":"Proc. Conf. Robot Learn.","author":"Lynch"},{"key":"ref26","first-page":"1025","article-title":"Relay policy learning: Solving long horizon tasks via imitation and reinforcement learning","volume-title":"Proc. Conf. Robot Learn.","author":"Gupta"},{"key":"ref27","first-page":"8022","article-title":"Reward learning from human preferences and demonstrations in Atari","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ibarz"},{"key":"ref28","first-page":"2067","article-title":"Trial without error: Towards safe reinforcement learning via human intervention","volume-title":"Proc. 17th Int. Conf. Auton. Agents Multi-Agent Syst.. Richland, SC: Int. Found. Auton. Agents Multiagent Syst.","author":"Saunders"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3209889.3209897"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/s40708-016-0042-6"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.10945"},{"key":"ref32","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. 32nd Int. Conf. Mach. Learn.","author":"Schulman"},{"key":"ref33","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2019.2959445"},{"key":"ref35","first-page":"17321","article-title":"Long-horizon visual planning with goal-conditioned hierarchical predictors","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Pertsch"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3308061"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3260586"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/10440130\/10436349.pdf?arnumber=10436349","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,23]],"date-time":"2024-12-23T21:29:42Z","timestamp":1734989382000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10436349\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,4]]},"references-count":37,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/lra.2024.3366023","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,4]]}}}