{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T16:12:05Z","timestamp":1780675925836,"version":"3.54.1"},"reference-count":182,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"name":"\u00c9cole centrale d\u2019\u00e9lectronique (ECE) Paris Engineering School, Laboratoire d\u2019Ing\u00e9nierie des Syst\u00e8mes de Versailles (LISV), Universit\u00e9 de Versailles\u2014Paris-Saclay"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/access.2024.3473611","type":"journal-article","created":{"date-parts":[[2024,10,3]],"date-time":"2024-10-03T17:24:00Z","timestamp":1727976240000},"page":"146866-146900","source":"Crossref","is-referenced-by-count":10,"title":["End-to-End Autonomous Driving in CARLA: A Survey"],"prefix":"10.1109","volume":"12","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-2482-6606","authenticated-orcid":false,"given":"Youssef Al","family":"Ozaibi","sequence":"first","affiliation":[{"name":"ECE Paris School of Engineering, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8523-3986","authenticated-orcid":false,"given":"Manolo","family":"Dulva Hina","sequence":"additional","affiliation":[{"name":"ECE Paris School of Engineering, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8289-747X","authenticated-orcid":false,"given":"Amar","family":"Ramdane-Cherif","sequence":"additional","affiliation":[{"name":"LISV Laboratory, Universit&#x00E9; de Versailles Paris-Saclay, V&#x00E9;lizy-Villacoublay, France"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","first-page":"893","article-title":"An automobile with artificial intelligence","volume-title":"Proc. 6th Int. Joint Conf. Artif. Intell. (IJCAI)","author":"Tsugawa"},{"key":"ref2","first-page":"1","article-title":"ALVINN: An autonomous land vehicle in a neural network","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Pomerleau"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3223131"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.3311\/PPtr.19605"},{"key":"ref5","volume-title":"Road Traffic Injuries","year":"2023"},{"key":"ref6","volume-title":"Testing and Certification of Automated Vehicles Including Cybersecurity and Artificial Intelligence Aspects, document Technical Guidance KJ-NA-30472-EN-N, Scientific Analysis or Review, Anticipation and Foresight, Publications Office of the European Union, Luxembourg (Luxembourg)","author":"Baldini","year":"2020"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2023.3312777"},{"key":"ref8","first-page":"1","article-title":"CARLA: An open urban driving simulator","volume-title":"Proc. 1st Annu. Conf. Robot Learn.","volume":"78","author":"Dosovitskiy"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"ref10","first-page":"1","article-title":"NuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles","volume-title":"Proc. CVPR ADP Workshop","author":"Caesar"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812276"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/IVS.2017.7995802"},{"key":"ref13","first-page":"7730","article-title":"Waymax: An accelerated, data-driven simulator for large-scale autonomous driving research","volume-title":"Proc. Neural Inf. Process. Syst. Track Datasets Benchmarks","author":"Gulino"},{"key":"ref14","article-title":"Nocturne: A scalable driving benchmark for bringing multi-agent learning one step closer to the real world","author":"Vinitsky","year":"2022","journal-title":"arXiv:2206.09889"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2023.3318070"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2023.3274536"},{"key":"ref17","article-title":"End-to-end autonomous driving: Challenges and frontiers","author":"Chen","year":"2023","journal-title":"arXiv:2306.16927"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3192019"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00942"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3054625"},{"key":"ref21","article-title":"The integration of prediction and planning in deep learning automated driving systems: A review","author":"Hagedorn","year":"2023","journal-title":"arXiv:2308.05731"},{"key":"ref22","article-title":"LLM4Drive: A survey of large language models for autonomous driving","author":"Yang","year":"2023","journal-title":"arXiv:2311.01043"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/BF01386390"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TSSC.1968.300136"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-49487-6_2"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2016.2578706"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511546877"},{"key":"ref28","volume-title":"Carla Leaderboard","year":"2024"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561747"},{"key":"ref30","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1561\/2300000053"},{"key":"ref32","first-page":"663","article-title":"Algorithms for inverse reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Ng"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/1015330.1015430"},{"key":"ref34","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume-title":"Proc. 23rd AAAI Conf. Artif. Intell.","volume":"8","author":"Ziebart"},{"key":"ref35","first-page":"1","article-title":"Generative adversarial imitation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3422622"},{"key":"ref37","article-title":"DriveCoT: Integrating chain-of-thought reasoning with end-to-end driving","author":"Wang","year":"2024","journal-title":"arXiv:2403.16996"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01421"},{"key":"ref39","article-title":"DriveMLM: Aligning multi-modal large language models with behavioral planning states for autonomous driving","author":"Wang","year":"2023","journal-title":"arXiv:2312.09245"},{"key":"ref40","first-page":"1","article-title":"Policy pre-training for autonomous driving via self-supervised geometric modeling","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Wu"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00754"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19839-7_31"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01254"},{"key":"ref44","first-page":"1","article-title":"Driving policy transfer via modularity and abstraction","volume-title":"Proc. 2nd Conf. Robot Learn.","volume":"87","author":"Mueller"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460487"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01131"},{"key":"ref47","first-page":"156","article-title":"SAM: Squeeze-and-mimic networks for conditional visual driving policy learning","volume-title":"Proc. Conf. Robot Learn.","author":"Zhao"},{"key":"ref48","first-page":"66","article-title":"Learning by cheating","volume-title":"Proc. Conf. Robot Learn.","author":"Chen"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00718"},{"key":"ref50","article-title":"Pre-crash scenario typology for crash avoidance research","author":"Najm","year":"2007"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01671"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01550"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00700"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3200245"},{"key":"ref55","article-title":"Think2Drive: Efficient reinforcement learning by thinking in latent world model for quasi-realistic autonomous driving (in CARLA-v2)","author":"Li","year":"2024","journal-title":"arXiv:2402.16720"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01319"},{"key":"ref57","article-title":"Bench2Drive: Towards multi-ability benchmarking of closed-loop end-to-end autonomous driving","author":"Jia","year":"2024","journal-title":"arXiv:2406.03877"},{"key":"ref58","first-page":"1","article-title":"Off-road obstacle avoidance through end-to-end learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"18","author":"M\u00fcller"},{"key":"ref59","article-title":"End to end learning for self-driving cars","author":"Bojarski","year":"2016","journal-title":"arXiv:1604.07316"},{"key":"ref60","first-page":"11698","article-title":"Causal confusion in imitation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Haan"},{"key":"ref61","article-title":"CarLLaVA: Vision language models for camera-only closed-loop driving","author":"Renz","year":"2024","journal-title":"arXiv:2406.10165"},{"key":"ref62","article-title":"Continuously learning, adapting, and improving: A dual-process approach to autonomous driving","author":"Mei","year":"2024","journal-title":"arXiv:2405.15324"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2010.11929"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3369699"},{"key":"ref65","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"139","author":"Radford"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.3390\/robotics12050127"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20259"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2023.3266940"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9340641"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3225340"},{"key":"ref71","first-page":"459","article-title":"PlanT: Explainable planning transformers via object-level representations","volume-title":"Proc. Conf. Robotic Learn. (CoRL)","author":"Renz"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2023.3343694"},{"key":"ref73","article-title":"Deep imitative models for flexible inference, planning, and control","author":"Rhinehart","year":"2018","journal-title":"arXiv:1810.06544"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00291"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981775"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/ITSC57777.2023.10422601"},{"key":"ref77","article-title":"M2DA: Multi-modal fusion transformer incorporating driver attention for autonomous driving","author":"Xu","year":"2024","journal-title":"arXiv:2403.12552"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02105"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00731"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.3390\/s18103337"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00472"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342367"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01298"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.16"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/LARS\/SBR\/WRE56824.2022.9995888"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.3390\/s24072097"},{"key":"ref87","first-page":"25","article-title":"Efficient large-scale stereo matching","volume-title":"Proc. Asian Conf. Comput. Vis. (ACCV)","author":"Geiger"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01161"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00466"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58568-6_12"},{"key":"ref91","article-title":"Expert drivers for autonomous driving","author":"Jaeger","year":"2021"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00757"},{"key":"ref93","first-page":"726","article-title":"Safety-enhanced autonomous driving using interpretable sensor fusion transformer","volume-title":"Proc. Conf. Robot Learn.","author":"Shao"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2020.3013234"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/IVS.2017.7995816"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/ASSPCC.2000.882463"},{"key":"ref97","volume-title":"Sigma-Point Kalman Filters for Probabilistic Inference Dynamic State-Space Models","author":"Van Der Merwe","year":"2004"},{"key":"ref98","article-title":"A survey on multimodal large language models","author":"Yin","year":"2023","journal-title":"arXiv:2306.13549"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00106"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01432"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i10.29049"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/TASE.2023.3342419"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01154"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2024.3366245"},{"key":"ref105","first-page":"2564","article-title":"Fighting copycat agents in behavioral cloning from observation histories","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Wen"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8967897"},{"key":"ref107","article-title":"Rethinking self-driving: Multi-task knowledge for better generalization and accident explanation ability","author":"Li","year":"2018","journal-title":"arXiv:1809.11100"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW53098.2021.00325"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-69535-4_40"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01530"},{"key":"ref111","article-title":"Scaling vision-based end-to-end driving with multi-view attention learning","author":"Xiao","year":"2023","journal-title":"arXiv:2302.03198"},{"key":"ref112","article-title":"Mixture density networks","volume-title":"Working Paper NCRG\/94\/004","author":"Bishop","year":"1994"},{"key":"ref113","first-page":"1","article-title":"Recurrent world models facilitate policy evolution","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ha"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01494"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1503.02531"},{"key":"ref116","first-page":"6119","article-title":"Trajectory-guided control prediction for end-to-end autonomous driving: A simple yet strong baseline","volume-title":"Proc. NeurIPS","author":"Wu"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3385695"},{"key":"ref118","first-page":"20703","article-title":"Model-based imitation learning for urban driving","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Hu"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/TCST.2005.847331"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1016\/0005-1098(89)90002-2"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511811685"},{"key":"ref123","first-page":"2366","article-title":"Depth map prediction from a single image using a multi-scale deep network","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Eigen"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2018.00163"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.312"},{"key":"ref126","first-page":"237","article-title":"Conditional affordance learning for driving in urban environments","volume-title":"Proc. Conf. Robot Learn.","author":"Sauer"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1145\/3293353.3293364"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00957"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01252"},{"key":"ref130","volume-title":"Apollo: Open Source Autonomous Driving","year":"2019"},{"key":"ref131","article-title":"Neural machine translation by jointly learning to align and translate","author":"Bahdanau","year":"2014","journal-title":"arXiv:1409.0473"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref133","article-title":"Deformable DETR: Deformable transformers for end-to-end object detection","author":"Zhu","year":"2020","journal-title":"arXiv:2010.04159"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1007\/BF00201978"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1807.06521"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01155"},{"key":"ref138","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv:1810.04805"},{"key":"ref139","article-title":"Graph attention networks","author":"Veli\u010dkovi\u0107","year":"2017","journal-title":"arXiv:1710.10903"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01234-2_36"},{"key":"ref141","article-title":"Continuous control with deep reinforcement learning","volume-title":"Proc. 4th Int. Conf. Learn. Represent. (ICLR)","author":"Lillicrap"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01178"},{"key":"ref143","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume-title":"Proc. 14th Int. Conf. Artif. Intell. Statist.","author":"Ross"},{"key":"ref144","first-page":"3029","article-title":"Object-aware regularization for addressing causal confusion in imitation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Park"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19839-7_20"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610804"},{"key":"ref147","article-title":"Analysis of a modular autonomous driving architecture: The top submission to CARLA leaderboard 2.0 challenge","author":"Zhang","year":"2024","journal-title":"arXiv:2405.01394"},{"key":"ref148","article-title":"PDM-lite: A rule-based planner for Carla leaderboard 2.0","author":"Bei\u00dfwenger","year":"2024"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/IV51971.2022.9827125"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-009-9121-3"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevE.62.1805"},{"key":"ref152","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref153","article-title":"Mastering diverse domains through world models","author":"Hafner","year":"2023","journal-title":"arXiv:2301.04104"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1186\/s40537-019-0197-0"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_15"},{"key":"ref156","article-title":"PDM-lite: A rule-based planner for carla leaderboard 2.0","author":"Bei\u00dfwenger","year":"2024"},{"key":"ref157","first-page":"143","article-title":"DART: Noise injection for robust imitation learning","volume-title":"Proc. Conf. Robot Learn.","author":"Laskey"},{"key":"ref158","first-page":"1","article-title":"Efficient learning of safe driving policy via human-AI copilot optimization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Li"},{"key":"ref159","article-title":"From model-based to data-driven simulation: Challenges and trends in autonomous driving","author":"M\u00fctsch","year":"2023","journal-title":"arXiv:2305.13960"},{"key":"ref160","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mnih"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11694"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3236361"},{"key":"ref163","article-title":"Is deep reinforcement learning really superhuman on Atari? Leveling the playing field","author":"Toromanoff","year":"2019","journal-title":"arXiv:1908.04683"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00326"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref167","article-title":"Stabilizing off-policy deep reinforcement learning from pixels","author":"Cetin","year":"2022","journal-title":"arXiv:2207.00986"},{"key":"ref168","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Haarnoja"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1109\/SSCI50451.2021.9660156"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3146635"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1177\/0278364917722396"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01044"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01662"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1109\/ITSC55140.2022.9922432"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3322540"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342038"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2022.103829"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553380"},{"key":"ref180","article-title":"Scalable agent alignment via reward modeling: A research direction","author":"Leike","year":"2018","journal-title":"arXiv:1811.07871"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1109\/CONTROL60310.2024.10531819"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3020075"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10380310\/10704612.pdf?arnumber=10704612","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,18]],"date-time":"2024-10-18T17:41:30Z","timestamp":1729273290000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10704612\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":182,"URL":"https:\/\/doi.org\/10.1109\/access.2024.3473611","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]}}}