{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T11:38:37Z","timestamp":1775561917802,"version":"3.50.1"},"reference-count":44,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,5,23]],"date-time":"2022-05-23T00:00:00Z","timestamp":1653264000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,5,23]],"date-time":"2022-05-23T00:00:00Z","timestamp":1653264000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,5,23]]},"DOI":"10.1109\/icra46639.2022.9811990","type":"proceedings-article","created":{"date-parts":[[2022,7,12]],"date-time":"2022-07-12T19:36:40Z","timestamp":1657654600000},"page":"2445-2451","source":"Crossref","is-referenced-by-count":46,"title":["Symphony: Learning Realistic and Diverse Agents for Autonomous Driving Simulation"],"prefix":"10.1109","author":[{"given":"Maximilian","family":"Igl","sequence":"first","affiliation":[{"name":"Waymo Research"}]},{"given":"Daewoo","family":"Kim","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Alex","family":"Kuefler","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Paul","family":"Mougin","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Punit","family":"Shah","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Kyriacos","family":"Shiarlis","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Dragomir","family":"Anguelov","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Mark","family":"Palatucci","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Brandyn","family":"White","sequence":"additional","affiliation":[{"name":"Waymo Research"}]},{"given":"Shimon","family":"Whiteson","sequence":"additional","affiliation":[{"name":"Waymo Research"}]}],"member":"263","reference":[{"key":"ref39","author":"behbahani","year":"2018","journal-title":"Learning from demonstration in the wild"},{"key":"ref38","article-title":"Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst","volume":"abs 1812 3079","author":"bansal","year":"2018","journal-title":"CoRR"},{"key":"ref33","author":"hamrick","year":"2020","journal-title":"On the role of planning in model-based deep reinforcement learning"},{"key":"ref32","article-title":"Combining deep reinforcement learning and search for imperfect-information games","author":"brown","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1126\/science.aar6404"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"354","DOI":"10.1038\/nature24270","article-title":"Mastering the game of go without human knowledge","volume":"550","author":"silver","year":"2017","journal-title":"Nature"},{"key":"ref37","article-title":"End to end learning for self-driving cars","volume":"abs 1604 7316","author":"bojarski","year":"2016","journal-title":"CoRR"},{"key":"ref36","author":"janner","year":"2021","journal-title":"Reinforcement learning as one big sequence modeling problem"},{"key":"ref35","author":"chen","year":"2021","journal-title":"Decision transformer Reinforcement learning via sequence modeling"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-020-03051-4"},{"key":"ref10","doi-asserted-by":"crossref","DOI":"10.1145\/1015330.1015430","article-title":"Apprenticeship learning via inverse reinforcement learning","author":"abbeel","year":"2004","journal-title":"Twenty-first international conference on Machine learning  - ICML '04"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561666"},{"key":"ref11","first-page":"2586","article-title":"Bayesian inverse reinforcement learning","volume":"7","author":"ramachandran","year":"2007","journal-title":"IJCAI"},{"key":"ref12","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume":"8","author":"ziebart","year":"2008","journal-title":"AAAI"},{"key":"ref13","first-page":"2672","article-title":"Generative adversarial nets","author":"goodfellow","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref14","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1007\/BF00992696","article-title":"Simple statistical gradient-following algorithms for connectionist reinforcement learning","volume":"8","author":"williams","year":"1992","journal-title":"Machine Learning"},{"key":"ref15","first-page":"390","article-title":"End-to-end differen-tiable adversarial imitation learning","author":"baram","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/0005-1098(89)90002-2"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1038\/nature16961"},{"key":"ref18","first-page":"1068","article-title":"On-line policy improvement using monte-carlo search","author":"tesauro","year":"0","journal-title":"Proc 9th Int Conf Neural Information Processing"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.233"},{"key":"ref28","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1049\/PBCE044E_ch5"},{"key":"ref27","author":"farquhar","year":"2018","journal-title":"Treeqn and atreec Differentiable tree-structured models for deep reinforcement learning"},{"key":"ref3","first-page":"305","article-title":"ALVINN: an autonomous land vehicle in a neural network","author":"pomerleau","year":"1989","journal-title":"Advances in Neural Information Processing Systems 1"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00957"},{"key":"ref29","article-title":"Thinking fast and slow with deep learning and tree search","author":"anthony","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref5","author":"ho","year":"2016","journal-title":"Generative Adversarial Imitation Learning"},{"key":"ref8","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","author":"ross","year":"0","journal-title":"Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50027-1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3054912"},{"key":"ref9","first-page":"663","article-title":"Algorithms for inverse reinforcement learning","author":"ng","year":"2000","journal-title":"Proceedings of the Seventeenth International Conference on Machine Learning Ser ICML '00"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2008.10.024"},{"key":"ref20","first-page":"947","article-title":"Intentnet: Learning to predict intention from raw sensor data","author":"casas","year":"0","journal-title":"Conference on Robot Learning"},{"key":"ref22","first-page":"143","article-title":"Dart: Noise injection for robust imitation learning","author":"laskey","year":"0","journal-title":"Conference on Robot Learning"},{"key":"ref21","article-title":"Multipath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction","volume":"abs 1910 5449","author":"chai","year":"2019","journal-title":"CoRR"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00978"},{"key":"ref24","article-title":"Model-based adversarial imitation learning","author":"baram","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref41","author":"suo","year":"2021","journal-title":"Trafficsim Learning to simulate realistic multi?-agent behaviors"},{"key":"ref23","article-title":"Strictly batch imitation learning by energy-based distribution matching","author":"jarrett","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref44","article-title":"nuplan: A closed-loop ml-based planning benchmark for autonomous vehicles","volume":"abs 2106 11810","author":"caesar","year":"2021","journal-title":"CoRR"},{"key":"ref26","author":"lee","year":"2018","journal-title":"Gated Path Planning Networks"},{"key":"ref43","article-title":"Smarts: Scalable multi-agent reinforcement learning training school for autonomous driving","author":"zhou","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref25","author":"tamar","year":"2016","journal-title":"Value iteration networks"}],"event":{"name":"2022 IEEE International Conference on Robotics and Automation (ICRA)","location":"Philadelphia, PA, USA","start":{"date-parts":[[2022,5,23]]},"end":{"date-parts":[[2022,5,27]]}},"container-title":["2022 International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9811522\/9811357\/09811990.pdf?arnumber=9811990","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,11,3]],"date-time":"2022-11-03T23:05:37Z","timestamp":1667516737000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9811990\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,5,23]]},"references-count":44,"URL":"https:\/\/doi.org\/10.1109\/icra46639.2022.9811990","relation":{},"subject":[],"published":{"date-parts":[[2022,5,23]]}}}