{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,20]],"date-time":"2026-05-20T09:10:56Z","timestamp":1779268256168,"version":"3.51.4"},"reference-count":32,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,6,8]],"date-time":"2022-06-08T00:00:00Z","timestamp":1654646400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,6,8]],"date-time":"2022-06-08T00:00:00Z","timestamp":1654646400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,6,8]]},"DOI":"10.23919\/acc53348.2022.9867149","type":"proceedings-article","created":{"date-parts":[[2022,9,5]],"date-time":"2022-09-05T20:24:10Z","timestamp":1662409450000},"page":"1406-1413","source":"Crossref","is-referenced-by-count":5,"title":["Discrete Approximate Information States in Partially Observable Environments"],"prefix":"10.23919","author":[{"given":"Lujie","family":"Yang","sequence":"first","affiliation":[{"name":"Masschusetts Institue of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kaiqing","family":"Zhang","sequence":"additional","affiliation":[{"name":"Masschusetts Institue of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alexandre","family":"Amice","sequence":"additional","affiliation":[{"name":"Masschusetts Institue of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunzhu","family":"Li","sequence":"additional","affiliation":[{"name":"Masschusetts Institue of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Russ","family":"Tedrake","sequence":"additional","affiliation":[{"name":"Masschusetts Institue of Technology"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref32","article-title":"The concrete distribution: A continuous relaxation of discrete random variables","author":"maddison","year":"2016","journal-title":"arXiv preprint arXiv 1611 00712"},{"key":"ref31","first-page":"281","article-title":"Learning the k in k-means","volume":"16","author":"hamerly","year":"2004","journal-title":"Advances in neural information processing systems"},{"key":"ref30","article-title":"Stable baselines3","author":"raffin","year":"2019"},{"key":"ref10","first-page":"3480","article-title":"Learning task informed abstractions","author":"fu","year":"2021","journal-title":"International Conference on Machine Learning"},{"key":"ref11","article-title":"Embed to control: A locally linear latent dynamics model for control from raw images","author":"watter","year":"2015","journal-title":"arXiv preprint arXiv 1506 07310"},{"key":"ref12","first-page":"2117","article-title":"Deep variational reinforcement learning for pomdps","author":"igl","year":"2018","journal-title":"International Conference on Machine Learning"},{"key":"ref13","article-title":"Learning invariant representations for reinforcement learning without reconstruction","author":"zhang","year":"2020","journal-title":"International Conference on Learning Representations"},{"key":"ref14","doi-asserted-by":"crossref","first-page":"174","DOI":"10.1016\/0022-247X(65)90154-X","article-title":"Optimal control of markov processes with incomplete state information","volume":"10","author":"\u00e5str\u00f6m","year":"1965","journal-title":"Journal of Mathematical Analysis and Applications"},{"key":"ref15","volume":"75","author":"kumar","year":"1986","journal-title":"Stochastic Systems Estimation Identification and Adaptive Control"},{"key":"ref16","article-title":"Learning causal state representations of partially observable environments","author":"zhang","year":"2019","journal-title":"arXiv preprint arXiv 1906 10026"},{"key":"ref17","first-page":"1025","article-title":"Point-based value iteration: An anytime algorithm for pomdps","volume":"3","author":"pineau","year":"2003","journal-title":"IJCAI"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1659"},{"key":"ref19","article-title":"Incremental pruning: A simple, fast, exact method for partially observable markov decision processes","author":"cassandra","year":"2013","journal-title":"arXiv preprint arXiv 1302 1525"},{"key":"ref28","article-title":"Categorical reparameterization with gumbel-softmax","author":"jang","year":"2016","journal-title":"arXiv preprint arXiv 1611 01144"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2007.364201"},{"key":"ref27","author":"optimization","year":"2014","journal-title":"Inc gurobi optimizer reference manual 2015"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2007.01.004"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1115\/1.3662552"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2889838"},{"key":"ref5","article-title":"The surprising effectiveness of linear models for visual foresight in object pile manipulation","author":"suh","year":"2020","journal-title":"arXiv preprint arXiv 2002 09027"},{"key":"ref8","article-title":"Stochastic latent actor-critic: Deep reinforcement learning with a latent variable model","volume":"33","author":"lee","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref7","first-page":"2555","article-title":"Learning latent dynamics for planning from pixels","author":"hafner","year":"2019","journal-title":"International Conference on Machine Learning"},{"key":"ref2","article-title":"Point-based value iteration for continuous pomdps","author":"porta","year":"2006"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"10674","DOI":"10.1609\/aaai.v35i12.17276","article-title":"Improving sample efficiency in model-free reinforcement learning from images","volume":"35","author":"yarats","year":"2021","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"key":"ref1","article-title":"Approximate information state for approximate planning and reinforcement learning in partially observed systems","author":"subramanian","year":"2020","journal-title":"arXiv preprint arXiv 2010 00170"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.1975.1100984"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1287\/moor.3.3.231"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1023\/A:1017992615625"},{"key":"ref24","first-page":"162","article-title":"Metrics for finite markov decision processes","volume":"4","author":"ferns","year":"2004","journal-title":"UAI"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/S0004-3702(02)00376-4"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-307-3.50031-9"},{"key":"ref25","article-title":"Equivalence relations in fully and partially observable markov decision processes","author":"castro","year":"2009","journal-title":"Twenty-First International Joint Conference on Artificial Intelligence"}],"event":{"name":"2022 American Control Conference (ACC)","location":"Atlanta, GA, USA","start":{"date-parts":[[2022,6,8]]},"end":{"date-parts":[[2022,6,10]]}},"container-title":["2022 American Control Conference (ACC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9866948\/9867142\/09867149.pdf?arnumber=9867149","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,2,18]],"date-time":"2023-02-18T04:30:52Z","timestamp":1676694652000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9867149\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6,8]]},"references-count":32,"URL":"https:\/\/doi.org\/10.23919\/acc53348.2022.9867149","relation":{},"subject":[],"published":{"date-parts":[[2022,6,8]]}}}