{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T13:27:40Z","timestamp":1768310860557,"version":"3.49.0"},"reference-count":37,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T00:00:00Z","timestamp":1765238400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T00:00:00Z","timestamp":1765238400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1109\/cdc57313.2025.11313011","type":"proceedings-article","created":{"date-parts":[[2026,1,12]],"date-time":"2026-01-12T18:19:56Z","timestamp":1768241996000},"page":"5837-5844","source":"Crossref","is-referenced-by-count":0,"title":["Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Prajwal","family":"Koirala","sequence":"first","affiliation":[{"name":"Iowa State University,Ames,IA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhanhong","family":"Jiang","sequence":"additional","affiliation":[{"name":"Iowa State University,Ames,IA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Soumik","family":"Sarkar","sequence":"additional","affiliation":[{"name":"Iowa State University,Ames,IA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cody","family":"Fleming","sequence":"additional","affiliation":[{"name":"Iowa State University,Ames,IA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"issue":"1","key":"ref1","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"Garc\u0131a","year":"2015","journal-title":"Journal of Machine Learning Research"},{"key":"ref2","first-page":"22","article-title":"Constrained policy optimization","volume-title":"International Conference on machine learning","author":"Achiam"},{"key":"ref3","article-title":"Parenting: Safe reinforcement learning from human input","author":"Frye","year":"2019","journal-title":"arXiv preprint arXiv:1902.06766"},{"key":"ref4","article-title":"A review of safe reinforcement learning: Methods, theory and applications","author":"Gu","year":"2022","journal-title":"arXiv preprint arXiv:2205.10330"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i8.20855"},{"key":"ref6","article-title":"Datasets and benchmarks for offline safe reinforcement learning","author":"Liu","year":"2023","journal-title":"arXiv preprint arXiv:2306.09303"},{"key":"ref7","article-title":"Reward-safety balance in offline safe rl via diffusion regularization","author":"Guo","year":"2025","journal-title":"arXiv preprint arXiv:2502.12391"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s001860050035"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1201\/9781315140223"},{"key":"ref10","first-page":"15338","article-title":"First order constrained optimization in policy space","volume":"33","author":"Zhang","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref11","first-page":"9133","article-title":"Responsive safety in reinforcement learning by pid lagrangian methods","volume-title":"International Conference on Machine Learning","author":"Stooke"},{"key":"ref12","article-title":"Feasible actor-critic: Constrained reinforcement learning for ensuring statewise safety","author":"Ma","year":"2021","journal-title":"arXiv preprint arXiv:2105.10682"},{"key":"ref13","first-page":"25636","article-title":"Reachability constrained reinforcement learning","volume-title":"International Conference on machine learning","author":"Yu"},{"key":"ref14","article-title":"Offline reinforcement learning: Tutorial, review, and perspectives on open problems","author":"Levine","year":"2020","journal-title":"arXiv preprint arXiv:2005.01643"},{"key":"ref15","first-page":"21611","article-title":"Constrained decision transformer for offline safe reinforcement learning","volume-title":"International Conference on Machine Learning","author":"Liu"},{"key":"ref16","article-title":"Safe offline reinforcement learning with feasibility-guided diffusion model","author":"Zheng","year":"2024","journal-title":"arXiv preprint arXiv:2401.10700"},{"key":"ref17","article-title":"Offline reinforcement learning with implicit q-learning","author":"Kostrikov","year":"2021","journal-title":"arXiv preprint arXiv:2110.06169"},{"key":"ref18","article-title":"Advantage-weighted regression: Simple and scalable off-policy reinforcement learning","author":"Peng","year":"2019","journal-title":"arXiv preprint arXiv:1910.00177"},{"key":"ref19","article-title":"Trust region policy optimization","author":"Schulman","year":"2015","journal-title":"arXiv preprint arXiv:1502.05477"},{"key":"ref20","article-title":"Awac: Accelerating online reinforcement learning with offline datasets","author":"Nair","year":"2020","journal-title":"arXiv preprint arXiv:2006.09359"},{"key":"ref21","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume-title":"Aaai","volume":"8","author":"Ziebart","year":"2008"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2011.6094679"},{"key":"ref23","article-title":"Equivalence between policy gradients and soft q-learning","author":"Schulman","year":"2017","journal-title":"arXiv preprint arXiv:1704.06440"},{"key":"ref24","first-page":"1861","article-title":"Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"International Conference on machine learning","author":"Haarnoja"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1137\/18M1229869"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/s10589-010-9339-1"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/BF01581237"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511804441"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/520"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i12.26786"},{"key":"ref31","article-title":"Oasis: Conditional distribution shaping for offline safe reinforcement learning","author":"Yao","year":"2024","journal-title":"arXiv preprint arXiv:2407.14653"},{"key":"ref32","article-title":"Bullet-safety-gym: A framework for constrained reinforcement learning","author":"Gronauer","year":"2022"},{"key":"ref33","article-title":"Pybullet, a python module for physics simulation for games, robotics and machine learning","author":"Coumans","year":"2016"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2314"},{"key":"ref35","article-title":"Coptidice: Offline constrained reinforcement learning via stationary distribution correction estimation","author":"Lee","year":"2022","journal-title":"arXiv preprint arXiv:2204.08957"},{"key":"ref36","first-page":"6120","article-title":"Optidice: Offline policy optimization via stationary distribution correction estimation","volume-title":"International Conference on Machine Learning","author":"Lee"},{"key":"ref37","first-page":"1179","article-title":"Conservative q-learning for offline reinforcement learning","volume":"33","author":"Kumar","year":"2020","journal-title":"Advances in Neural Information Processing Systems"}],"event":{"name":"2025 IEEE 64th Conference on Decision and Control (CDC)","location":"Rio de Janeiro, Brazil","start":{"date-parts":[[2025,12,9]]},"end":{"date-parts":[[2025,12,12]]}},"container-title":["2025 IEEE 64th Conference on Decision and Control (CDC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11311984\/11311968\/11313011.pdf?arnumber=11313011","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T08:14:29Z","timestamp":1768292069000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11313011\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,9]]},"references-count":37,"URL":"https:\/\/doi.org\/10.1109\/cdc57313.2025.11313011","relation":{},"subject":[],"published":{"date-parts":[[2025,12,9]]}}}