{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,25]],"date-time":"2025-03-25T14:38:04Z","timestamp":1742913484026,"version":"3.40.3"},"publisher-location":"Cham","reference-count":22,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031779145"},{"type":"electronic","value":"9783031779152"}],"license":[{"start":{"date-parts":[[2024,11,29]],"date-time":"2024-11-29T00:00:00Z","timestamp":1732838400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,29]],"date-time":"2024-11-29T00:00:00Z","timestamp":1732838400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-77915-2_16","type":"book-chapter","created":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T11:53:34Z","timestamp":1732794814000},"page":"221-234","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Localized Affinity-Based Reinforcement Learning for\u00a0Interpretable State-Specific Decision-Making"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1084-1757","authenticated-orcid":false,"given":"Ajay","family":"Vishwanath","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0299-171X","authenticated-orcid":false,"given":"Christian","family":"Omlin","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,11,29]]},"reference":[{"key":"16_CR1","unstructured":"Achiam, J., Held, D., Tamar, A., Abbeel, P.: Constrained policy optimization. In: International Conference on Machine Learning, pp. 22\u201331. PMLR (2017)"},{"key":"16_CR2","unstructured":"Brockman, G., et al.: Openai gym. arXiv preprint arXiv:1606.01540 (2016)"},{"issue":"1","key":"16_CR3","first-page":"1437","volume":"16","author":"J Garc\u0131a","year":"2015","unstructured":"Garc\u0131a, J., Fern\u00e1ndez, F.: A comprehensive survey on safe reinforcement learning. J. Mach. Learn. Res. 16(1), 1437\u20131480 (2015)","journal-title":"J. Mach. Learn. Res."},{"key":"16_CR4","first-page":"15281","volume":"35","author":"A Gupta","year":"2022","unstructured":"Gupta, A., Pacchiano, A., Zhai, Y., Kakade, S., Levine, S.: Unpacking reward shaping: understanding the benefits of reward engineering on sample complexity. Adv. Neural. Inf. Process. Syst. 35, 15281\u201315295 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"11","key":"16_CR5","doi-asserted-by":"publisher","first-page":"1238","DOI":"10.1177\/0278364913495721","volume":"32","author":"J Kober","year":"2013","unstructured":"Kober, J., Bagnell, J.A., Peters, J.: Reinforcement learning in robotics: a survey. Int. J. Rob. Res. 32(11), 1238\u20131274 (2013)","journal-title":"Int. J. Rob. Res."},{"key":"16_CR6","doi-asserted-by":"crossref","unstructured":"Liu, Y., Halev, A., Liu, X.: Policy learning with constraints in model-free reinforcement learning: a survey. In: The 30th International Joint Conference on Artificial Intelligence (IJCAI) (2021)","DOI":"10.24963\/ijcai.2021\/614"},{"key":"16_CR7","doi-asserted-by":"crossref","unstructured":"Maree, C., Omlin, C.: Reinforcement learning your way: agent characterization through policy regularization. AI 3(2), 250\u2013259 (2022)","DOI":"10.3390\/ai3020015"},{"key":"16_CR8","doi-asserted-by":"crossref","unstructured":"Maree, C., Omlin, C.W.: Can interpretable reinforcement learning manage prosperity your way? AI 3(2), 526\u2013537 (2022)","DOI":"10.3390\/ai3020030"},{"key":"16_CR9","doi-asserted-by":"crossref","unstructured":"Mysore, S., Mabsout, B., Mancuso, R., Saenko, K.: Regularizing action policies for smooth control with reinforcement learning. In: 2021 IEEE International Conference on Robotics and Automation (ICRA), pp. 1810\u20131816. IEEE (2021)","DOI":"10.1109\/ICRA48506.2021.9561138"},{"key":"16_CR10","unstructured":"Ng, A.Y., Harada, D., Russell, S.: Policy invariance under reward transformations: theory and application to reward shaping. In: ICML, vol.\u00a099, pp. 278\u2013287. Citeseer (1999)"},{"key":"16_CR11","doi-asserted-by":"crossref","unstructured":"Persiani, M., Hellstr\u00f6m, T.: Policy regularization for legible behavior. Neural Comput. Appl. 1\u201310 (2022)","DOI":"10.1007\/s00521-022-07942-7"},{"key":"16_CR12","unstructured":"Ran, Y., Li, Y.C., Zhang, F., Zhang, Z., Yu, Y.: Policy regularization with dataset constraint for offline reinforcement learning. In: International Conference on Machine Learning, pp. 28701\u201328717. PMLR (2023)"},{"key":"16_CR13","unstructured":"Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O.: Proximal policy optimization algorithms (2017). https:\/\/arxiv.org\/abs\/1707.06347"},{"issue":"24","key":"16_CR14","doi-asserted-by":"publisher","first-page":"4202","DOI":"10.1002\/sim.6223","volume":"33","author":"SM Shortreed","year":"2014","unstructured":"Shortreed, S.M., Laber, E., Scott Stroup, T., Pineau, J., Murphy, S.A.: A multiple imputation strategy for sequential multiple assignment randomized trials. Stat. Med. 33(24), 4202\u20134214 (2014)","journal-title":"Stat. Med."},{"key":"16_CR15","unstructured":"Skalse, J., Howe, N.H.R., Krasheninnikov, D., Krueger, D.: Defining and characterizing reward hacking. In: Proceedings of the 36th International Conference on Neural Information Processing Systems. NIPS 2022. Curran Associates Inc., Red Hook (2024)"},{"key":"16_CR16","volume-title":"Reinforcement Learning: An Introduction","author":"RS Sutton","year":"2018","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction, 2nd edn. The MIT Press, Cambridge (2018)","edition":"2"},{"issue":"1","key":"16_CR17","first-page":"9989","volume":"23","author":"D Tirumala","year":"2022","unstructured":"Tirumala, D., et al.: Behavior priors for efficient reinforcement learning. J. Mach. Learn. Res. 23(1), 9989\u201310056 (2022)","journal-title":"J. Mach. Learn. Res."},{"key":"16_CR18","doi-asserted-by":"publisher","unstructured":"Vishwanath, A., B\u00f8hn, E.D., Granmo, O.C., Maree, C., Omlin, C.: Towards artificial virtuous agents: games, dilemmas and machine learning. AI Ethics (2022). https:\/\/doi.org\/10.1007\/s43681-022-00251-8","DOI":"10.1007\/s43681-022-00251-8"},{"key":"16_CR19","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1007\/978-981-99-9836-4_3","volume-title":"Frontiers of Artificial Intelligence, Ethics, and Multidisciplinary Applications","author":"A Vishwanath","year":"2024","unstructured":"Vishwanath, A., Omlin, C.: Exploring affinity-based reinforcement learning for designing artificial virtuous agents in stochastic environments. In: Farmanbar, M., Tzamtzi, M., Verma, A.K., Chakravorty, A. (eds.) FAIEMA 2023, pp. 25\u201338. Springer, Singapore (2024). https:\/\/doi.org\/10.1007\/978-981-99-9836-4_3"},{"key":"16_CR20","unstructured":"Wiering, M.: Multi-agent reinforcement learning for traffic light control. In: ICML, pp. 1151\u20131158 (2000)"},{"issue":"136","key":"16_CR21","first-page":"1","volume":"18","author":"C Wirth","year":"2017","unstructured":"Wirth, C., Akrour, R., Neumann, G., F\u00fcrnkranz, J., et al.: A survey of preference-based reinforcement learning methods. J. Mach. Learn. Res. 18(136), 1\u201346 (2017)","journal-title":"J. Mach. Learn. Res."},{"issue":"7","key":"16_CR22","doi-asserted-by":"publisher","first-page":"993","DOI":"10.1016\/S0165-1684(02)00203-7","volume":"82","author":"PY Yin","year":"2002","unstructured":"Yin, P.Y.: Maximum entropy-based optimal threshold selection using deterministic reinforcement learning with controlled randomization. Signal Process. 82(7), 993\u20131006 (2002)","journal-title":"Signal Process."}],"container-title":["Lecture Notes in Computer Science","Artificial Intelligence XLI"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-77915-2_16","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T12:11:38Z","timestamp":1732795898000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-77915-2_16"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,29]]},"ISBN":["9783031779145","9783031779152"],"references-count":22,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-77915-2_16","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,11,29]]},"assertion":[{"value":"29 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"SGAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Innovative Techniques and Applications of Artificial Intelligence","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Cambridge","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"United Kingdom","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"19 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"44","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"sgai2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/bcs-sgai.org\/ai2024\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}