{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T15:38:46Z","timestamp":1774539526098,"version":"3.50.1"},"reference-count":49,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100000781","name":"European Research Council","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100000781","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Horizon 2020 Research and Innovation Programme","award":["STG2018804636"],"award-info":[{"award-number":["STG2018804636"]}]},{"name":"Federal Ministry of Education and Research. Computational"},{"name":"Centre for Information and Media Technology at Heinrich Heine University D&#x00FC;sseldorf and the Google Cloud Platform"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/taslp.2024.3385289","type":"journal-article","created":{"date-parts":[[2024,4,9]],"date-time":"2024-04-09T19:45:42Z","timestamp":1712691942000},"page":"2352-2366","source":"Crossref","is-referenced-by-count":2,"title":["Learning With an Open Horizon in Ever-Changing Dialogue Circumstances"],"prefix":"10.1109","volume":"32","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-6369-3438","authenticated-orcid":false,"given":"Christian","family":"Geishauser","sequence":"first","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4551-7447","authenticated-orcid":false,"given":"Carel","family":"van Niekerk","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4461-7243","authenticated-orcid":false,"given":"Nurul","family":"Lubis","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-0027-226X","authenticated-orcid":false,"given":"Hsien-chin","family":"Lin","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9841-5025","authenticated-orcid":false,"given":"Michael","family":"Heck","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1307-4223","authenticated-orcid":false,"given":"Shutong","family":"Feng","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9035-9217","authenticated-orcid":false,"given":"Benjamin","family":"Ruppik","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6303-9402","authenticated-orcid":false,"given":"Renato","family":"Vukovic","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0318-9147","authenticated-orcid":false,"given":"Milica","family":"Ga\u0161i\u0107","sequence":"additional","affiliation":[{"name":"Heinrich Heine University Duesseldorf, Duesseldorf, Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.21437\/Eurospeech.1997-380"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3115\/1075218.1075231"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2006.06.008"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/s11431-020-1692-3"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.tics.2020.09.004"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.574"},{"key":"ref7","first-page":"3461","article-title":"Continual learning for natural language generation in task-oriented dialog systems","volume-title":"Proc. Findings Assoc. Comput. Linguistics: EMNLP","author":"Mi","year":"2020"},{"key":"ref8","first-page":"7452","article-title":"Continual learning in task-oriented dialogue systems","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Madotto","year":"2021"},{"key":"ref9","first-page":"266","article-title":"Dynamic dialogue policy for continual reinforcement learning","volume-title":"Proc. 29th Int. Conf. Comput. Linguistics","author":"Geishauser","year":"2022"},{"key":"ref10","article-title":"Experience replay for continual learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Rolnick","year":"2019"},{"key":"ref11","first-page":"705","article-title":"CORA: Benchmarks, baselines, and metrics as a platform for continual reinforcement learning agents","volume-title":"Proc. Conf. Lifelong Learn. Agents","author":"Powers","year":"2022"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TAMD.2010.2051031"},{"key":"ref13","first-page":"886","article-title":"Meta-gradients in non-stationary environments","volume-title":"Proc. Workshop Agent Learn. Open-Endedness","author":"Luketina","year":"2022"},{"key":"ref14","first-page":"517","article-title":"Automated reinforcement learning (autorl): A survey and open problems","volume-title":"J. Artif. Intell. Res.","volume":"74","author":"Parker-Holder","year":"2022"},{"key":"ref15","article-title":"Meta-gradient reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Xu","year":"2018"},{"key":"ref16","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref17","first-page":"3742","article-title":"Unifying task specification in reinforcement learning","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"White","year":"2017"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.13673"},{"key":"ref19","article-title":"Non-stationary Markov decision processes, a worst-case approach using model-based reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lecarpentier","year":"2019"},{"key":"ref20","first-page":"1414","article-title":"Optimizing for the future in non-stationary mdps","volume-title":"Proc. 37th Int. Conf. Mach. Learn.","author":"Chandak","year":"2020"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-020-01758-5"},{"key":"ref22","first-page":"28496","article-title":"Continual world: A robotic benchmark for continual reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Woczyk","year":"2021"},{"key":"ref23","article-title":"Gradient episodic memory for continual learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lopez-Paz","year":"2017"},{"key":"ref24","first-page":"16532","article-title":"Online fast adaptation and knowledge accumulation (osaka): A new approach to continual learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Caccia","year":"2020"},{"key":"ref25","article-title":"Jelly bean world: A testbed for never-ending learning","volume-title":"Proc. 8th Int. Conf. Learn. Representations","author":"Platanios","year":"2020"},{"key":"ref26","first-page":"1406","article-title":"IMPALA: Scalable distributed Deep-RL with importance weighted actor-learner architectures","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","author":"Espeholt","year":"2018"},{"key":"ref27","article-title":"High-dimensional continuous control using generalized advantage estimation","volume-title":"Proc. 4th Int. Conf. Learn. Representations","author":"Schulman","year":"2016"},{"key":"ref28","first-page":"20913","article-title":"A self-tuning actor-critic algorithm","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zahavy","year":"2020"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.367185"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"142","DOI":"10.18653\/v1\/2020.acl-demos.19","article-title":"ConvLab-2: An open-source toolkit for building, evaluating, and diagnosing dialogue systems","volume-title":"Proc. 58th Annu. Meeting Assoc. Comput. Linguistics: Syst. Demonstrations","author":"Zhu","year":"2020"},{"key":"ref31","article-title":"Meta dialogue policy learning","author":"Xu","year":"2006"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2012.2225812"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-022-1347-y"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-demo.9"},{"key":"ref35","first-page":"2231","article-title":"Composite task-completion dialogue policy learning via hierarchical deep reinforcement learning","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Peng","year":"2017"},{"key":"ref36","first-page":"2298","article-title":"Subgoal discovery for hierarchical dialogue policy learning","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Tang","year":"2018"},{"key":"ref37","first-page":"149","article-title":"Agenda-based user simulation for bootstrapping a POMDP dialogue system","volume-title":"Proc. Hum. Lang. Technol.: Conf. North Amer. Chapter Assoc. Comput. Linguistics; Companion Volume, Short Papers","author":"Schatzmann","year":"2007"},{"key":"ref38","doi-asserted-by":"crossref","first-page":"445","DOI":"10.18653\/v1\/2021.sigdial-1.47","article-title":"Domain-independent user simulation with transformers for task-oriented dialogue systems","volume-title":"Proc. 22nd Annu. Meeting Special Int. Group Discourse Dialogue","author":"Lin","year":"2021"},{"key":"ref39","first-page":"5016","article-title":"Multi-WOZ - A large-scale multi-domain Wizard-of-Oz dataset for task-oriented dialogue modelling","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Budzianowski","year":"2018"},{"key":"ref40","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref41","first-page":"27730","article-title":"Training language models to follow instructions with human feedback","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Ouyang","year":"2022"},{"key":"ref42","first-page":"29304","article-title":"Deep reinforcement learning at the edge of the statistical precipice","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Agarwal","year":"2021"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-35142-6_14"},{"key":"ref44","article-title":"Online continual learning on class incremental blurry task configuration with anytime inference","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Koh","year":"2022"},{"key":"ref45","first-page":"517","article-title":"Continual learning for task-oriented dialogue system with iterative network pruning, expanding and masking","volume-title":"Proc. 59th Annu. Meeting Assoc. Comput. Linguistics 11th Int. Joint Conf. Natural Lang. Process. (Volume 2: Short Papers)","author":"Geng","year":"2021"},{"key":"ref46","first-page":"11436","article-title":"What can learned intrinsic rewards capture?","volume-title":"Proc. 37th Int. Conf. Mach. Learn.","author":"Zheng","year":"2020"},{"issue":"5","key":"ref47","first-page":"8689","article-title":"Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset","volume-title":"Proc. AAAI Conf. Artif. Intell.","volume":"34","author":"Rastogi","year":"2020"},{"key":"ref48","article-title":"JoTR: A. joint transformer and reinforcement learning framework for dialog policy learning","author":"Kwan","year":"2023"},{"key":"ref49","article-title":"Adam: A method for stochastic optimization","volume-title":"Proc. 3rd Int. Conf. Learn. Representations","author":"Kingma","year":"2015"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/10304349\/10491378.pdf?arnumber=10491378","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,3]],"date-time":"2024-05-03T19:00:13Z","timestamp":1714762813000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10491378\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":49,"URL":"https:\/\/doi.org\/10.1109\/taslp.2024.3385289","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]}}}