{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T15:58:01Z","timestamp":1780675081777,"version":"3.54.1"},"reference-count":79,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"11","license":[{"start":{"date-parts":[[2024,11,1]],"date-time":"2024-11-01T00:00:00Z","timestamp":1730419200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,11,1]],"date-time":"2024-11-01T00:00:00Z","timestamp":1730419200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,11,1]],"date-time":"2024-11-01T00:00:00Z","timestamp":1730419200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100002341","name":"Academy of Finland","doi-asserted-by":"publisher","award":["345521"],"award-info":[{"award-number":["345521"]}],"id":[{"id":"10.13039\/501100002341","id-type":"DOI","asserted-by":"publisher"}]},{"name":"DFG project","award":["PA3179\/1-1"],"award-info":[{"award-number":["PA3179\/1-1"]}]},{"name":"German Federal Ministry of Education and Research","award":["01IS22078"],"award-info":[{"award-number":["01IS22078"]}]},{"name":"Hessian.ai"},{"name":"Ministry for Science and Arts of the State of Hessen"},{"DOI":"10.13039\/501100002347","name":"Bundesministerium f\u00fcr Bildung und Forschung","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002347","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2024,11]]},"DOI":"10.1109\/tpami.2024.3390051","type":"journal-article","created":{"date-parts":[[2024,4,16]],"date-time":"2024-04-16T17:20:12Z","timestamp":1713288012000},"page":"7191-7204","source":"Crossref","is-referenced-by-count":7,"title":["On the Benefit of Optimal Transport for Curriculum Reinforcement Learning"],"prefix":"10.1109","volume":"46","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5318-3785","authenticated-orcid":false,"given":"Pascal","family":"Klink","sequence":"first","affiliation":[{"name":"Department of Computer Science, Technical University of Darmstadt, Darmstadt, Germany"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2712-118X","authenticated-orcid":false,"given":"Carlo","family":"D'Eramo","sequence":"additional","affiliation":[{"name":"Center for Artificial Intelligence and Data Science, University of W&#x00FC;rzburg, W&#x00FC;rzburg, Germany"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5266-8091","authenticated-orcid":false,"given":"Jan","family":"Peters","sequence":"additional","affiliation":[{"name":"Department of Computer Science, Technical University of Darmstadt, Darmstadt, Germany"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4469-8191","authenticated-orcid":false,"given":"Joni","family":"Pajarinen","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering and Automation, Aalto University, Espoo, Finland"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"crossref","DOI":"10.1109\/TNN.1998.712192","volume-title":"Introduction to Reinforcement Learning","author":"Sutton","year":"1998"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1038\/nature24270"},{"key":"ref4","article-title":"Solving rubiks cube with a robot hand","author":"Akkaya","year":"2019"},{"key":"ref5","first-page":"91","article-title":"Learning to walk in minutes using massively parallel deep reinforcement learning","volume-title":"Proc. Conf. Robot Learn.","author":"Rudin"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.abo0235"},{"key":"ref7","first-page":"1479","article-title":"Unifying count-based exploration and intrinsic motivation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Bellemare"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1561\/2200000049"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5955"},{"issue":"181","key":"ref10","first-page":"1","article-title":"Curriculum learning for reinforcement learning domains: A framework and survey","volume":"21","author":"Narvekar","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref11","first-page":"5055","article-title":"Hindsight experience replay","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Andrychowicz"},{"key":"ref12","first-page":"482","article-title":"Reverse curriculum generation for reinforcement learning","volume-title":"Proc. Conf. Robot Learn.","author":"Florensa"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3321707.3321799"},{"key":"ref14","first-page":"835","article-title":"Teacher algorithms for curriculum learning of deep RL in continuously parameterized environments","volume-title":"Proc. Conf. Robot Learn.","author":"Portelas"},{"key":"ref15","first-page":"1503","article-title":"A performance-based start state curriculum framework for reinforcement learning","volume-title":"Proc. Int. Conf. Auton. Agents Multiagent Syst.","author":"W\u00f6hlke"},{"key":"ref16","first-page":"1884","article-title":"Replay-guided adversarial environment design","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Jiang"},{"issue":"182","key":"ref17","first-page":"1","article-title":"A probabilistic interpretation of self-paced learning with applications to reinforcement learning","volume":"22","author":"Klink","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref18","first-page":"513","article-title":"Self-paced contextual reinforcement learning","volume-title":"Proc. Conf. Robot Learn.","author":"Klink"},{"key":"ref19","first-page":"9216","article-title":"Self-paced deep reinforcement learning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Klink"},{"key":"ref20","first-page":"9681","article-title":"Variational automatic curriculum learning for sparse-reward cooperative multi-agent problems","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Chen"},{"key":"ref21","first-page":"9052","article-title":"TeachMyAgent: A benchmark for automatic curriculum learning in deep RL","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Romac"},{"key":"ref22","article-title":"Curriculum reinforcement learning using optimal transport via gradual domain adaptation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Huang"},{"issue":"222","key":"ref23","first-page":"1","article-title":"Theory of curriculum learning, with convex loss functions","volume":"21","author":"Weinshall","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref24","article-title":"When do curricula work?","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Wu"},{"key":"ref25","article-title":"Understanding the complexity gains of single-task RL with a curriculum","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i5.25733"},{"key":"ref27","article-title":"Emergent complexity and zero-shot transfer via unsupervised environment design","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Dennis"},{"key":"ref28","first-page":"4940","article-title":"Prioritized level replay","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jiang"},{"key":"ref29","article-title":"Intrinsic motivation and automatic curricula via asymmetric self-play","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Sukhbaatar"},{"key":"ref30","first-page":"1515","article-title":"Automatic goal generation for reinforcement learning agents","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Florensa"},{"key":"ref31","first-page":"7648","article-title":"Automatic curriculum learning through value disagreement","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Zhang"},{"key":"ref32","article-title":"Automated curricula through setter-solver interactions","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Racaniere"},{"key":"ref33","first-page":"2948","article-title":"Self-paced context evaluation for contextual reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Eimer"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2010.5651385"},{"key":"ref35","first-page":"1189","article-title":"Self-paced learning for latent variable models","volume-title":"Proc. Neural Inf. Process. Syst.","author":"Kumar"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1023\/A:1008923215028"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1137\/1.9780898719154"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1561\/2200000073"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1137\/20M1339982"},{"issue":"2","key":"ref40","first-page":"227","article-title":"On the transfer of masses (in russian)","volume":"37","author":"Kantorovich","year":"1942","journal-title":"Doklady Akademii Nauk"},{"key":"ref41","first-page":"4082","article-title":"Understanding and accelerating particle-based variational inference","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Liu"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2695801"},{"key":"ref43","first-page":"2020","article-title":"Neural architecture search with Bayesian optimisation and optimal transport","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kandasamy"},{"key":"ref44","article-title":"Wasserstein Weisfeiler-Lehman graph kernels","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Togninalli"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/s10208-011-9093-5"},{"key":"ref46","article-title":"Semi-relaxed Gromov-Wasserstein divergence and applications on graphs","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Vincent-Cuaz"},{"key":"ref47","doi-asserted-by":"crossref","DOI":"10.1101\/2020.04.28.066787","article-title":"Gromov-Wasserstein optimal transport to align single-cell multi-omics data","volume-title":"Proc. Workshop Comput. Biol.","author":"Demetci"},{"key":"ref48","article-title":"Cross-domain imitation learning via optimal transport","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Fickinger"},{"key":"ref49","first-page":"5737","article-title":"Policy optimization as Wasserstein gradient flows","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang"},{"key":"ref50","first-page":"4335","article-title":"Propagating uncertainty in reinforcement learning via Wasserstein barycenters","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Metelli"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6249"},{"key":"ref52","article-title":"Combining reinforcement learning and optimal transport for the traveling salesman problem","volume-title":"Proc. 1st Int. Workshop Optimal Transport Structured Data Model.","author":"Goh"},{"key":"ref53","article-title":"Exploration via hindsight goal generation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Ren"},{"key":"ref54","article-title":"Adversarial intrinsic motivation for reinforcement learning","author":"Durugkar","year":"2021"},{"key":"ref55","article-title":"Outcome-directed reinforcement learning by uncertainty & temporal distance-aware curriculum goal generation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Cho"},{"key":"ref56","first-page":"11341","article-title":"Curriculum reinforcement learning via constrained optimal transport","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Klink"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/0-387-26871-5_9"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/1273496.1273624"},{"key":"ref59","first-page":"1312","article-title":"Universal value function approximators","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schaul"},{"key":"ref60","first-page":"666","article-title":"M\u00e9moire sur la th\u00e9orie des d\u00e9blais et des remblais","author":"Monge","year":"1781","journal-title":"Histoire de lAcad\u00e9mie Royale des Sciences"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1137\/100805741"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2017.05.043"},{"key":"ref63","first-page":"2681","article-title":"Interpolating between optimal transport and MMD using sinkhorn divergences","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Feydy"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1137\/1109020"},{"issue":"4","key":"ref65","first-page":"359","article-title":"Smooth regression analysis","volume":"26","author":"Watson","year":"1964","journal-title":"Sankhy\u0101: Indian J. Statist., Ser. A (1961--2002)"},{"key":"ref66","first-page":"1311","article-title":"Automated curriculum learning for neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Graves"},{"key":"ref67","article-title":"Minimalistic gridworld environment for gymnasium","author":"Chevalier-Boisvert","year":"2018"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/ICDE.2011.5767869"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1007\/BF02278710"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1038\/s41592-019-0686-2"},{"key":"ref71","article-title":"Geomloss","author":"Feydy","year":"2019"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1007\/s10851-014-0506-3"},{"key":"ref73","article-title":"Generalized sliced Wasserstein distances","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kolouri"},{"key":"ref74","article-title":"Learning Wasserstein embeddings","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Courty"},{"key":"ref75","article-title":"Continuous regularized Wasserstein barycenters","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Li"},{"issue":"268","key":"ref76","first-page":"1","article-title":"Stable-baselines3: Reliable reinforcement learning implementations","volume":"22","author":"Raffin","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1137\/141000439"},{"key":"ref78","first-page":"2292","article-title":"Sinkhorn distances: Lightspeed computation of optimal transport","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Cuturi"},{"issue":"83","key":"ref79","first-page":"1","article-title":"CVXPY: A Python-embedded modeling language for convex optimization","volume":"17","author":"Diamond","year":"2016","journal-title":"J. Mach. Learn. Res."}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/34\/10704791\/10502148.pdf?arnumber=10502148","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,4]],"date-time":"2024-10-04T17:35:57Z","timestamp":1728063357000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10502148\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11]]},"references-count":79,"journal-issue":{"issue":"11"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2024.3390051","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,11]]}}}