{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,21]],"date-time":"2026-02-21T07:15:23Z","timestamp":1771658123373,"version":"3.50.1"},"reference-count":26,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2013,12]]},"DOI":"10.1109\/robio.2013.6739627","type":"proceedings-article","created":{"date-parts":[[2014,3,20]],"date-time":"2014-03-20T19:25:58Z","timestamp":1395343558000},"page":"1199-1204","source":"Crossref","is-referenced-by-count":17,"title":["The optimization of path planning for multi-robot system using Boltzmann Policy based Q-learning algorithm"],"prefix":"10.1109","author":[{"given":"Zeying","family":"Wang","sequence":"first","affiliation":[]},{"given":"Zhiguo","family":"Shi","sequence":"additional","affiliation":[]},{"given":"Yuankai","family":"Li","sequence":"additional","affiliation":[]},{"given":"Jun","family":"Tu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"19","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114723"},{"key":"17","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50021-9"},{"key":"18","first-page":"287","article-title":"Truncating temporal differences: On the efficient implementation of TD for reinforcement learning","volume":"12","author":"cichosz","year":"1996","journal-title":"J of Artificial Intelligence Research"},{"key":"15","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992701"},{"key":"16","doi-asserted-by":"publisher","DOI":"10.1109\/ICNN.1993.298554"},{"key":"13","author":"sutton","year":"1984","journal-title":"Temporal credit assignment in reinforcement learning"},{"key":"14","doi-asserted-by":"publisher","DOI":"10.1007\/BF00115009"},{"key":"11","doi-asserted-by":"publisher","DOI":"10.1007\/BF00453370"},{"key":"12","doi-asserted-by":"crossref","first-page":"834","DOI":"10.1109\/TSMC.1983.6313077","article-title":"Neural like adaptive elements that can solve difficult learning control problems","volume":"13","author":"barto","year":"1983","journal-title":"IEEE Trans on Systems Man and Cybernetics"},{"key":"21","author":"watkins","year":"1989","journal-title":"Learning from delayed rewards"},{"key":"20","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114725"},{"key":"22","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992698"},{"key":"23","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114731"},{"key":"24","first-page":"1064","article-title":"The asymptotic convergence-rate of q-learning","author":"szepesvari","year":"1997","journal-title":"Proceedings of Neural Information Processing Systems"},{"key":"25","article-title":"On-line Q-learning using connectionist systems","author":"rummery","year":"1994","journal-title":"Technical Report CUED\/F-INFENG\/TR 166 Cambridge University Engineering Department"},{"key":"26","first-page":"317","article-title":"The player\/stage project: Tools for multi-robot and distributed sensor systems","author":"gerkey","year":"2003","journal-title":"Proceedings of the International Conference on Advanced Robotics"},{"key":"3","doi-asserted-by":"publisher","DOI":"10.1037\/h0092987"},{"key":"2","author":"pavlov","year":"1927","journal-title":"Conditioned Reflexes"},{"key":"10","author":"singh","year":"1997","journal-title":"Agents and Reinforcement Learning"},{"key":"1","doi-asserted-by":"publisher","DOI":"10.1037\/14496-000"},{"key":"7","doi-asserted-by":"crossref","DOI":"10.21236\/AD0256582","author":"rosenblatt","year":"1961","journal-title":"Principles of Neuro-dynamics Perceptrons and the Theory of Brain Mechanisms"},{"key":"6","doi-asserted-by":"crossref","first-page":"126","DOI":"10.7551\/mitpress\/4943.003.0012","article-title":"Adaptive switching circuits","author":"widrow","year":"1988","journal-title":"Neurocomputing Foundations of Research"},{"key":"5","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.1965.1098193"},{"key":"4","article-title":"Theory of neural analog reinforcement systems and its application to the brain model problem","author":"minsky","year":"1954","journal-title":"New Jersey USA Princeton University"},{"key":"9","first-page":"319","author":"saridis","year":"1977","journal-title":"Self-Organizing Control of Stochastic Systems"},{"key":"8","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.1973.4309272"}],"event":{"name":"2013 IEEE International Conference on Robotics and Biomimetics (ROBIO)","location":"Shenzhen, China","start":{"date-parts":[[2013,12,12]]},"end":{"date-parts":[[2013,12,14]]}},"container-title":["2013 IEEE International Conference on Robotics and Biomimetics (ROBIO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6725829\/6739425\/06739627.pdf?arnumber=6739627","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,25]],"date-time":"2024-05-25T06:13:38Z","timestamp":1716617618000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/6739627\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,12]]},"references-count":26,"URL":"https:\/\/doi.org\/10.1109\/robio.2013.6739627","relation":{},"subject":[],"published":{"date-parts":[[2013,12]]}}}