{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T13:01:50Z","timestamp":1780750910579,"version":"3.54.1"},"reference-count":42,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Sciences"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.ins.2026.123586","type":"journal-article","created":{"date-parts":[[2026,5,5]],"date-time":"2026-05-05T23:20:35Z","timestamp":1778023235000},"page":"123586","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Reinforcement learning path planning with A*-Initialized DDQN in dynamic and partially observable environments"],"prefix":"10.1016","volume":"752","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-8041-9145","authenticated-orcid":false,"given":"Zimin","family":"Xu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guangcheng","family":"Pang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Youyong","family":"Lai","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-4131-451X","authenticated-orcid":false,"given":"Yugan","family":"Huang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jianlei","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0005","doi-asserted-by":"crossref","first-page":"203","DOI":"10.1109\/TNSE.2021.3057881","article-title":"ITCN: an intelligent trust collaboration network system in IoT","volume":"9","author":"Guo","year":"2021","journal-title":"IEEE Trans. Netw. Sci. Eng."},{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0010","doi-asserted-by":"crossref","first-page":"219","DOI":"10.1109\/TNSE.2020.3041529","article-title":"Novel coverless steganography method based on image selection and StarGAN","volume":"9","author":"Chen","year":"2020","journal-title":"IEEE Trans. Netw. Sci. Eng."},{"key":"10.1016\/j.ins.2026.123586_bib0015","series-title":"Intelligent Robotics and Applications: 5th International Conference, ICIRA 2012, Montreal, QC, Canada, October 3\u20135, 2012, Proceedings, Part III 5","first-page":"588","article-title":"On-road motion planning for autonomous vehicles","author":"Gu","year":"2012"},{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0020","doi-asserted-by":"crossref","first-page":"33","DOI":"10.1109\/TIV.2016.2578706","article-title":"A survey of motion planning and control techniques for self-driving urban vehicles","volume":"1","author":"Paden","year":"2016","journal-title":"IEEE Trans. Intell. Veh."},{"key":"10.1016\/j.ins.2026.123586_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2021.107372","article-title":"Implementing modified swarm intelligence algorithm based on slime moulds for path planning and obstacle avoidance problem in mobile robots","volume":"107","author":"Agarwal","year":"2021","journal-title":"Appl. Soft Comput."},{"issue":"3","key":"10.1016\/j.ins.2026.123586_bib0030","doi-asserted-by":"crossref","DOI":"10.1177\/17298814211007305","article-title":"Reinforcement learning for robot research: a comprehensive review and open issues","volume":"18","author":"Zhang","year":"2021","journal-title":"Int. J. Adv. Robot. Syst."},{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0035","doi-asserted-by":"crossref","first-page":"616","DOI":"10.1007\/s11227-021-03878-2","article-title":"An improved DQN path planning algorithm","volume":"78","author":"Li","year":"2022","journal-title":"J. Supercomput."},{"issue":"3","key":"10.1016\/j.ins.2026.123586_bib0040","doi-asserted-by":"crossref","first-page":"177","DOI":"10.1049\/trit.2020.0024","article-title":"Multi-robot path planning based on a deep reinforcement learning DQN algorithm","volume":"5","author":"Yang","year":"2020","journal-title":"CAAI Trans. Intell. Technol."},{"issue":"7540","key":"10.1016\/j.ins.2026.123586_bib0045","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"Mnih","year":"2015","journal-title":"Nature"},{"key":"10.1016\/j.ins.2026.123586_bib0050","series-title":"International Conference on Machine Learning and Intelligent Computing","first-page":"685","article-title":"Survey on path planning based on deep reinforcement learning","author":"Xu","year":"2025"},{"key":"10.1016\/j.ins.2026.123586_bib0055","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2024.111503","article-title":"Dynamic path planning via dueling double deep Q-network (D3QN) with prioritized experience replay","volume":"158","author":"G\u00f6k","year":"2024","journal-title":"Appl. Soft Comput."},{"issue":"10","key":"10.1016\/j.ins.2026.123586_bib0060","doi-asserted-by":"crossref","DOI":"10.1016\/j.jksuci.2024.102254","article-title":"Deep reinforcement learning-based local path planning in dynamic environments for mobile robot","volume":"36","author":"Tao","year":"2024","journal-title":"J. King Saud Univ.-Comput. Inf. Sci."},{"issue":"6","key":"10.1016\/j.ins.2026.123586_bib0065","doi-asserted-by":"crossref","first-page":"277","DOI":"10.1007\/s40747-025-01906-9","article-title":"Deep reinforcement learning for path planning of autonomous mobile robots in complicated environments","volume":"11","author":"Zhang","year":"2025","journal-title":"Complex Intell. Syst."},{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0070","doi-asserted-by":"crossref","first-page":"269","DOI":"10.1007\/BF01386390","article-title":"A note on two problems in connexion with graphs","volume":"1","author":"Dijkstra","year":"1959","journal-title":"Numer. Math."},{"issue":"2","key":"10.1016\/j.ins.2026.123586_bib0075","doi-asserted-by":"crossref","first-page":"100","DOI":"10.1109\/TSSC.1968.300136","article-title":"A formal basis for the heuristic determination of minimum cost paths","volume":"4","author":"Hart","year":"1968","journal-title":"IEEE Trans. Syst. Sci. Cybern."},{"key":"10.1016\/j.ins.2026.123586_bib0080","first-page":"303","article-title":"Rapidly-exploring random trees: progress and prospects","author":"LaValle","year":"2001","journal-title":"Algorithmic Comput. Robot."},{"issue":"3","key":"10.1016\/j.ins.2026.123586_bib0085","doi-asserted-by":"crossref","first-page":"1983","DOI":"10.1109\/TASE.2022.3190901","article-title":"Intelligent path planning of underwater robot based on reinforcement learning","volume":"20","author":"Yang","year":"2022","journal-title":"IEEE Trans. Autom. Sci. Eng."},{"key":"10.1016\/j.ins.2026.123586_bib0090","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108875","article-title":"Clustering experience replay for the effective exploitation in reinforcement learning","volume":"131","author":"Li","year":"2022","journal-title":"Pattern Recognit."},{"issue":"9","key":"10.1016\/j.ins.2026.123586_bib0095","doi-asserted-by":"crossref","first-page":"9326","DOI":"10.1109\/TCYB.2021.3053414","article-title":"Deep reinforcement learning with quantum-inspired experience replay","volume":"52","author":"Wei","year":"2021","journal-title":"IEEE Trans. Cybern."},{"issue":"11","key":"10.1016\/j.ins.2026.123586_bib0100","doi-asserted-by":"crossref","first-page":"11253","DOI":"10.1109\/JSEN.2023.3237206","article-title":"Multi-input autonomous driving based on deep reinforcement learning with double bias experience replay","volume":"23","author":"Cui","year":"2023","journal-title":"IEEE Sens. J."},{"key":"10.1016\/j.ins.2026.123586_bib0105","doi-asserted-by":"crossref","DOI":"10.1016\/j.artint.2021.103535","article-title":"Reward is enough","volume":"299","author":"Silver","year":"2021","journal-title":"Artif. Intell."},{"key":"10.1016\/j.ins.2026.123586_bib0110","doi-asserted-by":"crossref","DOI":"10.1016\/j.aei.2021.101360","article-title":"Deep reinforcement learning-based safe interaction for industrial human-robot collaboration using intrinsic reward function","volume":"49","author":"Liu","year":"2021","journal-title":"Adv. Eng. Inform."},{"key":"10.1016\/j.ins.2026.123586_bib0115","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2023.110756","article-title":"Deep reinforcement learning with reward shaping for tracking control and vibration suppression of flexible link manipulator","volume":"152","author":"Viswanadhapalli","year":"2024","journal-title":"Appl. Soft Comput."},{"issue":"7","key":"10.1016\/j.ins.2026.123586_bib0120","doi-asserted-by":"crossref","first-page":"6180","DOI":"10.1109\/JIOT.2020.2973193","article-title":"Deep-reinforcement-learning-based autonomous UAV navigation with sparse rewards","volume":"7","author":"Wang","year":"2020","journal-title":"IEEE Internet Things J."},{"issue":"12","key":"10.1016\/j.ins.2026.123586_bib0125","doi-asserted-by":"crossref","first-page":"7363","DOI":"10.1109\/TSMC.2020.2967936","article-title":"Deep Q-learning with Q-matrix transfer learning for novel fire evacuation environment","volume":"51","author":"Sharma","year":"2020","journal-title":"IEEE Trans. Syst. Man Cybern. Syst."},{"key":"10.1016\/j.ins.2026.123586_bib0130","doi-asserted-by":"crossref","first-page":"177804","DOI":"10.1109\/ACCESS.2020.3022755","article-title":"Decision-making strategy on highway for autonomous vehicles using deep reinforcement learning","volume":"8","author":"Liao","year":"2020","journal-title":"IEEE Access"},{"key":"10.1016\/j.ins.2026.123586_bib0135","doi-asserted-by":"crossref","first-page":"141","DOI":"10.1016\/j.neucom.2023.03.054","article-title":"Action decoupled SAC reinforcement learning with discrete-continuous hybrid action spaces","volume":"537","author":"Xu","year":"2023","journal-title":"Neurocomputing"},{"issue":"6","key":"10.1016\/j.ins.2026.123586_bib0140","doi-asserted-by":"crossref","first-page":"9282","DOI":"10.1109\/JIOT.2023.3323817","article-title":"Towards reliability-enhanced, delay-guaranteed dynamic network slicing: a multi-agent DQN approach with an action space reduction strategy","volume":"11","author":"Wang","year":"2024","journal-title":"IEEE Internet Things J."},{"key":"10.1016\/j.ins.2026.123586_bib0145","doi-asserted-by":"crossref","DOI":"10.1007\/s11063-025-11821-2","article-title":"Reinforcement learning-based intelligent path planning for optimal navigation in dynamic environments","volume":"58","author":"Yadav","year":"2026","journal-title":"Neural Process. Lett."},{"key":"10.1016\/j.ins.2026.123586_bib0150","doi-asserted-by":"crossref","DOI":"10.1016\/j.cie.2023.109112","article-title":"A* guiding DQN algorithm for automated guided vehicle pathfinding problem of robotic mobile fulfillment systems","volume":"178","author":"Luo","year":"2023","journal-title":"Comput. Ind. Eng."},{"issue":"2","key":"10.1016\/j.ins.2026.123586_bib0155","doi-asserted-by":"crossref","first-page":"252","DOI":"10.1109\/TCYB.2013.2253094","article-title":"Heuristically-accelerated multiagent reinforcement learning","volume":"44","author":"Bianchi","year":"2013","journal-title":"IEEE Trans. Cybern."},{"key":"10.1016\/j.ins.2026.123586_bib0160","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2022.109075","article-title":"Multi-objective particle swarm optimization with multi-mode collaboration based on reinforcement learning for path planning of unmanned air vehicles","volume":"250","author":"Zhang","year":"2022","journal-title":"Knowl.-based Syst."},{"key":"10.1016\/j.ins.2026.123586_bib0165","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2022.117389","article-title":"A reinforcement learning based artificial bee colony algorithm with application in robot path planning","volume":"203","author":"Cui","year":"2022","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.ins.2026.123586_bib0170","doi-asserted-by":"crossref","first-page":"135513","DOI":"10.1109\/ACCESS.2020.3011211","article-title":"Path planning method with improved artificial potential field\u2014a reinforcement learning perspective","volume":"8","author":"Yao","year":"2020","journal-title":"IEEE Access"},{"issue":"1","key":"10.1016\/j.ins.2026.123586_bib0175","doi-asserted-by":"crossref","DOI":"10.1155\/2021\/9210050","article-title":"Tuna swarm optimization: a novel swarm-based metaheuristic algorithm for global optimization","volume":"2021","author":"Xie","year":"2021","journal-title":"Comput. Intell. Neurosci."},{"key":"10.1016\/j.ins.2026.123586_bib0180","doi-asserted-by":"crossref","first-page":"55","DOI":"10.1016\/j.matcom.2023.02.003","article-title":"A novel reinforcement learning based tuna swarm optimization algorithm for autonomous underwater vehicle path planning","volume":"209","author":"Yan","year":"2023","journal-title":"Math. Comput. Simul."},{"key":"10.1016\/j.ins.2026.123586_bib0185","series-title":"Advances in Guidance, Navigation and Control: Proceedings of 2020 International Conference on Guidance, Navigation and Control, ICGNC 2020, Tianjin, China, October 23\u201325, 2020","first-page":"303","article-title":"An improved algorithm of robot path planning in complex environment based on double DQN","author":"Zhang","year":"2022"},{"key":"10.1016\/j.ins.2026.123586_bib0190","doi-asserted-by":"crossref","first-page":"65285","DOI":"10.1109\/ACCESS.2025.3559129","article-title":"ST-D3QN: advancing UAV path planning with an enhanced deep reinforcement learning framework in ultra-low altitudes","volume":"13","author":"Yang","year":"2025","journal-title":"IEEE Access"},{"issue":"14","key":"10.1016\/j.ins.2026.123586_bib0195","doi-asserted-by":"crossref","first-page":"2312","DOI":"10.3390\/math13142312","article-title":"A hybrid path planning framework integrating deep reinforcement learning and variable-direction potential fields","volume":"13","author":"Bi","year":"2025","journal-title":"Mathematics"},{"key":"10.1016\/j.ins.2026.123586_bib0200","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","article-title":"Deep reinforcement learning with double q-learning","volume":"vol. 30","author":"Van Hasselt","year":"2016"},{"key":"10.1016\/j.ins.2026.123586_bib0205","doi-asserted-by":"crossref","first-page":"74","DOI":"10.1016\/j.neucom.2016.09.141","article-title":"Softmax exploration strategies for multiobjective reinforcement learning","volume":"263","author":"Vamplew","year":"2017","journal-title":"Neurocomputing"},{"issue":"4","key":"10.1016\/j.ins.2026.123586_bib0210","doi-asserted-by":"crossref","first-page":"4287","DOI":"10.1007\/s40747-022-00948-7","article-title":"DM-DQN: dueling munchausen deep Q network for robot path planning","volume":"9","author":"Gu","year":"2023","journal-title":"Complex Intell. Syst."}],"container-title":["Information Sciences"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025526005177?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025526005177?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T12:45:29Z","timestamp":1780749929000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0020025526005177"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":42,"alternative-id":["S0020025526005177"],"URL":"https:\/\/doi.org\/10.1016\/j.ins.2026.123586","relation":{},"ISSN":["0020-0255"],"issn-type":[{"value":"0020-0255","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Reinforcement learning path planning with A*-Initialized DDQN in dynamic and partially observable environments","name":"articletitle","label":"Article Title"},{"value":"Information Sciences","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.ins.2026.123586","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Inc. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"123586"}}