{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T16:19:00Z","timestamp":1758125940077,"version":"3.44.0"},"reference-count":18,"publisher":"Emerald","issue":"4","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,9,19]]},"abstract":"<jats:sec>\n                  <jats:title>Purpose<\/jats:title>\n                  <jats:p>Visual simultaneous localization and mapping (SLAM) methods suffer from accumulated errors, especially in challenging environments without loop closure. By constructing lightweight offline maps and using deep learning (DL)-based technology in the two stages, i.e. image retrieval and feature matching, the goal is to reconstruct the six-degree-of-freedom (6-DoF) relationship between SLAM sequences and map sequences. This study aims to propose a comprehensive coarse-to-fine 6-DoF long-term visual relocalization assisted SLAM method specifically designed for challenging environments, aiming to achieve more accurate pose estimation.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Design\/methodology\/approach<\/jats:title>\n                  <jats:p>First, image global feature matching and patch-level global feature matching are conducted to achieve optimal frame-to-frame matching. Second, a DL network is introduced to extract and match features between the most similar frames, enabling point-to-point motion estimation. Finally, a fast pose graph optimization method is proposed to achieve real-time optimization of the pose in the SLAM sequence.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Findings<\/jats:title>\n                  <jats:p>The proposed method has been successfully validated on the real-world FinnForest Dataset and UZH-FPV Drone Racing Dataset. The accuracy of the proposed method is evaluated using absolute positional error and absolute rotational error. Experimental results show that in most cases, there are significant improvements in the root mean square error and the standard deviation of the error in pose estimation, and it performs better than loop closure in terms of accuracy. This indicates that the method has strong generalizability and robustness.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Originality\/value<\/jats:title>\n                  <jats:p>The main contribution of this study is the proposal of a complete DL-based coarse-to-fine 6-DoF long-term visual relocalization method to assist vSLAM, which demonstrates enhanced robustness and generalizability and can eliminate cumulative errors in pose estimation under challenging environments.<\/jats:p>\n               <\/jats:sec>","DOI":"10.1108\/ir-05-2024-0235","type":"journal-article","created":{"date-parts":[[2025,1,14]],"date-time":"2025-01-14T05:49:04Z","timestamp":1736833744000},"page":"573-580","source":"Crossref","is-referenced-by-count":0,"title":["Deep learning-based 6-DoF visual relocalization assisted simultaneous localization and mapping (SLAM)"],"prefix":"10.1108","volume":"52","author":[{"given":"Shuo","family":"Wang","sequence":"first","affiliation":[{"name":"Chang\u2019an University , Xi'an,","place":["China"]}]},{"given":"Xin","family":"Li","sequence":"additional","affiliation":[{"name":"Chang\u2019an University , Xi'an,","place":["China"]}]},{"given":"Yu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Chang\u2019an University , Xi'an,","place":["China"]}]},{"given":"Songhui","family":"Ma","sequence":"additional","affiliation":[{"name":"Northwestern Polytechnical University , Xi\u2019an,","place":["China"]}]},{"given":"Xianrui","family":"Ren","sequence":"additional","affiliation":[{"name":"Chang\u2019an University , Xi'an,","place":["China"]}]}],"member":"140","published-online":{"date-parts":[[2025,1,16]]},"reference":[{"key":"2025091707172460400_ref001","first-page":"5297","article-title":"NetVLAD: CNN architecture for weakly supervised place recognition","author":"Arandjelovic","year":"2016"},{"key":"2025091707172460400_ref002","doi-asserted-by":"crossref","first-page":"404","DOI":"10.1007\/11744023_32","volume-title":"Computer Vision\u2013ECCV 2006: 9th European Conference on Computer Vision","author":"Bay","year":"2006"},{"issue":"6","key":"2025091707172460400_ref003","doi-asserted-by":"crossref","first-page":"1874","DOI":"10.1109\/TRO.2021.3075644","article-title":"Orb-slam3: an accurate open-source library for visual, visual\u2013inertial, and multimap slam","volume":"37","author":"Campos","year":"2021","journal-title":"IEEE Transactions on Robotics"},{"key":"2025091707172460400_ref004","first-page":"29","article-title":"Universal correspondence network","author":"Choy","year":"2016","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2025091707172460400_ref005","first-page":"886","article-title":"Histograms of oriented gradients for human detection","volume-title":"2005 IEEE computer society conference on computer vision and pattern recognition (CVPR\u201905)","author":"Dalal","year":"2005"},{"key":"2025091707172460400_ref006","first-page":"224","article-title":"Superpoint: self-supervised interest point detection and description","author":"DeTone","year":"2018"},{"issue":"2","key":"2025091707172460400_ref007","doi-asserted-by":"crossref","first-page":"249","DOI":"10.1109\/TRO.2016.2623335","article-title":"SVO: semidirect visual odometry for monocular and multicamera systems","volume":"33","author":"Forster","year":"2016","journal-title":"IEEE Transactions on Robotics"},{"issue":"5","key":"2025091707172460400_ref008","doi-asserted-by":"crossref","first-page":"1188","DOI":"10.1109\/TRO.2012.2197158","article-title":"Bags of binary words for fast place recognition in image sequences","volume":"28","author":"G\u00e1lvez-L\u00f3pez","year":"2012","journal-title":"IEEE Transactions on Robotics"},{"key":"2025091707172460400_ref009","first-page":"3279","article-title":"Matchnet: unifying feature and metric learning for patch-based matching","author":"Han","year":"2015"},{"key":"2025091707172460400_ref010","first-page":"14141","article-title":"Patch-NetVLAD: multi-scale fusion of locally-global descriptors for place recognition","author":"Hausler","year":"2021"},{"issue":"2","key":"2025091707172460400_ref011","doi-asserted-by":"crossref","DOI":"10.1109\/LRA.2023.3343602","article-title":"Anyloc: towards universal visual place recognition","volume":"9","author":"Keetha","year":"2023","journal-title":"IEEE Robotics and Automation Letters"},{"key":"2025091707172460400_ref012","doi-asserted-by":"crossref","first-page":"219","DOI":"10.1109\/ISMAR-Adjunct51615.2020.00065","article-title":"LSFB: a low-cost and scalable framework for building large-scale localization benchmark","volume-title":"2020 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct)","author":"Liu","year":"2020"},{"issue":"2","key":"2025091707172460400_ref013","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","article-title":"Distinctive image features from scale-invariant keypoints","volume":"60","author":"Lowe","year":"2004","journal-title":"International Journal of Computer Vision"},{"key":"2025091707172460400_ref014","first-page":"2564","article-title":"ORB: an efficient alternative to SIFT or SURF","author":"Rublee","year":"2011"},{"key":"2025091707172460400_ref015","first-page":"4938","article-title":"Superglue: learning feature matching with graph neural networks","author":"Sarlin","year":"2020"},{"issue":"2","key":"2025091707172460400_ref016","doi-asserted-by":"crossref","first-page":"965","DOI":"10.1109\/LRA.2018.2793349","article-title":"Robust stereo visual inertial odometry for fast autonomous flight","volume":"3","author":"Sun","year":"2018","journal-title":"IEEE Robotics and Automation Letters"},{"article-title":"Particular object retrieval with integral max-pooling of CNN activations","year":"2015","author":"Tolias","key":"2025091707172460400_ref017"},{"key":"2025091707172460400_ref018","doi-asserted-by":"crossref","first-page":"467","DOI":"10.1007\/978-3-319-46466-4_28","article-title":"Lift: learned invariant feature transform","volume-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part VI 14","author":"Yi","year":"2016"}],"container-title":["Industrial Robot: the international journal of robotics research and application"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.emerald.com\/insight\/content\/doi\/10.1108\/IR-05-2024-0235\/full\/xml","content-type":"application\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.emerald.com\/ir\/article-pdf\/52\/4\/573\/10294034\/ir-05-2024-0235en.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/www.emerald.com\/ir\/article-pdf\/52\/4\/573\/10294034\/ir-05-2024-0235en.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T11:17:33Z","timestamp":1758107853000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.emerald.com\/ir\/article\/52\/4\/573\/1251344\/Deep-learning-based-6-DoF-visual-relocalization"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1,16]]},"references-count":18,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2025,9,19]]}},"URL":"https:\/\/doi.org\/10.1108\/ir-05-2024-0235","relation":{},"ISSN":["0143-991X","1758-5791"],"issn-type":[{"type":"print","value":"0143-991X"},{"type":"electronic","value":"1758-5791"}],"subject":[],"published":{"date-parts":[[2025,1,16]]}}}