{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T05:11:04Z","timestamp":1773983464752,"version":"3.50.1"},"reference-count":48,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62273282"],"award-info":[{"award-number":["62273282"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U25A20537"],"award-info":[{"award-number":["U25A20537"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1016\/j.neunet.2026.108598","type":"journal-article","created":{"date-parts":[[2026,1,18]],"date-time":"2026-01-18T02:47:54Z","timestamp":1768704474000},"page":"108598","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Multi-Source Temporal-Depth fusion for robust end-to-End visual odometry"],"prefix":"10.1016","volume":"198","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-8764-8335","authenticated-orcid":false,"given":"Sihang","family":"Zhang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0217-9791","authenticated-orcid":false,"given":"Congqi","family":"Cao","sequence":"additional","affiliation":[]},{"given":"Qiang","family":"Gao","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0868-9063","authenticated-orcid":false,"given":"Ganchao","family":"Liu","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2026.108598_bib0001","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"858","article-title":"Weakly supervised end2end deep visual odometry","author":"Abouee","year":"2024"},{"key":"10.1016\/j.neunet.2026.108598_bib0002","doi-asserted-by":"crossref","first-page":"119","DOI":"10.1016\/j.neunet.2022.03.005","article-title":"SelfVIO: Self-supervised deep monocular visual\u2013inertial odometry and depth estimation","volume":"150","author":"Almalioglu","year":"2022","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108598_bib0003","unstructured":"Beck M., P\u00f6ppel K., Spanring M., Auer A., Prudnikova O., Kopp M., Klambauer G., Brandstetter J., & Hochreiter S. (2024). XLSTM: Extended long short-term memory. arXiv: 2405.04517."},{"key":"10.1016\/j.neunet.2026.108598_bib0004","article-title":"Bemn: Balanced bias enhanced multi-branch network for cross-view geo-localization","author":"Bi","year":"2026","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.neunet.2026.108598_bib0005","series-title":"Proceedings of the 39th annual AAAI conference on artificial intelligence","article-title":"Deep clustering based on sparse kolmogorov-arnold network and spectral constraint","author":"Bi","year":"2025"},{"key":"10.1016\/j.neunet.2026.108598_bib0006","article-title":"Unsupervised scale-consistent depth and ego-motion learning from monocular video","volume":"32","author":"Bian","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"6","key":"10.1016\/j.neunet.2026.108598_bib0007","doi-asserted-by":"crossref","first-page":"1874","DOI":"10.1109\/TRO.2021.3075644","article-title":"ORB-SLAM3: An accurate open-source library for visual, visual\u2013inertial, and multimap slam","volume":"37","author":"Campos","year":"2021","journal-title":"IEEE Transactions on Robotics"},{"key":"10.1016\/j.neunet.2026.108598_bib0008","series-title":"Proceedings of the european conference on computer vision","first-page":"284","article-title":"Learning to solve nonlinear least squares for monocular stereo","author":"Clark","year":"2018"},{"issue":"3","key":"10.1016\/j.neunet.2026.108598_bib0009","doi-asserted-by":"crossref","first-page":"611","DOI":"10.1109\/TPAMI.2017.2658577","article-title":"Direct sparse odometry","volume":"40","author":"Engel","year":"2017","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.108598_bib0010","series-title":"European conference on computer vision","first-page":"834","article-title":"LSD-SLAM: Large-scale direct monocular slam","author":"Engel","year":"2014"},{"key":"10.1016\/j.neunet.2026.108598_bib0011","series-title":"Ieee international conference on robotics and automatio","first-page":"15","article-title":"SVO: Fast semi-direct monocular visual odometry","author":"Forster","year":"2014"},{"key":"10.1016\/j.neunet.2026.108598_bib0012","series-title":"Latin american robotics symposium,brazilian symposium on robotics, and workshop on robotics in education","first-page":"1","article-title":"Dense prediction transformer for scale estimation in monocular visual odometry","author":"Fran\u00e7ani","year":"2022"},{"key":"10.1016\/j.neunet.2026.108598_bib0013","unstructured":"Fran\u00e7ani A.O., & Maximo M.R. (2023). Transformer-based model for monocular visual odometry: a video understanding approach. arXiv: 2305.06121."},{"key":"10.1016\/j.neunet.2026.108598_bib0014","doi-asserted-by":"crossref","DOI":"10.1109\/ACCESS.2025.3531667","article-title":"Transformer-based model for monocular visual odometry: A video understanding approach","author":"Fran\u00e7ani","year":"2025","journal-title":"IEEE Access"},{"key":"10.1016\/j.neunet.2026.108598_bib0015","series-title":"Ieee intelligent vehicles symposium","first-page":"963","article-title":"Stereoscan: Dense 3d reconstruction in real-time","author":"Geiger","year":"2011"},{"key":"10.1016\/j.neunet.2026.108598_bib0016","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"3828","article-title":"Digging into self-supervised monocular depth estimation","author":"Godard","year":"2019"},{"key":"10.1016\/j.neunet.2026.108598_bib0017","series-title":"Proceedings of the computer vision and pattern recognition conference","first-page":"17092","article-title":"ZeroVO: Visual odometry with minimal assumptions","author":"Lai","year":"2025"},{"key":"10.1016\/j.neunet.2026.108598_bib0018","article-title":"Keyframe-based visual-inertial slam using nonlinear optimization","author":"Leutenegger","year":"2013","journal-title":"Proceedings of Robotis Science and Systems"},{"issue":"14","key":"10.1016\/j.neunet.2026.108598_bib0019","doi-asserted-by":"crossref","first-page":"2408","DOI":"10.3390\/rs17142408","article-title":"Savl: Scene-adaptive uav visual localization using sparse feature extraction and incremental descriptor mapping","volume":"17","author":"Liu","year":"2025","journal-title":"Remote Sensing"},{"key":"10.1016\/j.neunet.2026.108598_bib0020","article-title":"Enhancing visual inertial odometry with efficient dynamic perceptionnet and consistency improvement fusion","author":"Liu","year":"2025","journal-title":"Available at SSRN 5227953"},{"issue":"5","key":"10.1016\/j.neunet.2026.108598_bib0021","doi-asserted-by":"crossref","first-page":"1147","DOI":"10.1109\/TRO.2015.2463671","article-title":"ORB-SLAM: A versatile and accurate monocular slam system","volume":"31","author":"Mur-Artal","year":"2015","journal-title":"IEEE Transactions on Robotics"},{"issue":"5","key":"10.1016\/j.neunet.2026.108598_bib0022","doi-asserted-by":"crossref","first-page":"1255","DOI":"10.1109\/TRO.2017.2705103","article-title":"ORB-SLAM2: An open-source slam system for monocular, stereo, and rgb-d cameras","volume":"33","author":"Mur-Artal","year":"2017","journal-title":"IEEE Transactions on Robotics"},{"key":"10.1016\/j.neunet.2026.108598_bib0023","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume":"32","author":"Paszke","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"2","key":"10.1016\/j.neunet.2026.108598_bib0024","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s10846-025-02245-0","article-title":"Toward specialized learning-based approaches for visual odometry: A comprehensive survey","volume":"111","author":"Phan","year":"2025","journal-title":"Journal of Intelligent & Robotic Systems"},{"issue":"4","key":"10.1016\/j.neunet.2026.108598_bib0025","doi-asserted-by":"crossref","first-page":"1004","DOI":"10.1109\/TRO.2018.2853729","article-title":"Vins-Mono: A robust and versatile monocular visual-inertial state estimator","volume":"34","author":"Qin","year":"2018","journal-title":"IEEE Transactions on Robotics"},{"key":"10.1016\/j.neunet.2026.108598_bib0026","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"12240","article-title":"Competitive collaboration: Joint unsupervised learning of depth, camera motion, optical flow and motion segmentation","author":"Ranjan","year":"2019"},{"key":"10.1016\/j.neunet.2026.108598_bib0027","series-title":"Ieee international conference on robotics and automation","first-page":"47","article-title":"Memory-based learning for visual odometry","author":"Roberts","year":"2008"},{"key":"10.1016\/j.neunet.2026.108598_bib0028","series-title":"Conference on computer vision and pattern recognition","article-title":"Structure-from-motion revisited","author":"Sch\u00f6nberger","year":"2016"},{"key":"10.1016\/j.neunet.2026.108598_bib0029","series-title":"Asian conference on computer vision","article-title":"A vote-and-verify strategy for fast spatial verification in image retrieval","author":"Sch\u00f6nberger","year":"2016"},{"key":"10.1016\/j.neunet.2026.108598_bib0030","series-title":"European conference on computer vision","article-title":"Pixelwise view selection for unstructured multi-view stereo","author":"Sch\u00f6nberger","year":"2016"},{"key":"10.1016\/j.neunet.2026.108598_bib0031","series-title":"International conference on robotics and automation","first-page":"6359","article-title":"Beyond photometric loss for self-supervised ego-motion estimation","author":"Shen","year":"2019"},{"key":"10.1016\/j.neunet.2026.108598_bib0032","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"8922","article-title":"LoFTR: Detector-free local feature matching with transformers","author":"Sun","year":"2021"},{"key":"10.1016\/j.neunet.2026.108598_bib0033","first-page":"16558","article-title":"Droid-SLAM: Deep visual slam for monocular, stereo, and rgb-d cameras","volume":"34","author":"Teed","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108598_bib0034","article-title":"Deep patch visual odometry","volume":"36","author":"Teed","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108598_bib0035","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"5714","article-title":"Learning accurate dense correspondences and when to trust them","author":"Truong","year":"2021"},{"key":"10.1016\/j.neunet.2026.108598_bib0036","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108598_bib0037","series-title":"Ieee international conference on robotics and automation","first-page":"2043","article-title":"DeepVO: Towards end-to-end visual odometry with deep recurrent convolutional neural networks","author":"Wang","year":"2017"},{"key":"10.1016\/j.neunet.2026.108598_bib0038","series-title":"Conference on robot learning","first-page":"1761","article-title":"TartanVO: A generalizable learning-based vo","author":"Wang","year":"2021"},{"key":"10.1016\/j.neunet.2026.108598_bib0039","unstructured":"Yang L., Kang B., Huang Z., Zhao Z., Xu X., Feng J., & Zhao H. (2024). Depth anything v2. arXiv: 2406.09414."},{"key":"10.1016\/j.neunet.2026.108598_bib0040","series-title":"European conference on computer vision","first-page":"233","article-title":"Efficient deep visual and inertial odometry with adaptive visual modality selection","author":"Yang","year":"2022"},{"key":"10.1016\/j.neunet.2026.108598_bib0041","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"1281","article-title":"D3VO: Deep depth, deep pose and deep uncertainty for monocular visual odometry","author":"Yang","year":"2020"},{"key":"10.1016\/j.neunet.2026.108598_bib0042","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"1983","article-title":"Geonet: Unsupervised learning of dense depth, optical flow and camera pose","author":"Yin","year":"2018"},{"key":"10.1016\/j.neunet.2026.108598_bib0043","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"340","article-title":"Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction","author":"Zhan","year":"2018"},{"key":"10.1016\/j.neunet.2026.108598_bib0044","series-title":"Ieee international conference on robotics and automation","first-page":"4203","article-title":"Visual odometry revisited: What should be learnt?","author":"Zhan","year":"2020"},{"key":"10.1016\/j.neunet.2026.108598_bib0045","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"10367","article-title":"Leveraging consistent spatio-temporal correspondence for robust visual odometry","volume":"vol. 39","author":"Zhang","year":"2025"},{"key":"10.1016\/j.neunet.2026.108598_bib0046","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112552","article-title":"LDA-Mono: A lightweight dual aggregation network for self-supervised monocular depth estimation","volume":"304","author":"Zhao","year":"2024","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.neunet.2026.108598_bib0047","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"1851","article-title":"Unsupervised learning of depth and ego-motion from video","author":"Zhou","year":"2017"},{"key":"10.1016\/j.neunet.2026.108598_bib0048","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2020.106671","article-title":"Photometric transfer for direct visual odometry","volume":"213","author":"Zhu","year":"2021","journal-title":"Knowledge-Based Systems"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026000602?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026000602?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T04:00:06Z","timestamp":1773979206000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608026000602"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6]]},"references-count":48,"alternative-id":["S0893608026000602"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108598","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2026,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Multi-Source Temporal-Depth fusion for robust end-to-End visual odometry","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108598","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"108598"}}