{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,15]],"date-time":"2026-07-15T16:01:01Z","timestamp":1784131261880,"version":"3.55.0"},"reference-count":70,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1109\/tcsvt.2025.3610634","type":"journal-article","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T17:35:46Z","timestamp":1758044146000},"page":"1742-1753","source":"Crossref","is-referenced-by-count":5,"title":["DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-6893-2166","authenticated-orcid":false,"given":"Zhen","family":"Yang","sequence":"first","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yanpeng","family":"Dong","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jiayu","family":"Wang","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Heng","family":"Wang","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lichao","family":"Ma","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zijian","family":"Cui","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qi","family":"Liu","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Haoran","family":"Pei","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-7574-6899","authenticated-orcid":false,"given":"Kexin","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beijing Mechanical Equipment Institute, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i4.16419"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00396"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01624"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636333"},{"key":"ref5","article-title":"VoxPoser: Composable 3D value maps for robotic manipulation with language models","author":"Huang","year":"2023","journal-title":"arXiv:2307.05973"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01868"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00633"},{"key":"ref8","article-title":"ALOcc: Adaptive lifting-based 3D semantic occupancy and cost volume-based flow predictions","author":"Chen","year":"2024","journal-title":"arXiv:2411.07725"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28533"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2024.3453293"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-96-0972-7_14"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01636"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3396092"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01986"},{"key":"ref15","first-page":"64318","article-title":"Occ3D: A large-scale 3D occupancy prediction benchmark for autonomous driving","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Tian"},{"key":"ref16","article-title":"BEVDet: High-performance multi-camera 3D object detection in bird-eye-view","author":"Huang","year":"2021","journal-title":"arXiv:2112.11790"},{"key":"ref17","article-title":"FB-OCC: 3D occupancy prediction based on forward-backward view transformation","author":"Li","year":"2023","journal-title":"arXiv:2307.01492"},{"key":"ref18","article-title":"FlashOcc: Fast and memory-efficient occupancy prediction via channel-to-height plugin","author":"Yu","year":"2023","journal-title":"arXiv:2311.12058"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3492289"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3486019"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.89"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00953"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"ref25","article-title":"Real-aug: Realistic scene synthesis for LiDAR augmentation in 3D object detection","author":"Zhan","year":"2023","journal-title":"arXiv:2305.12853"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00771"},{"key":"ref27","article-title":"LION: Linear group RNN for 3D object detection in point clouds","author":"Liu","year":"2024","journal-title":"arXiv:2407.18232"},{"key":"ref28","article-title":"Sparse4D v3: Advancing end-to-end 3D detection and tracking","author":"Lin","year":"2023","journal-title":"arXiv:2311.11722"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.28033"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01703"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.3390\/s18103337"},{"key":"ref32","article-title":"Detecting as labeling: Rethinking LiDAR-camera fusion in 3D object detection","author":"Huang","year":"2023","journal-title":"arXiv:2311.07152"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i2.25234"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160831"},{"key":"ref35","article-title":"Learning from unlabelled videos using contrastive predictive neural 3D mapping","author":"Harley","year":"2019","journal-title":"arXiv:1906.03764"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00464"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i2.25233"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_1"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00890"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00865"},{"key":"ref42","article-title":"Fully sparse 3D occupancy prediction","author":"Liu","year":"2023","journal-title":"arXiv:2312.17118"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01884"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00149"},{"key":"ref45","article-title":"Deformable DETR: Deformable transformers for end-to-end object detection","author":"Zhu","year":"2020","journal-title":"arXiv:2010.04159"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3499327"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3237579"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3297620"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160968"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01667"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00022"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01162"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00116"},{"key":"ref54","first-page":"10421","article-title":"BEVFusion: A simple and robust LiDAR-camera fusion framework","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Liang"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00979"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28600"},{"key":"ref57","first-page":"116060","article-title":"Towards flexible 3D perception: Object-centric occupancy completion augments 3D object detection","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"37","author":"Zheng"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01161"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01264-9_45"},{"key":"ref61","article-title":"Objects as points","author":"Zhou","year":"2019","journal-title":"arXiv:1904.07850"},{"key":"ref62","article-title":"Panoptic-FlashOcc: An efficient baseline to marry semantic occupancy with panoptic via instance center","author":"Yu","year":"2024","journal-title":"arXiv:2406.10527"},{"key":"ref63","article-title":"RenderOcc: Vision-centric 3D occupancy prediction with 2D rendering supervision","author":"Pan","year":"2023","journal-title":"arXiv:2309.09502"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2024.3403134"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3809"},{"key":"ref66","article-title":"ODG: Occupancy prediction using dual Gaussians","author":"Shi","year":"2025","journal-title":"arXiv:2506.09417"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1906.07155"},{"key":"ref68","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017","journal-title":"arXiv:1711.05101"},{"key":"ref69","article-title":"Class-balanced grouping and sampling for point cloud 3D object detection","author":"Zhu","year":"2019","journal-title":"arXiv:1908.09492"},{"key":"ref70","article-title":"3D occupancy and flow prediction based on forward view transformation","author":"Zhao","year":"2024"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/11392768\/11165414.pdf?arnumber=11165414","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,12]],"date-time":"2026-02-12T21:02:53Z","timestamp":1770930173000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11165414\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":70,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2025.3610634","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,2]]}}}