{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,28]],"date-time":"2025-10-28T05:57:56Z","timestamp":1761631076946,"version":"3.38.0"},"reference-count":41,"publisher":"Tech Science Press","issue":"3","license":[{"start":{"date-parts":[[2024,12,29]],"date-time":"2024-12-29T00:00:00Z","timestamp":1735430400000},"content-version":"vor","delay-in-days":363,"URL":"https:\/\/doi.org\/10.32604\/TSP-CROSSMARKPOLICY"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["CMC"],"published-print":{"date-parts":[[2024]]},"DOI":"10.32604\/cmc.2024.058238","type":"journal-article","created":{"date-parts":[[2024,12,12]],"date-time":"2024-12-12T02:31:46Z","timestamp":1733970706000},"page":"4307-4325","update-policy":"https:\/\/doi.org\/10.32604\/tsp-crossmarkpolicy","source":"Crossref","is-referenced-by-count":1,"title":["MMDistill: Multi-Modal BEV Distillation Framework for Multi-View 3D Object Detection"],"prefix":"10.32604","volume":"81","author":[{"given":"Tianzhe","family":"Jiao","sequence":"first","affiliation":[]},{"given":"Yuming","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Zhe","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Chaopeng","family":"Guo","sequence":"additional","affiliation":[]},{"given":"Jie","family":"Song","sequence":"additional","affiliation":[]}],"member":"17807","published-online":{"date-parts":[[2024]]},"reference":[{"key":"ref1","doi-asserted-by":"crossref","first-page":"3721","DOI":"10.1109\/TIV.2023.3343377","article-title":"LiDAR-camera fusion in perspective view for 3D object detection in surface mine","volume":"9","author":"Ai","year":"Feb. 2024","journal-title":"IEEE Trans. Intell. Veh."},{"key":"ref2","first-page":"5615","article-title":"MFF-Net: Multimodal feature fusion network for 3D object detection","volume":"79","author":"Shi","year":"Mar. 2023","journal-title":"Comput. Mater. Contin."},{"key":"ref3","doi-asserted-by":"crossref","first-page":"10555","DOI":"10.1109\/TPAMI.2023.3257546","article-title":"When object detection meets knowledge distillation: A survey","volume":"45","author":"Li","year":"Mar. 2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref4","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s10462-024-10800-8","article-title":"Lightweight diffusion models: A survey","volume":"57","author":"Song","year":"May 2024","journal-title":"Artif. Intell. Rev."},{"key":"ref5","series-title":"Proc. AAAI Conf. Artif. Intell.","first-page":"1","article-title":"BEVDepth: Acquisition of reliable depth for multi-view 3D object detection","author":"Li","year":"Feb. 2023"},{"key":"ref6","series-title":"Proc. Int. Conf. Learn. Represent.","first-page":"1","article-title":"MonoDistill: Learning spatial features for monocular 3D object detection","author":"Chong","year":"Jan. 2022"},{"key":"ref7","series-title":"Proc. Adv. Neural Inform. Process. Syst. 35 (NeurIPS 2022)","first-page":"1","article-title":"Unifying voxel-based representation with transformer for 3D object detection","author":"Li","year":"Nov. 2022"},{"key":"ref8","series-title":"Proc. Comput. Vis. Pattern Recognit.","first-page":"9213","article-title":"Viewpoint equivariance for multi-view 3D object detection","author":"Chen","year":"Jun. 2023"},{"key":"ref9","series-title":"Proc. 2023 IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","first-page":"8656","article-title":"UniFusion: Unified multi-view fusion transformer for spatial-temporal representation in bird\u2019s-eye-view","author":"Qin","year":"Oct. 2023"},{"key":"ref10","series-title":"Proc. Eur. Conf. Comput. Vis.","first-page":"1","article-title":"BEVFormer: Learning bird\u2019s-eye-view representation from multi-camera images via spatiotemporal transformers","author":"Li","year":"Oct. 2022"},{"key":"ref11","series-title":"Proc. Neural Inform. Process. Syst.","first-page":"10944","article-title":"What makes multi-modal learning better than single (provably)","author":"Huang","year":"Dec. 2021"},{"key":"ref12","series-title":"Proc. 2017 IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"1907","article-title":"Multi-view 3D object detection network for autonomous driving","author":"Chen","year":"Jul. 2017"},{"key":"ref13","series-title":"Proc. IEEE Int. Conf. Robot. Automat.","first-page":"2774","article-title":"BEVFusion: Multi-task multi-sensor fusion with unified bird\u2019s-eye view representation","author":"Liu","year":"May 2023"},{"key":"ref14","series-title":"Proc. 2023 IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. Workshops (CVPRW)","first-page":"172","article-title":"FUTR3D: A unified sensor fusion framework for 3D detection","author":"Chen","year":"Jun. 2023"},{"key":"ref15","doi-asserted-by":"crossref","first-page":"3781","DOI":"10.1109\/TIV.2023.3264658","article-title":"Multi-modal 3D object detection in autonomous driving: A survey and taxonomy","volume":"8","author":"Wang","year":"Jul. 2023","journal-title":"IEEE Trans. Intell. Veh."},{"key":"ref16","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.knosys.2022.108136","article-title":"Multi-level knowledge distillation for low resolution object detection and facial expression recognition","volume":"240","author":"Ma","year":"Mar. 2022","journal-title":"Knowl.-Based Syst."},{"key":"ref17","series-title":"Proc. Eur. Conf. Comput. Vis.","first-page":"346","article-title":"IDA-DET: An information discrepancy aware distillation for 1-bit detectors","author":"Xu","year":"Oct. 2022"},{"key":"ref18","series-title":"Proc. Comput. Vis. Pattern Recognit.","first-page":"4643","article-title":"Focal and global knowledge distillation for detectors","author":"Yang","year":"Jun. 2022"},{"key":"ref19","series-title":"Proc. IEEE Int. Conf. Comput. Vis.","first-page":"8603","article-title":"DistillBEV: Boosting multi-camera 3D object detection with cross-modal knowledge distillation","author":"Wang","year":"Oct. 2023"},{"key":"ref20","series-title":"Proc. AAAI Conf. Artif. Intell.","first-page":"7460","article-title":"SimDistill: Simulated multi-modal distillation for BEV 3D object detection","author":"Zhao","year":"Feb. 2024"},{"key":"ref21","series-title":"Proc. 2023 IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","first-page":"13343","article-title":"X3KD: Knowledge distillation across modalities, tasks and stages for multi-camera 3D object detection","author":"Klingner","year":"Jun. 2023"},{"key":"ref22","series-title":"Proc. Int. Conf. Mach. Learn.","first-page":"6105","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","author":"Tan","year":"Jun. 2019"},{"key":"ref23","series-title":"Proc. Neural Inform. Process. Syst.","first-page":"20745","article-title":"Object DGCNN: 3D object detection using dynamic graphs","author":"Wang","year":"Dec. 2021"},{"key":"ref24","series-title":"Proc. Comput. Vis. Pattern Recognit.","first-page":"12697","article-title":"PointPillars: Fast encoders for object detection from point clouds","author":"Lang","year":"Jun. 2019"},{"key":"ref25","series-title":"Proc. Comput. Vis. Pattern Recognit.","first-page":"11618","article-title":"nuScenes: A multi-modal dataset for autonomous driving","author":"Caesar","year":"Jun. 2020"},{"key":"ref26","series-title":"Proc. Int. Conf. Learn. Represent.","first-page":"1","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"May 2019"},{"key":"ref27","unstructured":"J. Huang, G. Huang, Z. Zhu, Y. Ye, and D. Du, \u201cBEVDet: High-performance multi-camera 3D object detection in bird-eye-view,\u201d 2021, arXiv:2112.11790."},{"key":"ref28","series-title":"Proc. 2021 IEEE\/CVF Int. Conf. Comput. Vis. Workshops (ICCVW)","first-page":"913","article-title":"FCOS3D: Fully convolutional one-stage monocular 3D object detection","author":"Wang","year":"Oct. 2021"},{"key":"ref29","unstructured":"Z. Wang et al., \u201cSTS: Surround-view temporal stereo for multi-view 3D detection,\u201d 2022, arXiv:2208.10145."},{"key":"ref30","series-title":"Proc. Conf. Robot Learn.","first-page":"1","article-title":"DETR3D: 3D object detection from multi-view images via 3D-to-2D queries","author":"Wang","year":"Dec. 2022"},{"key":"ref31","series-title":"Proc. Euro. Conf. Comput. Vis.","first-page":"531","article-title":"PETR: Position embedding transformation for multi-view 3D object detection","author":"Liu","year":"Oct. 2022"},{"key":"ref32","unstructured":"P. Huang et al., \u201cTiG-BEV: Multi-view BEV 3D object detection via target inner-geometry learning,\u201d 2022, arXiv:2212.13979."},{"key":"ref33","series-title":"Proc. 2012 IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"3354","article-title":"Are we ready for autonomous driving? The kitti vision benchmark suite","author":"Geiger","year":"Jun. 2012"},{"key":"ref34","doi-asserted-by":"crossref","first-page":"531","DOI":"10.1007\/s11263-022-01710-9","article-title":"PV-RCNN++: Point-voxel feature set abstraction with local vector representation for 3D object detection","volume":"131","author":"Shi","year":"Feb. 2023","journal-title":"Int. J. Comput. Vis."},{"key":"ref35","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.patcog.2022.108684","article-title":"Spatial information enhancement network for 3D object detection from point cloud","volume":"128","author":"Li","year":"Aug. 2022","journal-title":"Pattern Recognit."},{"key":"ref36","series-title":"Proc. Eur. Conf. Comput. Vis.","first-page":"691","article-title":"Homogeneous multi-modal feature fusion and interaction for 3D object detection","author":"Li","year":"Oct. 2022"},{"key":"ref37","series-title":"Proc. Euro. Conf. Comput. Vis.","first-page":"720","article-title":"3D-CVF: Generating joint camera and LiDAR features using cross-view spatial feature fusion for 3D object detection","author":"Yoo","year":"Aug. 2020"},{"key":"ref38","doi-asserted-by":"crossref","first-page":"8527","DOI":"10.1109\/TITS.2024.3392783","article-title":"VoPiFNet: Voxel-pixel fusion network for multi-class 3D object detection","volume":"25","author":"Wang","year":"Aug. 2024","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"ref39","series-title":"Proc. Comput. Vis. Pattern Recognit.","first-page":"4603","article-title":"PointPainting: Sequential fusion for 3D object detection","author":"Vora","year":"Jun. 2020"},{"key":"ref40","series-title":"Proc. 2024 IEEE Int. Conf. Robot. Automat. (ICRA)","first-page":"18236","article-title":"RCM-Fusion: Radar-camera multi-level fusion for 3D object detection","author":"Kim","year":"May 2024"},{"key":"ref41","unstructured":"P. Wolters et al., \u201cUnleashing hyDRa: Hybrid fusion, depth consistency and radar for unified 3D perception,\u201d 2024, arXiv:2403.07746."}],"container-title":["Computers, Materials &amp; Continua"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.techscience.com\/cmc\/v81n3\/59056\/pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,7]],"date-time":"2025-03-07T06:10:55Z","timestamp":1741327855000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.techscience.com\/cmc\/v81n3\/59056"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":41,"journal-issue":{"issue":"3","published-online":{"date-parts":[[2024]]},"published-print":{"date-parts":[[2024]]}},"URL":"https:\/\/doi.org\/10.32604\/cmc.2024.058238","relation":{},"ISSN":["1546-2226"],"issn-type":[{"type":"electronic","value":"1546-2226"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"2024-09-08","order":0,"name":"received","label":"Received","group":{"name":"publication_history","label":"Publication History"}},{"value":"2024-11-11","order":1,"name":"accepted","label":"Accepted","group":{"name":"publication_history","label":"Publication History"}},{"value":"2024-12-19","order":2,"name":"published","label":"Published Online","group":{"name":"publication_history","label":"Publication History"}}]}}