{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,25]],"date-time":"2026-07-25T15:59:04Z","timestamp":1784995144687,"version":"3.55.0"},"publisher-location":"New York, NY, USA","reference-count":35,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T00:00:00Z","timestamp":1733184000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"NSFC Project","award":["62202063"],"award-info":[{"award-number":["62202063"]}]},{"name":"Beijing Natural Science Foundation","award":["L243027"],"award-info":[{"award-number":["L243027"]}]},{"name":"Beijing Major Science and Technology Project","award":["Z231100007423014"],"award-info":[{"award-number":["Z231100007423014"]}]},{"name":"The Innovation Research Group Project of the NSFC","award":["61921003"],"award-info":[{"award-number":["61921003"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,12,3]]},"DOI":"10.1145\/3696409.3700180","type":"proceedings-article","created":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T09:55:23Z","timestamp":1735379723000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["RoboFormer: A Robust Multi-Modal Transformer for 3D Object Detection in Autonomous Driving"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-3798-6147","authenticated-orcid":false,"given":"Yuang","family":"Liu","sequence":"first","affiliation":[{"name":"State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-6177-9305","authenticated-orcid":false,"given":"Dacheng","family":"Liao","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6955-6635","authenticated-orcid":false,"given":"Mengshi","family":"Qi","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5040-2468","authenticated-orcid":false,"given":"Liang","family":"Liu","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7199-5047","authenticated-orcid":false,"given":"Huadong","family":"Ma","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2024,12,28]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00054"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"crossref","unstructured":"Xuanyao Chen Tianyuan Zhang Yue Wang Yilun Wang and Hang Zhao. 2023. FUTR3D: A Unified Sensor Fusion Framework for 3D Detection. arXiv (Apr 2023). Retrieved April 12 2024 from http:\/\/arxiv.org\/abs\/2203.10642.","DOI":"10.1109\/CVPRW59228.2023.00022"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"crossref","unstructured":"Yinpeng Dong Caixin Kang Jinlai Zhang Zijian Zhu Yikai Wang Xiao Yang Hang Su Xingxing Wei and Jun Zhu. 2023. Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving. arXiv (Mar 2023). Retrieved April 11 2024 from http:\/\/arxiv.org\/abs\/2303.11040.","DOI":"10.1109\/CVPR52729.2023.00105"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","unstructured":"A. Geiger P. Lenz C. Stiller and R. Urtasun. 2013. Vision meets robotics: The KITTI dataset. The International Journal of Robotics Research 32 11 (Sep 2013) 1231\u20131237. 10.1177\/0278364913491297 https:\/\/dl.acm.org\/doi\/10.1177\/0278364913491297","DOI":"10.1177\/0278364913491297"},{"key":"e_1_3_3_1_7_2","unstructured":"Chengyue Gong Tongzheng Ren Mao Ye and Qiang Liu. 2020. MaxUp: A Simple Way to Improve Generalization of Neural Network Training. arXiv (Feb 2020). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/2002.09024."},{"key":"e_1_3_3_1_8_2","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2015. Deep Residual Learning for Image Recognition. (2015). arxiv:https:\/\/arXiv.org\/abs\/1512.03385\u00a0[cs.CV] Retrieved July 19 2024 from http:\/\/arxiv.org\/abs\/1512.03385."},{"key":"e_1_3_3_1_9_2","unstructured":"Dan Hendrycks Norman Mu Ekin\u00a0D. Cubuk Barret Zoph Justin Gilmer and Balaji Lakshminarayanan. 2020. AugMix: A Simple Data Processing Method to Improve Robustness and Uncertainty. arXiv (Feb 2020). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/1912.02781."},{"key":"e_1_3_3_1_10_2","unstructured":"Chunyong Hu Hang Zheng Kun Li Jianyun Xu Weibo Mao Maochun Luo Lingxuan Wang Mingxia Chen Qihao Peng Kaixuan Liu Yiru Zhao Peihan Hao Minzhe Liu and Kaicheng Yu. 2023. FusionFormer: A Multi-sensory Fusion in Bird\u2019s-Eye-View and Temporal Consistent Transformer for 3D Object Detection. arXiv (Oct 2023). Retrieved October 31 2023 from http:\/\/arxiv.org\/abs\/2309.05257."},{"key":"e_1_3_3_1_11_2","unstructured":"Haotian Hu Fanyi Wang Jingwen Su Yaonong Wang Laifeng Hu Weiye Fang Jingwei Xu and Zhiwang Zhang. 2023. EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection. arXiv (Aug 2023). Retrieved January 29 2024 from http:\/\/arxiv.org\/abs\/2303.17895."},{"key":"e_1_3_3_1_12_2","unstructured":"Junjie Huang and Guan Huang. 2022. BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection. arXiv (Jun 2022). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/2203.17054."},{"key":"e_1_3_3_1_13_2","unstructured":"Junjie Huang Guan Huang Zheng Zhu Yun Ye and Dalong Du. 2022. BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View. arXiv (Jun 2022). Retrieved January 29 2024 from http:\/\/arxiv.org\/abs\/2112.11790."},{"key":"e_1_3_3_1_14_2","unstructured":"Yinhao Li Zheng Ge Guanyi Yu Jinrong Yang Zengran Wang Yukang Shi Jianjian Sun and Zeming Li. 2022. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection. arXiv (Nov 2022). Retrieved February 23 2024 from http:\/\/arxiv.org\/abs\/2206.10092."},{"key":"e_1_3_3_1_15_2","unstructured":"Zhiqi Li Wenhai Wang Hongyang Li Enze Xie Chonghao Sima Tong Lu Qiao Yu and Jifeng Dai. 2022. BEVFormer: Learning Bird\u2019s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv (Jul 2022). Retrieved October 31 2023 from http:\/\/arxiv.org\/abs\/2203.17270."},{"key":"e_1_3_3_1_16_2","unstructured":"Tsung-Yi Lin Piotr Doll\u00e1r Ross Girshick Kaiming He Bharath Hariharan and Serge Belongie. 2017. Feature Pyramid Networks for Object Detection. arXiv (Apr 2017). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/1612.03144."},{"key":"e_1_3_3_1_17_2","unstructured":"Xuewu Lin Tianwei Lin Zixiang Pei Lichao Huang and Zhizhong Su. 2023. Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion. arXiv (Feb 2023). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/2211.10581."},{"key":"e_1_3_3_1_18_2","unstructured":"Zhijian Liu Haotian Tang Alexander Amini Xinyu Yang Huizi Mao Daniela Rus and Song Han. 2022. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird\u2019s-Eye View Representation. arXiv (May 2022). Retrieved October 31 2023 from http:\/\/arxiv.org\/abs\/2205.13542."},{"key":"e_1_3_3_1_19_2","unstructured":"Changsheng Lv Shuai Zhang Yapeng Tian Mengshi Qi and Huadong Ma. 2023. Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning. arXiv (Oct 2023). Retrieved October 18 2024 from http:\/\/arxiv.org\/abs\/2310.19559."},{"key":"e_1_3_3_1_20_2","unstructured":"Zachary Nado Shreyas Padhy D. Sculley Alexander D\u2019Amour Balaji Lakshminarayanan and Jasper Snoek. 2021. Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift. arXiv (Jun 2021). Retrieved May 10 2024 from http:\/\/arxiv.org\/abs\/2006.10963."},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"crossref","unstructured":"Jonah Philion and Sanja Fidler. 2020. Lift Splat Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D. arXiv (Aug 2020). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/2008.05711.","DOI":"10.1007\/978-3-030-58568-6_12"},{"key":"e_1_3_3_1_22_2","unstructured":"Mengshi Qi Weijian Li Zhengyuan Yang Yunhong Wang and Jiebo Luo. 2019. Attentive Relational Networks for Mapping Images to Scene Graphs. arXiv (Nov 2019). Retrieved October 18 2024 from http:\/\/arxiv.org\/abs\/1811.10696."},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"crossref","unstructured":"Mengshi Qi Jie Qin Yi Yang Yunhong Wang and Jiebo Luo. 2021. Semantics-Aware Spatial-Temporal Binaries for Cross-Modal Video Retrieval. IEEE Transactions on Image Processing 30 (2021). Retrieved October 18 2024 from https:\/\/doi.org\/10.1109\/TIP.2020.3048680.","DOI":"10.1109\/TIP.2020.3048680"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"crossref","unstructured":"Mengshi Qi Yunhong Wang Annan Li and Jiebo Luo. 2020. STC-GAN: Spatio-Temporally Coupled Generative Adversarial Networks for Predictive Scene Parsing. IEEE Transactions on Image Processing 29 (2020). Retrieved October 18 2024 from https:\/\/doi.org\/10.1109\/TIP.2020.2983567.","DOI":"10.1109\/TIP.2020.2983567"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"crossref","unstructured":"Mengshi Qi Yunhong Wang Jie Qin Annan Li Jiebo Luo and Luc\u00a0Van Gool. 2020. stagNet: An Attentive Semantic RNN for Group Activity and Individual Action Recognition. IEEE Transactions on Circuits and Systems for Video Technology 30 2 (Feb 2020). Retrieved October 18 2024 from https:\/\/doi.org\/10.1109\/TCSVT.2019.2894161.","DOI":"10.1109\/TCSVT.2019.2894161"},{"key":"e_1_3_3_1_26_2","unstructured":"Xinru Shan and Chaoning Zhang. 2023. Robustness of Segment Anything Model (SAM) for Autonomous Driving in Adverse Weather Conditions. arXiv (Jun 2023). Retrieved May 10 2024 from http:\/\/arxiv.org\/abs\/2306.13290."},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","unstructured":"Ziying Song Caiyan Jia Lei Yang Haiyue Wei and Lin Liu. 2024. GraphAlign++: An Accurate Feature Alignment by Graph Matching for Multi-Modal 3D Object Detection. IEEE Trans. Circuits Syst. Video Technol. 34 4 (Apr 2024) 2619\u20132632. 10.1109\/TCSVT.2023.3306361 https:\/\/dl.acm.org\/doi\/10.1109\/TCSVT.2023.3306361","DOI":"10.1109\/TCSVT.2023.3306361"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Ziying Song Guoxing Zhang Lin Liu Lei Yang Shaoqing Xu Caiyan Jia Feiyang Jia and Li Wang. 2024. RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM. arXiv (Jan 2024). Retrieved January 16 2024 from http:\/\/arxiv.org\/abs\/2401.03907.","DOI":"10.24963\/ijcai.2024\/141"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00252"},{"key":"e_1_3_3_1_30_2","unstructured":"Yue Wang Vitor Guizilini Tianyuan Zhang Yilun Wang Hang Zhao and Justin Solomon. 2021. DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries. arXiv (Oct 2021). Retrieved July 16 2024 from http:\/\/arxiv.org\/abs\/2110.06922."},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","unstructured":"Wai\u00a0Keung Wong Zhihui Lai Jiajun Wen Xiaozhao Fang and Yuwu Lu. 2017. Low-Rank Embedding for Robust Image Feature Extraction. IEEE Transactions on Image Processing 26 6 (Jun 2017) 2905\u20132917. 10.1109\/TIP.2017.2691543 https:\/\/dl.acm.org\/doi\/10.1109\/TIP.2017.2691543","DOI":"10.1109\/TIP.2017.2691543"},{"key":"e_1_3_3_1_32_2","unstructured":"Shaoyuan Xie Lingdong Kong Wenwei Zhang Jiawei Ren Liang Pan Kai Chen and Ziwei Liu. 2023. RoboBEV: Towards Robust Bird\u2019s Eye View Perception under Corruptions. arXiv (Apr 2023). Retrieved January 31 2024 from http:\/\/arxiv.org\/abs\/2304.06719."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","unstructured":"Yan Yan Yuxing Mao and Bo Li. 2018. SECOND: Sparsely Embedded Convolutional Detection. Sensors 18 10 (Oct 2018) 3337. 10.3390\/s18103337","DOI":"10.3390\/s18103337"},{"key":"e_1_3_3_1_34_2","unstructured":"Lei Yang Tao Tang Jun Li Peng Chen Kun Yuan Li Wang Yi Huang Xinyu Zhang and Kaicheng Yu. 2023. BEVHeight++: Toward Robust Visual Centric 3D Object Detection. arXiv (Sep 2023). Retrieved May 10 2024 from http:\/\/arxiv.org\/abs\/2309.16179."},{"key":"e_1_3_3_1_35_2","unstructured":"Juan Zhong Zheng Liu and Xi Chen. 2023. Transformer-based models and hardware acceleration analysis in autonomous driving: A survey. arXiv (Apr 2023). Retrieved October 31 2023 from http:\/\/arxiv.org\/abs\/2304.10891."},{"key":"e_1_3_3_1_36_2","unstructured":"Pengfei Zhu Mengshi Qi Xia Li Weijian Li and Huadong Ma. 2023. Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding. arXiv (Mar 2023). Retrieved October 18 2024 from http:\/\/arxiv.org\/abs\/2303.09706."}],"event":{"name":"MMAsia '24: ACM Multimedia Asia","location":"Auckland New Zealand","acronym":"MMAsia '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 6th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3696409.3700180","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3696409.3700180","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:10:11Z","timestamp":1750295411000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3696409.3700180"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,3]]},"references-count":35,"alternative-id":["10.1145\/3696409.3700180","10.1145\/3696409"],"URL":"https:\/\/doi.org\/10.1145\/3696409.3700180","relation":{},"subject":[],"published":{"date-parts":[[2024,12,3]]},"assertion":[{"value":"2024-12-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}