{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,8]],"date-time":"2025-10-08T15:51:07Z","timestamp":1759938667026,"version":"3.28.0"},"reference-count":57,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,5,29]]},"DOI":"10.1109\/icra48891.2023.10160483","type":"proceedings-article","created":{"date-parts":[[2023,7,4]],"date-time":"2023-07-04T13:20:56Z","timestamp":1688476856000},"page":"7024-7031","source":"Crossref","is-referenced-by-count":7,"title":["Depth Is All You Need for Monocular 3D Detection"],"prefix":"10.1109","author":[{"given":"Dennis","family":"Park","sequence":"first","affiliation":[{"name":"Toyota Research Institute"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jie","family":"Li","sequence":"additional","affiliation":[{"name":"Toyota Research Institute"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dian","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Vitor","family":"Guizilini","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Adrien","family":"Gaidon","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00592"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01392"},{"key":"ref12","first-page":"311","article-title":"Re-thinking pseudo-LiDAR representation","author":"ma","year":"2020","journal-title":"European Conference on Computer Vision"},{"key":"ref56","first-page":"740","article-title":"MS-COCO: Common objects in context","author":"lin","year":"2014","journal-title":"European Conference on Computer Vision"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00252"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00310"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00330"},{"key":"ref11","article-title":"Pseudo-LiDAR++: Accurate depth for 3D object detection in autonomous driving","author":"you","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00281"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00864"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00096"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.534"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6248074"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201323"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00773"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00747"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58592-1_9"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01298"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19812-0_31"},{"key":"ref48","article-title":"RefinedMPL: Refined monocular pseudoLiDAR for 3D object detection in autonomous driving","author":"vianney","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01211"},{"key":"ref42","first-page":"1475","article-title":"Probabilistic and geometric depth: Detecting objects in perspective","author":"wang","year":"2022","journal-title":"Conference on Robot Learning"},{"key":"ref41","first-page":"4340","article-title":"Virtual worlds as proxy for multi-object tracking analysis","author":"gaidon","year":"0","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"ref44","article-title":"BEVformer: Learning bird's-eye-view representation from multi-camera images via spatiotemporal transformers","author":"li","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref43","article-title":"BEVDet: High-performance multi-camera 3D object detection in bird-eye-view","author":"huang","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01169"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00214"},{"key":"ref7","first-page":"2366","article-title":"Depth map prediction from a single image using a multi-scale deep network","author":"eigen","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref9","article-title":"Digging into self-supervised monocular depth estimation","author":"godard","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00208"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW54120.2021.00107"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00256"},{"key":"ref5","article-title":"Demystifying pseudo-lidar for monocular 3D object detection","author":"simonelli","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref40","article-title":"Disentangling monocular 3D object detection: From single to multi-class recognition","author":"simonelli","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"ref35","article-title":"Robust semi-supervised monocular depth estimation with reprojected distances","author":"guizilini","year":"2019","journal-title":"Conference on Robot Learning (CoRL)"},{"key":"ref34","first-page":"213","article-title":"End-to-end object detection with transformers","author":"carion","year":"2020","journal-title":"European Conference on Computer Vision"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref36","article-title":"Objects as points","author":"zhou","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref31","article-title":"MonoDETR: Depth-aware transformer for monocular 3D object detection","author":"zhang","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref30","article-title":"Categorical depth distributionnetwork for monocular 3D object detection","author":"reading","year":"0","journal-title":"CVPR"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00398"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00310"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00217"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00313"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2003.819861"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.700"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00114"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01214"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00695"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01173"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.198"},{"key":"ref22","article-title":"Monocular 3D object detection via geometric reasoning on keypoints","author":"barabanau","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593698"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00972"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00506"},{"key":"ref29","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume":"28","author":"ren","year":"2015","journal-title":"Advances in neural information processing systems"}],"event":{"name":"2023 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2023,5,29]]},"location":"London, United Kingdom","end":{"date-parts":[[2023,6,2]]}},"container-title":["2023 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10160211\/10160212\/10160483.pdf?arnumber=10160483","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,24]],"date-time":"2023-07-24T13:30:11Z","timestamp":1690205411000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10160483\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,29]]},"references-count":57,"URL":"https:\/\/doi.org\/10.1109\/icra48891.2023.10160483","relation":{},"subject":[],"published":{"date-parts":[[2023,5,29]]}}}