{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,9]],"date-time":"2026-05-09T17:30:58Z","timestamp":1778347858417,"version":"3.51.4"},"reference-count":48,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,5,13]]},"DOI":"10.1109\/icra57147.2024.10611485","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T17:51:05Z","timestamp":1723139465000},"page":"16345-16352","source":"Crossref","is-referenced-by-count":47,"title":["Talk2BEV: Language-enhanced Bird\u2019s-eye View Maps for Autonomous Driving"],"prefix":"10.1109","author":[{"given":"Tushar","family":"Choudhary","sequence":"first","affiliation":[{"name":"IIIT Hyderabad"}]},{"given":"Vikrant","family":"Dewangan","sequence":"additional","affiliation":[{"name":"IIIT Hyderabad"}]},{"given":"Shivam","family":"Chandhok","sequence":"additional","affiliation":[{"name":"University of British Columbia"}]},{"given":"Shubham","family":"Priyadarshan","sequence":"additional","affiliation":[{"name":"IIIT Hyderabad"}]},{"given":"Anushka","family":"Jain","sequence":"additional","affiliation":[{"name":"IIIT Hyderabad"}]},{"given":"Arun K.","family":"Singh","sequence":"additional","affiliation":[{"name":"University of Tartu"}]},{"given":"Siddharth","family":"Srivastava","sequence":"additional","affiliation":[{"name":"TensorTour Inc."}]},{"given":"Krishna Murthy","family":"Jatavallabhula","sequence":"additional","affiliation":[{"name":"MIT"}]},{"given":"K. Madhava","family":"Krishna","sequence":"additional","affiliation":[{"name":"IIIT Hyderabad"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","author":"Li","year":"2023"},{"key":"ref2","article-title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.33540\/2168"},{"key":"ref4","article-title":"Scaling instruction-finetuned language models","author":"Chung","year":"2022"},{"key":"ref5","article-title":"Judging llm-as-a-judge with mt-bench and chatbot arena","author":"Zheng","year":"2023"},{"key":"ref6","article-title":"Chatgpt","year":"2021"},{"key":"ref7","article-title":"Llama: Open and efficient foundation language models","author":"Touvron","year":"2023"},{"key":"ref8","article-title":"Llama 2: Open foundationand fine-tuned chat models","author":"Touvron","year":"2023"},{"key":"ref9","article-title":"Gpt-4 technical report","year":"2023"},{"key":"ref10","article-title":"Instructblip: Towards general-purpose vision-language models with instruction tuning","author":"Dai","year":"2023"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58568-6_12"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_1"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01499"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19839-7_31"},{"key":"ref15","article-title":"Mme: A comprehensive evaluation benchmark for multimodal large language models","author":"Fu","year":"2023"},{"key":"ref16","article-title":"Mmbench: Is your multi-modal model an all-around player?","author":"Liu","year":"2023"},{"key":"ref17","article-title":"Lvlm-ehub: A comprehensive evaluation benchmark for large vision-language models","author":"Xu","year":"2023"},{"key":"ref18","article-title":"Seed-bench: Benchmarking multimodal llms with generative comprehension","author":"Li","year":"2023"},{"key":"ref19","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-030-58452-8_25","article-title":"Referit3d: Neural listeners for fine-grained 3d object identification in real-world scenes","volume-title":"European Conference on Computer Vision","author":"Achlioptas"},{"key":"ref20","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v35i2.16253","article-title":"Text-guided graph neural networks for referring 3d instance segmentation","volume-title":"AAAI Conference on Artificial Intelligence","author":"Huang"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00370"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58565-5_13"},{"key":"ref23","article-title":"Scan2cap: Context-aware dense captioning in rgb-d scans","author":"Chen","year":"2020"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01854"},{"key":"ref25","article-title":"Visual question answering on 360-degree images","author":"Chou","year":"2020"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00682"},{"key":"ref27","article-title":"Comprehensive visual question answering on point clouds through compositional scene manipulation","author":"Yan","year":"2021"},{"key":"ref28","article-title":"3d-llm: Injecting the 3d world into large language models","author":"Hong","year":"2023"},{"key":"ref29","article-title":"Pointllm: Empowering large language models to understand point clouds","author":"Xu","year":"2023"},{"key":"ref30","first-page":"5284","article-title":"Talk to the vehicle: Language conditioned autonomous navigation of self driving cars","author":"N","year":"2019"},{"key":"ref31","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/D19-1215","article-title":"Talk2car: Taking control of your self-driving car","volume-title":"Conference on Empirical Methods in Natural Language Processing","author":"Deruyttere"},{"key":"ref32","article-title":"Language prompt for autonomous driving","author":"Wu","year":"2023"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00434"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.350"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01406"},{"key":"ref37","article-title":"Roberta: A robustly optimized bert pretraining approach","author":"Liu","year":"2019"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28253"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10611018"},{"key":"ref40","article-title":"Lingoqa: Video question answering for autonomous driving","author":"Marcu","year":"2023"},{"key":"ref41","article-title":"Monolayout: Amodal scene layout from a single image","volume-title":"WACV","author":"Mani"},{"key":"ref42","article-title":"Autolay: Benchmarking monocular layout estimation","volume-title":"IROS","author":"Mani"},{"key":"ref43","article-title":"Fast segment anything","author":"Zhao","year":"2023"},{"key":"ref44","article-title":"Grit: A generative region-to-text transformer for object understanding","author":"Wu","year":"2022"},{"key":"ref45","article-title":"Pp-ocr: A practical ultra lightweight ocr system","author":"Du","year":"2020"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.066"},{"key":"ref47","article-title":"Scaling instruction-finetuned language models","author":"Chung","year":"2022"},{"key":"ref48","article-title":"Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality","author":"Chiang","year":"2023"}],"event":{"name":"2024 IEEE International Conference on Robotics and Automation (ICRA)","location":"Yokohama, Japan","start":{"date-parts":[[2024,5,13]]},"end":{"date-parts":[[2024,5,17]]}},"container-title":["2024 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10609961\/10609862\/10611485.pdf?arnumber=10611485","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,11]],"date-time":"2024-08-11T04:12:39Z","timestamp":1723349559000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10611485\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":48,"URL":"https:\/\/doi.org\/10.1109\/icra57147.2024.10611485","relation":{},"subject":[],"published":{"date-parts":[[2024,5,13]]}}}