{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,20]],"date-time":"2026-05-20T14:57:00Z","timestamp":1779289020599,"version":"3.51.4"},"reference-count":217,"publisher":"Tsinghua University Press","issue":"2","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62088101"],"award-info":[{"award-number":["62088101"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","award":["22120220642"],"award-info":[{"award-number":["22120220642"]}],"id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Big Data Min. Anal."],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.26599\/bdma.2025.9020090","type":"journal-article","created":{"date-parts":[[2026,2,6]],"date-time":"2026-02-06T20:52:42Z","timestamp":1770411162000},"page":"425-447","source":"Crossref","is-referenced-by-count":2,"title":["Vision-Language Model-Driven Human-Vehicle Interaction for Autonomous Driving: Status, Challenge, and Innovation"],"prefix":"10.26599","volume":"9","author":[{"given":"Rongfeng","family":"Zhao","sequence":"first","affiliation":[{"name":"Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University,Shanghai,China,200092"}]},{"given":"Aimin","family":"Du","sequence":"additional","affiliation":[{"name":"School of Automotive Studies, Tongji University,Shanghai,China,200092"}]},{"given":"Mobing","family":"Cai","sequence":"additional","affiliation":[{"name":"Trinity College, University of Oxford,Oxford,UK,OX1 3BH"}]},{"given":"Zhongpan","family":"Zhu","sequence":"additional","affiliation":[{"name":"College of Mechanical Engineering, University of Shanghai for Science and Technology,Shanghai,China,200093"}]},{"given":"Bin","family":"He","sequence":"additional","affiliation":[{"name":"Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University,Shanghai,China,200092"}]}],"member":"11138","reference":[{"key":"ref1","volume-title":"Global status report on road safety2023","year":"2023"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3623809.3623979"},{"key":"ref3","article-title":"Intent communication between autonomous vehicles and pedestrians","author":"Matthews","year":"2017","journal-title":"arXiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3338286.3340138"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.3389\/fpsyg.2018.01336"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2017.2749970"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.trf.2020.01.014"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3122986.3122989"},{"key":"ref9","first-page":"12888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. 39th Int. Conf. Machine Learning","author":"Li"},{"key":"ref10","first-page":"814","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. 40th Int. Conf. Machine Learning","author":"Li"},{"key":"ref11","first-page":"1516","article-title":"Visual instruction tuning","volume-title":"Proc. 37th Int. Conf. Neural Information Processing Systems","author":"Liu"},{"key":"ref12","first-page":"1240","article-title":"LLaVA-med: Training a large language-and-vision assistant for biomedicine in one day","volume-title":"Proc. 37th Int. Conf. Neural Information Processing Systems","author":"Li"},{"key":"ref13","article-title":"Valley: Video assistant with large language model enhanced ability","author":"Luo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-demo.49"},{"key":"ref15","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i8.32902"},{"key":"ref17","article-title":"BEVGPT: Generative pre-trained large model for autonomous driving prediction, decision-making, and planning","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3440097"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73347-5_17"},{"key":"ref20","article-title":"LaVida drive: Vision-text interaction VLM for autonomous driving with token selection, recovery and enhancement","author":"Jiao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00106"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1080\/19439962.2018.1490369"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/j.trf.2023.11.003"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i01.5477"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/j.trip.2020.100214"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2010.2092770"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2020.3044678"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.apergo.2022.103892"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3388790"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1016\/j.aap.2020.105756"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.adhoc.2022.102784"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.physa.2021.125790"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2019.2901817"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00636"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20047-2_8"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICUFN57995.2023.10200863"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1063\/5.0134276"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICECCT56650.2023.10179836"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2023.104580"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00644"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.asoc.2020.106533"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.597"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2020.2966034"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989161"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8205955"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3102025"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3082763"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ACIRS.2018.8467245"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2019.00158"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3137392"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/IV51971.2022.9827231"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3162719"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2987777"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW54120.2021.00260"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3074829"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2023.3266762"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/IV55156.2024.10588373"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1016\/j.aap.2024.107639"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.110"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3032079"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3004324"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1177\/0361198120912422"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/IV48863.2021.9575958"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.474"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3293120"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.3000223"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1145\/3573428.3573582"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-022-03747-2"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01076"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.121036"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/s00500-023-09278-3"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/FG52635.2021.9666989"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2022.3146575"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.69709\/caic.2025.177363"},{"key":"ref75","article-title":"SimVLM: Simple visual language model pretraining with weak supervision","author":"Wang","year":"2021","journal-title":"arXiv preprint"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01519"},{"key":"ref77","article-title":"DriveMLM: Aligning multi-modal large language models with behavioral planning states for autonomous driving","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN52387.2021.9533808"},{"key":"ref79","article-title":"ChatVideo: A tracklet-centric multimodal and versatile video understanding system","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00530"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/s11760-022-02222-2"},{"key":"ref82","first-page":"4698","article-title":"DriveVLM: The convergence of autonomous driving and large vision-language models","volume-title":"Proc. 8th Conf. Robot Learning","author":"Tian"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2019.2927770"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2021\/171"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/SMC52423.2021.9658781"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01654"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2019.2962413"},{"key":"ref88","article-title":"TinyGPT-V: Efficient multimodal large language model via small backbones","author":"Yuan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1080\/13588265.2010.491715"},{"key":"ref90","article-title":"SRA-LSTM: Social relationship attention LSTM for human trajectory prediction","author":"Peng","year":"2021","journal-title":"arXiv preprint"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3034236"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1016\/j.jsr.2019.12.003"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1820676116"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref96","first-page":"2081","article-title":"Masked autoencoders that listen","volume-title":"Proc. 36th Int. Conf. Neural Information Processing Systems","author":"Huang"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01479"},{"key":"ref98","article-title":"Point-bind & point-LLM: Aligning point cloud with multi-modality for 3D understanding, generation, and instruction following","author":"Guo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref99","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. 38th Int. Conf. Machine Learning, Virtual Event","author":"Radford","year":"2021"},{"key":"ref100","article-title":"VisualBERT: A simple and performant baseline for vision and language","author":"Li","year":"2019","journal-title":"arXiv preprint"},{"key":"ref101","first-page":"2","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. 33rd Int. Conf. Neural Information Processing Systems","author":"Lu"},{"key":"ref102","first-page":"1723","article-title":"Flamingo: A visual language model for few-shot learning","volume-title":"Proc. 36th Int. Conf. Neural Information Processing Systems","author":"Alayrac"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.7759\/cureus.39305"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4321-9"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1016\/S0065-2458(08)60607-5"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/MASSP.1986.1165342"},{"key":"ref107","article-title":"Efficient estimation of word representations in vector space","author":"Mikolov","year":"2013","journal-title":"arXiv preprint"},{"key":"ref108","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. NAACL-HLT 2019","author":"Devlin"},{"key":"ref109","article-title":"DeID-GPT: Zero-shot medical text de-identification by GPT-4","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00102"},{"key":"ref111","first-page":"2011","article-title":"Training language models to follow instructions with human feedback","volume-title":"Proc. 36th Int. Conf. Neural Information Processing Systems","author":"Ouyang"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1038\/d41586-023-00288-7"},{"issue":"1","key":"ref113","first-page":"240","article-title":"PaLM: Scaling language modeling with pathways","volume":"24","author":"Chowdhery","year":"2023","journal-title":"J. Mach. Learn. Res."},{"key":"ref114","article-title":"BLOOM: A 176B-parameter open-access multilingual language model","author":"Scao","year":"2023","journal-title":"arXiv preprint"},{"key":"ref115","volume-title":"arXiv preprint","year":"2023"},{"key":"ref116","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref117","first-page":"159","article-title":"Language models are few-shot learners","volume-title":"Proc. 34th Int. Conf. Neural Information Processing Systems","author":"Brown"},{"key":"ref118","first-page":"1800","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume-title":"Proc. 36th Int. Conf. Neural Information Processing Systems","author":"Wei"},{"key":"ref119","article-title":"ReAct: Synergizing reasoning and acting in language models","author":"Yao","year":"2022","journal-title":"arXiv preprint"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1145\/3675094.3677588"},{"key":"ref122","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv preprint"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00674"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00700"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530068"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3261988"},{"key":"ref128","article-title":"Instructcv: Instruction-tuned text-to-image diffusion models as vision generalists","author":"Gan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01760"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2023.102918"},{"key":"ref131","article-title":"Anything-3D: Towards single-view anything reconstruction in the wild","author":"Shen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.3390\/rs16010097"},{"key":"ref133","article-title":"Track anything: Segment anything meets videos","author":"Yang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00174"},{"key":"ref135","article-title":"Segment and track anything","author":"Cheng","year":"2023","journal-title":"arXiv preprint"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00127"},{"key":"ref137","article-title":"Mamba: Linear-time sequence modeling with selective state spaces","author":"Gu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref138","first-page":"2584","article-title":"Vision mamba: Efficient visual representation learning with bidirectional state space model","volume-title":"Proc. 41st Int. Conf. Machine Learning","author":"Zhu"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/MIPR62202.2024.00059"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1026"},{"key":"ref141","article-title":"Point mamba: A novel point cloud backbone based on state space model with octree-based ordering strategy","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref142","article-title":"STG-Mamba: Spatial-temporal graph learning via selective state space model","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72111-3_54"},{"key":"ref144","article-title":"MambaDFuse: A mamba-based dual-phase model for multi-modality image fusion","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref145","article-title":"CLIP-Mamba: CLIP pretrained mamba models with OOD and hessian evaluation","author":"Huang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33131"},{"key":"ref147","article-title":"DenseMamba: State space models with dense hidden connection for efficient large language models","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref148","article-title":"Jamba: A hybrid transformer-mamba language model","author":"Lieber","year":"2024","journal-title":"arXiv preprint"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2024.3418522"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01278"},{"key":"ref151","article-title":"SemVLP: Vision-language pre-training by aligning semantics at multiple levels","author":"Li","year":"2021","journal-title":"arXiv preprint"},{"key":"ref152","first-page":"13480","article-title":"Enhancing vision-language pre-training with rich supervisions","volume-title":"Proc. IEEE\/CVF Conf. Computer Vision and Pattern Recognition","author":"Shi"},{"key":"ref153","article-title":"BEiT: BERT pre-training of image transformers","author":"Bao","year":"2021","journal-title":"arXiv preprint"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6409"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01432"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6510"},{"key":"ref157","first-page":"2606","article-title":"PyramidCLIP: Hierarchical feature alignment for vision-language model pretraining","volume-title":"Proc. 36th Int. Conf. Neural Information Processing Systems","author":"Gao"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01629"},{"key":"ref159","article-title":"CLIP-ViP: Adapting pre-trained image-text model to video-language representation alignment","author":"Xue","year":"2022","journal-title":"arXiv preprint"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW53098.2021.00444"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW60793.2023.00251"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01049"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413668"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-023-01895-7"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2021.107872"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02206"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00556"},{"key":"ref168","first-page":"2142","article-title":"InstructBLIP: Towards general-purpose vision-language models with instruction tuning","volume-title":"Proc. 37th Int. Conf. Neural Information Processing Systems","author":"Dai"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-53302-0_3"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00713"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611018"},{"key":"ref172","article-title":"FLoRA: Enhancing vision-language models with parameter-efficient federated learning","author":"Nguyen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28253"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611485"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73195-2_4"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160326"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3047091"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/MITS.2025.3551736"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.3233\/ATDE250241"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/FLLM63129.2024.10852498"},{"key":"ref181","doi-asserted-by":"crossref","DOI":"10.1145\/3744335.3758477","article-title":"Cross or nah? LLMs get in the mindset of a pedestrian in front of automated car with an eHMI","volume-title":"Proc. AutomotiveUI Adjunct \u201925","author":"Alam"},{"key":"ref182","article-title":"Application of vision-language model to pedestrians behavior and scene understanding in autonomous driving","author":"Gao","year":"2025","journal-title":"arXiv preprint"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1109\/ICaMaL62577.2024.10919824"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-023-10132-6"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01398"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01712"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2023.3325300"},{"key":"ref188","article-title":"RAG-Driver: Generalisable driving explanations with retrieval-augmented in-context learning in multi-modal large language model","author":"Yuan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/OJITS.2025.3554387"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2023.3259322"},{"key":"ref191","article-title":"On the road with GPT-4V(ision): Early explorations of visual-language model on autonomous driving","author":"Wen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1016\/j.trc.2025.105321"},{"key":"ref193","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01432"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72995-9_23"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-68256-8_9"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8967929"},{"key":"ref197","article-title":"GPT-Driver: Learning to drive with GPT","author":"Mao","year":"2023","journal-title":"arXiv preprint"},{"key":"ref198","article-title":"ALT-Pilot: Autonomous navigation with language augmented topometric maps","author":"Omama","year":"2023","journal-title":"arXiv preprint"},{"key":"ref199","article-title":"LanguageMPC: Large language models as decision makers for autonomous driving","author":"Sha","year":"2023","journal-title":"arXiv preprint"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00101"},{"key":"ref201","article-title":"Controllable traffic simulation through LLM-guided hierarchical chain-of-thought reasoning","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-020-01801-5"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2022.3146549"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72764-1_5"},{"key":"ref205","article-title":"DRIVINGVQA: Analyzing visual chain-of-thought reasoning of vision language models in real-world scenarios with driving theory tests","author":"Corbi\u00e8re","year":"2025","journal-title":"arXiv preprint"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561334"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9811901"},{"key":"ref208","doi-asserted-by":"publisher","DOI":"10.1109\/IWCMC55113.2022.9824617"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/ITSC48978.2021.9565103"},{"key":"ref210","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00110"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6248074"},{"key":"ref212","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00252"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00271"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"ref215","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01084"},{"key":"ref216","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.155"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00734"}],"container-title":["Big Data Mining and Analytics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8254253\/11373433\/11373490.pdf?arnumber=11373490","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,9]],"date-time":"2026-02-09T21:10:17Z","timestamp":1770671417000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11373490\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4]]},"references-count":217,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.26599\/bdma.2025.9020090","relation":{},"ISSN":["2096-0654","2097-406X"],"issn-type":[{"value":"2096-0654","type":"print"},{"value":"2097-406X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,4]]}}}