{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,10]],"date-time":"2026-04-10T16:07:08Z","timestamp":1775837228607,"version":"3.50.1"},"reference-count":97,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Center for Applied Research in Artificial Intelligence"},{"name":"Defense Acquisition Program Administration (DAPA) and Agency for Defense Development","award":["UD230017TD"],"award-info":[{"award-number":["UD230017TD"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2025,5]]},"DOI":"10.1109\/tcsvt.2024.3524645","type":"journal-article","created":{"date-parts":[[2024,12,31]],"date-time":"2024-12-31T19:49:28Z","timestamp":1735674568000},"page":"5006-5021","source":"Crossref","is-referenced-by-count":9,"title":["MSCoTDet: Language-Driven Multi-Modal Fusion for Improved Multispectral Pedestrian Detection"],"prefix":"10.1109","volume":"35","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6334-3025","authenticated-orcid":false,"given":"Taeheon","family":"Kim","sequence":"first","affiliation":[{"name":"Integrated Vision and Language Laboratory, School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Yuseong, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-5397-2687","authenticated-orcid":false,"given":"Sangyun","family":"Chung","sequence":"additional","affiliation":[{"name":"Integrated Vision and Language Laboratory, School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Yuseong, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-8959-9057","authenticated-orcid":false,"given":"Damin","family":"Yeom","sequence":"additional","affiliation":[{"name":"Integrated Vision and Language Laboratory, School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Yuseong, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3188-2080","authenticated-orcid":false,"given":"Youngjoon","family":"Yu","sequence":"additional","affiliation":[{"name":"Integrated Vision and Language Laboratory, School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Yuseong, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2137-934X","authenticated-orcid":false,"given":"Hak","family":"Gu Kim","sequence":"additional","affiliation":[{"name":"Department of Image Science and Arts, GSAIM, Chung-Ang University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5306-6853","authenticated-orcid":false,"given":"Yong Man","family":"Ro","sequence":"additional","affiliation":[{"name":"Integrated Vision and Language Laboratory, School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), Yuseong, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3168279"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2018.11.017"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i1.25197"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.451"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.5244\/C.30.73"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2018.08.005"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2018.09.015"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00523"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747896"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3076466"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298706"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58523-5_46"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3306870"},{"key":"ref14","first-page":"509","article-title":"Multispectral pedestrian detection using deep fusion convolutional neural networks","volume":"587","author":"Wagner","year":"2016","journal-title":"Proc. ESANN"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02529"},{"key":"ref16","article-title":"Cross-modality fusion transformer for multispectral object detection","author":"Qingyun","year":"2021","journal-title":"arXiv:2111.00273"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_9"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548362"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.155"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.3039574"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01117"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3285411"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3383914"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3295058"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2016.2581660"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2016.2539684"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.2987465"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2900709"},{"key":"ref29","volume-title":"Free Teledyne Flir Thermal Dataset for Algorithm Training","year":"2021"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.3390\/s16060820"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01251"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.lindif.2023.102274"},{"key":"ref33","article-title":"GPT-4 technical report","volume-title":"arXiv:2303.08774","author":"Achiam","year":"2023"},{"key":"ref34","first-page":"1","article-title":"Visual instruction tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Liu"},{"key":"ref35","first-page":"24824","article-title":"Chain-of-Thought prompting elicits reasoning in large language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Lee"},{"key":"ref36","volume-title":"ChatGPT-3.5 Turbo API","year":"2023"},{"key":"ref37","article-title":"Can LLMs express their uncertainty? An empirical evaluation of confidence elicitation in LLMs","author":"Xiong","year":"2023","journal-title":"arXiv:2306.13063"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.693"},{"key":"ref39","article-title":"Multicalibration for confidence scoring in LLMs","author":"Detommaso","year":"2024","journal-title":"arXiv:2404.04689"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.trustnlp-1.28"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413673"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00991"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2950526"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.3042219"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.2986402"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2015.2501940"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.3000223"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2024.110539"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3217375"},{"key":"ref50","article-title":"Multispectral pedestrian detection via simultaneous detection and segmentation","author":"Li","year":"2018","journal-title":"arXiv:1808.04818"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2024.3450584"},{"key":"ref52","article-title":"Deformable DETR: Deformable transformers for end-to-end object detection","author":"Zhu","year":"2020","journal-title":"arXiv:2010.04159"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01271"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19809-0_22"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01006"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.265"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.63"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01081"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00522"},{"key":"ref60","first-page":"3197","article-title":"Removing bias in multi-modal classifiers: Regularization by maximizing functional entropies","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Gat"},{"key":"ref61","first-page":"27730","article-title":"Training language models to follow instructions with human feedback","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Ouyang"},{"key":"ref62","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Brown"},{"key":"ref63","article-title":"Bloom: A 176B-parameter open-access multilingual language model","author":"Workshop","year":"2022","journal-title":"arXiv:2211.05100"},{"key":"ref64","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv:2302.13971"},{"issue":"240","key":"ref65","first-page":"1","article-title":"PaLM: Scaling language modeling with pathways","volume":"24","author":"Chowdhery","year":"2023","journal-title":"J. Mach. Learn. Res."},{"key":"ref66","article-title":"Training compute-optimal large language models","author":"Hoffmann","year":"2022","journal-title":"arXiv:2203.15556"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01839"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01456"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01441"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1145\/1101149.1101236"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10341422"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TCBB.2021.3094217"},{"key":"ref73","article-title":"It\u2019s never too late: Fusing acoustic information into large language models for automatic speech recognition","author":"Chen","year":"2024","journal-title":"arXiv:2402.05457"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-44415-3_16"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N16-1020"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.143"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.62"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-020-08836-3"},{"key":"ref79","article-title":"Visual cropping improves zero-shot question answering of multimodal large language models","author":"Zhang","year":"2023","journal-title":"arXiv:2310.16033"},{"key":"ref80","volume-title":"Gpt-3.5 Turbo Fine-Tuning and API Updates","year":"2023"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP40778.2020.9191080"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00621"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref84","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017","journal-title":"arXiv:1711.05101"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.109913"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.169"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1016\/0925-2312(93)90006-O"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref89","volume-title":"Detectron2","author":"Wu","year":"2019"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref91","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref92","article-title":"Phantom of latent for large language and vision models","author":"Lee","year":"2024","journal-title":"arXiv:2409.14713"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02283"},{"key":"ref94","article-title":"Gemini: A family of highly capable multimodal models","author":"Team","year":"2023","journal-title":"arXiv:2312.11805"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3324807"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107562"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.3023609"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/10989278\/10819422.pdf?arnumber=10819422","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,7]],"date-time":"2025-05-07T04:21:25Z","timestamp":1746591685000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10819422\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5]]},"references-count":97,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2024.3524645","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,5]]}}}