{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T08:38:04Z","timestamp":1771922284633,"version":"3.50.1"},"reference-count":53,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["FCPS-2317079,CCF2007350,CCF- 1955981"],"award-info":[{"award-number":["FCPS-2317079,CCF2007350,CCF- 1955981"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccvw69036.2025.00654","type":"proceedings-article","created":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T20:44:02Z","timestamp":1771879442000},"page":"6292-6302","source":"Crossref","is-referenced-by-count":0,"title":["SCRAMBLe: Enhancing Multimodal LLM Compositionality with Synthetic Preference Data"],"prefix":"10.1109","author":[{"given":"Samarth","family":"Mishra","sequence":"first","affiliation":[{"name":"Boston University"}]},{"given":"Kate","family":"Saenko","sequence":"additional","affiliation":[{"name":"Boston University"}]},{"given":"Venkatesh","family":"Saligrama","sequence":"additional","affiliation":[{"name":"Boston University"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Gpt-4 technical report","author":"Achiam","year":"2023","journal-title":"arXiv preprint"},{"key":"ref2","article-title":"Pixtral 12b","author":"Agrawal","year":"2024","journal-title":"arXiv preprint"},{"key":"ref3","volume-title":"Introducing the next generation of claude","year":"2024"},{"key":"ref4","article-title":"On the opportunities and risks of foundation models","author":"Bommasani","year":"2021","journal-title":"arXiv preprint"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01844"},{"key":"ref6","article-title":"Natural language inference improves compositionality in vision-language models","volume-title":"In-ternational Conference on Learning Representations (ICLR)","author":"Cascante-Bonilla","year":"2025"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"issue":"3","key":"ref8","first-page":"6","volume":"2","author":"Chiang","year":"2023","journal-title":"Vicuna: An open-source chatbot impressing gpt -4 with 90% * chatgpt quality"},{"key":"ref9","article-title":"Molmo and pixmo: Open weights and open data for state-of-the-art multimodal models","author":"Deitke","year":"2024","journal-title":"arXiv preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.143"},{"key":"ref11","first-page":"32942","article-title":"Coarse-to-fine vision-language pre-training with fusion in the backbone","volume":"35","author":"Dou","year":"2022","journal-title":"Advances in neural information processing systems"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01763"},{"key":"ref13","first-page":"76137","article-title":"Dense and aligned captions (dac) promote compositional reasoning in vl models","volume":"36","author":"Doveh","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00261"},{"key":"ref15","article-title":"The llama 3 herd of models","author":"Dubey","year":"2024","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.870"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.595"},{"key":"ref18","article-title":"Sugarcrepe: Fixing hackable benchmarks for vision-language compositionality","volume":"36","author":"Hsieh","year":"2024","journal-title":"Advances in neural information processing systems"},{"key":"ref19","article-title":"Lora: Low-rank adaptation of large language models","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR)","author":"Hu","year":"2022"},{"key":"ref20","article-title":"Conme: Rethinking evaluation of compositional reasoning for modern vlms","author":"Huang","year":"2024","journal-title":"Advances in Neural Information Processing Systems 37 (NeurIPS 2024), Datasets and Benchmarks Track"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1165"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1017\/s0140525x17000139"},{"key":"ref23","article-title":"Seed-bench: Benchmarking multimodal llms with generative comprehension","author":"Li","year":"2023","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72673-6_20"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"ref27","article-title":"Visual instruction tuning","volume":"36","author":"Liu","year":"2024","journal-title":"Advances in neural information processing systems"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.81"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01050"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01367"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-demos.16"},{"key":"ref32","volume-title":"Hello gpt-4o","year":"2024"},{"key":"ref33","first-page":"27730","article-title":"Training language models to follow instructions with human feedback","volume":"35","author":"Ouyang","year":"2022","journal-title":"Ad-vances in neural information processing systems"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01438"},{"key":"ref35","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford","year":"2021"},{"key":"ref36","article-title":"Direct preference optimization: Your language model is secretly a reward model","volume":"36","author":"Rafailov","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"2","key":"ref37","article-title":"Hierarchical text-conditional image generation with clip latents","volume":"1","author":"Ramesh","year":"2022","journal-title":"arXiv preprint"},{"key":"ref38","article-title":"Cola: A bench-mark for compositional text-to-image retrieval","volume":"36","author":"Ray","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01850"},{"key":"ref41","first-page":"3008","article-title":"Learning to summarize with human feed-back","volume":"33","author":"Stiennon","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00517"},{"key":"ref43","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01102"},{"key":"ref45","first-page":"24824","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume":"35","author":"Wei","year":"2022","journal-title":"Advances in neural information processing systems"},{"key":"ref46","article-title":"Mm-vet: Evaluating large multimodal models for integrated capabilities","author":"Yu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref47","article-title":"When and why vision-language models behave like bags-of-words, and what to do about it?","author":"Yuksekgonul","year":"2022","journal-title":"arXiv preprint"},{"key":"ref48","article-title":"Cocot: Contrastive chain-of-thought prompting for large multimodal models with multiple image inputs","author":"Zhang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00553"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-demos.4"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01653-1"},{"key":"ref52","article-title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref53","article-title":"Fine-tuning language models from human preferences","author":"Daniel","year":"2019","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,20]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11373940\/11374285\/11374328.pdf?arnumber=11374328","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T07:32:36Z","timestamp":1771918356000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11374328\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":53,"URL":"https:\/\/doi.org\/10.1109\/iccvw69036.2025.00654","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}