{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,4]],"date-time":"2026-06-04T19:29:06Z","timestamp":1780601346709,"version":"3.54.1"},"reference-count":54,"publisher":"MIT Press","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"vor","delay-in-days":138,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["direct.mit.edu"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,2,17]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:p>Text-To-Image (TTI) models, such as DALL-E and StableDiffusion, have demonstrated remarkable prompt-based image generation capabilities. Multilingual encoders may have a substantial impact on the cultural agency of these models, as language is a conduit of culture. In this study, we explore the cultural perception embedded in TTI models by characterizing culture across three tiers: cultural dimensions, cultural domains, and cultural concepts. Based on this ontology, we derive prompt templates to unlock the cultural knowledge in TTI models, and propose a comprehensive suite of evaluation techniques, including intrinsic evaluations using the CLIP space, extrinsic evaluations with a Visual-Question-Answer models and human assessments, to evaluate the cultural content of TTI-generated images. To bolster our research, we introduce the CulText2I dataset, based on six diverse TTI models and spanning ten languages. Our experiments provide insights regarding Do, What, Which, and How research questions about the nature of cultural encoding in TTI models, paving the way for cross-cultural applications of these models.1<\/jats:p>","DOI":"10.1162\/tacl_a_00732","type":"journal-article","created":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T18:24:15Z","timestamp":1747679055000},"page":"142-166","update-policy":"https:\/\/doi.org\/10.1162\/mitpressjournals.corrections.policy","source":"Crossref","is-referenced-by-count":6,"title":["Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV\n                    of Text-To-Image Models"],"prefix":"10.1162","volume":"13","author":[{"given":"Mor","family":"Ventura","sequence":"first","affiliation":[{"name":"Faculty of Data and Decision Sciences, Technion, IIT, Israel. mor.ventura@campus.technion.ac.il"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Eyal","family":"Ben-David","sequence":"additional","affiliation":[{"name":"Faculty of Data and Decision Sciences, Technion, IIT, Israel"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Anna","family":"Korhonen","sequence":"additional","affiliation":[{"name":"Language Technology Lab, University of Cambridge, UK"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Roi","family":"Reichart","sequence":"additional","affiliation":[{"name":"Faculty of Data and Decision Sciences, Technion, IIT, Israel"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"281","published-online":{"date-parts":[[2025,2,17]]},"reference":[{"issue":"6","key":"2025051914240836200_bib1","doi-asserted-by":"publisher","first-page":"461","DOI":"10.1038\/s42256-021-00359-2","article-title":"Large language models associate muslims with\n                        violence","volume":"3","author":"Abid","year":"2021","journal-title":"Nature Machine Intelligence"},{"key":"2025051914240836200_bib2","unstructured":"Josh\n              Achiam\n            ,\n                                StevenAdler,\n                                SandhiniAgarwal,\n                                LamaAhmad,\n                                IlgeAkkaya,\n                                Florencia LeoniAleman,\n                                DiogoAlmeida,\n                                JankoAltenschmidt,\n                                SamAltman,\n                                ShyamalAnadkat, \n          2023. Gpt-4 technical report.\n                        arXiv preprint arXiv: 2303.08774."},{"key":"2025051914240836200_bib3","doi-asserted-by":"publisher","first-page":"533","DOI":"10.18653\/v1\/2021.emnlp-main.42","article-title":"Mitigating language-dependent ethnic bias\n                        in BERT","volume-title":"EMNLP (1)","author":"Ahn","year":"2021"},{"key":"2025051914240836200_bib4","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.c3nlp-1.12","article-title":"Probing pre-trained language models for\n                        cross-cultural differences in values","author":"Arora","year":"2022","journal-title":"arXiv preprint\n                        arXiv:2203.13722"},{"key":"2025051914240836200_bib5","article-title":"Which humans?","author":"Atari","year":"2023","journal-title":"PsyArxiv"},{"key":"2025051914240836200_bib6","doi-asserted-by":"publisher","first-page":"5136","DOI":"10.1109\/ICCV51070.2023.00474","article-title":"Inspecting the geographical\n                        representativeness of images from text-to-image models","volume-title":"Proceedings of the IEEE\/CVF International Conference on Computer\n                        Vision","author":"Basu","year":"2023"},{"key":"2025051914240836200_bib7","article-title":"Typology of risks of generative\n                        text-to-image models","author":"Bird","year":"2023","journal-title":"arXiv preprint\n                        arXiv:2307.05543"},{"issue":"6","key":"2025051914240836200_bib8","doi-asserted-by":"publisher","first-page":"1009","DOI":"10.1037\/0022-3514.55.6.1009","article-title":"Finding universal dimensions of individual variation in\n                        multicultural studies of values: The Rokeach and Chinese value\n                        surveys.","volume":"55","author":"Bond","year":"1988","journal-title":"Journal of Personality and Social Psychology"},{"key":"2025051914240836200_bib9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.c3nlp-1.7","article-title":"Assessing cross-cultural alignment between\n                        chatgpt and human societies: An empirical study","author":"Cao","year":"2023","journal-title":"arXiv preprint arXiv:2303.17466"},{"key":"2025051914240836200_bib10","article-title":"The hidden language of diffusion models","author":"Chefer","year":"2023","journal-title":"arXiv preprint arXiv:2306.00966"},{"key":"2025051914240836200_bib11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00276","article-title":"Reproducible scaling laws for contrastive\n                        language-image learning","author":"Cherti","year":"2022"},{"key":"2025051914240836200_bib12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00283","article-title":"Dall-eval: Probing the reasoning skills\n                        and social biases of text-to-image generative models","author":"Cho","year":"2022","journal-title":"arXiv preprint arXiv:2202.04053"},{"key":"2025051914240836200_bib13","unstructured":"DeepFloyd. 2023.\n                        deepfloyd.ai."},{"key":"2025051914240836200_bib14","unstructured":"Jacob\n              Devlin\n            \n          .\n                        2018. mbert. https:\/\/github.com\/google-research\/bert\/blob\/master\/multilingual.md"},{"key":"2025051914240836200_bib15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.repl4nlp-1.4","article-title":"Larger-scale transformers for multilingual\n                        masked language modeling","author":"Goyal","year":"2021","journal-title":"arXiv preprint\n                        arXiv:2105.00572"},{"key":"2025051914240836200_bib16","article-title":"World values survey wave 7\n                        (2017\u20132022) cross-national data-set","author":"Haerpfer","year":"2022","journal-title":"World\n                        Values Survey Association"},{"key":"2025051914240836200_bib17","volume-title":"Cultures and Organizations: Software of the\n                        Mind","author":"Hofstede","year":"2010","edition":"3rd ed."},{"key":"2025051914240836200_bib18","first-page":"335","article-title":"Dimensions of national cultures in fifty\n                        countries and three regions","volume-title":"Expiscations in Cross-Cultural Psychology","author":"Hofstede","year":"1983"},{"key":"2025051914240836200_bib19","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2024.acl-long.667","article-title":"Visage: A global-scale analysis of visual stereotypes in\n                        text-to-image generation","author":"Jha","year":"2024"},{"key":"2025051914240836200_bib20","article-title":"Beyond aesthetics: Cultural competence in text-to-image\n                        models","author":"Kannen","year":"2024"},{"key":"2025051914240836200_bib21","doi-asserted-by":"publisher","first-page":"919","DOI":"10.1145\/3581641.3584078","article-title":"Large-scale text-to-image generation models for visual\n                        artists\u2019 creative works","volume-title":"Proceedings of\n                        the 28th International Conference on Intelligent User Interfaces","author":"Ko","year":"2023"},{"key":"2025051914240836200_bib22","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen\n                        image encoders and large language models","author":"Li","year":"2023","journal-title":"arXiv\n                        preprint arXiv:2301.12597"},{"key":"2025051914240836200_bib23","article-title":"On the cultural gap in text-to-image\n                        generation","author":"Liu","year":"2023","journal-title":"arXiv preprint arXiv:\n                        2307.02971"},{"key":"2025051914240836200_bib24","doi-asserted-by":"publisher","DOI":"10.1556\/084.2021.00009","article-title":"Visually grounded reasoning across\n                        languages and cultures","author":"Liu","year":"2021","journal-title":"arXiv preprint\n                        arXiv:2109.13238"},{"key":"2025051914240836200_bib25","doi-asserted-by":"publisher","first-page":"70","DOI":"10.1007\/978-3-031-19836-6_5","article-title":"Storydall-e: Adapting pretrained\n                        text-to-image transformers for story continuation","volume-title":"European Conference on Computer Vision","author":"Maharana","year":"2022"},{"key":"2025051914240836200_bib26","article-title":"Cultural alignment in large language\n                        models: An explanatory analysis based on hofstede\u2019s cultural\n                        dimensions","author":"Masoud","year":"2023"},{"key":"2025051914240836200_bib27","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4615-0763-5","volume-title":"The Five-factor Model of Personality Across\n                        Cultures","author":"McCrae","year":"2002"},{"key":"2025051914240836200_bib28","doi-asserted-by":"publisher","DOI":"10.1145\/3600211.3604711","article-title":"Social biases through the text-to-image\n                        generation lens","author":"Naik","year":"2023","journal-title":"arXiv preprint\n                        arXiv:2304.06034"},{"key":"2025051914240836200_bib29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.862","article-title":"Having beer after prayer? Measuring\n                        cultural bias in large language models","author":"Naous","year":"2023","journal-title":"arXiv\n                        preprint arXiv:2305.14456"},{"key":"2025051914240836200_bib30","article-title":"Cultural incongruencies in artificial\n                        intelligence","author":"Prabhakaran","year":"2022","journal-title":"CoRR"},{"key":"2025051914240836200_bib31","article-title":"Can llm generate culturally relevant\n                        commonsense QA data? Case study in indonesian and sundanese","author":"Putri","year":"2024","journal-title":"ArXiv"},{"key":"2025051914240836200_bib32","first-page":"8748","article-title":"Learning transferable visual models from\n                        natural language supervision","volume-title":"International\n                        Conference on Machine Learning","author":"Radford","year":"2021"},{"key":"2025051914240836200_bib33","article-title":"Hierarchical text-conditional image generation with clip\n                        latents","author":"Ramesh","year":"2022","journal-title":"arXiv preprint\n                    arXiv:2204.06125"},{"key":"2025051914240836200_bib34","first-page":"8821","article-title":"Zero-shot text-to-image\n                        generation","volume-title":"International Conference on Machine\n                        Learning","author":"Ramesh","year":"2021"},{"key":"2025051914240836200_bib35","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.26","article-title":"Knowledge of cultural moral norms in large\n                        language models","author":"Ramezani","year":"2023","journal-title":"arXiv preprint\n                        arXiv:2306.01857"},{"key":"2025051914240836200_bib36","article-title":"Normad: A benchmark for measuring the cultural adaptability\n                        of large language models","author":"Rao","year":"2024","journal-title":"ArXiv"},{"key":"2025051914240836200_bib37","article-title":"Rokeach value survey","author":"Rokeach","year":"1967","journal-title":"The Nature of Human Values"},{"key":"2025051914240836200_bib38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042","article-title":"High-resolution image synthesis with latent\n                        diffusion models","author":"Rombach","year":"2021"},{"key":"2025051914240836200_bib39","doi-asserted-by":"publisher","first-page":"4831","DOI":"10.18653\/v1\/2023.acl-long.266","article-title":"Multilingual conceptual coverage in text-to-image\n                        models","volume-title":"Proceedings of the 61st Annual Meeting of\n                        the Association for Computational Linguistics (Volume 1: Long\n                        Papers)","author":"Saxon","year":"2023"},{"key":"2025051914240836200_bib40","article-title":"Bloom: A 176b-parameter open-access\n                        multilingual language model","author":"Scao","year":"2022","journal-title":"arXiv preprint arXiv:\n                        2211.05100"},{"key":"2025051914240836200_bib41","volume-title":"Beyond individualism\/collectivism: New cultural\n                        dimensions of values","author":"Schwartz","year":"1994"},{"key":"2025051914240836200_bib42","doi-asserted-by":"publisher","first-page":"9180","DOI":"10.18653\/v1\/2022.emnlp-main.625","article-title":"\u201cI\u2019m sorry to hear\n                        that\u201d: Finding new biases in language models with a holistic\n                        descriptor dataset","volume-title":"Proceedings of the 2022\n                        Conference on Empirical Methods in Natural Language Processing","author":"Smith","year":"2022"},{"key":"2025051914240836200_bib43","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.15388","article-title":"The biased artist: Exploiting cultural\n                        biases via homoglyphs in text-guided image generation\n                    models","author":"Struppek","year":"2022","journal-title":"arXiv preprint arXiv:2209.08891"},{"key":"2025051914240836200_bib44","unstructured":"Maxim\n              Tkachenko\n            ,\n                                MikhailMalyuk,\n                                AndreyHolmanyuk, and\n                                NikolaiLiubimov.\n                        2020\u20132022. Label Studio: Data labeling\n                        software. Open source software available\n                        fromhttps:\/\/github.com\/heartexlabs\/label-studio."},{"key":"2025051914240836200_bib45","doi-asserted-by":"publisher","first-page":"200","DOI":"10.18653\/v1\/2022.gebnlp-1.21","article-title":"Occupational biases in Norwegian and\n                        multilingual language models","volume-title":"Proceedings of the\n                        4th Workshop on Gender Bias in Natural Language Processing\n                    (GeBNLP)","author":"Touileb","year":"2022"},{"issue":"1","key":"2025051914240836200_bib46","doi-asserted-by":"publisher","first-page":"118","DOI":"10.1037\/0022-3514.74.1.118","article-title":"Converging measurement of horizontal and\n                        vertical individualism and collectivism","volume":"74","author":"Triandis","year":"1998","journal-title":"Journal of\n                        Personality and Social Psychology"},{"issue":"1","key":"2025051914240836200_bib47","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1080\/14626268.2023.2174557","article-title":"Using artificial intelligence in craft\n                        education: Crafting with text-to-image generative models","volume":"34","author":"Vartiainen","year":"2023","journal-title":"Digital Creativity"},{"key":"2025051914240836200_bib48","doi-asserted-by":"publisher","first-page":"2555","DOI":"10.1609\/aaai.v37i2.25353","article-title":"Exploring clip for assessing the look and feel of\n                        images","volume-title":"Proceedings of the AAAI Conference on\n                        Artificial Intelligence","author":"Wang","year":"2023"},{"key":"2025051914240836200_bib49","volume-title":"On the taboo against knowing who you are","author":"Watts","year":"1989"},{"key":"2025051914240836200_bib50","article-title":"Hard prompts made easy: Gradient-based\n                        discrete optimization for prompt tuning and\n                    discovery","author":"Wen","year":"2023"},{"key":"2025051914240836200_bib51","article-title":"mt5: A massively multilingual pre-trained\n                        text-to-text transformer","author":"Xue","year":"2020","journal-title":"arXiv preprint\n                        arXiv:2010.11934"},{"key":"2025051914240836200_bib52","article-title":"Altdiffusion: A multilingual text-to-image\n                        diffusion model","author":"Ye","year":"2023","journal-title":"arXiv preprint\n                        arXiv:2308.09991"},{"key":"2025051914240836200_bib53","doi-asserted-by":"crossref","DOI":"10.31234\/osf.io\/kt9es","article-title":"Imitation versus innovation: What children\n                        can do that large language and language-and-vision models cannot\n                        (yet)?","author":"Yiu","year":"2023"},{"key":"2025051914240836200_bib54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73004-7_5","article-title":"Bridging different language models and generative vision\n                        models for text-to-image generation","author":"Zhao","year":"2024","journal-title":"arXiv preprint\n                        arXiv:2403.07860"}],"container-title":["Transactions of the Association for Computational Linguistics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00732\/2526027\/tacl_a_00732.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00732\/2526027\/tacl_a_00732.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T18:24:19Z","timestamp":1747679059000},"score":1,"resource":{"primary":{"URL":"https:\/\/direct.mit.edu\/tacl\/article\/doi\/10.1162\/tacl_a_00732\/127924\/Navigating-Cultural-Chasms-Exploring-and-Unlocking"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":54,"URL":"https:\/\/doi.org\/10.1162\/tacl_a_00732","relation":{},"ISSN":["2307-387X"],"issn-type":[{"value":"2307-387X","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2025]]},"published":{"date-parts":[[2025]]}}}