{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,16]],"date-time":"2025-10-16T10:14:28Z","timestamp":1760609668925,"version":"build-2065373602"},"reference-count":81,"publisher":"MIT Press","license":[{"start":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T00:00:00Z","timestamp":1759968000000},"content-version":"vor","delay-in-days":281,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["direct.mit.edu"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,10]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:p>The ability to build and reason about models of the world is essential for situated language understanding. But evaluating world modeling capabilities in modern AI systems\u2014especially those based on language models\u2014has proven challenging, in large part because of the difficulty of disentangling conceptual knowledge about the world from knowledge of surface co-occurrence statistics. This paper presents Elements of World Knowledge (EWoK), a framework for evaluating language models\u2019 understanding of the conceptual knowledge underlying world modeling. EWoK targets specific concepts from multiple knowledge domains known to be important for world modeling in humans, from social interactions (help, deceive) to spatial relations (left, right). Objects, agents, and locations in the items can be flexibly filled in, enabling easy generation of multiple controlled datasets. We then introduce EWoK-core-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 open-weights large language models (1.3B\u201370B parameters) and compare them with human performance. All tested models perform worse than humans, with results varying drastically across domains. Performance on social interactions and social properties was highest and performance on physical relations and spatial relations was lowest. Overall, this dataset highlights simple cases where even large models struggle and presents rich avenues for targeted research on LLM world modeling capabilities.<\/jats:p>","DOI":"10.1162\/tacl.a.38","type":"journal-article","created":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T18:04:48Z","timestamp":1760033088000},"page":"1245-1270","update-policy":"https:\/\/doi.org\/10.1162\/mitpressjournals.corrections.policy","source":"Crossref","is-referenced-by-count":1,"title":["Elements of World Knowledge (<scp>EWoK<\/scp>): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models"],"prefix":"10.1162","volume":"13","author":[{"given":"Anna A.","family":"Ivanova","sequence":"first","affiliation":[{"name":"Georgia Tech, USA. a.ivanova@gatech.edu"}]},{"given":"Aalok","family":"Sathe","sequence":"additional","affiliation":[{"name":"Brown University, USA. aalok@brown.edu"}]},{"given":"Benjamin","family":"Lipkin","sequence":"additional","affiliation":[{"name":"MIT, USA. lipkinb@mit.edu"}]},{"given":"Unnathi U.","family":"Kumar","sequence":"additional","affiliation":[{"name":"Georgia Tech, USA"}]},{"given":"Setayesh","family":"Radkani","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Thomas H.","family":"Clark","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Carina","family":"Kauf","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Jennifer","family":"Hu","sequence":"additional","affiliation":[{"name":"Johns Hopkins University, USA"}]},{"given":"R. T.","family":"Pramod","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Gabriel","family":"Grand","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Vivian C.","family":"Paulun","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Maria","family":"Ryskina","sequence":"additional","affiliation":[{"name":"Vector Institute, Canada"}]},{"given":"Ekin","family":"Aky\u00fcrek","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Ethan G.","family":"Wilcox","sequence":"additional","affiliation":[{"name":"Georgetown University, USA"}]},{"given":"Nafisa","family":"Rashid","sequence":"additional","affiliation":[{"name":"UC Berkeley, USA"}]},{"given":"Leshem","family":"Choshen","sequence":"additional","affiliation":[{"name":"MIT, USA"},{"name":"MIT-IBM Watson AI, USA"}]},{"given":"Roger","family":"Levy","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Evelina","family":"Fedorenko","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Joshua","family":"Tenenbaum","sequence":"additional","affiliation":[{"name":"MIT, USA"}]},{"given":"Jacob","family":"Andreas","sequence":"additional","affiliation":[{"name":"MIT, USA"}]}],"member":"281","published-online":{"date-parts":[[2025,10,10]]},"reference":[{"key":"2025100914044153600_bib1","doi-asserted-by":"publisher","first-page":"109","DOI":"10.18653\/v1\/2021.conll-1.9","article-title":"Can language models encode perceptual structure without grounding? A case study in color","volume-title":"Proceedings of the 25th Conference on Computational Natural Language Learning","author":"Abdou","year":"2021"},{"key":"2025100914044153600_bib2","article-title":"Llama 3 model card","author":"AI@Meta","year":"2024","journal-title":"GitHub"},{"key":"2025100914044153600_bib3","article-title":"The Falcon series of open language models","author":"Almazrouei","year":"2023","journal-title":"arXiv preprint arXiv:2311.16867. Version 2"},{"issue":"45","key":"2025100914044153600_bib4","doi-asserted-by":"publisher","first-page":"18327","DOI":"10.1073\/pnas.1306572110","article-title":"Simulation as an engine of physical scene understanding","volume":"110","author":"Battaglia","year":"2013","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"2025100914044153600_bib5","doi-asserted-by":"publisher","first-page":"5185","DOI":"10.18653\/v1\/2020.acl-main.463","article-title":"Climbing towards NLU: On meaning, form, and understanding in the age of data","volume-title":"Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics","author":"Bender","year":"2020"},{"key":"2025100914044153600_bib6","doi-asserted-by":"publisher","first-page":"7432","DOI":"10.1609\/aaai.v34i05.6239","article-title":"PIQA: Reasoning about physical commonsense in natural language","volume-title":"Proceedings of the AAAI Conference on Artificial Intelligence","author":"Bisk","year":"2020"},{"key":"2025100914044153600_bib7","doi-asserted-by":"publisher","first-page":"632","DOI":"10.18653\/v1\/D15-1075","article-title":"A large annotated corpus for learning natural language inference","volume-title":"Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing","author":"Bowman","year":"2015"},{"issue":"4","key":"2025100914044153600_bib8","doi-asserted-by":"publisher","first-page":"391","DOI":"10.1002\/wcs.1232","article-title":"Theory of mind","volume":"4","author":"Carlson","year":"2013","journal-title":"Wiley Interdisciplinary Reviews: Cognitive Science"},{"key":"2025100914044153600_bib9","doi-asserted-by":"publisher","first-page":"2475","DOI":"10.18653\/v1\/D18-1269","article-title":"XNLI: Evaluating cross-lingual sentence representations","volume-title":"Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing","author":"Conneau","year":"2018"},{"key":"2025100914044153600_bib10","doi-asserted-by":"publisher","DOI":"10.1017\/S1351324909990234","article-title":"Recognizing textual entailment: Rational, evaluation and approaches","volume":"4","author":"Dagan","year":"2010","journal-title":"Journal of Natural Language Engineering"},{"key":"2025100914044153600_bib11","volume-title":"The Number Sense: How the Mind Creates Mathematics","author":"Dehaene","year":"2011"},{"key":"2025100914044153600_bib12","doi-asserted-by":"publisher","first-page":"70","DOI":"10.18653\/v1\/2020.acl-demos.10","article-title":"SyntaxGym: An online platform for targeted evaluation of language models","volume-title":"Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations","author":"Gauthier","year":"2020"},{"key":"2025100914044153600_bib13","article-title":"Gemma: Open models based on gemini research and technology","author":"Gemma","year":"2024","journal-title":"arXiv preprint arXiv:2403.08295. Version 4"},{"key":"2025100914044153600_bib14","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1145\/2509558.2509563","article-title":"Reporting bias and knowledge acquisition","volume-title":"Proceedings of the 2013 Workshop on Automated Knowledge Base Construction","author":"Gordon","year":"2013"},{"issue":"7","key":"2025100914044153600_bib15","doi-asserted-by":"publisher","first-page":"975","DOI":"10.1038\/s41562-022-01316-8","article-title":"Semantic projection recovers rich human knowledge of multiple object features from word embeddings","volume":"6","author":"Grand","year":"2022","journal-title":"Nature Human Behaviour"},{"key":"2025100914044153600_bib16","article-title":"Textbooks are all you need","author":"Gunasekar","year":"2023","journal-title":"arXiv preprint arXiv:2306.11644. Version 2"},{"key":"2025100914044153600_bib17","doi-asserted-by":"publisher","first-page":"107","DOI":"10.18653\/v1\/N18-2017","article-title":"Annotation artifacts in natural language inference data","volume-title":"Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)","author":"Gururangan","year":"2018"},{"key":"2025100914044153600_bib18","article-title":"Recurrent world models facilitate policy evolution","volume-title":"Advances in Neural Information Processing Systems","author":"Ha","year":"2018"},{"issue":"6","key":"2025100914044153600_bib19","doi-asserted-by":"publisher","first-page":"475","DOI":"10.1016\/j.tics.2021.01.006","article-title":"The perception of relations","volume":"25","author":"Hafri","year":"2021","journal-title":"Trends in Cognitive Sciences"},{"key":"2025100914044153600_bib20","doi-asserted-by":"publisher","first-page":"8154","DOI":"10.18653\/v1\/2023.emnlp-main.507","article-title":"Reasoning with language model is planning with world model","volume-title":"Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing","author":"Hao","year":"2023"},{"key":"2025100914044153600_bib21","doi-asserted-by":"publisher","first-page":"7038","DOI":"10.18653\/v1\/2021.emnlp-main.564","article-title":"Surface form competition: Why the highest probability answer isn\u2019t always right","volume-title":"Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing","author":"Holtzman","year":"2021"},{"key":"2025100914044153600_bib22","article-title":"Auxiliary task demands mask the capabilities of smaller language models","volume-title":"First Conference on Language Modeling","author":"Jennifer","year":"2024"},{"key":"2025100914044153600_bib23","doi-asserted-by":"publisher","first-page":"5040","DOI":"10.18653\/v1\/2023.emnlp-main.306","article-title":"Prompting is not a substitute for probability measurements in large language models","volume-title":"Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing","author":"Jennifer","year":"2023"},{"issue":"36","key":"2025100914044153600_bib24","doi-asserted-by":"publisher","first-page":"e2400917121","DOI":"10.1073\/pnas.2400917121","article-title":"Language models align with human judgments on key grammatical constructions","volume":"121","author":"Jennifer","year":"2024","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"2025100914044153600_bib25","doi-asserted-by":"publisher","first-page":"104640","DOI":"10.1016\/j.jml.2025.104640","article-title":"Shades of zero: Distinguishing impossibility from inconceivability","volume":"143","author":"Jennifer","year":"2025","journal-title":"Journal of Memory and Language"},{"key":"2025100914044153600_bib26","article-title":"Log probability scores provide a closer match to human plausibility judgments than prompt-based evaluations","volume-title":"South NLP Symposium","author":"Ivanova","year":"2024"},{"key":"2025100914044153600_bib27","doi-asserted-by":"publisher","DOI":"10.1093\/acprof:oso\/9780198270126.001.0001","volume-title":"Foundations of Language: Brain, Meaning, Grammar, Evolution","author":"Jackendoff","year":"2002"},{"key":"2025100914044153600_bib28","article-title":"Mistral 7B","author":"Jiang","year":"2023","journal-title":"arXiv preprint arXiv:2310.06825. Version 1"},{"key":"2025100914044153600_bib29","article-title":"Mixtral of experts","author":"Jiang","year":"2024","journal-title":"arXiv preprint arXiv:2401.04088. Version 1"},{"key":"2025100914044153600_bib30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.blackboxnlp-1.18","article-title":"Log probabilities are a reliable estimate of semantic plausibility in base and instruction-tuned language models","volume-title":"Proceedings of the 7th BlackBoxNLP Workshop @ EMNLP 2024","author":"Kauf","year":"2024"},{"issue":"11","key":"2025100914044153600_bib31","doi-asserted-by":"publisher","first-page":"e13386","DOI":"10.1111\/cogs.13386","article-title":"Event knowledge in large language models: The gap between the impossible and the unlikely","volume":"47","author":"Kauf","year":"2023","journal-title":"Cognitive Science"},{"key":"2025100914044153600_bib32","doi-asserted-by":"publisher","first-page":"5010","DOI":"10.18653\/v1\/D18-1546","article-title":"How much reading does reading comprehension require? A critical investigation of popular benchmarks","volume-title":"Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing","author":"Kaushik","year":"2018"},{"issue":"45","key":"2025100914044153600_bib33","doi-asserted-by":"publisher","first-page":"e2405460121","DOI":"10.1073\/pnas.2405460121","article-title":"Evaluating large language models in theory of mind tasks","volume":"121","author":"Kosinski","year":"2024","journal-title":"Proceedings of the National Academy of Sciences"},{"issue":"4","key":"2025100914044153600_bib34","doi-asserted-by":"publisher","first-page":"1441","DOI":"10.1162\/coli_a_00525","article-title":"Can language models handle recursively nested grammatical structures? A case study on comparing models and humans","volume":"50","author":"Lampinen","year":"2024","journal-title":"Computational Linguistics"},{"issue":"1","key":"2025100914044153600_bib35","article-title":"A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27","volume":"62","author":"LeCun","year":"2022","journal-title":"Open Review"},{"key":"2025100914044153600_bib36","article-title":"The Winograd schema challenge","volume-title":"Thirteenth international conference on the principles of knowledge representation and reasoning","author":"Levesque","year":"2012"},{"issue":"39","key":"2025100914044153600_bib37","doi-asserted-by":"publisher","first-page":"19237","DOI":"10.1073\/pnas.1910148116","article-title":"Distributional semantics as a source of visual knowledge","volume":"116","author":"Lewis","year":"2019","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"2025100914044153600_bib38","doi-asserted-by":"publisher","first-page":"175","DOI":"10.18653\/v1\/2021.emnlp-demo.21","article-title":"Datasets: A community library for natural language processing","volume-title":"Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations","author":"Lhoest","year":"2021"},{"key":"2025100914044153600_bib39","article-title":"Textbooks are all you need ii: phi-1.5 technical report","author":"Li","year":"2023","journal-title":"arXiv preprint arXiv:2309.05463. Version 1"},{"key":"2025100914044153600_bib40","article-title":"Holistic evaluation of language models","author":"Liang","year":"2023","journal-title":"Transactions on Machine Learning Research"},{"key":"2025100914044153600_bib41","article-title":"Evaluating statistical language models as pragmatic reasoners","volume-title":"Proceedings of the Annual Meeting of the Cognitive Science Society","author":"Lipkin","year":"2023"},{"key":"2025100914044153600_bib42","doi-asserted-by":"publisher","DOI":"10.31234\/osf.io\/u6xdz","article-title":"Naive psychology depends on naive physics","author":"Liu","year":"2024","journal-title":"PsyArXiv: u6xdz"},{"key":"2025100914044153600_bib43","first-page":"6852","article-title":"Hyponli: Exploring the artificial patterns of hypothesis-only bias in natural language inference","volume-title":"Proceedings of the Twelfth Language Resources and Evaluation Conference","author":"Liu","year":"2020"},{"key":"2025100914044153600_bib44","doi-asserted-by":"publisher","first-page":"76","DOI":"10.18653\/v1\/W17-2810","article-title":"Are distributional representations ready for the real world? Evaluating word vectors for grounded perceptual meaning","volume-title":"Proceedings of the First Workshop on Language Grounding for Robotics","author":"Li","year":"2017"},{"issue":"6","key":"2025100914044153600_bib45","doi-asserted-by":"publisher","first-page":"460","DOI":"10.1016\/j.tics.2024.01.011","article-title":"Dissociating language and thought in large language models","volume":"28","author":"Mahowald","year":"2024","journal-title":"Trends in Cognitive Sciences"},{"issue":"3","key":"2025100914044153600_bib46","doi-asserted-by":"publisher","first-page":"108","DOI":"10.1016\/j.tics.2004.01.003","article-title":"Can language restructure cognition? The case for space","volume":"8","author":"Majid","year":"2004","journal-title":"Trends in Cognitive Sciences"},{"issue":"4","key":"2025100914044153600_bib47","doi-asserted-by":"publisher","first-page":"122","DOI":"10.1038\/scientificamerican0483-122","article-title":"Intuitive physics","volume":"248","author":"McCloskey","year":"1983","journal-title":"Scientific American"},{"key":"2025100914044153600_bib48","doi-asserted-by":"publisher","first-page":"3428","DOI":"10.18653\/v1\/P19-1334","article-title":"Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference","volume-title":"57th Annual Meeting of the Association for Computational Linguistics, ACL 2019","author":"Thomas McCoy","year":"2020"},{"key":"2025100914044153600_bib49","first-page":"17359","article-title":"Locating and editing factual associations in GPT","volume":"35","author":"Meng","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2025100914044153600_bib50","article-title":"Mass editing memory in a transformer","author":"Meng","year":"2023","journal-title":"The Eleventh International Conference on Learning Representations (ICLR)"},{"issue":"6014","key":"2025100914044153600_bib51","doi-asserted-by":"publisher","first-page":"176","DOI":"10.1126\/science.1199644","article-title":"Quantitative analysis of culture using millions of digitized books","volume":"331","author":"Michel","year":"2011","journal-title":"Science"},{"key":"2025100914044153600_bib52","article-title":"Distributed representations of words and phrases and their compositionality","volume":"26","author":"Mikolov","year":"2013","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2025100914044153600_bib53","doi-asserted-by":"publisher","first-page":"2928","DOI":"10.18653\/v1\/2023.eacl-main.213","article-title":"COMPS: Conceptual minimal pair sentences for testing robust property knowledge and its inheritance in pre-trained language models","volume-title":"Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics","author":"Misra","year":"2023"},{"key":"2025100914044153600_bib54","article-title":"MPT-30B: Raising the bar for open-source foundation models","author":"MosaicML","year":"2023","journal-title":"MosaicML"},{"key":"2025100914044153600_bib55","first-page":"2340","article-title":"Stress test evaluation for natural language inference","volume-title":"Proceedings of the 27th International Conference on Computational Linguistics","author":"Naik","year":"2018"},{"key":"2025100914044153600_bib56","first-page":"68772","article-title":"LLM evaluators recognize and favor their own generations","volume":"37","author":"Panickssery","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2025100914044153600_bib57","doi-asserted-by":"publisher","first-page":"15504","DOI":"10.18653\/v1\/2024.acl-long.828","article-title":"Steering Llama 2 via contrastive activation addition","volume-title":"Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)","author":"Panickssery","year":"2024"},{"key":"2025100914044153600_bib58","article-title":"Mapping language models to grounded conceptual spaces","volume-title":"Proceedings of the International Conference on Learning Representations","author":"Patel","year":"2021"},{"key":"2025100914044153600_bib59","doi-asserted-by":"publisher","first-page":"447","DOI":"10.1146\/annurev-linguistics-031120-122924","article-title":"Semantic structure in deep learning","volume":"8","author":"Pavlick","year":"2022","journal-title":"Annual Review of Linguistics"},{"key":"2025100914044153600_bib60","doi-asserted-by":"publisher","first-page":"1","DOI":"10.18653\/v1\/2021.starsem-1.1","article-title":"Did the cat drink the coffee? Challenging transformers with generalized event knowledge","volume-title":"Proceedings of SEM 2021: The Tenth Joint Conference on Lexical and Computational Semantics","author":"Pedinotti","year":"2021"},{"issue":"47","key":"2025100914044153600_bib61","doi-asserted-by":"publisher","first-page":"eabp9814","DOI":"10.1126\/sciadv.abp9814","article-title":"Different reference frames on different axes: Space and language in indigenous Amazonians","volume":"8","author":"Pitt","year":"2022","journal-title":"Science Advances"},{"key":"2025100914044153600_bib62","doi-asserted-by":"publisher","first-page":"180","DOI":"10.18653\/v1\/S18-2023","article-title":"Hypothesis only baselines in natural language inference","volume-title":"Proceedings of the Seventh Joint Conference on Lexical and Computational Semantics","author":"Poliak","year":"2018"},{"issue":"8","key":"2025100914044153600_bib63","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI blog"},{"issue":"1","key":"2025100914044153600_bib64","doi-asserted-by":"publisher","first-page":"76","DOI":"10.1038\/s42256-019-0132-2","article-title":"Learning as the unsupervised alignment of conceptual systems","volume":"2","author":"Roads","year":"2020","journal-title":"Nature Machine Intelligence"},{"issue":"9","key":"2025100914044153600_bib65","doi-asserted-by":"publisher","first-page":"99","DOI":"10.1145\/3474381","article-title":"Winogrande: An adversarial winograd schema challenge at scale","volume":"64","author":"Sakaguchi","year":"2021","journal-title":"Communications of the ACM"},{"key":"2025100914044153600_bib66","doi-asserted-by":"publisher","first-page":"4463","DOI":"10.18653\/v1\/D19-1454","article-title":"Social IQa: Commonsense reasoning about social interactions","volume-title":"Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)","author":"Sap","year":"2019"},{"issue":"10","key":"2025100914044153600_bib67","doi-asserted-by":"publisher","first-page":"e2307876121","DOI":"10.1073\/pnas.2307876121","article-title":"Large-scale evidence for logarithmic effects of word predictability on reading time","volume":"121","author":"Shain","year":"2024","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"2025100914044153600_bib68","doi-asserted-by":"publisher","first-page":"6863","DOI":"10.18653\/v1\/2020.coling-main.605","article-title":"Do neural language models overcome reporting bias?","volume-title":"Proceedings of the 28th International Conference on Computational Linguistics","author":"Shwartz","year":"2020"},{"issue":"43","key":"2025100914044153600_bib69","doi-asserted-by":"publisher","first-page":"e2200800119","DOI":"10.1073\/pnas.2200800119","article-title":"Neural representational geometry underlies few-shot concept learning","volume":"119","author":"Sorscher","year":"2022","journal-title":"Proceedings of the National Academy of Sciences"},{"issue":"1","key":"2025100914044153600_bib70","doi-asserted-by":"publisher","first-page":"89","DOI":"10.1111\/j.1467-7687.2007.00569.x","article-title":"Core knowledge","volume":"10","author":"Spelke","year":"2007","journal-title":"Developmental Science"},{"key":"2025100914044153600_bib71","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1017\/S0140525X24001328","article-title":"Cognitive representations of social relationships and their developmental origins","author":"Thomas","year":"2024","journal-title":"Behavioral and Brain Sciences"},{"key":"2025100914044153600_bib72","article-title":"Large language models fail on trivial alterations to theory-of-mind tasks","author":"Ullman","year":"2023","journal-title":"arXiv preprint arXiv:2302.08399. Version 5"},{"issue":"6","key":"2025100914044153600_bib73","doi-asserted-by":"publisher","first-page":"e12844","DOI":"10.1111\/cogs.12844","article-title":"Exploring what is encoded in distributional word vectors: A neurobiologically motivated analysis","volume":"44","author":"Utsumi","year":"2020","journal-title":"Cognitive Science"},{"key":"2025100914044153600_bib74","doi-asserted-by":"publisher","first-page":"377","DOI":"10.1162\/tacl_a_00321","article-title":"BLiMP: The benchmark of linguistic minimal pairs for english","volume":"8","author":"Warstadt","year":"2020","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"2025100914044153600_bib75","article-title":"Towards AI-complete question answering: A set of prerequisite toy tasks","volume-title":"4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2\u20134, 2016, Conference Track Proceedings","author":"Weston","year":"2016"},{"key":"2025100914044153600_bib76","article-title":"Efficient guided generation for large language models","author":"Willard","year":"2023","journal-title":"arXiv preprint arXiv:2307.09702. Version 4"},{"key":"2025100914044153600_bib77","doi-asserted-by":"publisher","first-page":"1112","DOI":"10.18653\/v1\/N18-1101","article-title":"A broad-coverage challenge corpus for sentence understanding through inference","volume-title":"Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)","author":"Williams","year":"2018"},{"key":"2025100914044153600_bib78","doi-asserted-by":"publisher","first-page":"38","DOI":"10.18653\/v1\/2020.emnlp-demos.6","article-title":"Transformers: State-of-the-art natural language processing","author":"Wolf","year":"2020","journal-title":"EMNLP 2020"},{"key":"2025100914044153600_bib79","article-title":"From word models to world models: Translating from natural language to the probabilistic language of thought","author":"Wong","year":"2023","journal-title":"arXiv preprint arXiv:2306.12672. Version 2"},{"key":"2025100914044153600_bib80","doi-asserted-by":"publisher","DOI":"10.1016\/j.tics.2024.02.008","article-title":"From task structures to world models: What do LLMs know?","author":"Yildirim","year":"2024","journal-title":"Trends in Cognitive Sciences"},{"key":"2025100914044153600_bib81","doi-asserted-by":"publisher","first-page":"4791","DOI":"10.18653\/v1\/P19-1472","article-title":"HellaSwag: Can a machine really finish your sentence?","volume-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","author":"Zellers","year":"2019"}],"container-title":["Transactions of the Association for Computational Linguistics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/TACL.a.38\/2557964\/tacl.a.38.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/TACL.a.38\/2557964\/tacl.a.38.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T18:04:53Z","timestamp":1760033093000},"score":1,"resource":{"primary":{"URL":"https:\/\/direct.mit.edu\/tacl\/article\/doi\/10.1162\/TACL.a.38\/133506\/Elements-of-World-Knowledge-EWoK-A-Cognition"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":81,"URL":"https:\/\/doi.org\/10.1162\/tacl.a.38","relation":{},"ISSN":["2307-387X"],"issn-type":[{"value":"2307-387X","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2025]]},"published":{"date-parts":[[2025]]}}}