{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T04:45:18Z","timestamp":1782362718222,"version":"3.54.5"},"reference-count":81,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,12,19]],"date-time":"2025-12-19T00:00:00Z","timestamp":1766102400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Computers and Education: Artificial Intelligence"],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1016\/j.caeai.2025.100539","type":"journal-article","created":{"date-parts":[[2025,12,20]],"date-time":"2025-12-20T23:26:10Z","timestamp":1766273170000},"page":"100539","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":2,"special_numbering":"C","title":["EvalYaks: Instruction tuning datasets and LoRA fine-tuned models for automated scoring of CEFR B2 speaking assessment transcripts"],"prefix":"10.1016","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-8699-0312","authenticated-orcid":false,"given":"Nicy","family":"Scaria","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Silvester","family":"John Joseph Kennedy","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Thomas","family":"Latinovich","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5972-8878","authenticated-orcid":false,"given":"Deepak","family":"Subramani","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.caeai.2025.100539_bib0005","author":"Achiam"},{"key":"10.1016\/j.caeai.2025.100539_bib0010","series-title":"Mastery learning: Theory and practice","author":"Airasian","year":"1971"},{"key":"10.1016\/j.caeai.2025.100539_bib0015","first-page":"15","article-title":"Building new corpora for English profile","volume":"33","author":"Alexopoulou","year":"2008","journal-title":"Research Notes"},{"key":"10.1016\/j.caeai.2025.100539_bib0020","unstructured":"Anthropic. 2024. Introducing the next generation of Claude. https:\/\/www.anthropic.com\/news\/claude-3-family."},{"key":"10.1016\/j.caeai.2025.100539_bib0025","series-title":"Proceedings of the 2022 conference on empirical methods in natural language processing","first-page":"6206","article-title":"Cefr-based sentence difficulty annotation and assessment","author":"Arase","year":"2022"},{"key":"10.1016\/j.caeai.2025.100539_bib0030","author":"Bai"},{"issue":"1","key":"10.1016\/j.caeai.2025.100539_bib0035","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1007\/s11092-008-9068-5","article-title":"Developing the theory of formative assessment","volume":"21","author":"Black","year":"2009","journal-title":"Educational Assessment, Evaluation and Accountability (formerly: Journal of Personnel Evaluation in Education)"},{"key":"10.1016\/j.caeai.2025.100539_bib0040","first-page":"1877","article-title":"Language models are few-shot learners","volume":"33","author":"Brown","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.caeai.2025.100539_bib0045","unstructured":"Cambridge. 2023. B2 first handbook for teachers for exams. https:\/\/www.cambridgeenglish.org\/images\/167791-b2-first-handbook.pdf."},{"key":"10.1016\/j.caeai.2025.100539_bib0050","series-title":"Findings of the Association for Computational Linguistics: EMNLP 2023","first-page":"14815","article-title":"Mixture of soft prompts for controllable data generation","author":"Chen","year":"2023"},{"key":"10.1016\/j.caeai.2025.100539_bib0055","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"17808","article-title":"Benchmarking large language models on controllable generation under diversified instructions","volume":"Vol. 38","author":"Chen","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0060","author":"Comanici"},{"key":"10.1016\/j.caeai.2025.100539_bib0065","series-title":"Council for Cultural Co-Operation. Education committee. Modern Languages division, common European framework of reference for Languages: Learning, teaching, assessment","year":"2001"},{"key":"10.1016\/j.caeai.2025.100539_bib0070","unstructured":"Council of Europe. 2020. Council of Europe (2020), common European Framework of reference for languages: Learning teaching, assessment \u2013 companion volume. https:\/\/www.coe.int\/en\/web\/common-european-framework-reference-languages."},{"key":"10.1016\/j.caeai.2025.100539_bib0075","series-title":"Proceedings of the 30th ACM SIGKDD conference on knowledge discovery and data mining (PP","first-page":"6437","article-title":"Bias and unfairness in information retrieval systems: New challenges in the LLM era","author":"Dai","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0080","author":"Dan"},{"key":"10.1016\/j.caeai.2025.100539_bib0085","doi-asserted-by":"crossref","first-page":"10088","DOI":"10.52202\/075280-0441","article-title":"Qlora: Efficient finetuning of quantized llms","volume":"36","author":"Dettmers","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.caeai.2025.100539_bib0090","series-title":"Centre for Research in English language Learning and Assessment, the Englishscore Test: Test purpose and content, validity report","year":"2023"},{"key":"10.1016\/j.caeai.2025.100539_bib0095","series-title":"Findings of the Association for Computational Linguistics: NAACL 2024","first-page":"3067","article-title":"Exploring automated distractor generation for math multiple-choice questions via large language models","author":"Feng","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0100","first-page":"8","article-title":"The development of a set of assessment criteria for speaking tests","volume":"13","author":"Ffrench","year":"2003","journal-title":"Research Notes"},{"issue":"3","key":"10.1016\/j.caeai.2025.100539_bib0105","doi-asserted-by":"crossref","first-page":"1097","DOI":"10.1162\/coli_a_00524","article-title":"Bias and fairness in large language models: A survey","volume":"50","author":"Gallegos","year":"2024","journal-title":"Computational Linguistics"},{"key":"10.1016\/j.caeai.2025.100539_bib0110","author":"Gu"},{"issue":"1","key":"10.1016\/j.caeai.2025.100539_bib0115","first-page":"58","article-title":"Using spoken language technology for generating feedback to prepare for the Toefl ibt\u00ae test: A user perception study","volume":"28","author":"Gu","year":"2021","journal-title":"Assessment in Education: Principles, Policy & Practice"},{"key":"10.1016\/j.caeai.2025.100539_bib0120","article-title":"Parameter-efficient fine-tuning for large models: A comprehensive survey","author":"Han","year":"2024","journal-title":"Transactions on Machine Learning Research"},{"key":"10.1016\/j.caeai.2025.100539_bib0125","series-title":"International Conference on Learning representations","article-title":"Lora: Low-rank adaptation of large language models","author":"Hu","year":"2022"},{"key":"10.1016\/j.caeai.2025.100539_bib0130","series-title":"International Conference on Learning representations","article-title":"Lora: Low-rank adaptation of large language models","author":"Hu","year":"2022"},{"key":"10.1016\/j.caeai.2025.100539_bib0135","author":"Hurst"},{"key":"10.1016\/j.caeai.2025.100539_bib0140","unstructured":"IELTS. 2017. Ielts life skills test. https:\/\/ielts.org\/take-a-test\/test-types\/ielts-life-skills-test (accessed: 22 January 2024)."},{"issue":"7","key":"10.1016\/j.caeai.2025.100539_bib0145","doi-asserted-by":"crossref","first-page":"1338","DOI":"10.1080\/09588221.2021.1987272","article-title":"Chatbot-assisted Dynamic Assessment (ca-da) for l2 vocabulary learning and diagnosis","volume":"36","author":"Jeon","year":"2023","journal-title":"Computer Assisted Language Learning"},{"issue":"1","key":"10.1016\/j.caeai.2025.100539_bib0150","doi-asserted-by":"crossref","first-page":"48","DOI":"10.1080\/15391523.2022.2142873","article-title":"A systematic review of conversational AI in language education: Focusing on the collaboration with human teachers","volume":"55","author":"Ji","year":"2023","journal-title":"Journal of Research on Technology in Education"},{"issue":"12","key":"10.1016\/j.caeai.2025.100539_bib0155","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3571730","article-title":"Survey of hallucination in natural language generation","volume":"55","author":"Ji","year":"2023","journal-title":"ACM Computing Surveys"},{"key":"10.1016\/j.caeai.2025.100539_bib0160","author":"Jiang"},{"key":"10.1016\/j.caeai.2025.100539_bib0165","author":"Jiang"},{"key":"10.1016\/j.caeai.2025.100539_bib0170","doi-asserted-by":"crossref","DOI":"10.1016\/j.lindif.2023.102274","article-title":"Chatgpt for good? On opportunities and challenges of large language models for education","volume":"103","author":"Kasneci","year":"2023","journal-title":"Learning and Individual Differences"},{"key":"10.1016\/j.caeai.2025.100539_bib0175","series-title":"Proceedings of the 2023 conference on empirical methods in natural language processing","first-page":"9004","article-title":"Critiquellm: Scaling llm-as-critic for effective and explainable evaluation of large language model generation. Corr, abs\/2311.18702. Detection for generative large language models","author":"Ke","year":"2023"},{"key":"10.1016\/j.caeai.2025.100539_bib0180","author":"Kortemeyer"},{"key":"10.1016\/j.caeai.2025.100539_bib0185","author":"Krumdick"},{"key":"10.1016\/j.caeai.2025.100539_bib0190","author":"Lee"},{"key":"10.1016\/j.caeai.2025.100539_bib0195","author":"Lialin"},{"key":"10.1016\/j.caeai.2025.100539_bib0200","author":"Liu"},{"key":"10.1016\/j.caeai.2025.100539_bib0205","author":"Liu"},{"key":"10.1016\/j.caeai.2025.100539_bib0210","series-title":"International Conference on Learning representations","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2018"},{"key":"10.1016\/j.caeai.2025.100539_bib0215","series-title":"Findings of the Association for Computational Linguistics ACL 2024","first-page":"2039","article-title":"Chatkbqa: A generate-then-retrieve framework for knowledge base question answering with fine-tuned large language models","author":"Luo","year":"2024"},{"issue":"4","key":"10.1016\/j.caeai.2025.100539_bib0220","doi-asserted-by":"crossref","first-page":"942","DOI":"10.3390\/electronics12040942","article-title":"Scaling automated programming assessment systems","volume":"12","author":"Mekterovi\u0107","year":"2023","journal-title":"Electronics"},{"key":"10.1016\/j.caeai.2025.100539_bib0225","series-title":"ACL","article-title":"Cross-task generalization via natural language crowdsourcing instructions","author":"Mishra","year":"2022"},{"issue":"3","key":"10.1016\/j.caeai.2025.100539_bib0230","doi-asserted-by":"crossref","first-page":"331","DOI":"10.1080\/03075070802066164","article-title":"Economies of scale and scope in e-learning","volume":"33","author":"Morris","year":"2008","journal-title":"Studies in Higher Education"},{"issue":"1","key":"10.1016\/j.caeai.2025.100539_bib0235","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s13748-023-00295-9","article-title":"Automatic question generation: A review of methodologies, datasets, evaluation metrics, and applications","volume":"12","author":"Mulla","year":"2023","journal-title":"Progress in Artificial Intelligence"},{"key":"10.1016\/j.caeai.2025.100539_bib0240","article-title":"A core inventory for general English, British Council\/Eaquals","author":"North","year":"2010","journal-title":"Retrieved August 3rd from"},{"key":"10.1016\/j.caeai.2025.100539_bib0245","doi-asserted-by":"crossref","first-page":"27730","DOI":"10.52202\/068431-2011","article-title":"Training language models to follow instructions with human feedback","volume":"35","author":"Ouyang","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.caeai.2025.100539_bib0250","author":"Rama"},{"key":"10.1016\/j.caeai.2025.100539_bib0255","article-title":"Assessing the quality of automatic-generated short answers using gpt-4","volume":"7","author":"Rodrigues","year":"2024","journal-title":"Computers and Education: Artificial Intelligence"},{"key":"10.1016\/j.caeai.2025.100539_bib0260","series-title":"International Conference on Learning representations","article-title":"Multitask prompted training enables zero-shot task generalization","author":"Sanh","year":"2021"},{"key":"10.1016\/j.caeai.2025.100539_bib0265","series-title":"Findings of the Association for Computational Linguistics ACL 2024","first-page":"9652","article-title":"Pushing the limits of low-resource NER using LLM artificial data generation","author":"Santoso","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0270","series-title":"Proceedings of the 19th workshop on innovative use of NLP for building educational applications (BEA 2024)","first-page":"1","article-title":"How good are modern llms in generating relevant and high-quality questions at different bloom\u2019s skill levels for Indian high school social science curriculum?","author":"Scaria","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0275","series-title":"International Conference on Artificial Intelligence in Education (PP","first-page":"165","article-title":"Automated educational question generation at different bloom\u2019s skill levels using large language models: Strategies and evaluation","author":"Scaria","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0280","author":"Schneider"},{"key":"10.1016\/j.caeai.2025.100539_bib0285","series-title":"KDD workshop on data mining for educational assessment and feedback (ASSESS 2014)","article-title":"Some scaling laws for MOOC assessments","author":"Shah","year":"2014"},{"key":"10.1016\/j.caeai.2025.100539_bib0290","series-title":"Proceedings of the 19th workshop on innovative use of NLP for building educational applications (BEA 2024) (PP","first-page":"283","article-title":"Exploring LLM prompting strategies for joint essay scoring and feedback generation","author":"Stahl","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0295","series-title":"Proceedings of the 30th International Conference on intelligent user interfaces","first-page":"952","article-title":"Limitations of the LLM-as-a-judge approach for evaluating LLM outputs in expert knowledge tasks","author":"Szymanski","year":"2025"},{"issue":"3","key":"10.1016\/j.caeai.2025.100539_bib0300","doi-asserted-by":"crossref","first-page":"1485","DOI":"10.1080\/10494820.2020.1841801","article-title":"The impact of Google assistant on adolescent EFL learners\u2019 willingness to communicate","volume":"31","author":"Tai","year":"2023","journal-title":"Interactive Learning Environments"},{"issue":"6","key":"10.1016\/j.caeai.2025.100539_bib0305","first-page":"7","article-title":"Alpaca: A strong, replicable instruction-following model","volume":"3","author":"Taori","year":"2023","journal-title":"Stanford Center for Research on Foundation Models"},{"key":"10.1016\/j.caeai.2025.100539_bib0310","first-page":"2","article-title":"The Cambridge approach to speaking assessment","volume":"13","author":"Taylor","year":"2003","journal-title":"Research Notes"},{"key":"10.1016\/j.caeai.2025.100539_bib0315","author":"Team"},{"key":"10.1016\/j.caeai.2025.100539_bib0320","author":"Team"},{"key":"10.1016\/j.caeai.2025.100539_bib0325","author":"Touvron"},{"key":"10.1016\/j.caeai.2025.100539_bib0330","author":"Ubani"},{"key":"10.1016\/j.caeai.2025.100539_bib0335","unstructured":"University of Cambridge ESOL Examinations. 2011. Using CEFR: Principles of good practice. (accessed: 30 March (2024))"},{"key":"10.1016\/j.caeai.2025.100539_bib0340","author":"Veselovsky"},{"key":"10.1016\/j.caeai.2025.100539_bib0345","series-title":"EMNLP","article-title":"Super-naturalinstructions: Generalization via declarative instructions on 1600+ tasks","author":"Wang","year":"2022"},{"key":"10.1016\/j.caeai.2025.100539_bib0350","series-title":"The twelfth International Conference on Learning representations","article-title":"Pandalm: An automatic evaluation benchmark for LLM instruction tuning optimization","author":"Wang","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0355","doi-asserted-by":"crossref","first-page":"24824","DOI":"10.52202\/068431-1800","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume":"35","author":"Wei","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"2","key":"10.1016\/j.caeai.2025.100539_bib0360","doi-asserted-by":"crossref","DOI":"10.1002\/j.2333-8504.2008.tb02148.x","article-title":"Automated scoring of spontaneous speech using speechratersm v1. 0","volume":"2008","author":"Xi","year":"2008","journal-title":"ETS Research Report Series"},{"key":"10.1016\/j.caeai.2025.100539_bib0365","series-title":"Proceedings of the 18th workshop on innovative use of NLP for building educational applications (BEA 2023)","first-page":"576","article-title":"Rating short l2 essays on the Cefr scale with gpt-4","author":"Yancey","year":"2023"},{"key":"10.1016\/j.caeai.2025.100539_bib0370","author":"Yang"},{"key":"10.1016\/j.caeai.2025.100539_bib0375","author":"Yang"},{"key":"10.1016\/j.caeai.2025.100539_bib0380","series-title":"Neurips safe generative AI workshop","article-title":"Justice or prejudice? Quantifying biases in llm-as-a-judge","author":"Ye","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0385","series-title":"The twelfth International Conference on Learning representations","article-title":"Metamath: Bootstrap your own mathematical questions for large language models","author":"Yu","year":"2024"},{"key":"10.1016\/j.caeai.2025.100539_bib0390","author":"Zhang"},{"key":"10.1016\/j.caeai.2025.100539_bib0395","article-title":"Judging llm-as-a-judge with Mt-Bench and Chatbot Arena","volume":"36","author":"Zheng","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.caeai.2025.100539_bib0400","article-title":"Lima: Less is more for alignment","volume":"36","author":"Zhou","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.caeai.2025.100539_bib0405","series-title":"The thirteenth International Conference on Learning representations","article-title":"Judgelm: Fine-tuned large language models are scalable judges","author":"Zhu","year":"2025"}],"container-title":["Computers and Education: Artificial Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2666920X25001791?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2666920X25001791?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,23]],"date-time":"2026-06-23T12:46:17Z","timestamp":1782218777000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S2666920X25001791"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6]]},"references-count":81,"alternative-id":["S2666920X25001791"],"URL":"https:\/\/doi.org\/10.1016\/j.caeai.2025.100539","relation":{},"ISSN":["2666-920X"],"issn-type":[{"value":"2666-920X","type":"print"}],"subject":[],"published":{"date-parts":[[2026,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"EvalYaks: Instruction tuning datasets and LoRA fine-tuned models for automated scoring of CEFR B2 speaking assessment transcripts","name":"articletitle","label":"Article Title"},{"value":"Computers and Education: Artificial Intelligence","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.caeai.2025.100539","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 The Authors. Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"100539"}}