{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T11:39:21Z","timestamp":1776166761923,"version":"3.50.1"},"reference-count":28,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,3,24]],"date-time":"2026-03-24T00:00:00Z","timestamp":1774310400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100005278","name":"University of Antioquia","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100005278","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000002","name":"National Institutes of Health","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000002","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001659","name":"Deutsche Forschungsgemeinschaft","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001659","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001652","name":"Friedrich-Alexander-Universit\u00e4t Erlangen-N\u00fcrnberg","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001652","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Medical Image Analysis"],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1016\/j.media.2026.104053","type":"journal-article","created":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T18:58:15Z","timestamp":1774465095000},"page":"104053","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["A speech-to-video synthesis approach using spatio-temporal diffusion for vocal tract MRI"],"prefix":"10.1016","volume":"111","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2727-2116","authenticated-orcid":false,"given":"Paula Andrea","family":"P\u00e9rez-Toro","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9405-4154","authenticated-orcid":false,"given":"Tom\u00e1s","family":"Arias-Vergara","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0517-0952","authenticated-orcid":false,"given":"Fangxu","family":"Xing","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4514-2016","authenticated-orcid":false,"given":"Xiaofeng","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Maureen","family":"Stone","sequence":"additional","affiliation":[]},{"given":"Jiachen","family":"Zhuo","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8507-0782","authenticated-orcid":false,"given":"Juan Rafael","family":"Orozco-Arroyave","sequence":"additional","affiliation":[]},{"given":"Elmar","family":"N\u00f6th","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3476-3500","authenticated-orcid":false,"given":"Jana","family":"Hutter","sequence":"additional","affiliation":[]},{"given":"Jerry L.","family":"Prince","sequence":"additional","affiliation":[]},{"given":"Andreas","family":"Maier","sequence":"additional","affiliation":[]},{"given":"Jonghye","family":"Woo","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.media.2026.104053_bib0001","first-page":"8780","article-title":"Diffusion models beat gans on image synthesis","volume":"34","author":"Dhariwal","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104053_bib0002","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"12873","article-title":"Taming transformers for high-resolution image synthesis","author":"Esser","year":"2021"},{"issue":"11","key":"10.1016\/j.media.2026.104053_bib0003","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1145\/3422622","article-title":"Generative adversarial networks","volume":"63","author":"Goodfellow","year":"2020","journal-title":"Commun. ACM"},{"key":"10.1016\/j.media.2026.104053_bib0004","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"5784","article-title":"AD-NeRF: audio driven neural radiance fields for talking head synthesis","author":"Guo","year":"2021"},{"key":"10.1016\/j.media.2026.104053_bib0005","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"4","key":"10.1016\/j.media.2026.104053_bib0006","doi-asserted-by":"crossref","first-page":"307","DOI":"10.1561\/2200000056","article-title":"An introduction to variational autoencoders","volume":"12","author":"Kingma","year":"2019","journal-title":"Found. Trends\u00ae Mach. Learn."},{"issue":"1","key":"10.1016\/j.media.2026.104053_bib0007","doi-asserted-by":"crossref","first-page":"187","DOI":"10.1038\/s41597-021-00976-x","article-title":"A multispeaker dataset of raw and reconstructed speech production real-time MRI video and 3D volumetric images","volume":"8","author":"Lim","year":"2021","journal-title":"Sci. Data"},{"key":"10.1016\/j.media.2026.104053_bib0008","series-title":"International Conference on Learning Representations","article-title":"Pseudo numerical methods for diffusion models on manifolds","author":"Liu","year":"2021"},{"key":"10.1016\/j.media.2026.104053_bib0009","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"701","article-title":"Tagged-to-cine MRI sequence synthesis via light spatial-temporal transformer","author":"Liu","year":"2024"},{"key":"10.1016\/j.media.2026.104053_bib0010","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"435","article-title":"Speech audio synthesis from tagged mri and non-negative matrix factorization via plastic transformer","author":"Liu","year":"2023"},{"key":"10.1016\/j.media.2026.104053_bib0011","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10209","article-title":"VideoFusion: decomposed diffusion models for high-quality video generation","author":"Luo","year":"2023"},{"issue":"1","key":"10.1016\/j.media.2026.104053_bib0012","article-title":"MRI and the critical care patient: clinical, operational, and financial challenges","volume":"2023","author":"McLean","year":"2023","journal-title":"Crit. Care Res. Pract."},{"issue":"1","key":"10.1016\/j.media.2026.104053_bib0013","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1145\/3503250","article-title":"NeRF: representing scenes as neural radiance fields for view synthesis","volume":"65","author":"Mildenhall","year":"2021","journal-title":"Commun. ACM"},{"key":"10.1016\/j.media.2026.104053_bib0014","doi-asserted-by":"crossref","unstructured":"Nguyen, H., Foley, S., Huang, K., Shi, X., Feng, T., Narayanan, S., 2024. Speech2rtMRI: speech-guided diffusion model for real-time MRI video of the vocal tract during speech. arXiv preprint arXiv: 2409.15525.","DOI":"10.1109\/ICASSP49660.2025.10890859"},{"key":"10.1016\/j.media.2026.104053_bib0015","unstructured":"openAI, 2024. Video generation models as world simulators. https:\/\/openai.com\/research\/video-generation-models-as-world-simulators. Accessed: 2025-02-28."},{"key":"10.1016\/j.media.2026.104053_bib0016","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"14277","article-title":"Toward verifiable and reproducible human evaluation for text-to-image generation","author":"Otani","year":"2023"},{"key":"10.1016\/j.media.2026.104053_bib0017","series-title":"Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH","first-page":"127","article-title":"Speech synthesis from articulatory movements recorded by real-time MRI","volume":"Vol. 2023","author":"Otani","year":"2023"},{"key":"10.1016\/j.media.2026.104053_bib0018","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10619","article-title":"Diffusion autoencoders: toward a meaningful and decodable representation","author":"Preechakul","year":"2022"},{"key":"10.1016\/j.media.2026.104053_bib0019","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.media.2026.104053_bib0020","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.specom.2022.04.004","article-title":"Automatic generation of the complete vocal tract shape from the sequence of phonemes to be articulated","volume":"141","author":"Ribeiro","year":"2022","journal-title":"Speech Commun."},{"key":"10.1016\/j.media.2026.104053_bib0021","series-title":"Interspeech 2012","first-page":"74","article-title":"UltraX: an animated midsagittal vocal tract display for speech therapy","author":"Richmond","year":"2012"},{"key":"10.1016\/j.media.2026.104053_bib0022","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10684","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"issue":"6","key":"10.1016\/j.media.2026.104053_bib0023","doi-asserted-by":"crossref","first-page":"604","DOI":"10.1016\/j.ejmp.2014.05.001","article-title":"Speech MRI: morphology and function","volume":"30","author":"Scott","year":"2014","journal-title":"Physica Med."},{"key":"10.1016\/j.media.2026.104053_bib0024","unstructured":"Wang, J., Yuan, H., Chen, D., Zhang, Y., Wang, X., Zhang, S., 2023. Modelscope text-to-video technical report. arXiv preprint arXiv: 2308.06571."},{"key":"10.1016\/j.media.2026.104053_bib0025","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"2531","article-title":"One-shot talking face generation from single-speaker audio-visual correlation learning","volume":"Vol. 36","author":"Wang","year":"2022"},{"key":"10.1016\/j.media.2026.104053_bib0026","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"22168","article-title":"Speech2Lip: high-fidelity speech to lip generation by learning from a short video","author":"Wu","year":"2023"},{"issue":"4","key":"10.1016\/j.media.2026.104053_bib0027","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3626235","article-title":"Diffusion models: a comprehensive survey of methods and applications","volume":"56","author":"Yang","year":"2023","journal-title":"ACM Comput. Surv."},{"key":"10.1016\/j.media.2026.104053_bib0028","first-page":"448","article-title":"Motor speech disorders","author":"Ziegler","year":"2019","journal-title":"Oxford Handb. Neurolinguistics"}],"container-title":["Medical Image Analysis"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001210?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001210?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T10:32:16Z","timestamp":1776162736000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1361841526001210"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6]]},"references-count":28,"alternative-id":["S1361841526001210"],"URL":"https:\/\/doi.org\/10.1016\/j.media.2026.104053","relation":{},"ISSN":["1361-8415"],"issn-type":[{"value":"1361-8415","type":"print"}],"subject":[],"published":{"date-parts":[[2026,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"A speech-to-video synthesis approach using spatio-temporal diffusion for vocal tract MRI","name":"articletitle","label":"Article Title"},{"value":"Medical Image Analysis","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.media.2026.104053","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Author(s). Published by Elsevier B.V.","name":"copyright","label":"Copyright"}],"article-number":"104053"}}