{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,19]],"date-time":"2026-05-19T14:52:39Z","timestamp":1779202359787,"version":"3.51.4"},"reference-count":69,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100019827","name":"Meta","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100019827","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Select. Areas Commun."],"published-print":{"date-parts":[[2023,1]]},"DOI":"10.1109\/jsac.2022.3221953","type":"journal-article","created":{"date-parts":[[2022,11,16]],"date-time":"2022-11-16T20:38:13Z","timestamp":1668631093000},"page":"107-118","source":"Crossref","is-referenced-by-count":26,"title":["Txt2Vid: Ultra-Low Bitrate Compression of Talking-Head Videos via Text"],"prefix":"10.1109","volume":"41","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0617-9297","authenticated-orcid":false,"given":"Pulkit","family":"Tandon","sequence":"first","affiliation":[{"name":"Department of Electrical Engineering, Stanford University, Stanford, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shubham","family":"Chandak","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering, Stanford University, Stanford, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pat","family":"Pataranutaporn","sequence":"additional","affiliation":[{"name":"MIT Media Laboratory, MIT, Cambridge, MA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6742-2908","authenticated-orcid":false,"given":"Yimeng","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Computer Science, UC Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4445-3354","authenticated-orcid":false,"given":"Anesu M.","family":"Mapuranga","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering, Stanford University, Stanford, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7722-6038","authenticated-orcid":false,"given":"Pattie","family":"Maes","sequence":"additional","affiliation":[{"name":"MIT Media Laboratory, MIT, Cambridge, MA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tsachy","family":"Weissman","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering, Stanford University, Stanford, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8154-8518","authenticated-orcid":false,"given":"Misha","family":"Sra","sequence":"additional","affiliation":[{"name":"Department of Computer Science, UC Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2020.3036968"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073658"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2021.3087240"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01034"},{"key":"ref15","article-title":"Semantic communications: Principles and challenges","author":"qin","year":"2021","journal-title":"arXiv 2201 01389"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2010.2052239"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00991"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201292"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3461702.3462584"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1177\/2056305120903408"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2021.3071210"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073699"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/NSW.2011.6004632"},{"key":"ref54","article-title":"3D-TalkEmo: Learning to synthesize 3D emotional talking head","author":"wang","year":"2021","journal-title":"arXiv 2104 12051"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3017881"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12233"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2807588"},{"key":"ref18","article-title":"Scaling autoregressive video models","author":"weissenborn","year":"2020","journal-title":"Proc ICLR"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i3.16286"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00384"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-021-00417-9"},{"key":"ref45","author":"luce","year":"2012","journal-title":"Individual Choice Behavior A Theoretical Analysis"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3055564"},{"key":"ref47","first-page":"3821","article-title":"An information-theoretic justification for model pruning","author":"isik","year":"2022","journal-title":"Proc Int Conf Artif Intell Statist"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/1631272.1631339"},{"key":"ref41","author":"systems","year":"2021","journal-title":"Video Streaming Latency Report"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1093\/biomet\/39.3-4.324"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1126\/sciadv.aaw2594"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-021-01453-z"},{"key":"ref8","article-title":"MP3 and AAC explained","author":"brandenburg","year":"1999","journal-title":"Proc Audio Eng Soc Conf 17th Int Conf High-Quality Audio Coding"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/PCS.2018.8456249"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2014.2363139"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.comnet.2020.107495"},{"key":"ref3","year":"2021","journal-title":"Cisco Annual Internet Report (2018&#x2013;2023) White Paper"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"560","DOI":"10.1109\/TCSVT.2003.815165","article-title":"overview of the h.264\/avc video coding standard","volume":"13","author":"wiegand","year":"2003","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.2139\/ssrn.3689044"},{"key":"ref40","year":"2021","journal-title":"bzip2"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00520"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3323028"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/DCC50243.2021.00057"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865480"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3091863"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3099900"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073640"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2005.850964"},{"key":"ref2","doi-asserted-by":"crossref","DOI":"10.1016\/j.ijinfomgt.2020.102171","article-title":"Impact of digital surge during covid-19 pandemic: A viewpoint on research and practice","volume":"55","author":"de\u2019","year":"2020","journal-title":"Int J Inf Manage"},{"key":"ref1","year":"2021","journal-title":"Cisco Visual Networking Index Global Mobile Data Traffic Forecast Update"},{"key":"ref39","year":"2021","journal-title":"The gzip"},{"key":"ref38","year":"2021","journal-title":"RESEMBLE AI Create AI Voices That Sound Real"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2972856"},{"key":"ref68","first-page":"1","article-title":"Wav2vec 2.0: A framework for self-supervised learning of speech representations","volume":"33","author":"baevski","year":"2020","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2951463"},{"key":"ref67","year":"2021","journal-title":"Descript Ultra-Realistic Voice Cloning"},{"key":"ref26","article-title":"Video-to-video synthesis","author":"wang","year":"2018","journal-title":"Proc NIPS"},{"key":"ref25","first-page":"7137","article-title":"First order motion model for image animation","volume":"32","author":"siarohin","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref69","year":"2021","journal-title":"Google Text to Speech"},{"key":"ref20","first-page":"8821","article-title":"Zero-shot text-to-image generation","volume":"139","author":"ramesh","year":"2021","journal-title":"Proc 38th Int Conf Mach Learn"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2004.837256"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58517-4_42"},{"key":"ref22","article-title":"Generating images from captions with attention","author":"mansimov","year":"2016","journal-title":"Proc ICLR"},{"key":"ref66","author":"azure","year":"2021","journal-title":"Microsoft Text-to-Speech"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.707"},{"key":"ref65","year":"2021","journal-title":"Google Text-to-Speech"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413532"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58610-2_31"},{"key":"ref29","first-page":"1","article-title":"MakeltTalk: Speaker-aware talking-head animation","volume":"39","author":"zhou","year":"2020","journal-title":"ACM Trans Graph"},{"key":"ref60","first-page":"1","article-title":"Sound to visual: Hierarchical cross-modal talking face video generation","author":"chen","year":"2019","journal-title":"Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit Workshops"},{"key":"ref62","article-title":"Towards automatic face-to-face translation","author":"kr","year":"2019","journal-title":"Proc 27th ACM Int Conf Multimedia"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-019-01150-y"}],"container-title":["IEEE Journal on Selected Areas in Communications"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/49\/9991040\/09953071.pdf?arnumber=9953071","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,16]],"date-time":"2023-01-16T19:22:09Z","timestamp":1673896929000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9953071\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,1]]},"references-count":69,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/jsac.2022.3221953","relation":{},"ISSN":["0733-8716","1558-0008"],"issn-type":[{"value":"0733-8716","type":"print"},{"value":"1558-0008","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,1]]}}}