{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,4]],"date-time":"2025-11-04T06:13:48Z","timestamp":1762236828971,"version":"build-2065373602"},"reference-count":48,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,8,25]],"date-time":"2025-08-25T00:00:00Z","timestamp":1756080000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,8,25]],"date-time":"2025-08-25T00:00:00Z","timestamp":1756080000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,8,25]]},"DOI":"10.1109\/ro-man63969.2025.11217645","type":"proceedings-article","created":{"date-parts":[[2025,11,3]],"date-time":"2025-11-03T18:42:29Z","timestamp":1762195349000},"page":"657-664","source":"Crossref","is-referenced-by-count":0,"title":["EmojiVoice: Towards long-term controllable expressivity in robot speech"],"prefix":"10.1109","author":[{"given":"Paige","family":"Tutt\u00f6s\u00ed","sequence":"first","affiliation":[{"name":"Simon Fraser University,School of Computing Science,Burnaby,Canada,8888"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shivam","family":"Mehta","sequence":"additional","affiliation":[{"name":"KTH Royal Institute of Technology,Division of Speech Music and Hearing"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zachary","family":"Syvenky","sequence":"additional","affiliation":[{"name":"Simon Fraser University,School of Computing Science,Burnaby,Canada,8888"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bermet","family":"Burkanova","sequence":"additional","affiliation":[{"name":"Simon Fraser University,School of Computing Science,Burnaby,Canada,8888"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gustav Eje","family":"Henter","sequence":"additional","affiliation":[{"name":"KTH Royal Institute of Technology,Division of Speech Music and Hearing"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Angelica","family":"Lim","sequence":"additional","affiliation":[{"name":"Simon Fraser University,School of Computing Science,Burnaby,Canada,8888"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.21437\/SpeechProsody.2010-93"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3290605.3300705"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(02)00071-7"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3319502.3374801"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.3389\/fnhum.2017.00295"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/s12369-016-0378-3"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1111\/j.1365-2729.2009.00317.x"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1111\/jcal.12632"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ROMAN.2012.6343815"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1016\/j.chb.2016.06.059"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10448291"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-398"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-1337"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.876129"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.21437\/Eurospeech.2001-151"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-122"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446023"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ETS61313.2024.10567471"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2018.2860628"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2022.3200740"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3278721.3278773"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.procs.2019.11.248"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.673"},{"year":"2021","key":"ref24","article-title":"Coquixtts"},{"article-title":"Natural language guidance of high-fidelity text-to-speech with synthetic annotations","year":"2024","author":"Lyth","key":"ref25"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/icassp39728.2021.9413889"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2840"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.3389\/fpsyg.2019.02221"},{"key":"ref29","first-page":"88","article-title":"First suggestions for an emotion annotation and representation language","volume":"6","author":"Schr\u00f6der","year":"2006","journal-title":"LREC"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1037\/\/0022-3514.52.6.1061"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/b978-0-12-558701-3.50007-7"},{"key":"ref32","article-title":"Emojineering part 1: Machine learning for emoji trends","volume":"30","author":"Dimson","year":"2015","journal-title":"Instagram Engineering Blog"},{"article-title":"Real-time message sentiment augmentation by emoji symbols","year":"2024","author":"Savage","key":"ref33"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.34190\/icair.4.1.3225"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611232"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2024.3428704"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.birob.2023.100131"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3568294.3580040"},{"article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"ICML","author":"Radford","key":"ref39"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2017.8246889"},{"article-title":"The llama 3 herd of models","year":"2024","author":"Dubey","key":"ref41"},{"issue":"1","key":"ref42","first-page":"22","article-title":"Investigating mos-x ratings of synthetic and human voices","volume":"2","author":"Lewis","year":"2018","journal-title":"Voice Interaction Design"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-715"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3613904.3642038"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2021.101255"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.21437\/SSW.2023-23"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3401117"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-1296"}],"event":{"name":"2025 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)","start":{"date-parts":[[2025,8,25]]},"location":"Eindhoven, Netherlands","end":{"date-parts":[[2025,8,29]]}},"container-title":["2025 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11217544\/11217526\/11217645.pdf?arnumber=11217645","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,4]],"date-time":"2025-11-04T06:10:23Z","timestamp":1762236623000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11217645\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,25]]},"references-count":48,"URL":"https:\/\/doi.org\/10.1109\/ro-man63969.2025.11217645","relation":{},"subject":[],"published":{"date-parts":[[2025,8,25]]}}}