{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T15:29:16Z","timestamp":1775230156873,"version":"3.50.1"},"reference-count":39,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,6,6]],"date-time":"2021-06-06T00:00:00Z","timestamp":1622937600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,6,6]],"date-time":"2021-06-06T00:00:00Z","timestamp":1622937600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,6,6]]},"DOI":"10.1109\/icassp39728.2021.9414776","type":"proceedings-article","created":{"date-parts":[[2021,5,13]],"date-time":"2021-05-13T15:53:45Z","timestamp":1620921225000},"page":"311-315","source":"Crossref","is-referenced-by-count":20,"title":["Probing Acoustic Representations for Phonetic Properties"],"prefix":"10.1109","author":[{"given":"Danni","family":"Ma","sequence":"first","affiliation":[{"name":"University of Pennsylvania,Department of Computer and Information Science"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Neville","family":"Ryant","sequence":"additional","affiliation":[{"name":"University of Pennsylvania,Linguistic Data Consortium"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mark","family":"Liberman","sequence":"additional","affiliation":[{"name":"University of Pennsylvania,Linguistic Data Consortium"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","article-title":"The Third DIHARD Diarization Challenge","author":"ryant","year":"2020"},{"key":"ref38","doi-asserted-by":"crossref","DOI":"10.21437\/CHiME.2020-1","article-title":"CHiME-6 challenge: Tackling multispeaker speech recognition for unsegmented recordings","author":"watanabe","year":"2020"},{"key":"ref33","author":"bauer","year":"2010","journal-title":"WTIMIT 1 0 (LDC2010S02)"},{"key":"ref32","author":"morales","year":"2008","journal-title":"STC-TIMIT 1 0 (LDC2008S03)"},{"key":"ref31","author":"garofolo","year":"1996","journal-title":"FFMTIMIT (LDC96S32)"},{"key":"ref30","author":"george","year":"1996","journal-title":"CTIMIT (LDC96S30)"},{"key":"ref37","article-title":"What all do audio transformer models hear? probing acoustic representations for language delivery and its structure","author":"shah","year":"2021"},{"key":"ref36","article-title":"DeCoAR 2.0: Deep contextualized acoustic representations with vector quantization","author":"ling","year":"2020"},{"key":"ref35","article-title":"skorch: A scikit-learn compatible neural network library that wraps PyTorch","author":"tietz","year":"2017"},{"key":"ref34","first-page":"2825","article-title":"Scikit-learn: Machine learning in Python","volume":"12","author":"pedregosa","year":"2011","journal-title":"Journal of Machine Learning Research"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054458"},{"key":"ref11","article-title":"Audio ALBERT: A lite BERT for self-supervised learning of audio representation","author":"chi","year":"2020"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.21437\/Odyssey.2020-2"},{"key":"ref13","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","author":"baevski","year":"2020"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053176"},{"key":"ref15","author":"garofalo","year":"2007","journal-title":"CSR-I (WSJ0) Complete (LDC93S6A)"},{"key":"ref16","first-page":"5206","article-title":"Librispeech: an ASR corpus based on public domain audio books","author":"panayotov","year":"2015","journal-title":"Proc ICASSP"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2605"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054675"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1112"},{"key":"ref28","author":"garofolo","year":"1993","journal-title":"TIMIT Acoustic-Phonetic Continuous Speech Corpus (LDC93S1)"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472619"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/29.46546"},{"key":"ref3","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2014-273","article-title":"Word embeddings for speech recognition","author":"bengio","year":"2014"},{"key":"ref6","article-title":"Multi-view recurrent neural acoustic word embeddings","author":"he","year":"2016"},{"key":"ref29","author":"fisher","year":"1993","journal-title":"NTIMIT (LDC93S2)"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-82"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1873"},{"key":"ref7","article-title":"Representation learning with contrastive predictive coding","author":"oord","year":"2018"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref9","article-title":"Speech-XLNet: Unsupervised acoustic model pretraining for self-attention networks","author":"song","year":"2019"},{"key":"ref1","first-page":"3111","article-title":"Distributed representations of words and phrases and their compositionality","author":"mikolov","year":"2013","journal-title":"NIPS 2013"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1198"},{"key":"ref22","article-title":"vq-wav2vec: Self-supervised learning of discrete speech representations","author":"baevski","year":"2019","journal-title":"Proc ICLR"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-4009"},{"key":"ref24","article-title":"S3prl: The self-supervised speech pre-training and representation learning toolkit","author":"liu","year":"2020"},{"key":"ref23","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"devlin","year":"2019","journal-title":"Proc EMNLP"},{"key":"ref26","first-page":"18","article-title":"librosa: Audio and music signal analysis in Python","volume":"8","author":"mcfee","year":"2015","journal-title":"Proc SciPy 2015"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-1202"}],"event":{"name":"ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Toronto, ON, Canada","start":{"date-parts":[[2021,6,6]]},"end":{"date-parts":[[2021,6,11]]}},"container-title":["ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9413349\/9413350\/09414776.pdf?arnumber=9414776","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,27]],"date-time":"2022-12-27T03:30:14Z","timestamp":1672111814000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9414776\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,6,6]]},"references-count":39,"URL":"https:\/\/doi.org\/10.1109\/icassp39728.2021.9414776","relation":{},"subject":[],"published":{"date-parts":[[2021,6,6]]}}}