{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,5]],"date-time":"2026-07-05T12:29:47Z","timestamp":1783254587313,"version":"3.54.6"},"reference-count":29,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,4]]},"DOI":"10.1109\/icassp.2018.8461684","type":"proceedings-article","created":{"date-parts":[[2018,9,21]],"date-time":"2018-09-21T22:24:48Z","timestamp":1537568688000},"page":"126-130","source":"Crossref","is-referenced-by-count":68,"title":["Unsupervised Learning of Semantic Audio Representations"],"prefix":"10.1109","author":[{"given":"Aren","family":"Jansen","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Manoj","family":"Plakal","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ratheet","family":"Pandya","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Daniel P. W.","family":"Ellis","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shawn","family":"Hershey","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jiayang","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"R. Channing","family":"Moore","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Rif A.","family":"Saurous","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref10","article-title":"Audio set: A strongly labeled dataset of audio events","author":"gemmeke","year":"2017","journal-title":"Proceedings of ICASSP"},{"key":"ref11","first-page":"1096","article-title":"Unsupervised feature learning for audio classification using convolutional deep belief networks","author":"lee","year":"2009","journal-title":"Advances in neural information processing systems"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"1230","DOI":"10.1109\/TASLP.2017.2690563","article-title":"Unsupervised feature learning based on deep models for environmental audio tagging","volume":"25","author":"yong","year":"2017","journal-title":"IEEE\/ACM Transactions on Audio Speech and Language Processing"},{"key":"ref13","first-page":"313","article-title":"Learning a metric for music similarity","author":"slaney","year":"2008","journal-title":"International Society for Music Information Retrieval"},{"key":"ref14","first-page":"3169","article-title":"The Zero Resource Speech Challenge 2015","author":"versteegh","year":"2015","journal-title":"InterSpeech"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639241"},{"key":"ref16","first-page":"1073","article-title":"Weak semantic context helps phonetic learning in a model of infant language acquisition","author":"frank","year":"2014","journal-title":"ACL"},{"key":"ref17","first-page":"106","article-title":"Phonetics embedding learning with side information","author":"synnaeve","year":"2014","journal-title":"Proc IEEE\/ACL Workshop Spoken Lang Technol (SLT)"},{"key":"ref18","first-page":"5818","article-title":"Unsupervised neural network based feature extraction using weak top-down constraints","author":"kamper","year":"2015","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-811"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"ref4","article-title":"A first attempt at polyphonic sound event detection using connectionist temporal classification","author":"wang","year":"2017","journal-title":"Proc of ICASSP"},{"key":"ref27","author":"kamper","year":"2017","journal-title":"Visually grounded learning of keyword prediction from untranscribed speech"},{"key":"ref3","author":"cakir","year":"2017","journal-title":"Convolutional recurrent neural networks for polyphonic sound event detection"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.320"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"52","DOI":"10.1007\/978-3-642-21735-7_7","article-title":"Stacked convolutional auto-encoders for hierarchical feature extraction","author":"masci","year":"2011","journal-title":"Artificial Neural Networks and Machine Learning-ICANN 2011"},{"key":"ref5","first-page":"649","article-title":"Colorful image colorization","author":"zhang","year":"2016","journal-title":"European Conference on Computer Vision"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.180"},{"key":"ref7","first-page":"207","article-title":"Distance metric learning for large margin nearest neighbor classification","volume":"10","author":"weinberger","year":"2009","journal-title":"Journal of Machine Learning Research"},{"key":"ref2","first-page":"131","article-title":"CNN architectures for large-scale audio classification","author":"chaudhuri","year":"2017","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"84","DOI":"10.1007\/978-3-319-24261-3_7","article-title":"Deep metric learning using triplet network","author":"hoffer","year":"2015","journal-title":"International Workshop on Similarity-Based Pattern Recognition"},{"key":"ref1","author":"takahashi","year":"2016","journal-title":"Deep convolutional neural networks and data augmentation for acoustic event detection"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472619"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.278"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.13"},{"key":"ref24","author":"arandjelovi?","year":"2017","journal-title":"Look listen and learn"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.167"},{"key":"ref26","first-page":"1858","article-title":"Unsu-pervised learning of spoken language with visual context","author":"harwath","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref25","first-page":"892","article-title":"Soundnet: Learning sound representations from unlabeled video","author":"aytar","year":"2016","journal-title":"Advances in neural information processing systems"}],"event":{"name":"ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Calgary, AB","start":{"date-parts":[[2018,4,15]]},"end":{"date-parts":[[2018,4,20]]}},"container-title":["2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8450881\/8461260\/08461684.pdf?arnumber=8461684","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,8,24]],"date-time":"2020-08-24T05:42:59Z","timestamp":1598247779000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8461684\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,4]]},"references-count":29,"URL":"https:\/\/doi.org\/10.1109\/icassp.2018.8461684","relation":{},"subject":[],"published":{"date-parts":[[2018,4]]}}}