{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T15:28:26Z","timestamp":1775230106091,"version":"3.50.1"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,18]]},"DOI":"10.1109\/ijcnn52387.2021.9534474","type":"proceedings-article","created":{"date-parts":[[2021,9,21]],"date-time":"2021-09-21T20:40:52Z","timestamp":1632256852000},"page":"1-8","source":"Crossref","is-referenced-by-count":102,"title":["BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation"],"prefix":"10.1109","author":[{"given":"Daisuke","family":"Niizumi","sequence":"first","affiliation":[{"name":"NTT Corporation,Japan"}]},{"given":"Daiki","family":"Takeuchi","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}]},{"given":"Yasunori","family":"Ohishi","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}]},{"given":"Noboru","family":"Harada","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}]},{"given":"Kunio","family":"Kashino","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2655045"},{"key":"ref32","first-page":"1068","article-title":"Neural audio synthesis of musical notes with WaveNet autoencoders","author":"engel","year":"2017","journal-title":"ICML"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3292500.3330701"},{"key":"ref30","first-page":"448","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","author":"ioffe","year":"2015","journal-title":"ICML"},{"key":"ref36","article-title":"Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition","author":"warden","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref35","author":"maclean","year":"2018","journal-title":"VoxForge"},{"key":"ref34","first-page":"2616","article-title":"Voxceleb: A large-scale speaker identification dataset","author":"nagrani","year":"0","journal-title":"Proc Interspeech 2017"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053569"},{"key":"ref11","article-title":"Unsupervised Contrastive Learning of Sound Event Representations","author":"fonseca","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461684"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1242"},{"key":"ref14","article-title":"Contrastive learning of general-purpose audio representations","author":"saeed","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref15","article-title":"mixup: Beyond empirical risk minimization","author":"zhang","year":"2018","journal-title":"ICLRE"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1002\/9781119991298"},{"key":"ref17","article-title":"Towards domain-agnostic contrastive learning","author":"verma","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref18","article-title":"i-mix: A strategy for regularizing contrastive representation learning","author":"lee","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref19","author":"favory","year":"0","journal-title":"Coala Co-aligned autoencoders for learning semantically enriched audio representations"},{"key":"ref28","article-title":"Voicegrad: Non-parallel any-to-many voice conversion with annealed langevin dynamics","author":"kameoka","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3031549"},{"key":"ref27","first-page":"6105","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","author":"tan","year":"2019","journal-title":"ICML"},{"key":"ref3","article-title":"Self-supervised learning: Generative or contrastive","author":"liu","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref6","article-title":"Improved baselines with momentum contrastive learning","author":"chen","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref29","first-page":"356","article-title":"Deep convolutional neural network with mixup for environmental sound classification","author":"zhang","year":"2018","journal-title":"PRCV"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"ref8","article-title":"Bootstrap your own latent - a new approach to self-supervised learning","author":"grill","year":"2020","journal-title":"NeurIPS"},{"key":"ref7","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"chen","year":"2020","journal-title":"ICML"},{"key":"ref2","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref9","article-title":"Representation learning with contrastive predictive coding","author":"van den oord","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref1","article-title":"Language models are few-shot learners","author":"brown","year":"2020","journal-title":"NeurIPS"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682475"},{"key":"ref22","first-page":"776","article-title":"Audio set: An ontology and human-labeled dataset for audio events","author":"gemmeke","year":"2017","journal-title":"ICASSP"},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9781107279667","author":"calafiore","year":"2014","journal-title":"Optimization Model"},{"key":"ref24","article-title":"The NTT DCASE2020 challenge task 6 system: Automated audio captioning with keywords and sentence length estimation","author":"koizumi","year":"2020","journal-title":"DCASE2020 Challenge"},{"key":"ref23","article-title":"Fsd50k: an open dataset of human-labeled sound events","author":"fonseca","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref25","first-page":"190","article-title":"Effects of word-frequency based pre- and post- processings for audio captioning","author":"takeuchi","year":"2020","journal-title":"DCASE2020"}],"event":{"name":"2021 International Joint Conference on Neural Networks (IJCNN)","location":"Shenzhen, China","start":{"date-parts":[[2021,7,18]]},"end":{"date-parts":[[2021,7,22]]}},"container-title":["2021 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9533266\/9533267\/09534474.pdf?arnumber=9534474","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T23:33:02Z","timestamp":1659483182000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9534474\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,18]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/ijcnn52387.2021.9534474","relation":{},"subject":[],"published":{"date-parts":[[2021,7,18]]}}}