{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T18:28:56Z","timestamp":1769711336859,"version":"3.49.0"},"reference-count":31,"publisher":"SAGE Publications","issue":"1","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IFS"],"published-print":{"date-parts":[[2023,7,2]]},"abstract":"<jats:p>Intonation evaluation is an important precondition that offers guidance to music practices. This paper present a new intonation quality evaluation method based on self-supervised learning to solve the fuzzy evaluation problem at the critical intonations. Firstly, the effective features of audios are automatically extracted by a self-supervised learning-based deep neural network. Secondly, the intonation evaluation of the single tones and pitch intervals are carried out by combining with the key local features of the audios. Finally, the intonation evaluation method characterized by physical calculations, which simulates and enhances the manual assessment. Experimental results show that the proposed method achieved the accuracy of 93.38% which is the average value of multiple experimental results obtained by randomly assigning audio data, which is much higher than that of the frequency-based intonation evaluation method(37.5%). In addition, this method has been applied in music teaching for the first time and delivers visual evaluation results.<\/jats:p>","DOI":"10.3233\/jifs-230165","type":"journal-article","created":{"date-parts":[[2023,4,28]],"date-time":"2023-04-28T12:26:55Z","timestamp":1682684815000},"page":"989-1000","source":"Crossref","is-referenced-by-count":1,"title":["A new intonation quality evaluation method based on self-supervised learning"],"prefix":"10.1177","volume":"45","author":[{"given":"Wei","family":"Wang","sequence":"first","affiliation":[{"name":"School of Humanities and Social Science, Xi\u2019an Jiaotong University, Xi\u2019an, China"},{"name":"International Collaborative Innovation Center of Music Intelligence, Xi\u2019an Conservatory of Music, Xi\u2019an, China"}]},{"given":"Ning","family":"Zhang","sequence":"additional","affiliation":[{"name":"International Collaborative Innovation Center of Music Intelligence, Xi\u2019an Conservatory of Music, Xi\u2019an, China"}]},{"given":"Weishi","family":"Peng","sequence":"additional","affiliation":[{"name":"School of Equipment Management and Support, People Armed Police Engineering University, Xi\u2019an, Shaanxi, China"}]},{"given":"Zhengqi","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Information Sciences and Technology, Northwest University, Xi\u2019an, Shaanxi, China"}]}],"member":"179","reference":[{"key":"10.3233\/JIFS-230165_ref1","first-page":"273","article-title":"Consonance and dissonanceperception. A critical review of the historical sources,multidisciplinary findings, and main hypotheses","volume":"43","author":"Stefano","year":"2022","journal-title":"Physics ofLife Reviews"},{"key":"10.3233\/JIFS-230165_ref2","doi-asserted-by":"crossref","first-page":"107381","DOI":"10.1016\/j.apacoust.2020.107381","article-title":"Raga recognition usingfibonacci series based pitch distribution in Indian Classical Music","volume":"167","author":"Sinith","year":"2020","journal-title":"Applied Acoustics"},{"key":"10.3233\/JIFS-230165_ref4","first-page":"75","article-title":"Temperament in Tuning Systems of Southeast Asia andAncient India","volume":"5","author":"Bader","year":"2019","journal-title":"1st International Symposium on ComputationalEthnomusicological Archiving (ISCEA)"},{"key":"10.3233\/JIFS-230165_ref5","doi-asserted-by":"crossref","first-page":"1474","DOI":"10.1109\/TASLP.2022.3166400","article-title":"Non-Autoregressive ASR ModelingUsing Pre-Trained Language Models for Chinese Speech Recognition","volume":"30","author":"Yu","year":"2022","journal-title":"IEEE-ACM Transaction on Audio Speech and Language Processing"},{"issue":"2021","key":"10.3233\/JIFS-230165_ref6","first-page":"3427","article-title":"Language Agnostic Speaker Embeddingfor Cross-Lingual Personalized Speech Generation","volume":"29","author":"Zhou","journal-title":"IEEE-ACMTransaction on Audio Speech and Language Processing"},{"issue":"2021","key":"10.3233\/JIFS-230165_ref7","first-page":"1","article-title":"Popular Song Composition Based on DeepLearning and Neural Network","volume":"2021","author":"Kuang","journal-title":"Journal of Mathematics"},{"issue":"3","key":"10.3233\/JIFS-230165_ref8","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3177849","article-title":"Content-Based Music InformationRetrieval (CB-MIR) and Its Applications toward the Music Industry: AReview","volume":"51","author":"Murthy","year":"2018","journal-title":"ACM Computing Surveys"},{"key":"10.3233\/JIFS-230165_ref9","doi-asserted-by":"crossref","first-page":"118190","DOI":"10.1016\/j.eswa.2022.118190","article-title":"Asystematic review of artificial intelligence-based music generation:Scope, applications, and future trends","volume":"209","author":"Civit","year":"2022","journal-title":"Expert Systems withApplications"},{"key":"10.3233\/JIFS-230165_ref10","doi-asserted-by":"crossref","first-page":"104971","DOI":"10.1016\/j.knosys.2019.104971","article-title":"DTW-NN: A novel neural networkfor time series recognition using dynamic alignment between inputsand weights","volume":"188","author":"Iwana","year":"2020","journal-title":"Knowledge-Based Systems"},{"key":"10.3233\/JIFS-230165_ref11","doi-asserted-by":"crossref","first-page":"206","DOI":"10.1109\/JSTSP.2019.2908700","article-title":"Deep Learning for AudioSignal Processing","volume":"13","author":"Purwins","year":"2019","journal-title":"IEEE Journal of Selected Topics in SignalProcessing"},{"key":"10.3233\/JIFS-230165_ref12","doi-asserted-by":"crossref","first-page":"7424","DOI":"10.1109\/ICASSP40776.2020.9054694","article-title":"Source Domain DataSelection for Improved Transfer Learning Targeting Dysarthric SpeechRecognition","author":"Xiong","year":"2020","journal-title":"ICASSP 2020 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain"},{"key":"10.3233\/JIFS-230165_ref13","first-page":"012091","article-title":"Speech recognition usingDynamic TimeWarping (DTW)","volume":"1366","author":"Permanasari","year":"2019","journal-title":"Journal of Physics: ConferenceSeries"},{"key":"10.3233\/JIFS-230165_ref14","doi-asserted-by":"crossref","unstructured":"Gupta H. and Gupta D. , LPC and LPSS method of Feature extraction inspeech recognition system, in 6th International Conference -Cloud System and Big Data Engineering (Confluence), A. Bansal and A.Singhal, (2016), pp 498\u2013502.","DOI":"10.1109\/CONFLUENCE.2016.7508171"},{"key":"10.3233\/JIFS-230165_ref15","doi-asserted-by":"crossref","first-page":"285","DOI":"10.1002\/cae.21884","article-title":"An efficient speechrecognition system for arm-disabled students based on isolatedwords","volume":"26","author":"Darabkh","year":"2018","journal-title":"Computer Applications in Engineering Education"},{"issue":"4","key":"10.3233\/JIFS-230165_ref17","doi-asserted-by":"crossref","first-page":"11","DOI":"10.1007\/s11704-020-9419-z","article-title":"Performance analysis of ASRsystem in hybrid DNN-HMM framework using a PWL euclidean activationfunction","volume":"15","author":"Dutta","year":"2021","journal-title":"Frontiers of Computer Science"},{"key":"10.3233\/JIFS-230165_ref18","doi-asserted-by":"crossref","first-page":"2550","DOI":"10.1587\/transinf.2016SLL0001","article-title":"Improved End-to-End SpeechRecognition Using Adaptive Per-Dimensional Learning Rate Methods","volume":"E99D","author":"Wang","year":"2016","journal-title":"IEICE Transactions on Information and Systems"},{"key":"10.3233\/JIFS-230165_ref19","doi-asserted-by":"crossref","first-page":"387","DOI":"10.1007\/s10772-015-9275-7","article-title":"Study of feature combinationusing HMM and SVM for multilingual Odiya speech emotion recognition","volume":"18","author":"Swain","year":"2015","journal-title":"International Journal of Speech Technology"},{"issue":"8","key":"10.3233\/JIFS-230165_ref20","doi-asserted-by":"crossref","first-page":"3946","DOI":"10.1109\/TIP.2019.2902831","article-title":"Dual-Stream Interactive Networks forNo-Reference Stereoscopic Image Quality Assessment","volume":"28","author":"Zhou","year":"2019","journal-title":"IEEETransactions on Image Processing"},{"key":"10.3233\/JIFS-230165_ref22","doi-asserted-by":"crossref","first-page":"4070","DOI":"10.1109\/TIP.2020.2969777","article-title":"Tensor Oriented No-ReferenceLight Field Image Quality Assessment","volume":"29","author":"Zhou","year":"2020","journal-title":"IEEE Transactions onImage Processing"},{"key":"10.3233\/JIFS-230165_ref23","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TMM.2022.3197364","article-title":"Lifelong Blind Image QualityAssessment","author":"Liu","year":"2022","journal-title":"IEEE Transactions on Multimedia"},{"issue":"1","key":"10.3233\/JIFS-230165_ref24","first-page":"2020","article-title":"Semi-Supervised HyperspectralImage Classification via Spatial-Regulated Self-Training","volume":"12","author":"Wu","journal-title":"Remote Sensing"},{"key":"10.3233\/JIFS-230165_ref25","doi-asserted-by":"crossref","first-page":"312","DOI":"10.1016\/j.bspc.2018.08.035","article-title":"Speech emotion recognition using deep1D & 2D CNN LSTM networks","volume":"47","author":"Zhao","year":"2019","journal-title":"Biomedical Signal Processing andControl"},{"key":"10.3233\/JIFS-230165_ref26","first-page":"2018","article-title":"Deep Learning for Audio Event Detection andTagging on Low-Resource Datasets","volume":"8","author":"Morfi","year":"2018","journal-title":"Applied Sciences-Basel"},{"issue":"3","key":"10.3233\/JIFS-230165_ref27","doi-asserted-by":"crossref","first-page":"601","DOI":"10.1007\/s10772-018-09584-4","article-title":"Convolutional support vectormachines for speech recognition","volume":"22","author":"Passricha","year":"2019","journal-title":"International Journal ofSpeech Technology"},{"key":"10.3233\/JIFS-230165_ref28","doi-asserted-by":"crossref","unstructured":"Lin Y. , Zheng W. , Chu W.C. et al. A Speech Command Control-BasedRecognition System for Dysarthric Patients Based on Deep LearningTechnology, Applied Sciences-Basel 11 (2021), 2021-01-01 2021.","DOI":"10.3390\/app11062477"},{"key":"10.3233\/JIFS-230165_ref29","first-page":"797","article-title":"A novel stochastic deep resilient network foreffective speech recognition","volume":"24","author":"Shukla","year":"2021","journal-title":"International Journal ofSpeechTechnology"},{"issue":"2020","key":"10.3233\/JIFS-230165_ref30","first-page":"2880","article-title":"Panns: Large-scale pretrainedaudio neural networks for audio pattern recognition","volume":"28","author":"Kong","journal-title":"IEEE\/ACMTransactions on Audio, Speech, and Language Processing"},{"issue":"1","key":"10.3233\/JIFS-230165_ref31","first-page":"012085","article-title":"A comparison on data augmentationmethods based on deep learning for audio. Classification","volume":"1453","author":"Wei","year":"2020","journal-title":"Journal of Physics: Conference Series. IOP Publishing"},{"issue":"2019","key":"10.3233\/JIFS-230165_ref33","first-page":"3705","article-title":"Spectrogram based multi-task audioclassification","volume":"78","author":"Zeng","journal-title":"Multimedia Tools and Applications"},{"key":"10.3233\/JIFS-230165_ref34","doi-asserted-by":"crossref","first-page":"137","DOI":"10.1525\/jpms.2021.33.1.137","article-title":"Perfect Pitch","volume":"33","author":"Rosenberg","year":"2021","journal-title":"Journal of Popular Music Studies"},{"key":"10.3233\/JIFS-230165_ref37","doi-asserted-by":"crossref","first-page":"223","DOI":"10.1007\/s10772-013-9221-5","article-title":"Hybrid continuous speechrecognition systems by HMM, MLP and SVM: a comparative study","volume":"17","author":"Zarrouk","year":"2014","journal-title":"International Journal of Speech Technology"}],"updated-by":[{"DOI":"10.1177\/10641246251331509","type":"retraction","label":"Retraction","source":"retraction-watch","updated":{"date-parts":[[2025,4,17]],"date-time":"2025-04-17T00:00:00Z","timestamp":1744848000000},"record-id":"63978"},{"DOI":"10.1177\/10641246251331509","type":"retraction","label":"Retraction","source":"publisher","updated":{"date-parts":[[2025,4,17]],"date-time":"2025-04-17T00:00:00Z","timestamp":1744848000000}}],"container-title":["Journal of Intelligent &amp; Fuzzy Systems"],"original-title":[],"link":[{"URL":"https:\/\/content.iospress.com\/download?id=10.3233\/JIFS-230165","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T07:47:23Z","timestamp":1769672843000},"score":1,"resource":{"primary":{"URL":"https:\/\/journals.sagepub.com\/doi\/full\/10.3233\/JIFS-230165"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,7,2]]},"references-count":31,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.3233\/jifs-230165","relation":{},"ISSN":["1064-1246","1875-8967"],"issn-type":[{"value":"1064-1246","type":"print"},{"value":"1875-8967","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,7,2]]}}}