{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,2]],"date-time":"2026-03-02T22:11:57Z","timestamp":1772489517235,"version":"3.50.1"},"reference-count":71,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Artif. Intell."],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1109\/tai.2025.3605902","type":"journal-article","created":{"date-parts":[[2025,9,4]],"date-time":"2025-09-04T18:24:32Z","timestamp":1757010272000},"page":"1702-1714","source":"Crossref","is-referenced-by-count":0,"title":["Beyond Accurate Distillation: Calibrated Knowledge Distillation for Reliable Predictions"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-6314-5536","authenticated-orcid":false,"given":"Ishan","family":"Mishra","sequence":"first","affiliation":[{"name":"Department of Computer Science and Engineering, Indian Institute of Technology Jodhpur, Rajasthan, India"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-5261-8457","authenticated-orcid":false,"given":"Vamsi Krishna","family":"Sethu","sequence":"additional","affiliation":[{"name":"Jio Platforms Limited, Bengaluru, India"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4078-9400","authenticated-orcid":false,"given":"Deepak","family":"Mishra","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Indian Institute of Technology Jodhpur, Rajasthan, India"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/1150402.1150464"},{"key":"ref2","first-page":"2654","article-title":"Do deep nets really need to be deep?","volume":"27","author":"Ba","year":"2014","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref3","article-title":"FitNets: Hints for thin deep nets","author":"Romero","year":"2014"},{"key":"ref4","article-title":"Distilling the knowledge in a neural network","author":"Hinton","year":"2015"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref6","article-title":"Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer","author":"Zagoruyko","year":"2016"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref8","article-title":"Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer","author":"Komodakis","year":"2017","journal-title":"Proc. ICLR"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.754"},{"key":"ref10","article-title":"Like what you like: Knowledge distillation via neuron selectivity transfer","author":"Huang","year":"2017"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref12","first-page":"1321","article-title":"On calibration of modern neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Guo","year":"2017"},{"key":"ref13","first-page":"2765","article-title":"Paraphrasing complex network: Network compression via factor transfer,","volume":"31","author":"Kim","year":"2018","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2020.2995884"},{"key":"ref15","article-title":"Mixup: Beyond empirical risk minimization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhang","year":"2018"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00454"},{"key":"ref17","first-page":"6105","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Tan","year":"2019"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.2172\/1525811"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00735"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00612"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00145"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00511"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00938"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00409"},{"key":"ref25","article-title":"Benchmarking neural network robustness to common corruptions and perturbations","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Hendrycks","year":"2019"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013779"},{"key":"ref27","article-title":"When does label smoothing help?","volume":"32","author":"M\u00fcller","year":"2019","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref28","first-page":"38","article-title":"Measuring calibration in deep learning,","volume":"2","author":"Nixon","year":"2019","journal-title":"Proc. CVPR Workshops"},{"key":"ref29","article-title":"Ensemble distribution distillation","author":"Malinin","year":"2019"},{"key":"ref30","article-title":"An investigation of how label smoothing affects generalization","author":"Chen","year":"2020"},{"key":"ref31","article-title":"An empirical analysis of the impact of data augmentation on knowledge distillation","author":"Das","year":"2020"},{"key":"ref32","first-page":"15288","article-title":"Calibrating deep neural networks using focal loss,","volume":"33","author":"Mukhoti","year":"2020","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01103"},{"key":"ref34","first-page":"3351","article-title":"Self-distillation amplifies regularization in Hilbert space","volume":"33","author":"Mobahi","year":"2020","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref35","article-title":"Contrastive representation distillation","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Tian","year":"2020"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58545-7_34"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.109338"},{"key":"ref38","first-page":"5275","article-title":"Puzzle mix: Exploiting saliency and local statistics for optimal mixup","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kim","year":"2020"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_39"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00396"},{"key":"ref41","first-page":"6906","article-title":"Does knowledge distillation really work?","volume":"34","author":"Stanton","year":"2021","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00237"},{"key":"ref43","article-title":"Similarity transfer for knowledge distillation","author":"Zhao","year":"2021"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00501"},{"key":"ref45","article-title":"SMILE: Self-distilled mixup for efficient transfer learning","author":"Li","year":"2021"},{"key":"ref46","first-page":"15682","article-title":"Revisiting the calibration of modern neural networks","volume":"34","author":"Minderer","year":"2021","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref47","first-page":"4555","article-title":"MIXACM: Mixup-based robustness transfer via distillation of activated channel maps","volume":"34","author":"Muhammad","year":"2021","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00516"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00681"},{"key":"ref50","first-page":"1","article-title":"On mixup regularization","volume":"23","author":"Carratino","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01065"},{"key":"ref52","first-page":"1583","article-title":"AdaFocal: Calibration-aware adaptive focal loss","volume":"35","author":"Ghosh","year":"2022","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref53","article-title":"What makes a \u2018good\u2019 data augmentation in knowledge distillation\u2014A statistical perspective","author":"Wang","year":"2022","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_31"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747534"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-022-03355-0"},{"key":"ref57","first-page":"26135","article-title":"When and how mixup improves calibration","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang","year":"2022"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01165"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2020.3047335"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_26"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00235"},{"key":"ref62","first-page":"33833","article-title":"Dual focal loss for calibration","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"202","author":"Tao","year":"2023"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2022.3189680"},{"key":"ref64","article-title":"Benchmarking Bayesian deep learning on diabetic retinopathy detection tasks,","author":"Band","year":"2021","journal-title":"Proc. 35th Conf. Neural Inf. Process. Syst. Datasets Benchmarks Track"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02325"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/775047.775151"},{"issue":"7","key":"ref67","article-title":"Measuring calibration in deep learning,","volume":"2","author":"Nixon","year":"2019","journal-title":"Proc. CVPR Workshops"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4612-0745-0"},{"key":"ref69","article-title":"Simple and scalable predictive uncertainty estimation using deep ensembles,","volume":"30","author":"Lakshminarayanan","year":"2017","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"ref71","first-page":"2098","article-title":"Decoupled parallel backpropagation with convergence guarantee","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","volume":"80","author":"Huo","year":"2018"}],"container-title":["IEEE Transactions on Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/9078688\/11417361\/11150740.pdf?arnumber=11150740","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,2]],"date-time":"2026-03-02T20:58:54Z","timestamp":1772485134000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11150740\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":71,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tai.2025.3605902","relation":{},"ISSN":["2691-4581"],"issn-type":[{"value":"2691-4581","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,3]]}}}