{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,10]],"date-time":"2026-07-10T22:41:49Z","timestamp":1783723309598,"version":"3.55.0"},"reference-count":55,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/100000057","name":"National Institute of General Medical Sciences of the National Institutes of Health","doi-asserted-by":"publisher","award":["P20GM104420"],"award-info":[{"award-number":["P20GM104420"]}],"id":[{"id":"10.13039\/100000057","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3624332","type":"journal-article","created":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T17:59:54Z","timestamp":1761242394000},"page":"182661-182674","source":"Crossref","is-referenced-by-count":3,"title":["GCSAM: Gradient Centralized Sharpness Aware Minimization"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-6934-1385","authenticated-orcid":false,"given":"Mohamed","family":"Hassan","sequence":"first","affiliation":[{"name":"Department of Computer Science, University of Idaho, Idaho Falls, ID, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3365-1291","authenticated-orcid":false,"given":"Aleksandar","family":"Vakanski","sequence":"additional","affiliation":[{"name":"Department of Computer Science, University of Idaho, Idaho Falls, ID, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9401-6163","authenticated-orcid":false,"given":"Boyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Department of Computer Science, University of Idaho, Idaho Falls, ID, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6098-4441","authenticated-orcid":false,"given":"Min","family":"Xian","sequence":"additional","affiliation":[{"name":"Department of Computer Science, University of Idaho, Idaho Falls, ID, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1017\/9781009025096.003"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3446776"},{"key":"ref3","article-title":"Fantastic generalization measures and where to find them","author":"Jiang","year":"2019","journal-title":"arXiv:1912.02178"},{"key":"ref4","first-page":"11723","article-title":"In search of robust measures of generalization","volume-title":"Proc. Annu. Conf. Neural Inf. Process. Syst. (NeurIPS)","volume":"33","author":"Dziugaite"},{"key":"ref5","first-page":"1019","article-title":"Sharp minima can generalize for deep nets","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Dinh"},{"key":"ref6","article-title":"Visualizing the loss landscape of neural nets","author":"Li","year":"2017","journal-title":"arXiv:1712.09913"},{"key":"ref7","first-page":"1","article-title":"Sharpness-aware minimization for efficiently improving generalization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Foret"},{"key":"ref8","first-page":"5905","article-title":"ASAM: Adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks","volume-title":"Proc. 38th Int. Conf. Mach. Learn. (ICML)","author":"Kwon"},{"key":"ref9","first-page":"1","article-title":"Surrogate gap minimization improves sharpness-aware training","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhuang"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28431"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.508"},{"key":"ref12","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i9.26239"},{"key":"ref14","article-title":"When vision transformers outperform ResNets without pre-training or strong data augmentations","author":"Chen","year":"2021","journal-title":"arXiv:2106.01548"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_37"},{"key":"ref16","first-page":"7594","article-title":"Toward understanding the importance of noise in training neural networks","volume-title":"Proc. 36th Int. Conf. Mach. Learn.","volume":"97","author":"Zhou"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-86380-7_19"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1088\/1742-5468\/ab39d9"},{"key":"ref19","article-title":"A Bayesian perspective on generalization and stochastic gradient descent","author":"Smith","year":"2017","journal-title":"arXiv:1710.06451"},{"key":"ref20","first-page":"34689","article-title":"Understanding the generalization benefit of normalization layers: Sharpness reduction","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Lyu"},{"key":"ref21","article-title":"Understanding and improving layer normalization","author":"Xu","year":"2019","journal-title":"arXiv:1911.07013"},{"key":"ref22","first-page":"950","article-title":"A simple weight decay can improve generalization","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"4","author":"Krogh"},{"key":"ref23","first-page":"11148","article-title":"Fisher SAM: Information geometry and sharpness aware minimisation","volume-title":"Proc. 39th Int. Conf. Mach. Learn. (ICML)","author":"Kim"},{"key":"ref24","first-page":"16577","article-title":"When do flat minima optimizers work?","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Kaddour"},{"key":"ref25","first-page":"876","article-title":"Averaging weights leads to wider optima and better generalization","volume-title":"Proc. 34th Conf. Uncertainty Artif. Intell.","author":"Izmailov"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01204"},{"key":"ref27","article-title":"Efficient sharpness-aware minimization for improved training of neural networks","author":"Du","year":"2021","journal-title":"arXiv:2110.03141"},{"key":"ref28","article-title":"Measuring moral inconsistencies in large language models","author":"Bonagiri","year":"2024","journal-title":"arXiv:2402.01719"},{"key":"ref29","first-page":"372","article-title":"A method for solving the convex programming problem with convergence rate O(1\/k\u00b2)","volume":"27","author":"Nesterov","year":"1983","journal-title":"Sov. Math. Doklady"},{"key":"ref30","article-title":"On the difficulty of training recurrent neural networks","author":"Pascanu","year":"2012","journal-title":"arXiv:1211.5063"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/2976749.2978318"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.182"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/S0893-6080(98)00116-6"},{"key":"ref34","first-page":"5225","article-title":"Riemannian approach to batch normalization","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Cho"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2018.2832656"},{"key":"ref36","first-page":"3570","article-title":"On orthogonality and learning recurrent networks with long term dependencies","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Vorontsov"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-78199-0_37"},{"key":"ref38","article-title":"On the origin of implicit regularization in stochastic gradient descent","author":"Smith","year":"2021","journal-title":"arXiv:2101.12176"},{"key":"ref39","article-title":"L2 regularization versus batch and weight normalization","author":"van Laarhoven","year":"2017","journal-title":"arXiv:1706.05350"},{"key":"ref40","article-title":"On large-batch training for deep learning: Generalization gap and sharp minima","author":"Keskar","year":"2016","journal-title":"arXiv:1609.04836"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045167"},{"key":"ref42","article-title":"Layer normalization","author":"Lei Ba","year":"2016","journal-title":"arXiv:1607.06450"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref44","first-page":"1","article-title":"Very deep convolutional networks for large-scale image recognition","volume-title":"Proc. 3rd Int. Conf. Learn. Represent. (ICLR)","author":"Simonyan"},{"key":"ref45","first-page":"1","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Dosovitskiy"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref47","article-title":"Learning multiple layers of features from tiny images","author":"Krizhevsky","year":"2009"},{"key":"ref48","article-title":"SGDR: Stochastic gradient descent with warm restarts","author":"Loshchilov","year":"2016","journal-title":"arXiv:1608.03983"},{"key":"ref49","first-page":"4694","article-title":"When does label smoothing help","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"M\u00fcller"},{"key":"ref50","article-title":"Do sharpness-based optimizers improve generalization in medical image analysis?","author":"Hassan","year":"2024","journal-title":"arXiv:2408.04065"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.3390\/s24134267"},{"key":"ref52","article-title":"A benchmark for breast ultrasound image classification","author":"Shareef","year":"2023","journal-title":"SSRN"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2023.3236011"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/s10044-022-01113-z"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/BigData50022.2020.9378171"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11214389.pdf?arnumber=11214389","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,30]],"date-time":"2025-10-30T18:03:29Z","timestamp":1761847409000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11214389\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":55,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3624332","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}