{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T00:43:48Z","timestamp":1773276228524,"version":"3.50.1"},"reference-count":30,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2025,1]]},"DOI":"10.1109\/tnnls.2023.3325541","type":"journal-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T17:58:28Z","timestamp":1698429508000},"page":"1947-1952","source":"Crossref","is-referenced-by-count":3,"title":["A Robust Initialization of Residual Blocks for Effective ResNet Training Without Batch Normalization"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5322-4831","authenticated-orcid":false,"given":"Enrico","family":"Civitelli","sequence":"first","affiliation":[{"name":"Dipartimento di Ingegneria dell&#x2019;Informazione, Universit&#x00E0; di Firenze, Florence, Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3971-3441","authenticated-orcid":false,"given":"Alessio","family":"Sortino","sequence":"additional","affiliation":[{"name":"Dipartimento di Ingegneria dell&#x2019;Informazione, Universit&#x00E0; di Firenze, Florence, Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2488-5486","authenticated-orcid":false,"given":"Matteo","family":"Lapucci","sequence":"additional","affiliation":[{"name":"Dipartimento di Ingegneria dell&#x2019;Informazione, Universit&#x00E0; di Firenze, Florence, Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1645-1749","authenticated-orcid":false,"given":"Francesco","family":"Bagattini","sequence":"additional","affiliation":[{"name":"Flair-Tech, Florence, Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0384-0334","authenticated-orcid":false,"given":"Giulio","family":"Galvan","sequence":"additional","affiliation":[{"name":"Dipartimento di Ingegneria dell&#x2019;Informazione, Universit&#x00E0; di Firenze, Florence, Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"How to initialize your network? Robust initialization for weightnorm & ResNets","volume-title":"Advances in Neural Information Processing Systems","volume":"32","author":"Arpit","year":"2019"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3026784"},{"key":"ref3","first-page":"1","article-title":"ReZero is all you need: Fast convergence at large depth","volume":"abs\/2003.04887","author":"Bachlechner","year":"2020","journal-title":"CoRR"},{"key":"ref4","first-page":"1","article-title":"Characterizing signal propagation to close the performance gap in unnormalized ResNets","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Brock"},{"key":"ref5","article-title":"High-performance large-scale image recognition without normalization","author":"Brock","year":"2021","journal-title":"arXiv:2102.06171"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00359"},{"key":"ref7","article-title":"MetaInit: Initializing learning by learning to initialize","volume-title":"Advances in Neural Information Processing Systems","volume":"32","author":"Dauphin","year":"2019"},{"key":"ref8","first-page":"19964","article-title":"Batch normalization biases residual blocks towards the identity function in deep networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"De"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref10","first-page":"249","article-title":"Understanding the difficulty of training deep feedforward neural networks","volume-title":"Proc. 13th Int. Conf. Artif. Intell. Statist.","author":"Glorot"},{"key":"ref11","article-title":"How to start training: The effect of initialization and architecture","volume-title":"Advances in Neural Information Processing Systems","volume":"31","author":"Hanin","year":"2018"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2966319"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.123"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_38"},{"key":"ref16","first-page":"1729","article-title":"Train longer, generalize better: Closing the generalization gap in large batch training of neural networks","volume-title":"Proc. 31st Int. Conf. Neural Inf. Process. Syst. (NIPS)","author":"Hoffer"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.305"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045167"},{"key":"ref19","article-title":"Learning multiple layers of features from tiny images","author":"Krizhevsky","year":"2009"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5884"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00131"},{"key":"ref22","article-title":"SGDR: Stochastic gradient descent with warm restarts","author":"Loshchilov","year":"2016","journal-title":"arXiv:1608.03983"},{"key":"ref23","article-title":"Towards understanding regularization in batch normalization","author":"Luo","year":"2019","journal-title":"arXiv:1809.00846"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.5555\/3454287.3455008"},{"key":"ref25","article-title":"Micro-batch training with batch-channel normalization and weight standardization","author":"Qiao","year":"2020","journal-title":"arXiv:1903.10520"},{"key":"ref26","first-page":"13434","article-title":"Is normalization indispensable for training deep neural network?","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Shao"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2876179"},{"key":"ref28","first-page":"1","article-title":"Towards stabilizing batch statistics in backward propagation of batch normalization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Yan"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3089942"},{"key":"ref30","first-page":"2","article-title":"Residual learning without normalization via better initialization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhang"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5962385\/10832116\/10298277.pdf?arnumber=10298277","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,8]],"date-time":"2025-01-08T20:23:56Z","timestamp":1736367836000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10298277\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1]]},"references-count":30,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2023.3325541","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,1]]}}}