{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,27]],"date-time":"2026-04-27T23:12:09Z","timestamp":1777331529233,"version":"3.51.4"},"reference-count":50,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100002724","name":"Open Access Program from the American University of Sharjah","doi-asserted-by":"publisher","award":["OAP25-CEN-255"],"award-info":[{"award-number":["OAP25-CEN-255"]}],"id":[{"id":"10.13039\/501100002724","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3602733","type":"journal-article","created":{"date-parts":[[2025,8,25]],"date-time":"2025-08-25T20:47:29Z","timestamp":1756154849000},"page":"153651-153670","source":"Crossref","is-referenced-by-count":1,"title":["Class Separation Dynamics in Vision Transformers: An Empirical Study"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-7149-4842","authenticated-orcid":false,"given":"Dara","family":"Varam","sequence":"first","affiliation":[{"name":"Department of Computer Science and Engineering, American University of Sharjah, Sharjah, United Arab Emirates"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-0047-5181","authenticated-orcid":false,"given":"Lujain","family":"Khalil","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, American University of Sharjah, Sharjah, United Arab Emirates"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-2811-3056","authenticated-orcid":false,"given":"Mahmoud","family":"Darwish","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, American University of Sharjah, Sharjah, United Arab Emirates"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1480-8054","authenticated-orcid":false,"given":"Mohamed I.","family":"Alhajri","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, American University of Sharjah, Sharjah, United Arab Emirates"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv:2010.11929"},{"key":"ref2","article-title":"Training data-efficient image transformers & distillation through attention","author":"Touvron","year":"2021","journal-title":"arXiv:2012.12877"},{"key":"ref3","article-title":"VOLO: Vision outlooker for visual recognition","author":"Yuan","year":"2021","journal-title":"arXiv:2106.13112"},{"key":"ref4","article-title":"DeepViT: Towards deeper vision transformer","author":"Zhou","year":"2021","journal-title":"arXiv:2103.11886"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.13140\/RG.2.2.18893.74727"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-022-05172-4"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.4.541"},{"key":"ref10","article-title":"Do vision transformers see like convolutional neural networks?","author":"Raghu","year":"2021","journal-title":"arXiv:2108.08810"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1190\/1.9781560804048.ch13"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19809-0_19"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref14","article-title":"Fashion-MNIST: A novel image dataset for benchmarking machine learning algorithms","author":"Xiao","year":"2017","journal-title":"arXiv:1708.07747"},{"key":"ref15","article-title":"Learning multiple layers of features from tiny images","author":"Krizhevsky","year":"2009"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.2221704120"},{"key":"ref17","article-title":"On the separability of classes with the cross-entropy loss function","author":"Das","year":"2019","journal-title":"arXiv:1909.06930"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.2015509117"},{"key":"ref19","article-title":"An unconstrained layer-peeled perspective on neural collapse","author":"Ji","year":"2021","journal-title":"arXiv:2110.02796"},{"key":"ref20","article-title":"Neural collapse in the intermediate hidden layers of classification neural networks","author":"Parker","year":"2023","journal-title":"arXiv:2308.02760"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TVCG.2023.3327163"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.deelio-1.1"},{"key":"ref24","article-title":"Analyzing transformer dynamics as movement through embedding space","author":"Singh","year":"2023","journal-title":"arXiv:2308.10874"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00501"},{"key":"ref26","article-title":"Uncovering hidden geometry in transformers via disentangling position and context","author":"Song","year":"2023","journal-title":"arXiv:2310.04861"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/PRAI59366.2023.10331992"},{"key":"ref28","article-title":"Interpreting embedding spaces by conceptualization","author":"Simhi","year":"2022","journal-title":"arXiv:2209.00445"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.blackboxnlp-1.10"},{"key":"ref30","article-title":"On the adversarial robustness of vision transformers","author":"Shao","year":"2021","journal-title":"arXiv:2103.15670"},{"key":"ref31","article-title":"On improving adversarial transferability of vision transformers","author":"Naseer","year":"2021","journal-title":"arXiv:2106.04169"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/0031-3203(95)00085-2"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ITW.2015.7133169"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/0377-0427(87)90125-7"},{"issue":"86","key":"ref35","first-page":"2579","article-title":"Visualizing data using t-SNE","volume":"9","author":"van der Maaten","year":"2008","journal-title":"J. Mach. Learn. Res."},{"key":"ref36","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Touvron"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3347711"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-025-01476-3"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2024.3386112"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-025-10973-5"},{"key":"ref42","article-title":"A law of next-token prediction in large language models","author":"He","year":"2024","journal-title":"arXiv:2408.13442"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3358452"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3533271.3561738"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1016\/j.compbiomed.2023.106791"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3319068"},{"key":"ref47","article-title":"Training quantized nets: A deeper understanding","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Li"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3447085"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3510413"},{"key":"ref50","article-title":"A survey on knowledge distillation of large language models","author":"Xu","year":"2024","journal-title":"arXiv:2402.13116"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11141391.pdf?arnumber=11141391","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,10]],"date-time":"2025-09-10T05:59:57Z","timestamp":1757483997000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11141391\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":50,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3602733","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}