{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,24]],"date-time":"2026-06-24T21:43:49Z","timestamp":1782337429869,"version":"3.54.5"},"reference-count":72,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2023,4,1]],"date-time":"2023-04-01T00:00:00Z","timestamp":1680307200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,4,1]],"date-time":"2023-04-01T00:00:00Z","timestamp":1680307200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,4,1]],"date-time":"2023-04-01T00:00:00Z","timestamp":1680307200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2023,4,1]]},"DOI":"10.1109\/tpami.2022.3206148","type":"journal-article","created":{"date-parts":[[2022,9,12]],"date-time":"2022-09-12T19:55:24Z","timestamp":1663012524000},"page":"5314-5321","source":"Crossref","is-referenced-by-count":566,"title":["ResMLP: Feedforward Networks for Image Classification With Data-Efficient Training"],"prefix":"10.1109","volume":"45","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1678-392X","authenticated-orcid":false,"given":"Hugo","family":"Touvron","sequence":"first","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Piotr","family":"Bojanowski","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mathilde","family":"Caron","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0627-5844","authenticated-orcid":false,"given":"Matthieu","family":"Cord","sequence":"additional","affiliation":[{"name":"Sorbonne University, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Alaaeldin","family":"El-Nouby","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Edouard","family":"Grave","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gautier","family":"Izacard","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Armand","family":"Joulin","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gabriel","family":"Synnaeve","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1419-1816","authenticated-orcid":false,"given":"Jakob","family":"Verbeek","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Herv\u00e9","family":"J\u00e9gou","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Paris, France"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref3","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Dosovitskiy"},{"key":"ref4","article-title":"Training data-efficient image transformers & distillation through attention","author":"Touvron","year":"2020"},{"key":"ref5","article-title":"Gaussian error linear units (GELUs)","author":"Hendrycks","year":"2016"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00010"},{"key":"ref7","article-title":"Neural machine translation by jointly learning to align and translate","author":"Bahdanau","year":"2014"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref10","article-title":"Layer normalization","author":"Ba","year":"2016"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045167"},{"key":"ref12","article-title":"Are we done with ImageNet?","author":"Beyer","year":"2020"},{"key":"ref13","first-page":"5389","article-title":"Do ImageNet classifiers generalize to ImageNet?","volume-title":"Proc. 36th Int. Conf. Mach. Learn.","author":"Recht"},{"key":"ref14","article-title":"Large batch optimization for deep learning: Training BERT in 76 minutes","volume-title":"Proc. Int. Conf. Learn. Representations","author":"You"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01044"},{"key":"ref16","article-title":"High-performance large-scale image recognition without normalization","author":"Brock","year":"2021"},{"key":"ref17","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","author":"Tan","year":"2019"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2846566"},{"key":"ref19","first-page":"9334","article-title":"Finding the needle in the haystack with convolutions: On the benefits of architectural bias","volume-title":"Proc. 33rd Int. Conf. Neural Inf. Process. Syst.","author":"Sagun"},{"key":"ref20","article-title":"Training with quantization noise for extreme model compression","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Fan"},{"key":"ref21","article-title":"Differentiable model compression via pseudo quantization noise","author":"D\u00e9fossez","year":"2021"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_38"},{"key":"ref23","first-page":"315","article-title":"Deep sparse rectifier neural networks","volume-title":"Proc. 14th Int. Conf. Mach. Learn.","author":"Glorot"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00140"},{"key":"ref25","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","volume-title":"Proc. 25th Int. Conf. Neural Inf. Process. Syst.","author":"Krizhevsky"},{"key":"ref26","article-title":"Revisiting ResNets: Improved training and scaling strategies","author":"Bello","year":"2021"},{"key":"ref27","article-title":"Learning multiple layers of features from tiny images","author":"Krizhevsky","year":"2009"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICVGIP.2008.47"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2013.77"},{"key":"ref30","article-title":"The iNaturalist species classification and detection dataset","author":"Horn","year":"2017"},{"key":"ref31","article-title":"Grafit: Learning fine-grained image representations with coarse labels","author":"Touvron","year":"2020"},{"key":"ref32","first-page":"1","article-title":"Scaling neural machine translation","volume-title":"Proc. 3rd Conf. Mach. Transl.","author":"Ott"},{"key":"ref33","article-title":"Googles neural machine translation system: Bridging the gap between human and machine translation","author":"Wu","year":"2016"},{"key":"ref34","first-page":"1243","article-title":"Convolutional sequence to sequence learning","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Gehring"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-018-1140-0"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"ref37","article-title":"BEiT: BERT pre-training of image transformers","author":"Bao","year":"2021"},{"key":"ref38","article-title":"XCiT: Cross-covariance image transformers","author":"El-Nouby","year":"2021"},{"key":"ref39","doi-asserted-by":"crossref","first-page":"581","DOI":"10.1007\/978-3-642-35289-8_31","article-title":"Deep big multilayer perceptrons for digit recognition","volume-title":"Neural Networks: Tricks of the Trade","author":"Cire\u015fan","year":"2012"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2003.1227801"},{"key":"ref41","article-title":"Extraction de s\u00e9quences num\u00e9riques dans des documents manuscrits quelconques","author":"Chatelain","year":"2006"},{"key":"ref42","article-title":"Deep neural networks for large vocabulary handwritten text recognition","author":"Bluche","year":"2015"},{"key":"ref43","article-title":"How far can we go without convolution: Improving fully-connected networks","author":"Lin","year":"2015"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-018-04316-3"},{"key":"ref45","article-title":"Do deep convolutional nets really need to be deep and convolutional?","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Urban"},{"key":"ref46","first-page":"8078","article-title":"Towards learning convolutions from scratch","volume-title":"Proc. 34th Int. Conf. Neural Inf. Process. Syst.","author":"Neyshabur"},{"key":"ref47","first-page":"371","article-title":"How many samples are needed to estimate a convolutional neural network?","volume-title":"Proc. 32nd Int. Conf. Neural Inf. Process. Syst.","author":"Du"},{"key":"ref48","article-title":"On large-batch training for deep learning: Generalization gap and sharp minima","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Keskar"},{"key":"ref49","article-title":"Bayesian deep convolutional networks with many channels are Gaussian processes","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Novak"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1137\/18M1222399"},{"key":"ref51","first-page":"442","article-title":"Tensorizing neural networks","volume-title":"Proc. 28th Int. Conf. Neural Inf. Process. Syst.","author":"Novikov"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref53","article-title":"Very deep convolutional networks for large-scale image recognition","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Simonyan"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.634"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.195"},{"key":"ref56","article-title":"Generating long sequences with sparse transformers","author":"Child","year":"2019"},{"key":"ref57","first-page":"766","article-title":"Discriminative unsupervised feature learning with convolutional neural networks","volume-title":"Proc. 27th Int. Conf. Neural Inf. Process. Syst.","author":"Dosovitskiy"},{"key":"ref58","first-page":"4055","article-title":"Image transformer","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","author":"Parmar"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01009"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00133"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1008"},{"key":"ref62","article-title":"Synthesizer: Rethinking self-attention in transformer models","author":"Tay","year":"2020"},{"key":"ref63","article-title":"MLP-Mixer: An all-MLP architecture for vision","author":"Tolstikhin","year":"2021"},{"key":"ref64","article-title":"Do you even need attention? A stack of feed-forward layers does surprisingly well on ImageNet","author":"Melas-Kyriazi","year":"2021"},{"key":"ref65","article-title":"RepMLP: Re-parameterizing convolutions into fully-connected layers for image recognition","author":"Ding","year":"2021"},{"key":"ref66","article-title":"Pytorch image models","author":"Wightman","year":"2019"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00612"},{"key":"ref68","article-title":"mixup: Beyond empirical risk minimization","author":"Zhang","year":"2017"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.7000"},{"key":"ref70","article-title":"RandAugment: Practical automated data augmentation with a reduced search space","author":"Cubuk","year":"2019"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_39"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00815"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/34\/10061515\/09888004.pdf?arnumber=9888004","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T19:52:01Z","timestamp":1719345121000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9888004\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,4,1]]},"references-count":72,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2022.3206148","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,4,1]]}}}