{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T19:15:37Z","timestamp":1773947737125,"version":"3.50.1"},"publisher-location":"Cham","reference-count":57,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031781650","type":"print"},{"value":"9783031781667","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-78166-7_12","type":"book-chapter","created":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T21:34:42Z","timestamp":1733088882000},"page":"176-192","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["GenFormer \u2013 Generated Images Are All You Need to\u00a0Improve Robustness of\u00a0Transformers on\u00a0Small Datasets"],"prefix":"10.1007","author":[{"given":"Sven","family":"Oehri","sequence":"first","affiliation":[]},{"given":"Nikolas","family":"Ebert","sequence":"additional","affiliation":[]},{"given":"Ahmed","family":"Abdullah","sequence":"additional","affiliation":[]},{"given":"Didier","family":"Stricker","sequence":"additional","affiliation":[]},{"given":"Oliver","family":"Wasenm\u00fcller","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,12,2]]},"reference":[{"key":"12_CR1","doi-asserted-by":"crossref","unstructured":"Al-Dhabyani, W., Gomaa, M., Khaled, H., Fahmy, A.: Dataset of breast ultrasound images. Data in brief (2020)","DOI":"10.1016\/j.dib.2019.104863"},{"key":"12_CR2","unstructured":"Azizi, S., Kornblith, S., Saharia, C., Norouzi, M., Fleet, D.J.: Synthetic data from diffusion models improves imagenet classification. arXiv preprint 2304.08466 (2023)"},{"key":"12_CR3","doi-asserted-by":"crossref","unstructured":"Bhojanapalli, S., Chakrabarti, A., Glasner, D., Li, D., Unterthiner, T., Veit, A.: Understanding robustness of transformers for image classification. In: International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.01007"},{"key":"12_CR4","unstructured":"Bilic, P., et\u00a0al.: The liver tumor segmentation benchmark (lits). Medical Image Analysis (2023)"},{"key":"12_CR5","doi-asserted-by":"crossref","unstructured":"Bissoto, A., Valle, E., Avila, S.: GAN-based data augmentation and anonymization for skin-lesion analysis: a critical review. In: Conference on Computer Vision and Pattern Recognition (CVPR) Workshops (2021)","DOI":"10.1109\/CVPRW53098.2021.00204"},{"key":"12_CR6","unstructured":"Brock, A., Donahue, J., Simonyan, K.: Large scale GAN training for high fidelity natural image synthesis. In: International Conference on Learning Representations (ICLR) (2019)"},{"key":"12_CR7","unstructured":"Chefer, H., Schwartz, I., Wolf, L.: Optimizing relevance maps of vision transformers improves robustness. In: Neural Information Processing Systems (NeurIPS) (2022)"},{"key":"12_CR8","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: a large-scale hierarchical image database. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"12_CR9","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16x16 words: transformers for image recognition at scale. In: International Conference on Learning Representations (ICLR) (2020)"},{"key":"12_CR10","doi-asserted-by":"crossref","unstructured":"d\u2019Ascoli, S., Touvron, H., Leavitt, M.L., Morcos, A.S., Biroli, G., Sagun, L.: Convit: improving vision transformers with soft convolutional inductive biases. In: International Conference on Machine Learning (ICML) (2021)","DOI":"10.1088\/1742-5468\/ac9830"},{"key":"12_CR11","doi-asserted-by":"crossref","unstructured":"Ebert, N., Reichardt, L., Stricker, D., Wasenm\u00fcller, O.: Light-weight vision transformer with parallel local and global self-attention. In: International Conference on Intelligent Transportation Systems (ITSC) (2023)","DOI":"10.1109\/ITSC57777.2023.10422493"},{"key":"12_CR12","doi-asserted-by":"crossref","unstructured":"Ebert, N., Stricker, D., Wasenm\u00fcller, O.: Plg-vit: Vision transformer with parallel local and global self-attention. Sensors (2023)","DOI":"10.3390\/s23073447"},{"key":"12_CR13","unstructured":"Gowal, S., Rebuffi, S.A., Wiles, O., Stimberg, F., Calian, D.A., Mann, T.A.: Improving robustness using generated data. In: Neural Information Processing Systems (NeurIPS) (2021)"},{"key":"12_CR14","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., Girshick, R.: Masked autoencoders are scalable vision learners. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"12_CR15","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"12_CR16","unstructured":"He, R., et al.: Is synthetic data from generative models ready for image recognition? In: International Conference on Learning Representations (ICLR) (2023)"},{"key":"12_CR17","doi-asserted-by":"crossref","unstructured":"Helber, et\u00a0al.: EuroSAT: A novel dataset and deep learning benchmark for land use and land cover classification. IEEE JSTARS (2019)","DOI":"10.1109\/JSTARS.2019.2918242"},{"key":"12_CR18","doi-asserted-by":"crossref","unstructured":"Hendrycks, D., et\u00a0al.: The many faces of robustness: a critical analysis of out-of-distribution generalization. In: International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.00823"},{"key":"12_CR19","unstructured":"Hendrycks, D., Dietterich, T.: Benchmarking neural network robustness to common corruptions and perturbations. In: International Conference on Learning Representations (ICLR) (2019)"},{"key":"12_CR20","unstructured":"Hendrycks, D., Mu, N., Cubuk, E.D., Zoph, B., Gilmer, J., Lakshminarayanan, B.: Augmix: a simple data processing method to improve robustness and uncertainty. In: International Conference on Learning Representations (ICLR) (2020)"},{"key":"12_CR21","doi-asserted-by":"crossref","unstructured":"Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J., Song, D.: Natural adversarial examples (2021)","DOI":"10.1109\/CVPR46437.2021.01501"},{"key":"12_CR22","doi-asserted-by":"crossref","unstructured":"Jaipuria, N., et al.: Deflating dataset bias using synthetic data augmentation. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2020)","DOI":"10.1109\/CVPRW50498.2020.00394"},{"key":"12_CR23","unstructured":"Kang, M., Shim, W., Cho, M., Park, J.: Rebooting ACGAN: auxiliary classifier GANs with stable training. In: Neural Information Processing Systems (NeurIPS) (2021)"},{"key":"12_CR24","unstructured":"Karras, T., Aittala, M., Aila, T., Laine, S.: Elucidating the design space of diffusion-based generative models. In: Neural Information Processing Systems (NeurIPS) (2022)"},{"key":"12_CR25","unstructured":"Karras, T., Aittala, M., Hellsten, J., Laine, S., Lehtinen, J., Aila, T.: Training generative adversarial networks with limited data. In: Neural Information Processing Systems (NeurIPS) (2020)"},{"key":"12_CR26","unstructured":"Kermany, D.S., et\u00a0al.: Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell (2018)"},{"key":"12_CR27","unstructured":"Kim, D., Kim, Y., Kang, W., Moon, I.C.: Refining generative process with discriminator guidance in score-based diffusion models. In: International Conference on Machine Learning (ICML) (2023)"},{"key":"12_CR28","unstructured":"Krizhevsky, A., Hinton, G., et\u00a0al.: Learning multiple layers of features from tiny images (2009)"},{"key":"12_CR29","unstructured":"Le, Y., Yang, X.: Tiny imagenet visual recognition challenge. CS 231N (2015)"},{"key":"12_CR30","unstructured":"Lee, S.H., Lee, S., Song, B.C.: Vision transformer for small-size datasets. arXiv preprint 2112.13492 (2021)"},{"key":"12_CR31","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"110","DOI":"10.1007\/978-3-031-20053-3_7","volume-title":"ECCV 2022","author":"K Li","year":"2022","unstructured":"Li, K., Yu, R., Wang, Z., Yuan, L., Song, G., Chen, J.: Locality guidance for improving vision transformers on tiny datasets. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13684, pp. 110\u2013127. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20053-3_7"},{"key":"12_CR32","unstructured":"Liu, Y., Sangineto, E., Bi, W., Sebe, N., Lepri, B., Nadai, M.: Efficient training of visual transformers with small datasets. In: Neural Information Processing Systems (NeurIPS) (2021)"},{"key":"12_CR33","doi-asserted-by":"crossref","unstructured":"Lovisotto, G., Finnie, N., Munoz, M., Mummadi, C.K., Metzen, J.H.: Give me your attention: Dot-product attention considered harmful for adversarial patch robustness. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2022)","DOI":"10.1109\/CVPR52688.2022.01480"},{"key":"12_CR34","unstructured":"Lu, Z., Xie, H., Liu, C., Zhang, Y.: Bridging the gap between vision transformers and convolutional neural networks on small datasets. In: Neural Information Processing Systems (NeurIPS) (2022)"},{"key":"12_CR35","doi-asserted-by":"crossref","unstructured":"Mao, X., et al.: Towards robust vision transformer. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2022)","DOI":"10.1109\/CVPR52688.2022.01173"},{"key":"12_CR36","doi-asserted-by":"crossref","unstructured":"Paul, S., Chen, P.Y.: Vision transformers are robust learners. In: AAAI Conference on Artificial Intelligence (2022)","DOI":"10.1609\/aaai.v36i2.20103"},{"key":"12_CR37","doi-asserted-by":"crossref","unstructured":"Pumarola, A., Sanchez-Riera, J., Choi, G., Sanfeliu, A., Moreno-Noguer, F.: 3dpeople: Modeling the geometry of dressed humans. In: International Conference on Computer Vision (ICCV) (2019)","DOI":"10.1109\/ICCV.2019.00233"},{"key":"12_CR38","unstructured":"Qin, Y., Zhang, C., Chen, T., Lakshminarayanan, B., Beutel, A., Wang, X.: Understanding and improving robustness of vision transformers through patch-based negative augmentation. In: Neural Information Processing Systems (NeurIPS) (2022)"},{"key":"12_CR39","unstructured":"Ravuri, S., Vinyals, O.: Classification accuracy score for conditional generative models. In: Neural Information Processing Systems (NeurIPS) (2019)"},{"key":"12_CR40","unstructured":"Recht, B., Roelofs, R., Schmidt, L., Shankar, V.: Do imagenet classifiers generalize to imagenet? In: International Conference on Machine Learning (ICML) (2019)"},{"key":"12_CR41","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"12_CR42","doi-asserted-by":"crossref","unstructured":"Sankaranarayanan, S., Balaji, Y., Jain, A., Lim, S.N., Chellappa, R.: Learning from synthetic data: Addressing domain shift for semantic segmentation. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2018)","DOI":"10.1109\/CVPR.2018.00395"},{"key":"12_CR43","doi-asserted-by":"crossref","unstructured":"Sar\u0131y\u0131ld\u0131z, M.B., Alahari, K., Larlus, D., Kalantidis, Y.: Fake it till you make it: Learning transferable representations from synthetic imagenet clones. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2023)","DOI":"10.1109\/CVPR52729.2023.00774"},{"key":"12_CR44","doi-asserted-by":"crossref","unstructured":"Sauer, A., Schwarz, K., Geiger, A.: Stylegan-xl: Scaling stylegan to large diverse datasets. In: ACM SIGGRAPH (2022)","DOI":"10.1145\/3528233.3530738"},{"key":"12_CR45","unstructured":"Tian, R., Wu, Z., Dai, Q., Hu, H., Jiang, Y.: Deeper insights into vits robustness towards common corruptions. arXiv preprint 2204.12143 (2022)"},{"key":"12_CR46","unstructured":"Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., J\u00e9gou, H.: Training data-efficient image transformers & distillation through attention. In: International Conference on Machine Learning (ICML) (2021)"},{"key":"12_CR47","doi-asserted-by":"crossref","unstructured":"Wang, W., et al.: Pyramid vision transformer: a versatile backbone for dense prediction without convolutions. In: International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"12_CR48","doi-asserted-by":"crossref","unstructured":"Wang, W., et al.: Pvt v2: improved baselines with pyramid vision transformer. Computational Visual Media (2022)","DOI":"10.1007\/s41095-022-0274-8"},{"key":"12_CR49","doi-asserted-by":"crossref","unstructured":"Woo, S., et al.: Convnext v2: co-designing and scaling convnets with masked autoencoders. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2023)","DOI":"10.1109\/CVPR52729.2023.01548"},{"key":"12_CR50","doi-asserted-by":"crossref","unstructured":"Xie, Z., et al.: On data scaling in masked image modeling. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2023)","DOI":"10.1109\/CVPR52729.2023.00999"},{"key":"12_CR51","unstructured":"Xu, Y., Liu, Z., Tian, Y., Tong, S., Tegmark, M., Jaakkola, T.: PFGM++: unlocking the potential of physics-inspired generative models. In: International Conference on Machine Learning (ICML) (2023)"},{"key":"12_CR52","doi-asserted-by":"crossref","unstructured":"Yang, J., et al.: MedMNIST v2-a large-scale lightweight benchmark for 2D and 3D biomedical image classification. Scientific Data (2023)","DOI":"10.1038\/s41597-022-01721-8"},{"key":"12_CR53","doi-asserted-by":"crossref","unstructured":"Yun, S., Han, D., Oh, S.J., Chun, S., Choe, J., Yoo, Y.: Cutmix: regularization strategy to train strong classifiers with localizable features. In: International Conference on Computer Vision (ICCV) (2019)","DOI":"10.1109\/ICCV.2019.00612"},{"key":"12_CR54","doi-asserted-by":"crossref","unstructured":"Zhang, C., et al.: Delving deep into the generalization of vision transformers under distribution shifts. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2022)","DOI":"10.1109\/CVPR52688.2022.00713"},{"key":"12_CR55","unstructured":"Zhang, H., Cisse, M., Dauphin, Y.N., Lopez-Paz, D.: MIXUP: beyond empirical risk minimization. In: International Conference on Learning Representations (2018)"},{"key":"12_CR56","unstructured":"Zhang, M., Levine, S., Finn, C.: MEMO: test time robustness via adaptation and augmentation. In: Neural Information Processing Systems (NeurIPS) (2022)"},{"key":"12_CR57","unstructured":"Zhou, D., et al.: Understanding the robustness in vision transformers. In: International Conference on Machine Learning (ICML) (2022)"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-78166-7_12","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T23:36:58Z","timestamp":1733096218000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-78166-7_12"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,2]]},"ISBN":["9783031781650","9783031781667"],"references-count":57,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-78166-7_12","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,12,2]]},"assertion":[{"value":"2 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Kolkata","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"India","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"1 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icpr2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/icpr2024.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}