{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T17:51:16Z","timestamp":1768413076547,"version":"3.49.0"},"reference-count":83,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T00:00:00Z","timestamp":1719273600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T00:00:00Z","timestamp":1719273600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["IJDAR"],"published-print":{"date-parts":[[2024,9]]},"DOI":"10.1007\/s10032-024-00483-w","type":"journal-article","created":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T15:02:13Z","timestamp":1719327733000},"page":"447-473","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["DocXclassifier: towards a robust and interpretable deep neural network for document image classification"],"prefix":"10.1007","volume":"27","author":[{"given":"Saifullah","family":"Saifullah","sequence":"first","affiliation":[]},{"given":"Stefan","family":"Agne","sequence":"additional","affiliation":[]},{"given":"Andreas","family":"Dengel","sequence":"additional","affiliation":[]},{"given":"Sheraz","family":"Ahmed","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,6,25]]},"reference":[{"key":"483_CR1","doi-asserted-by":"crossref","unstructured":"Ferrando, J., et\u00a0al.: Improving accuracy and speeding up document image classification through parallel systems. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics) 12138 LNCS, 387\u2013400 (2020). arXiv:2006.09141","DOI":"10.1007\/978-3-030-50417-5_29"},{"key":"483_CR2","doi-asserted-by":"crossref","unstructured":"Audebert, N., Herold, C., Slimani, K., Vidal, C.: Multimodal Deep Networks for Text and Image-Based Document Classification, Vol. 1167 CCIS, pp. 427\u2013443. Springer, Cham (2020). arxiv:1907.06370","DOI":"10.1007\/978-3-030-43823-4_35"},{"key":"483_CR3","doi-asserted-by":"crossref","unstructured":"Xu, Y., et\u00a0al.: LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding, pp. 2579\u20132591. Association for Computational Linguistics (ACL) (2021). arxiv:2012.14740","DOI":"10.18653\/v1\/2021.acl-long.201"},{"key":"483_CR4","doi-asserted-by":"crossref","unstructured":"Powalski, R., et\u00a0al.: Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer, Vol. 12822 LNCS, pp. 732\u2013747 (2021). arxiv:2102.09550","DOI":"10.1007\/978-3-030-86331-9_47"},{"key":"483_CR5","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1007\/978-3-030-86549-8_9","volume-title":"Document Analysis and Recognition-ICDAR 2021","author":"Z Shen","year":"2021","unstructured":"Shen, Z., et al.: Layoutparser: A unified toolkit for deep learning based document image analysis. In: Llad\u00f3s, J., Lopresti, D., Uchida, S. (eds.) Document Analysis and Recognition-ICDAR 2021, pp. 131\u2013146. Springer International Publishing, Cham (2021)"},{"key":"483_CR6","doi-asserted-by":"publisher","DOI":"10.3390\/electronics8080832","author":"DV Carvalho","year":"2019","unstructured":"Carvalho, D.V., Pereira, E.M., Cardoso, J.S.: Machine learning interpretability: a survey on methods and metrics. Electronics (2019). https:\/\/doi.org\/10.3390\/electronics8080832","journal-title":"Electronics"},{"key":"483_CR7","unstructured":"Honegger, M.: Shedding light on black box machine learning algorithms: Development of an axiomatic framework to assess the quality of methods that explain individual predictions. arXiv:1808.05054 (2018)"},{"key":"483_CR8","doi-asserted-by":"crossref","unstructured":"Dodge, S., Karam, L.: A study and comparison of human and deep learning recognition performance under visual distortions. 2017 26th Int. Conf. Comput. Commun. Networks, ICCCN 2017 (2017). arXiv:1705.02498","DOI":"10.1109\/ICCCN.2017.8038465"},{"key":"483_CR9","unstructured":"Recht, B., Roelofs, R., Schmidt, L., Shankar, V.: Do ImageNet classifiers generalize to ImageNet? 36th Int. Conf. Mach. Learn. ICML 2019 2019-June, 9413\u20139424 (2019). arXiv:1902.10811"},{"key":"483_CR10","unstructured":"Hendrycks, D., Dietterich, T.: Benchmarking neural network robustness to common corruptions and perturbations. 7th Int. Conf. Learn. Represent. ICLR 2019 1\u201316 (2019). arXiv:1903.12261"},{"key":"483_CR11","doi-asserted-by":"crossref","unstructured":"Saifullah, Siddiqui, S.A., Agne, S., Dengel, A., Ahmed, S.: Are deep models robust against real distortions? A case study on document image classification, 1628\u20131635 (2022)","DOI":"10.20944\/preprints202202.0058.v2"},{"issue":"3","key":"483_CR12","doi-asserted-by":"publisher","DOI":"10.1002\/widm.1356","volume":"10","author":"E Ntoutsi","year":"2020","unstructured":"Ntoutsi, E., et al.: Bias in data-driven artificial intelligence systems-an introductory survey. WIREs Data Min. Knowl. Disc. 10(3), e1356 (2020). https:\/\/doi.org\/10.1002\/widm.1356","journal-title":"WIREs Data Min. Knowl. Disc."},{"key":"483_CR13","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1007\/978-3-031-12053-4_4","volume-title":"Medical Image Understanding and Analysis","author":"A Lucieri","year":"2022","unstructured":"Lucieri, A., et al.: Revisiting the shape-bias of deep learning for dermoscopic skin lesion classification. In: Yang, G., Aviles-Rivero, A., Roberts, M., Sch\u00f6nlieb, C.-B. (eds.) Medical Image Understanding and Analysis, pp. 46\u201361. Springer International Publishing, Cham (2022)"},{"key":"483_CR14","unstructured":"Geirhos, R., et\u00a0al.: Imagenet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. 7th Int. Conf. Learn. Represent. ICLR 2019 (c), 1\u201320 (2019). arXiv:1811.12231"},{"key":"483_CR15","doi-asserted-by":"crossref","unstructured":"Hosseini, H., Xiao, B., Poovendran, R.: Google\u2019s cloud vision API is not robust to noise. Proc. - 16th IEEE Int. Conf. Mach. Learn. Appl. ICMLA 2017 2017-December, 101\u2013105 (2017). arXiv:1704.05051","DOI":"10.1109\/ICMLA.2017.0-172"},{"key":"483_CR16","unstructured":"Geirhos, R., et\u00a0al.: Comparing deep neural networks against humans: object recognition when the signal gets weaker (2017). arXiv:1706.06969"},{"key":"483_CR17","doi-asserted-by":"crossref","unstructured":"Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. Proc. Int. Conf. Doc. Anal. Recognition, ICDAR 2015-Novem, 991\u2013995 (2015). arXiv:1502.07058","DOI":"10.1109\/ICDAR.2015.7333910"},{"key":"483_CR18","doi-asserted-by":"publisher","first-page":"384","DOI":"10.1007\/978-3-031-41682-8_24","volume-title":"Document Analysis and Recognition - ICDAR 2023","author":"A Groleau","year":"2023","unstructured":"Groleau, A., Chee, K.W., Larson, S., Maini, S., Boarman, J.: Augraphy: a data augmentation library for document images. In: Fink, G.A., Jain, R., Kise, K., Zanibbi, R. (eds.) Document Analysis and Recognition - ICDAR 2023, pp. 384\u2013401. Springer Nature Switzerland, Cham (2023)"},{"key":"483_CR19","doi-asserted-by":"crossref","unstructured":"Lins, R.D., Bernardino, R.B., Barboza, R. d.S., Simske, S.J.: Binarization of photographed documents image quality, processing time and size assessment, 1\u201310 (2022)","DOI":"10.1145\/3558100.3564159"},{"key":"483_CR20","doi-asserted-by":"publisher","unstructured":"Ribeiro, M., Singh, S., Guestrin, C.: Why should i trust you? Explaining the predictions of any classifier. Association for Computational Linguistics (2016). https:\/\/doi.org\/10.18653\/v1\/n16-3020","DOI":"10.18653\/v1\/n16-3020"},{"issue":"2","key":"483_CR21","doi-asserted-by":"publisher","first-page":"336","DOI":"10.1007\/s11263-019-01228-7","volume":"128","author":"RR Selvaraju","year":"2019","unstructured":"Selvaraju, R.R., et al.: Grad-cam: Visual explanations from deep networks via gradient-based localization. Int. J. Comput. Vision 128(2), 336\u2013359 (2019). https:\/\/doi.org\/10.1007\/s11263-019-01228-7","journal-title":"Int. J. Comput. Vision"},{"key":"483_CR22","unstructured":"Lundberg, S.M., Lee, S.-I.: A Unified Approach to Interpreting Model Predictions, NIPS\u201917, pp. 4768\u20134777. Curran Associates Inc., Red Hook, NY (2017)"},{"key":"483_CR23","doi-asserted-by":"crossref","unstructured":"Lang, O., et\u00a0al.: Explaining in style: Training a gan to explain a classifier in stylespace. 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 673\u2013682 (2021). https:\/\/api.semanticscholar.org\/CorpusID:233407984","DOI":"10.1109\/ICCV48922.2021.00073"},{"key":"483_CR24","unstructured":"Nemirovsky, D.A., Thiebaut, N.K., Xu, Y., Gupta, A.: CounteRGAN: Generating counterfactuals for real-time recourse and interpretability using residual GANs (2022). https:\/\/openreview.net\/forum?id=SMxJO8i5lc"},{"key":"483_CR25","doi-asserted-by":"publisher","first-page":"329","DOI":"10.1613\/jair.1.13200","volume":"73","author":"G Ras","year":"2022","unstructured":"Ras, G., Xie, N., Gerven, M.V., Doran, D.: Explainable deep learning: a field guide for the uninitiated. J. Artif. Intell. Res. 73, 329\u2013397 (2022). https:\/\/doi.org\/10.1613\/jair.1.13200","journal-title":"J. Artif. Intell. Res."},{"key":"483_CR26","doi-asserted-by":"publisher","first-page":"228","DOI":"10.1016\/j.patrec.2021.06.030","volume":"150","author":"M Ivanovs","year":"2021","unstructured":"Ivanovs, M., Kadikis, R., Ozols, K.: Perturbation-based methods for explaining deep neural networks: a survey. Pattern Recogn. Lett. 150, 228\u2013234 (2021). https:\/\/doi.org\/10.1016\/j.patrec.2021.06.030","journal-title":"Pattern Recogn. Lett."},{"issue":"5","key":"483_CR27","doi-asserted-by":"publisher","first-page":"206","DOI":"10.1038\/s42256-019-0048-x","volume":"1","author":"C Rudin","year":"2019","unstructured":"Rudin, C.: Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat. Mach. Intell. 1(5), 206\u2013215 (2019)","journal-title":"Nat. Mach. Intell."},{"issue":"3","key":"483_CR28","doi-asserted-by":"publisher","first-page":"31","DOI":"10.1145\/3236386.3241340","volume":"16","author":"ZC Lipton","year":"2018","unstructured":"Lipton, Z.C.: The mythos of model interpretability: in machine learning, the concept of interpretability is both important and slippery. Queue 16(3), 31\u201357 (2018). https:\/\/doi.org\/10.1145\/3236386.3241340","journal-title":"Queue"},{"key":"483_CR29","doi-asserted-by":"publisher","unstructured":"Li, P., Yi, J., Zhou, B., Zhang, L.: Improving the robustness of deep neural networks via adversarial training with triplet loss, 2909\u20132915 (International Joint Conferences on Artificial Intelligence Organization, 2019). https:\/\/doi.org\/10.24963\/ijcai.2019\/403","DOI":"10.24963\/ijcai.2019\/403"},{"key":"483_CR30","unstructured":"Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J., Song, D.: Natural Adversarial Examples (2019). arXiv:1907.07174"},{"key":"483_CR31","unstructured":"Cubuk, E.D., Zoph, B., Shlens, J., Le, Q.: Randaugment: practical automated data augmentation with a reduced search space. In: Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., Lin, H. (Eds.) Advances in Neural Information Processing Systems, Vol.\u00a033, pp. 18613\u201318624. Curran Associates, Inc., 2020. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2020\/file\/d85b63ef0ccb114d0a3bb7b7d808028f-Paper.pdf"},{"key":"483_CR32","unstructured":"Zhang, H., Cisse, M., Dauphin, Y.N., Lopez-Paz, D.: mixup: Beyond empirical risk minimization (2018). https:\/\/openreview.net\/forum?id=r1Ddp1-Rb"},{"issue":"07","key":"483_CR33","doi-asserted-by":"publisher","first-page":"13001","DOI":"10.1609\/aaai.v34i07.7000","volume":"34","author":"Z Zhong","year":"2020","unstructured":"Zhong, Z., Zheng, L., Kang, G., Li, S., Yang, Y.: Random erasing data augmentation. Proc. AAAI Conf. Artif. Intell. 34(07), 13001\u201313008 (2020). https:\/\/doi.org\/10.1609\/aaai.v34i07.7000","journal-title":"Proc. AAAI Conf. Artif. Intell."},{"key":"483_CR34","unstructured":"Hendrycks, D., et\u00a0al.: Augmix: a simple method to improve robustness and uncertainty under data shift (2020). https:\/\/openreview.net\/forum?id=S1gmrxHFvB"},{"issue":"1","key":"483_CR35","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10032-006-0020-2","volume":"10","author":"N Chen","year":"2007","unstructured":"Chen, N., Blostein, D.: A survey of document image classification: problem statement, classifier architecture and performance evaluation. Int. J. Doc. Anal. Recognit. 10(1), 1\u201316 (2007)","journal-title":"Int. J. Doc. Anal. Recognit."},{"key":"483_CR36","doi-asserted-by":"crossref","unstructured":"Afzal, M.Z., Kolsch, A., Ahmed, S., Liwicki, M.: Cutting the Error by Half: Investigation of Very Deep CNN and Advanced Training Strategies for Document Image Classification. Proc. Int. Conf. Doc. Anal. Recognition, ICDAR 1, 883\u2013888 (2017). arXiv:1704.03557","DOI":"10.1109\/ICDAR.2017.149"},{"key":"483_CR37","doi-asserted-by":"crossref","unstructured":"Asim, M.N., et\u00a0al.: Two stream deep network for document image classification, pp. 1410\u20131416. Proc. Int. Conf. Doc. Anal. Recognition, ICDAR (2019)","DOI":"10.1109\/ICDAR.2019.00227"},{"key":"483_CR38","doi-asserted-by":"publisher","DOI":"10.3390\/app12031457","author":"S Kanchi","year":"2022","unstructured":"Kanchi, S., et al.: Emmdocclassifier: efficient multimodal document image classifier for scarce data. Appl. Sci. (2022). https:\/\/doi.org\/10.3390\/app12031457","journal-title":"Appl. Sci."},{"key":"483_CR39","doi-asserted-by":"crossref","unstructured":"Tensmeyer, C., Martinez, T.: Analysis of Convolutional Neural Networks for Document Image Classification. Proc. Int. Conf. Doc. Anal. Recognition, ICDAR 1, 388\u2013393 (2017). arXiv:1708.03273","DOI":"10.1109\/ICDAR.2017.71"},{"key":"483_CR40","doi-asserted-by":"crossref","unstructured":"Liu, Z., et\u00a0al.: A convnet for the 2020s, 11976\u201311986 (2022)","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"483_CR41","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., et\u00a0al.: Feature pyramid networks for object detection, pp. 936\u2013944 (2017)","DOI":"10.1109\/CVPR.2017.106"},{"key":"483_CR42","doi-asserted-by":"crossref","unstructured":"Yun, S., et\u00a0al.: Cutmix: regularization strategy to train strong classifiers with localizable features (2019)","DOI":"10.1109\/ICCV.2019.00612"},{"key":"483_CR43","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2818\u20132826 (2015). https:\/\/api.semanticscholar.org\/CorpusID:206593880","DOI":"10.1109\/CVPR.2016.308"},{"key":"483_CR44","doi-asserted-by":"crossref","unstructured":"Palacio, S., et\u00a0al.: Xai handbook: towards a unified framework for explainable ai, pp. 3766\u20133775 (2021)","DOI":"10.1109\/ICCVW54120.2021.00420"},{"key":"483_CR45","unstructured":"Touvron, H., et\u00a0al.: Augmenting convolutional networks with attention-based aggregation (2021). arxiv:2112.13692"},{"key":"483_CR46","unstructured":"Chen, S., He, Y., Sun, J., Naoi, S.: Structured document classification by matching local salient features. Proc. Int. Conf. Pattern Recognit. (Icpr), 653\u2013656 (2012)"},{"issue":"1","key":"483_CR47","doi-asserted-by":"publisher","first-page":"119","DOI":"10.1016\/j.patrec.2013.10.030","volume":"43","author":"J Kumar","year":"2014","unstructured":"Kumar, J., Ye, P., Doermann, D.: Structural similarity for document image classification and retrieval. Pattern Recognit. Lett. 43(1), 119\u2013126 (2014)","journal-title":"Pattern Recognit. Lett."},{"key":"483_CR48","doi-asserted-by":"crossref","unstructured":"Baldi, S., Marinai, S., Soda, G.: Using tree-grammars for training set expansion in page classification. Proc. Int. Conf. Doc. Anal. Recognit. ICDAR2003-Janua\u00a0(Icdar), 829\u2013833 (2003)","DOI":"10.1109\/ICDAR.2003.1227778"},{"key":"483_CR49","doi-asserted-by":"crossref","unstructured":"Kang, L., Kumar, J., Ye, P., Li, Y., Doermann, D.: Convolutional neural networks for document image classification. Proc. - Int. Conf. Pattern Recognit. 3168\u20133172 (2014)","DOI":"10.1109\/ICPR.2014.546"},{"key":"483_CR50","doi-asserted-by":"crossref","unstructured":"Afzal, M.Z., et\u00a0al.: Deepdocclassifier: document classification with deep Convolutional Neural Network. Proc. Int. Conf. Doc. Anal. Recognition, ICDAR2015-Novem, 1111\u20131115 (2015)","DOI":"10.1109\/ICDAR.2015.7333933"},{"key":"483_CR51","doi-asserted-by":"crossref","unstructured":"Deng, J., et\u00a0al.: Imagenet: a large-scale hierarchical image database, pp. 248\u2013255 (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"483_CR52","unstructured":"Tan, M., Le, Q.: EfficientNet: rethinking model scaling for convolutional neural networks. In: Chaudhuri, K., Salakhutdinov, R. (Eds.) Proceedings of the 36th International Conference on Machine Learning, Vol.\u00a097 of Proceedings of Machine Learning Research, pp. 6105\u20136114 (PMLR, 2019)"},{"key":"483_CR53","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth $$16 \\times 16$$ words: transformers for image recognition at scale (2021). https:\/\/openreview.net\/forum?id=YicbFdNTTy"},{"key":"483_CR54","doi-asserted-by":"publisher","first-page":"293","DOI":"10.1007\/978-3-030-86337-1_20","volume-title":"Document Analysis and Recognition-ICDAR 2021","author":"SA Siddiqui","year":"2021","unstructured":"Siddiqui, S.A., Dengel, A., Ahmed, S.: Analyzing the potential of zero-shot recognition for document image classification. In: Llad\u00f3s, J., Lopresti, D., Uchida, S. (eds.) Document Analysis and Recognition-ICDAR 2021, pp. 293\u2013304. Springer International Publishing, Cham (2021)"},{"key":"483_CR55","doi-asserted-by":"publisher","first-page":"68","DOI":"10.1007\/978-3-031-01984-5_6","volume-title":"Electrical and Computer Engineering","author":"S Sevim","year":"2022","unstructured":"Sevim, S., Omurca, S.\u0130, Ekinci, E.: Document image classification with vision transformers. In: Seyman, M.N. (ed.) Electrical and Computer Engineering, pp. 68\u201381. Springer International Publishing, Cham (2022)"},{"key":"483_CR56","doi-asserted-by":"crossref","unstructured":"Li, J., et\u00a0al.: Dit: Self-supervised pre-training for document image transformer. In: Proceedings of the 30th ACM International Conference on Multimedia (2022). https:\/\/api.semanticscholar.org\/CorpusID:247244858","DOI":"10.1145\/3503161.3547911"},{"key":"483_CR57","unstructured":"Dauphinee, T., Patel, N., Rashidi, M.M.: Modular multimodal architecture for document classification. arXiv:1912.04376 (2019). https:\/\/api.semanticscholar.org\/CorpusID:209140352"},{"key":"483_CR58","doi-asserted-by":"publisher","first-page":"317","DOI":"10.1007\/978-3-030-92185-9_26","volume-title":"Neural Information Processing","author":"Y Xiong","year":"2021","unstructured":"Xiong, Y., Dai, Z., Liu, Y., Ding, X.: Document image classification method based on graph convolutional network. In: Mantoro, T., Lee, M., Ayu, M.A., Wong, K.W., Hidayanto, A.N. (eds.) Neural Information Processing, pp. 317\u2013329. Springer International Publishing, Cham (2021)"},{"key":"483_CR59","doi-asserted-by":"crossref","unstructured":"Xu, Y., et\u00a0al.: LayoutLM: Pre-training of text and layout for document image understanding. Proc. ACM SIGKDD Int. Conf. Knowl. Discov. Data Min. 20, 1192\u20131200 (2020). arXiv:1912.13318","DOI":"10.1145\/3394486.3403172"},{"key":"483_CR60","doi-asserted-by":"crossref","unstructured":"Tang, Z., et\u00a0al.: Unifying vision, text, and layout for universal document processing, pp. 19254\u201319264 (2023)","DOI":"10.1109\/CVPR52729.2023.01845"},{"key":"483_CR61","unstructured":"Sundararajan, M., Taly, A., Yan, Q.: Axiomatic attribution for deep networks, pp. 3319\u20133328 (PMLR, 2017)"},{"key":"483_CR62","unstructured":"Shrikumar, A., Greenside, P., Kundaje, A.: Learning important features through propagating activation differences, ICML\u201917, pp. 3145\u20133153 (JMLR.org, 2017)"},{"key":"483_CR63","unstructured":"Adebayo, J., et\u00a0al.: Sanity checks for saliency maps. In: Bengio, S., et\u00a0al.) (Eds.) Advances in Neural Information Processing Systems, Vol.\u00a031 (Curran Associates, Inc., 2018). https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2018\/file\/294a8ed24b1ad22ec2e7efea049b8737-Paper.pdf"},{"key":"483_CR64","unstructured":"Chen, C. et\u00a0al.: This looks like that: Deep learning for interpretable image recognition. In: Wallach, H., et\u00a0al. (Eds.) Advances in Neural Information Processing Systems, Vol.\u00a032. Curran Associates, Inc. (2019). https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2019\/file\/adf7ee2dcf142b0e11888e72b43fcb75-Paper.pdf"},{"key":"483_CR65","doi-asserted-by":"publisher","first-page":"185","DOI":"10.1016\/j.neunet.2020.07.010","volume":"130","author":"P Angelov","year":"2020","unstructured":"Angelov, P., Soares, E.: Towards explainable deep neural networks (xdnn). Neural Netw. 130, 185\u2013194 (2020). https:\/\/doi.org\/10.1016\/j.neunet.2020.07.010","journal-title":"Neural Netw."},{"key":"483_CR66","unstructured":"Kim, B., et\u00a0al.: Interpretability beyond feature attribution: quantitative testing with concept activation vectors (tcav), pp. 2668\u20132677 (PMLR, 2018)"},{"issue":"9","key":"483_CR67","doi-asserted-by":"publisher","first-page":"2805","DOI":"10.1109\/TNNLS.2018.2886017","volume":"30","author":"X Yuan","year":"2019","unstructured":"Yuan, X., He, P., Zhu, Q., Li, X.: Adversarial examples: attacks and defenses for deep learning. IEEE Trans. Neural Netw. Learn. Syst. 30(9), 2805\u20132824 (2019). https:\/\/doi.org\/10.1109\/TNNLS.2018.2886017","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"483_CR68","doi-asserted-by":"crossref","unstructured":"Cubuk, E.D., Zoph, B., Mane, D., Vasudevan, V., Le, Q.V.: Autoaugment: learning augmentation strategies from data (2019)","DOI":"10.1109\/CVPR.2019.00020"},{"key":"483_CR69","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"483_CR70","doi-asserted-by":"crossref","unstructured":"Liu, Z., et\u00a0al.: Swin transformer: hierarchical vision transformer using shifted windows. In: 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 9992\u201310002 (2021). https:\/\/api.semanticscholar.org\/CorpusID:232352874","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"483_CR71","doi-asserted-by":"crossref","unstructured":"Chollet, F.: Xception: deep learning with depthwise separable convolutions, pp. 1251\u20131258 (2017)","DOI":"10.1109\/CVPR.2017.195"},{"key":"483_CR72","volume-title":"Advances in Neural Information Processing Systems","author":"A Krizhevsky","year":"2012","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: Pereira, F., Burges, C.J.C., Bottou, L., Weinberger, K.Q. (eds.) Advances in Neural Information Processing Systems, vol. 25. Curran Associates Inc, Glasgow (2012)"},{"key":"483_CR73","unstructured":"Vaswani, A., et\u00a0al.: Attention is all you need. In: Guyon, I., et\u00a0al. (Eds.) Advances in Neural Information Processing Systems, Vol.\u00a030. Curran Associates, Inc., Glasgow (2017). https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2017\/file\/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf"},{"key":"483_CR74","doi-asserted-by":"crossref","unstructured":"Abnar, S., Zuidema, W.: Quantifying attention flow in transformers. In: Jurafsky, D., Chai, J., Schluter, N., Tetreault, J. (Eds.) Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 4190\u20134197. Association for Computational Linguistics, Online (2020). https:\/\/aclanthology.org\/2020.acl-main.385","DOI":"10.18653\/v1\/2020.acl-main.385"},{"issue":"2","key":"483_CR75","doi-asserted-by":"publisher","first-page":"652","DOI":"10.1109\/TPAMI.2019.2938758","volume":"43","author":"S Gao","year":"2021","unstructured":"Gao, S., et al.: Res2net: A new multi-scale backbone architecture. IEEE Trans. Pattern Anal. Mach. Intell. 43(2), 652\u2013662 (2021). https:\/\/doi.org\/10.1109\/TPAMI.2019.2938758","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"483_CR76","doi-asserted-by":"publisher","unstructured":"Xie, S., Girshick, R.B., Doll\u00e1r, P., Tu, Z., He, K.: Aggregated residual transformations for deep neural networks, pp. 5987\u20135995. IEEE Computer Society (2017). https:\/\/doi.org\/10.1109\/CVPR.2017.634","DOI":"10.1109\/CVPR.2017.634"},{"key":"483_CR77","doi-asserted-by":"crossref","unstructured":"Huang, G., Liu, Z., van\u00a0der Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks, pp. 2261\u20132269. IEEE Computer Society (2017). http:\/\/dblp.uni-trier.de\/db\/conf\/cvpr\/cvpr2017.html#HuangLMW17","DOI":"10.1109\/CVPR.2017.243"},{"key":"483_CR78","doi-asserted-by":"crossref","unstructured":"Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: Deep networks with stochastic depth. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) Computer Vision\u2013ECCV 2016, pp. 646\u2013661. Springer International Publishing, Cham (2016)","DOI":"10.1007\/978-3-319-46493-0_39"},{"key":"483_CR79","doi-asserted-by":"crossref","unstructured":"Das, A., Roy, S., Bhattacharya, U., Parui, S.K.: Document image classification with intra-domain transfer learning and stacked generalization of deep convolutional neural networks. Proc. - Int. Conf. Pattern Recognit. 2018-Augus, pp. 3180\u20133185 (2018). arXiv:1801.09321","DOI":"10.1109\/ICPR.2018.8545630"},{"key":"483_CR80","doi-asserted-by":"publisher","unstructured":"Sarkhel, R., Nandi, A.: Deterministic routing between layout abstractions for multi-scale classification of visually rich documents, pp. 3360\u20133366. International Joint Conferences on Artificial Intelligence Organization (2019). https:\/\/doi.org\/10.24963\/ijcai.2019\/466","DOI":"10.24963\/ijcai.2019\/466"},{"key":"483_CR81","doi-asserted-by":"crossref","unstructured":"Bakkali, S., Ming, Z., Coustaty, M., Rusinol, M.: Visual and textual deep feature fusion for document image classification (2020)","DOI":"10.1109\/CVPRW50498.2020.00289"},{"key":"483_CR82","unstructured":"Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: visualising image classification models and saliency maps. CoRR abs\/1312.6034 (2013). https:\/\/api.semanticscholar.org\/CorpusID:1450294"},{"key":"483_CR83","doi-asserted-by":"publisher","first-page":"818","DOI":"10.1007\/978-3-319-10590-1_53","volume-title":"Computer Vision-ECCV 2014","author":"MD Zeiler","year":"2014","unstructured":"Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) Computer Vision-ECCV 2014, pp. 818\u2013833. Springer International Publishing, Cham (2014)"}],"container-title":["International Journal on Document Analysis and Recognition (IJDAR)"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-024-00483-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10032-024-00483-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-024-00483-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,31]],"date-time":"2024-08-31T10:12:16Z","timestamp":1725099136000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10032-024-00483-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,25]]},"references-count":83,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2024,9]]}},"alternative-id":["483"],"URL":"https:\/\/doi.org\/10.1007\/s10032-024-00483-w","relation":{},"ISSN":["1433-2833","1433-2825"],"issn-type":[{"value":"1433-2833","type":"print"},{"value":"1433-2825","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,6,25]]},"assertion":[{"value":"14 November 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 May 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 May 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 June 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}