{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T12:08:28Z","timestamp":1775563708462,"version":"3.50.1"},"reference-count":22,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T00:00:00Z","timestamp":1772841600000},"content-version":"vor","delay-in-days":65,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001871","name":"FCT","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001871","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Procedia Computer Science"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1016\/j.procs.2026.03.099","type":"journal-article","created":{"date-parts":[[2026,3,24]],"date-time":"2026-03-24T12:39:40Z","timestamp":1774355980000},"page":"1186-1193","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Comparative Analysis of CNNs and Vision Transformers for Lesion Classification in Capsule Endoscopy"],"prefix":"10.1016","volume":"278","author":[{"given":"Carolina","family":"Tabosa","sequence":"first","affiliation":[]},{"given":"Marta","family":"Salgado","sequence":"additional","affiliation":[]},{"given":"Danilo","family":"Leite","sequence":"additional","affiliation":[]},{"given":"Ant\u00f3nio","family":"Cunha","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.procs.2026.03.099_bib1","doi-asserted-by":"crossref","unstructured":"S. Takahashi, Y. Sakaguchi, N. Kouno, et al., \u201cComparison of Vision Transformers and Convolutional Neural Networks in Medical Image Analysis: A Systematic Review,\u201d J. Med. Syst., vol. 48, no. 84, 2024. doi: 10.1007\/s10916-024-02105-8.","DOI":"10.1007\/s10916-024-02105-8"},{"issue":"27","key":"10.1016\/j.procs.2026.03.099_bib2","first-page":"10681","article-title":"\u201cArtificial intelligence and capsule endoscopy: Current status and future perspectives,\u201d World J","volume":"31","author":"Le Berre","year":"2025","journal-title":"Gastroenterol."},{"issue":"2","key":"10.1016\/j.procs.2026.03.099_bib3","first-page":"172","article-title":"\u201cCapsule endoscopy in obscure gastrointestinal bleeding: Current status,\u201d Clin","volume":"55","author":"Tamilarasan","year":"2022","journal-title":"Endosc."},{"issue":"6","key":"10.1016\/j.procs.2026.03.099_bib4","first-page":"E805","article-title":"\u201cArtificial intelligence-assisted reading reduces the review time of capsule endoscopy videos,\u201d Endosc","volume":"8","author":"Leenhardt","year":"2020","journal-title":"Int. Open"},{"key":"10.1016\/j.procs.2026.03.099_bib5","unstructured":"C. Pan, Y. Zhang, and X. Liu, \u201cDeep CNN-based ulcer and angiodysplasia detection in capsule endoscopy,\u201d Comput. Biol. Med., vol. 134, p. 104540, Apr. 2021."},{"issue":"2","key":"10.1016\/j.procs.2026.03.099_bib6","first-page":"634","article-title":"\u201cMulti-class gastrointestinal lesion classification in capsule endoscopy using EfficientNet,\u201d IEEE J","volume":"26","author":"Zhao","year":"2022","journal-title":"Biomed. Health Inform."},{"key":"10.1016\/j.procs.2026.03.099_bib7","unstructured":"Y. Zheng, L. Wang, and T. Zhang, \u201cVision Transformers for multiclass lesion detection in capsule endoscopy,\u201d Med. Image Anal., vol. 86, p. 102773, Nov. 2023."},{"key":"10.1016\/j.procs.2026.03.099_bib8","unstructured":"M. Gao, J. Liu, and S. Wu, \u201cTransformers in medical image analysis: A systematic review,\u201d Artif. Intell. Med., vol. 144, p. 102526, Jan. 2023."},{"key":"10.1016\/j.procs.2026.03.099_bib9","unstructured":"P. Y. Kim, J. S. Kwon, S. Joo, S. P. Bae, D. Lee, S. Yoo, J. Cha, and T. Moon, \"SwiFT: Swin 4D fMRI Transformer,\" 2023."},{"key":"10.1016\/j.procs.2026.03.099_bib10","unstructured":"S. Wang, B. Z. Li, M. Khabsa, H. Fang, and H. Ma, \"Linformer: Self-Attention with Linear Complexity,\" arXiv.org, 2020."},{"key":"10.1016\/j.procs.2026.03.099_bib11","doi-asserted-by":"crossref","unstructured":"P. Smedsrud et al., \u201cKvasir-Capsule, a video capsule endoscopy dataset,\u201d Sci. Data, vol. 8, no. 1, p. 134, Dec. 2021.","DOI":"10.1038\/s41597-021-00920-z"},{"key":"10.1016\/j.procs.2026.03.099_bib12","unstructured":"A. Krizhevsky, I. Sutskever, and G. E. Hinton, \"Introduction to pixel normalization to improve convergence in deep neural networks,\" in Neural Information Processing Systems, 2012."},{"key":"10.1016\/j.procs.2026.03.099_bib13","unstructured":"K. Simonyan and A. Zisserman, \"Application of Gaussian filters for noise reduction in images,\" International Journal of Computer Vision, 2015."},{"issue":"6","key":"10.1016\/j.procs.2026.03.099_bib14","doi-asserted-by":"crossref","first-page":"1290","DOI":"10.3348\/jksr.2020.0158","article-title":"\"Data Augmentation Techniques for Deep Learning-Based Medical Image Analyses\"","volume":"81","author":"Kim","year":"2020","journal-title":"Journal of the Korean Society of Radiology"},{"key":"10.1016\/j.procs.2026.03.099_bib15","unstructured":"D. Leite, J. Camara, J. Rodrigues, and A. Cunha, \u201cA Vision Transformer Approach to Fundus Image Classification.\u201d"},{"key":"10.1016\/j.procs.2026.03.099_bib16","doi-asserted-by":"crossref","unstructured":"S. T. Widodo, H. Brawijaya, and S. Samudi, \"Stratified K-fold cross validation optimization on machine learning for prediction,\" Sinkron: jurnal dan penelitian teknik informatika, vol. 7, no. 4, pp. 11792, 2022.","DOI":"10.33395\/sinkron.v7i4.11792"},{"key":"10.1016\/j.procs.2026.03.099_bib17","unstructured":"Kahloot and Ekler, \"Hyperparameter optimization using Optuna,\" 2021."},{"key":"10.1016\/j.procs.2026.03.099_bib18","doi-asserted-by":"crossref","unstructured":"S. T. Widodo, H. Brawijaya, and S. Samudi, \"Stratified K-fold cross validation optimization on machine learning for prediction,\" Sinkron: jurnal dan penelitian teknik informatika, vol. 7, no. 4, pp. 11792, 2022.","DOI":"10.33395\/sinkron.v7i4.11792"},{"key":"10.1016\/j.procs.2026.03.099_bib19","doi-asserted-by":"crossref","unstructured":"D. R. A. Leite, R. M. de Moraes e L. W. Lopes, \u201cDifferent performances of machine learning models to classify dysphonic and non\u2011dysphonic voices,\u201d Journal of Voice, 2022, doi: 10.1016\/j.jvoice.2022.11.001.","DOI":"10.1016\/j.jvoice.2022.11.001"},{"key":"10.1016\/j.procs.2026.03.099_bib20","unstructured":"M. Sobhaninia, H. Foroughi, and A. Karargyris, \u201cEndoscopy image classification using Swin Transformer and saliency map,\u201d arXiv preprint arXiv:2303.06736, 2023. Doi: https:\/\/arxiv.org\/abs\/2303.06736"},{"key":"10.1016\/j.procs.2026.03.099_bib21","doi-asserted-by":"crossref","unstructured":"D. Varam, L. Khalil, and T. Shanableh, \u201cOn-Edge Deployment of Vision Transformers for Medical Diagnostics Using the Kvasir-Capsule Dataset,\u201d Appl. Sci., vol. 14, no. 18, p. 8115, 2024. doi: 10.3390\/app14188115","DOI":"10.3390\/app14188115"},{"issue":"2","key":"10.1016\/j.procs.2026.03.099_bib22","doi-asserted-by":"crossref","first-page":"336","DOI":"10.1007\/s11263-019-01228-7","article-title":"\u201cGrad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization\u201d","volume":"128","author":"Selvaraju","year":"2020","journal-title":"International Journal of Computer Vision"}],"container-title":["Procedia Computer Science"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1877050926006940?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1877050926006940?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T11:26:31Z","timestamp":1775561191000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1877050926006940"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":22,"alternative-id":["S1877050926006940"],"URL":"https:\/\/doi.org\/10.1016\/j.procs.2026.03.099","relation":{},"ISSN":["1877-0509"],"issn-type":[{"value":"1877-0509","type":"print"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Comparative Analysis of CNNs and Vision Transformers for Lesion Classification in Capsule Endoscopy","name":"articletitle","label":"Article Title"},{"value":"Procedia Computer Science","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.procs.2026.03.099","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Author(s). Published by Elsevier B.V.","name":"copyright","label":"Copyright"}]}}