{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,27]],"date-time":"2026-03-27T20:08:23Z","timestamp":1774642103052,"version":"3.50.1"},"reference-count":69,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,15]],"date-time":"2025-12-15T00:00:00Z","timestamp":1765756800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,15]],"date-time":"2025-12-15T00:00:00Z","timestamp":1765756800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62525309"],"award-info":[{"award-number":["62525309"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,15]]},"DOI":"10.1109\/bibm66473.2025.11356461","type":"proceedings-article","created":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T21:19:40Z","timestamp":1769721580000},"page":"5050-5057","source":"Crossref","is-referenced-by-count":0,"title":["Deep Learning-based ENT Endoscopy Image Classification: A Technical Report for ENTRep 2025 Challenge"],"prefix":"10.1109","author":[{"given":"Juntao","family":"Jiang","sequence":"first","affiliation":[{"name":"College of Control Science and Engineering, Zhejiang University,Hangzhou,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peilin","family":"Han","sequence":"additional","affiliation":[{"name":"College of Computer and Information Science, Southwest University,Chongqing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yali","family":"Bi","sequence":"additional","affiliation":[{"name":"School of Biomedical Engineering, University of Science and Technology of China,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chunlin","family":"Zhou","sequence":"additional","affiliation":[{"name":"College of Control Science and Engineering, Zhejiang University,Hangzhou,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yong","family":"Liu","sequence":"additional","affiliation":[{"name":"College of Control Science and Engineering, Zhejiang University,Hangzhou,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiangning","family":"Zhang","sequence":"additional","affiliation":[{"name":"College of Control Science and Engineering, Zhejiang University,Hangzhou,China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.5555\/2999134.2999257"},{"key":"ref3","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref5","first-page":"6105","article-title":"Efficientnet: Rethinking model scaling for convolutional neural networks","volume-title":"International conference on machine learning","author":"Tan","year":"2019"},{"key":"ref6","first-page":"11976","article-title":"A convet for the 2020s","volume-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","author":"Liu","year":"2022"},{"key":"ref7","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv preprint"},{"key":"ref8","volume-title":"Training data-efficient image transformers & distillation through attention","author":"Touvron","year":"2021"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00010"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref12","volume-title":"Recall loss for imbalanced image classification and semantic segmentation","author":"Tian","year":"2021"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.89"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.48550\/arxiv.1710.09412"},{"key":"ref15","article-title":"Improved regularization of convolutional neural networks with cutout","author":"DeVries","year":"2017","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00612"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/s10916-017-0836-y"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.3390\/diagnostics11122183"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.3389\/fnins.2023.1273686"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TIM.2023.3264047"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3277462"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TIM.2024.3374285"},{"key":"ref23","volume-title":"Entrep challenge: Advancing vision-language ai for ent endoscopy analysis","year":"2025"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.4324\/9781410605337-29"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00041"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01548"},{"key":"ref27","article-title":"Vision mamba: Efficient visual representation learning with bidirectional state space model","author":"Zhu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref28","doi-asserted-by":"crossref","DOI":"10.1109\/ICCV48922.2021.00951","volume-title":"Emerging properties in self-supervised vision transformers","author":"Caron","year":"2021"},{"key":"ref29","article-title":"Dinov2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv preprint"},{"key":"ref30","article-title":"Dinov3","author":"Sim\u00e9oni","year":"2025","journal-title":"arXiv preprint"},{"key":"ref31","volume-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2021"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CompComm.2018.8780859"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1055\/a-0981-6133"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.21037\/atm.2020.03.24"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.3390\/ijerph18052428"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1002\/int.22815"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.3390\/electronics11172747"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/BHI56158.2022.9926791"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3633598.3633623"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-99-7666-9_13"},{"issue":"9","key":"ref41","doi-asserted-by":"crossref","first-page":"e70030","DOI":"10.1002\/jgh3.70030","article-title":"Exploring vision transformers for classifying early barrett\u2019s dysplasia in endoscopic images: A pilot study on white-light and narrow-band imaging","volume":"8","author":"Tan","year":"2024","journal-title":"JGH Open"},{"key":"ref42","volume-title":"Classification of endoscopy and video capsule images using cnn-transformer model","author":"Subedi","year":"2024"},{"key":"ref43","volume-title":"Endoscopy artefact detection (ead) dataset","author":"Ali","year":"2019"},{"key":"ref44","doi-asserted-by":"crossref","DOI":"10.1109\/CVPR.2019.00949","volume-title":"Class-balanced loss based on effective number of samples","author":"Cui","year":"2019"},{"key":"ref45","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-030-59861-7_50","volume-title":"Additive angular margin for few shot learning to classify clinical endoscopy images","author":"Ali","year":"2020"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.3390\/s20215982"},{"key":"ref47","first-page":"80","article-title":"Deep learning model generalization with ensemble in endoscopic images","volume-title":"Proceedings of the 3rd International Workshop and Challenge on Computer Vision in Endoscopy (EndoCV 2021) co-located with with the 18th IEEE IEEE International Symposium on Biomedical Imaging (ISBI 2021), Nice, France","volume":"2886","author":"Hong","year":"2021"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.3390\/bioengineering10070809"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00140"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73661-2_5"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref52","article-title":"Efficientnet: Rethinking model scaling for convolutional neural networks","volume":"abs\/1905.11946","author":"Tan","year":"2019","journal-title":"ArXiv"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/wacv48630.2021.00144"},{"key":"ref54","article-title":"Beyond self-supervision: A simple yet effective network distillation alternative to improve backbones","author":"Cui","year":"2021","journal-title":"arXiv preprint"},{"key":"ref55","first-page":"10096","article-title":"Efficientnetv2: Smaller models and faster training","volume-title":"International conference on machine learning","author":"Tan","year":"2021"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2023.3329173"},{"key":"ref57","first-page":"20014","article-title":"Xcit: Crosscovariance image transformers","volume":"34","author":"Ali","year":"2021","journal-title":"Advances in neural information processing systems"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00010"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/s41095-022-0274-8"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_27"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_30"},{"key":"ref63","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume":"32","author":"Paszke","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref64","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017","journal-title":"arXiv preprint"},{"key":"ref65","article-title":"Sgdr: Stochastic gradient descent with warm restarts","author":"Loshchilov","year":"2016","journal-title":"arXiv preprint"},{"key":"ref66","volume-title":"Pytorch image models","author":"Wightman","year":"2019"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref68","article-title":"Imagenet-21k pretraining for the masses","author":"Ridnik","year":"2021","journal-title":"arXiv preprint"},{"key":"ref69","article-title":"Vision-rwkv: Efficient and scalable visual perception with rwkv-like architectures","author":"Duan","year":"2024","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)","location":"Wuhan, China","start":{"date-parts":[[2025,12,15]]},"end":{"date-parts":[[2025,12,18]]}},"container-title":["2025 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11355913\/11355975\/11356461.pdf?arnumber=11356461","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,27]],"date-time":"2026-03-27T19:47:30Z","timestamp":1774640850000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11356461\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,15]]},"references-count":69,"URL":"https:\/\/doi.org\/10.1109\/bibm66473.2025.11356461","relation":{},"subject":[],"published":{"date-parts":[[2025,12,15]]}}}