{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T00:24:48Z","timestamp":1774484688534,"version":"3.50.1"},"reference-count":69,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2025,1,2]],"date-time":"2025-01-02T00:00:00Z","timestamp":1735776000000},"content-version":"vor","delay-in-days":1,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Tianshan Talent Training Program","award":["2023TSYCLJ0023"],"award-info":[{"award-number":["2023TSYCLJ0023"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Complex Intell. Syst."],"published-print":{"date-parts":[[2025,1]]},"DOI":"10.1007\/s40747-024-01708-5","type":"journal-article","created":{"date-parts":[[2025,1,2]],"date-time":"2025-01-02T10:07:52Z","timestamp":1735812472000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["MM-HiFuse: multi-modal multi-task hierarchical feature fusion for esophagus cancer staging and differentiation classification"],"prefix":"10.1007","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5691-4432","authenticated-orcid":false,"given":"Xiangzuo","family":"Huo","sequence":"first","affiliation":[]},{"given":"Shengwei","family":"Tian","sequence":"additional","affiliation":[]},{"given":"Long","family":"Yu","sequence":"additional","affiliation":[]},{"given":"Wendong","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Aolun","family":"Li","sequence":"additional","affiliation":[]},{"given":"Qimeng","family":"Yang","sequence":"additional","affiliation":[]},{"given":"Jinmiao","family":"Song","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,1,2]]},"reference":[{"issue":"2","key":"1708_CR1","doi-asserted-by":"publisher","first-page":"264","DOI":"10.1038\/aps.2016.99","volume":"38","author":"W-Y Liu","year":"2017","unstructured":"Liu W-Y, Zhang J-W, Yao X-Q, Jiang C, He J-C, Ni P, Liu J-L, Chen Q-Y, Li Q-R, Zang X-J et al (2017) Shenmai injection enhances the cytotoxicity of chemotherapeutic drugs against colorectal cancers via improving their subcellular distribution. Acta Pharmacol Sin 38(2):264\u2013276","journal-title":"Acta Pharmacol Sin"},{"issue":"6","key":"1708_CR2","first-page":"394","volume":"68","author":"F Bray","year":"2018","unstructured":"Bray F, Ferlay J, Soerjomataram I, Siegel RL, Torre LA, Jemal A (2018) Global cancer statistics 2018: Globocan estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: a Cancer J Clin. 68(6):394\u2013424","journal-title":"CA: a Cancer J Clin."},{"issue":"3","key":"1708_CR3","doi-asserted-by":"publisher","first-page":"381","DOI":"10.1136\/gutjnl-2014-308124","volume":"64","author":"M Arnold","year":"2015","unstructured":"Arnold M, Soerjomataram I, Ferlay J, Forman D (2015) Global incidence of oesophageal cancer by histological subtype in 2012. Gut 64(3):381\u2013387","journal-title":"Gut"},{"key":"1708_CR4","doi-asserted-by":"crossref","unstructured":"Wang Q-L, Xie S-H, Wahlin K, Lagergren J (2018) Global time trends in the incidence of esophageal squamous cell carcinoma. Clin Epidemiol 717\u2013728","DOI":"10.2147\/CLEP.S166078"},{"issue":"1","key":"1708_CR5","first-page":"1","volume":"28","author":"W Chen","year":"2016","unstructured":"Chen W, Zheng R, Zuo T, Zeng H, Zhang S, He J (2016) National cancer incidence and mortality in china, 2012. Chinese J Cancer Res 28(1):1","journal-title":"Chinese J Cancer Res"},{"issue":"2","key":"1708_CR6","doi-asserted-by":"publisher","first-page":"75","DOI":"10.4103\/1319-3767.203366","volume":"23","author":"K Kandiah","year":"2017","unstructured":"Kandiah K, Chedgy FJ, Subramaniam S, Thayalasekaran S, Kurup A, Bhandari P (2017) Early squamous neoplasia of the esophagus: the endoscopic approach to diagnosis and management. Saudi J Gastroenterol J Saudi Gastroenterol Assoc 23(2):75","journal-title":"Saudi J Gastroenterol J Saudi Gastroenterol Assoc"},{"key":"1708_CR7","doi-asserted-by":"publisher","first-page":"58","DOI":"10.1111\/j.1443-1661.2011.01119.x","volume":"23","author":"N Uedo","year":"2011","unstructured":"Uedo N, Fujishiro M, Goda K, Hirasawa D, Kawahara Y, Lee JH, Miyahara R, Morita Y, Singh R, Takeuchi M et al (2011) Role of narrow band imaging for diagnosis of early-stage esophagogastric cancer: current consensus of experienced endoscopists in asia-pacific region. Digest Endosc 23:58\u201371","journal-title":"Digest Endosc"},{"issue":"01","key":"1708_CR8","doi-asserted-by":"publisher","first-page":"38","DOI":"10.15265\/IY-2017-007","volume":"26","author":"SM Meystre","year":"2017","unstructured":"Meystre SM, Lovis C, B\u00fcrkle T, Tognola G, Budrionis A, Lehmann CU (2017) Clinical data reuse or secondary use: current status and potential future progress. Yearbook Med Inf 26(01):38\u201352","journal-title":"Yearbook Med Inf"},{"key":"1708_CR9","doi-asserted-by":"crossref","unstructured":"Liu G, Hua J, Wu Z, Meng T, Sun M, Huang P, He X, Sun W, Li X, Chen Y (2020) Automatic classification of esophageal lesions in endoscopic images using a convolutional neural network. Annal Transl Med 8(7)","DOI":"10.21037\/atm.2020.03.24"},{"key":"1708_CR10","doi-asserted-by":"crossref","unstructured":"Van\u00a0Riel S, Van Der\u00a0Sommen F, Zinger S, Schoon EJ, With PH (2018) Automatic detection of early esophageal cancer with cnns using transfer learning. In: 2018 25th IEEE International Conference on Image Processing (ICIP), pp. 1383\u20131387. IEEE","DOI":"10.1109\/ICIP.2018.8451771"},{"issue":"7","key":"1708_CR11","doi-asserted-by":"publisher","first-page":"1143","DOI":"10.1136\/gutjnl-2018-317573","volume":"68","author":"A Ebigbo","year":"2019","unstructured":"Ebigbo A, Mendel R, Probst A, Manzeneder J, Souza LA Jr, Papa JP, Palm C, Messmann H (2019) Computer-aided diagnosis using deep learning in the evaluation of early oesophageal adenocarcinoma. Gut 68(7):1143\u20131145","journal-title":"Gut"},{"issue":"4","key":"1708_CR12","doi-asserted-by":"publisher","first-page":"1492","DOI":"10.3390\/s22041492","volume":"22","author":"S Tang","year":"2022","unstructured":"Tang S, Yu X, Cheang C-F, Hu Z, Fang T, Choi I-C, Yu H-H (2022) Diagnosis of esophageal lesions by multi-classification and segmentation using an improved multi-task deep learning model. Sensors 22(4):1492","journal-title":"Sensors"},{"key":"1708_CR13","doi-asserted-by":"publisher","first-page":"611","DOI":"10.1007\/s11548-019-01914-4","volume":"14","author":"N Ghatwary","year":"2019","unstructured":"Ghatwary N, Zolgharni M, Ye X (2019) Early esophageal adenocarcinoma detection using deep learning methods. Int J Comput Assisted Radiol Surg 14:611\u2013621","journal-title":"Int J Comput Assisted Radiol Surg"},{"key":"1708_CR14","doi-asserted-by":"publisher","first-page":"84374","DOI":"10.1109\/ACCESS.2019.2925585","volume":"7","author":"N Ghatwary","year":"2019","unstructured":"Ghatwary N, Ye X, Zolgharni M (2019) Esophageal abnormality detection using densenet based faster r-cnn with gabor features. IEEE Access 7:84374\u201384385","journal-title":"IEEE Access"},{"issue":"5","key":"1708_CR15","doi-asserted-by":"publisher","first-page":"745","DOI":"10.1016\/j.gie.2019.06.044","volume":"90","author":"S-L Cai","year":"2019","unstructured":"Cai S-L, Li B, Tan W-M, Niu X-J, Yu H-H, Yao L-Q, Zhou P-H, Yan B, Zhong Y-S (2019) Using a deep learning system in endoscopy for screening of early esophageal squamous cell carcinoma (with video). Gastroint Endosc 90(5):745\u2013753","journal-title":"Gastroint Endosc"},{"issue":"2","key":"1708_CR16","doi-asserted-by":"publisher","first-page":"193","DOI":"10.1016\/j.canlet.2012.02.036","volume":"342","author":"AM Kaz","year":"2014","unstructured":"Kaz AM, Grady WM (2014) Epigenetic biomarkers in esophageal cancer. Cancer Lett 342(2):193\u2013199","journal-title":"Cancer Lett"},{"key":"1708_CR17","doi-asserted-by":"crossref","unstructured":"Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, Lin S, Guo B (2021) Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1708_CR18","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2023.105534","volume":"87","author":"X Huo","year":"2024","unstructured":"Huo X, Sun G, Tian S, Wang Y, Yu L, Long J, Zhang W, Li A (2024) Hifuse: Hierarchical multi-scale feature fusion network for medical image classification. Biomed Signal Process Control 87:105534","journal-title":"Biomed Signal Process Control"},{"key":"1708_CR19","doi-asserted-by":"crossref","unstructured":"Huang G, Liu Z, Van Der\u00a0Maaten L, Weinberger KQ (2017) Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4700\u20134708","DOI":"10.1109\/CVPR.2017.243"},{"issue":"1","key":"1708_CR20","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1016\/j.gie.2018.07.037","volume":"89","author":"Y Horie","year":"2019","unstructured":"Horie Y, Yoshio T, Aoyama K, Yoshimizu S, Horiuchi Y, Ishiyama A, Hirasawa T, Tsuchida T, Ozawa T, Ishihara S et al (2019) Diagnostic outcomes of esophageal cancer by artificial intelligence using convolutional neural networks. Gastrointest Endosc 89(1):25\u201332","journal-title":"Gastrointest Endosc"},{"issue":"6","key":"1708_CR21","doi-asserted-by":"publisher","first-page":"1261","DOI":"10.1016\/j.gie.2020.10.005","volume":"93","author":"M Zhang","year":"2021","unstructured":"Zhang M, Zhu C, Wang Y, Kong Z, Hua Y, Zhang W, Si X, Ye B, Xu X, Li L et al (2021) Differential diagnosis for esophageal protruded lesions using a deep convolution neural network in endoscopic images. Gastrointest Endosc 93(6):1261\u20131272","journal-title":"Gastrointest Endosc"},{"key":"1708_CR22","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2020.101838","volume":"67","author":"Z Wu","year":"2021","unstructured":"Wu Z, Ge R, Wen M, Liu G, Chen Y, Zhang P, He X, Hua J, Luo L, Li S (2021) Elnet: Automatic classification and segmentation for esophageal lesions using convolutional neural network. Med Image Anal 67:101838","journal-title":"Med Image Anal"},{"key":"1708_CR23","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. Adv Neural Inf Process Syst 30"},{"key":"1708_CR24","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, et al (2020) An image is worth 16x16 words: Transformers for image recognition at scale. arXiv:2010.11929"},{"key":"1708_CR25","doi-asserted-by":"crossref","unstructured":"Gao X, Qian Y, Gao A (2021) Covid-vit: Classification of covid-19 from ct chest images based on vision transformer models. arXiv:2107.01682","DOI":"10.1109\/NextComp55567.2022.9932246"},{"key":"1708_CR26","doi-asserted-by":"crossref","unstructured":"Zhang L, Wen Y (2021) Mia-cov19d: a transformer-based framework for covid19 classification in chest cts. In: Proceeding of the IEEE\/CVF International Conference on Computer Vision Workshops, pp. 513\u20138","DOI":"10.1109\/ICCVW54120.2021.00063"},{"issue":"1","key":"1708_CR27","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1109\/TMI.2021.3108910","volume":"41","author":"S He","year":"2021","unstructured":"He S, Grant PE, Ou Y (2021) Global-local transformer for brain age estimation. IEEE Trans Med Imaging 41(1):213\u2013224","journal-title":"IEEE Trans Med Imaging"},{"key":"1708_CR28","doi-asserted-by":"crossref","unstructured":"Costa GSS, Paiva AC, Junior GB, Ferreira MM (2021) Covid-19 automatic diagnosis with ct images using the novel transformer architecture. In: Anais do XXI Simp\u00f3sio Brasileiro de Computa\u00e7\u00e3o Aplicada \u00e0 sa\u00fade, pp. 293\u2013301. SBC","DOI":"10.5753\/sbcas.2021.16073"},{"key":"1708_CR29","doi-asserted-by":"crossref","unstructured":"Tulder G, Tong Y, Marchiori E (2021) Multi-view analysis of unregistered medical images using cross-view transformers. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part III 24, pp. 104\u2013113. Springer","DOI":"10.1007\/978-3-030-87199-4_10"},{"key":"1708_CR30","doi-asserted-by":"crossref","unstructured":"Huo X, Tian S, Zhou B, Yu L, Li A (2024) Dr-sam: U-shape structure segment anything model for generalizable medical image segmentation. In: International Conference on Intelligent Computing, pp. 197\u2013207. Springer","DOI":"10.1007\/978-981-97-5600-1_17"},{"key":"1708_CR31","doi-asserted-by":"crossref","unstructured":"Xie Y, Zhang J, Shen C, Xia Y (2021) Cotr: Efficiently bridging cnn and transformer for 3d medical image segmentation. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part III 24, pp. 171\u2013180. Springer","DOI":"10.1007\/978-3-030-87199-4_16"},{"key":"1708_CR32","doi-asserted-by":"publisher","first-page":"1203","DOI":"10.1007\/s12149-021-01661-0","volume":"35","author":"S Watanabe","year":"2021","unstructured":"Watanabe S, Ueno T, Kimura Y, Mishina M, Sugimoto N (2021) Generative image transformer (git): unsupervised continuous image generative and transformable model for [123 i] fp-cit spect images. Annal Nuclear Med 35:1203\u20131213","journal-title":"Annal Nuclear Med"},{"key":"1708_CR33","doi-asserted-by":"crossref","unstructured":"Yao J, Ye X, Xia Y, Zhou J, Shi Y, Yan K, Wang F, Lin L, Yu H, Hua X-S, et\u00a0al (2022) Effective opportunistic esophageal cancer screening using noncontrast ct imaging. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2022: 25th International Conference, Singapore, September 18\u201322, 2022, Proceedings, Part III, pp. 344\u2013354. Springer","DOI":"10.1007\/978-3-031-16437-8_33"},{"key":"1708_CR34","unstructured":"Ruder S (2017) An overview of multi-task learning in deep neural networks. arXiv:1706.05098"},{"issue":"2","key":"1708_CR35","doi-asserted-by":"publisher","first-page":"895","DOI":"10.1016\/j.neuroimage.2011.09.069","volume":"59","author":"D Zhang","year":"2012","unstructured":"Zhang D, Shen D, Initiative ADN et al (2012) Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in alzheimer\u2019s disease. NeuroImage 59(2):895\u2013907","journal-title":"NeuroImage"},{"key":"1708_CR36","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2019.101563","volume":"58","author":"S Graham","year":"2019","unstructured":"Graham S, Vu QD, Raza SEA, Azam A, Tsang YW, Kwak JT, Rajpoot N (2019) Hover-net: Simultaneous segmentation and classification of nuclei in multi-tissue histology images. Med Image Anal 58:101563","journal-title":"Med Image Anal"},{"issue":"1","key":"1708_CR37","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41598-020-71914-x","volume":"10","author":"L He","year":"2020","unstructured":"He L, Li H, Wang J, Chen M, Gozdas E, Dillman JR, Parikh NA (2020) A multi-task, multi-stage deep transfer learning model for early prediction of neurodevelopment in very preterm infants. Sci Rep 10(1):1\u201313","journal-title":"Sci Rep"},{"issue":"4","key":"1708_CR38","doi-asserted-by":"publisher","first-page":"288","DOI":"10.1038\/s42256-021-00305-2","volume":"3","author":"E Korot","year":"2021","unstructured":"Korot E, Guan Z, Ferraz D, Wagner SK, Zhang G, Liu X, Faes L, Pontikos N, Finlayson SG, Khalid H et al (2021) Code-free deep learning for multi-modality medical image classification. Nat Mach Intell 3(4):288\u2013298","journal-title":"Nat Mach Intell"},{"key":"1708_CR39","doi-asserted-by":"crossref","unstructured":"Buzug T (2011) Computed Tomography. In: Kramme R et al. (eds.), Handbook of Medical Technology. 311. Springer","DOI":"10.1007\/978-3-540-74658-4_16"},{"issue":"3","key":"1708_CR40","doi-asserted-by":"publisher","first-page":"328","DOI":"10.1016\/j.gie.2012.10.001","volume":"77","author":"JA Evans","year":"2013","unstructured":"Evans JA, Early DS, Chandraskhara V, Chathadi KV, Fanelli RD, Fisher DA, Foley KQ, Hwang JH, Jue TL, Pasha SF et al (2013) The role of endoscopy in the assessment and treatment of esophageal cancer. Gastrointest Endosc 77(3):328\u2013334","journal-title":"Gastrointest Endosc"},{"key":"1708_CR41","doi-asserted-by":"crossref","unstructured":"Zhu X, Yao J, Huang J (2016) Deep convolutional neural network for survival analysis with pathological images. In: 2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pp. 544\u2013547. IEEE","DOI":"10.1109\/BIBM.2016.7822579"},{"key":"1708_CR42","unstructured":"Deng L, Yang M, Li T, He Y, Wang C (2019) Rfbnet: deep multimodal networks with residual fusion blocks for rgb-d semantic segmentation. arXiv:1907.00135"},{"key":"1708_CR43","doi-asserted-by":"crossref","unstructured":"Hu X, Yang K, Fei L, Wang K (2019). Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation. In: 2019 IEEE International Conference on Image Processing (ICIP), pp. 1440\u20131444. IEEE","DOI":"10.1109\/ICIP.2019.8803025"},{"key":"1708_CR44","doi-asserted-by":"crossref","unstructured":"Valada A, Oliveira GL, Brox T, Burgard W (2017). Deep multispectral semantic scene understanding of forested environments using multimodal fusion. In: 2016 International Symposium on Experimental Robotics, pp. 465\u2013477. Springer","DOI":"10.1007\/978-3-319-50115-4_41"},{"issue":"2","key":"1708_CR45","doi-asserted-by":"publisher","first-page":"162","DOI":"10.1109\/TRPMS.2018.2890359","volume":"3","author":"Z Guo","year":"2019","unstructured":"Guo Z, Li X, Huang H, Guo N, Li Q (2019) Deep learning-based image segmentation on multimodal medical imaging. IEEE Trans Radiat Plasma Med Sci 3(2):162\u2013169","journal-title":"IEEE Trans Radiat Plasma Med Sci"},{"issue":"6","key":"1708_CR46","doi-asserted-by":"publisher","first-page":"498","DOI":"10.4103\/0377-2063.92266","volume":"57","author":"DD Majumder","year":"2011","unstructured":"Majumder DD, Ray D (2011) Approaches of multimodal medical images registration and fusion: efficacy on diagnostic and therapeutic planning. IETE J Res 57(6):498\u2013514","journal-title":"IETE J Res"},{"key":"1708_CR47","doi-asserted-by":"crossref","unstructured":"Chen RJ, Lu MY, Shaban M, Chen C, Chen TY, Williamson DF, Mahmood F (2021) Whole slide images are 2d point clouds: Context-aware survival prediction using patch-based graph convolutional networks. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part VIII 24, pp. 339\u2013349. Springer","DOI":"10.1007\/978-3-030-87237-3_33"},{"key":"1708_CR48","first-page":"2136","volume":"34","author":"Z Shao","year":"2021","unstructured":"Shao Z, Bian H, Chen Y, Wang Y, Zhang J, Ji X et al (2021) Transmil: Transformer based correlated multiple instance learning for whole slide image classification. Adv Neural Inf Process Syst 34:2136\u20132147","journal-title":"Adv Neural Inf Process Syst"},{"key":"1708_CR49","unstructured":"Ba JL, Kiros JR, Hinton GE (2016) Layer normalization. arXiv:1607.06450"},{"key":"1708_CR50","doi-asserted-by":"crossref","unstructured":"Vaswani A, Ramachandran P, Srinivas A, Parmar N, Hechtman B, Shlens J (2021) Scaling local self-attention for parameter efficient visual backbones. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12894\u201312904","DOI":"10.1109\/CVPR46437.2021.01270"},{"key":"1708_CR51","unstructured":"Yang J, Li C, Zhang P, Dai X, Xiao B, Yuan L, Gao J (2021) Focal self-attention for local-global interactions in vision transformers. arXiv:2107.00641"},{"key":"1708_CR52","unstructured":"Huang Z, Ben Y, Luo G, Cheng P, Yu G, Fu B (2021) Shuffle transformer: Rethinking spatial shuffle for vision transformer. arXiv:2106.03650"},{"key":"1708_CR53","unstructured":"Yuan Y, Fu R, Huang L, Lin W, Zhang C, Chen X, Wang J (2021) Hrformer: High-resolution transformer for dense prediction. arXiv:2110.09408"},{"key":"1708_CR54","unstructured":"Howard AG, Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H (2017) Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861"},{"key":"1708_CR55","doi-asserted-by":"crossref","unstructured":"Chollet F (2017) Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1251\u20131258","DOI":"10.1109\/CVPR.2017.195"},{"key":"1708_CR56","doi-asserted-by":"crossref","unstructured":"Xie S, Girshick R, Doll\u00e1r P, Tu Z, He K (2017) Aggregated residual transformations for deep neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1492\u20131500","DOI":"10.1109\/CVPR.2017.634"},{"key":"1708_CR57","doi-asserted-by":"crossref","unstructured":"Hu J, Shen L, Sun G (2018) Squeeze-and-excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7132\u20137141","DOI":"10.1109\/CVPR.2018.00745"},{"key":"1708_CR58","doi-asserted-by":"crossref","unstructured":"Chen L, Zhang H, Xiao J, Nie L, Shao J, Liu W, Chua T-S (2017) Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5659\u20135667","DOI":"10.1109\/CVPR.2017.667"},{"key":"1708_CR59","unstructured":"Mnih V, Heess N, Graves A, et al. (2014) Recurrent models of visual attention. Adv Neural Inf Process Syst 27"},{"key":"1708_CR60","doi-asserted-by":"crossref","unstructured":"Dai J, Qi H, Xiong Y, Li Y, Zhang G, Hu H, Wei Y (2017) Deformable convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 764\u2013773","DOI":"10.1109\/ICCV.2017.89"},{"key":"1708_CR61","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2022.105703","volume":"118","author":"Z Zhou","year":"2023","unstructured":"Zhou Z, Sun G, Yu L, Tian S, Xiao G, Wang J, Zhou S (2023) Rfia-net: Rich cnn-transformer network based on asymmetric fusion feature aggregation to classify stage i multimodality oesophageal cancer images. Eng Appl Artif Intell 118:105703","journal-title":"Eng Appl Artif Intell"},{"issue":"8","key":"1708_CR62","doi-asserted-by":"publisher","first-page":"1962","DOI":"10.1109\/TMI.2016.2529665","volume":"35","author":"A Vahadane","year":"2016","unstructured":"Vahadane A, Peng T, Sethi A, Albarqouni S, Wang L, Baust M, Steiger K, Schlitter AM, Esposito I, Navab N (2016) Structure-preserving color normalization and sparse stain separation for histological images. IEEE Trans Med Imag 35(8):1962\u20131971","journal-title":"IEEE Trans Med Imag"},{"key":"1708_CR63","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"1708_CR64","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556"},{"key":"1708_CR65","first-page":"24261","volume":"34","author":"IO Tolstikhin","year":"2021","unstructured":"Tolstikhin IO, Houlsby N, Kolesnikov A, Beyer L, Zhai X, Unterthiner T, Yung J, Steiner A, Keysers D, Uszkoreit J et al (2021) Mlp-mixer: An all-mlp architecture for vision. Adv Neural Inf Process Syst 34:24261\u201324272","journal-title":"Adv Neural Inf Process Syst"},{"key":"1708_CR66","first-page":"10347","volume":"139","author":"H Touvron","year":"2021","unstructured":"Touvron H, Cord M, Douze M, Massa F, Sablayrolles A, Jegou H (2021) Training data-efficient image transformers i & distillation through attention. Int Conf Mach Learn 139:10347\u201310357","journal-title":"Int Conf Mach Learn"},{"key":"1708_CR67","unstructured":"Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G, Killeen T, Lin Z, Gimelshein N, Antiga L, et al (2019) Pytorch: An imperative style, high-performance deep learning library. Adv Neural Inf Process Syst 32"},{"key":"1708_CR68","unstructured":"Loshchilov I, Hutter F (2017) Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101"},{"key":"1708_CR69","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.123053","volume":"245","author":"X Huo","year":"2024","unstructured":"Huo X, Tian S, Yang Y, Yu L, Zhang W, Li A (2024) Spa: Self-peripheral-attention for central-peripheral interactions in endoscopic image classification and segmentation. Expert Syst Appl 245:123053","journal-title":"Expert Syst Appl"}],"container-title":["Complex &amp; Intelligent Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-024-01708-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s40747-024-01708-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-024-01708-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,30]],"date-time":"2025-01-30T20:22:48Z","timestamp":1738268568000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s40747-024-01708-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1]]},"references-count":69,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2025,1]]}},"alternative-id":["1708"],"URL":"https:\/\/doi.org\/10.1007\/s40747-024-01708-5","relation":{},"ISSN":["2199-4536","2198-6053"],"issn-type":[{"value":"2199-4536","type":"print"},{"value":"2198-6053","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,1]]},"assertion":[{"value":"23 March 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 December 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 January 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest. The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest:"}}],"article-number":"113"}}