{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T14:17:10Z","timestamp":1774966630810,"version":"3.50.1"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"19","license":[{"start":{"date-parts":[[2023,6,29]],"date-time":"2023-06-29T00:00:00Z","timestamp":1687996800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2023,6,29]],"date-time":"2023-06-29T00:00:00Z","timestamp":1687996800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100008205","name":"Auckland University of Technology","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100008205","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Appl Intell"],"published-print":{"date-parts":[[2023,10]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Pattern classification has always been essential in computer vision. Transformer paradigm having attention mechanism with global receptive field in computer vision improves the efficiency and effectiveness of visual object detection and recognition. The primary purpose of this article is to achieve the accurate ripeness classification of various types of fruits. We create fruit datasets to train, test, and evaluate multiple Transformer models. Transformers are fundamentally composed of encoding and decoding procedures. The encoder is to stack the blocks, like convolutional neural networks (CNN or ConvNet). Vision Transformer (ViT), Swin Transformer, and multilayer perceptron (MLP) are considered in this paper. We examine the advantages of these three models for accurately analyzing fruit ripeness. We find that Swin Transformer achieves more significant outcomes than ViT Transformer for both pears and apples from our dataset.<\/jats:p>","DOI":"10.1007\/s10489-023-04799-8","type":"journal-article","created":{"date-parts":[[2023,6,29]],"date-time":"2023-06-29T08:02:45Z","timestamp":1688025765000},"page":"22488-22499","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":36,"title":["Fruit ripeness identification using transformers"],"prefix":"10.1007","volume":"53","author":[{"given":"Bingjie","family":"Xiao","sequence":"first","affiliation":[]},{"given":"Minh","family":"Nguyen","sequence":"additional","affiliation":[]},{"given":"Wei Qi","family":"Yan","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,6,29]]},"reference":[{"key":"4799_CR1","doi-asserted-by":"crossref","unstructured":"Yan W (2021) Computational methods for deep learning: theoretic, practice and applications. Springer Cham","DOI":"10.1007\/978-3-030-61081-4"},{"key":"4799_CR2","doi-asserted-by":"crossref","unstructured":"Zhu X, Lyu S, Wang X, Zhao Q (2021) TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios. In: IEEE\/CVF International Conference on Computer Vision, pp 2778\u20132788","DOI":"10.1109\/ICCVW54120.2021.00312"},{"issue":"1","key":"4799_CR3","doi-asserted-by":"publisher","first-page":"90","DOI":"10.3390\/electronics10010090","volume":"10","author":"D Lee","year":"2021","unstructured":"Lee D, Kim J, Jung K (2021) Improving object detection quality by incorporating global contexts via self-attention. Electronics 10(1):90","journal-title":"Electronics"},{"key":"4799_CR4","doi-asserted-by":"crossref","unstructured":"Qi J, Nguyen M, Yan W (2022) Small visual object detection in smart waste classification using transformers with deep learning. International Conference on Image and Vision Computing (IVCNZ), Auckland.\u00a0\u00a0https:\/\/link.springer.com\/chapter\/10.1007\/978-3-031-25825-1_22","DOI":"10.1007\/978-3-031-25825-1_22"},{"key":"4799_CR5","doi-asserted-by":"crossref","unstructured":"Zhang R, Li X, Zhu L, Zhong M, Gao Y (2021) Target detection of banana string and fruit stalk based on YOLOv3 deep learning network. In: IEEE International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering (ICBAIE), IEEE,\u00a0pp 346\u2013349","DOI":"10.1109\/ICBAIE52039.2021.9389948"},{"key":"4799_CR6","doi-asserted-by":"crossref","unstructured":"Fu Y, Nguyen M, Yan W (2022) Grading methods for fruit freshness based on deep learning. Springer Nature Computer Science","DOI":"10.1007\/s42979-022-01152-7"},{"issue":"17","key":"4799_CR7","doi-asserted-by":"publisher","first-page":"45","DOI":"10.1016\/j.ifacol.2018.08.059","volume":"51","author":"L Fu","year":"2018","unstructured":"Fu L, Feng Y, Majeed Y, Zhang X, Zhang J, Karkee M, Zhang Q (2018) Kiwifruit detection in field images using Faster R-CNN with ZFNet. IFAC-Papers OnLine 51(17):45\u201350","journal-title":"IFAC-Papers OnLine"},{"key":"4799_CR8","doi-asserted-by":"crossref","unstructured":"Femling F, Olsson A, Alonso-Fernandez F (2018) Fruit and vegetable identification using machine learning for retail applications. In: International Conference on Signal-Image Technology & Internet-Based Systems (SITIS), pp 9\u201315","DOI":"10.1109\/SITIS.2018.00013"},{"issue":"7","key":"4799_CR9","doi-asserted-by":"publisher","first-page":"1016","DOI":"10.3390\/agronomy10071016","volume":"10","author":"A Kuznetsova","year":"2020","unstructured":"Kuznetsova A, Maleva T, Soloviev V (2020) Using YOLOv3 algorithm with pre-and post-processing for apple detection in fruit-harvesting robot. Agronomy 10(7):1016","journal-title":"Agronomy"},{"key":"4799_CR10","doi-asserted-by":"publisher","DOI":"10.1016\/j.compag.2020.105634","volume":"176","author":"F Gao","year":"2020","unstructured":"Gao F, Fu L, Zhang X, Majeed Y, Li R, Karkee M, Zhang Q (2020) Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN. Comput Electron Agric 176:105634","journal-title":"Comput Electron Agric"},{"key":"4799_CR11","doi-asserted-by":"crossref","unstructured":"Wang Q, Qi F (2019) Tomato diseases recognition based on Faster R-CNN. In: International Conference on Information Technology in Medicine and Education (ITME), pp 772\u2013776","DOI":"10.1109\/ITME.2019.00176"},{"key":"4799_CR12","doi-asserted-by":"crossref","unstructured":"Ding M, Xiao B, Codella N, Luo P, Wang J, Yuan L (2022) DaViT: Dual attention Vision Transformers. ECCV","DOI":"10.1007\/978-3-031-20053-3_5"},{"key":"4799_CR13","doi-asserted-by":"publisher","DOI":"10.1016\/j.asoc.2020.106495","volume":"94","author":"X Hua","year":"2020","unstructured":"Hua X, Wang X, Rui T, Zhang H, Wang D (2020) A fast self-attention cascaded network for object detection in large scene remote sensing images. Appl Soft Comput 94:106495","journal-title":"Appl Soft Comput"},{"key":"4799_CR14","doi-asserted-by":"crossref","unstructured":"Zheng H, Wang G, Li X (2022) Swin-MLP: A strawberry appearance quality identification method by Swin transformer and multi-layer perceptron. J Food Meas Charact:1\u201312","DOI":"10.1007\/s11694-022-01396-0"},{"key":"4799_CR15","doi-asserted-by":"publisher","first-page":"835","DOI":"10.1016\/j.ins.2020.09.003","volume":"546","author":"Y Ji","year":"2021","unstructured":"Ji Y, Zhang H, Zhang Z, Liu M (2021) CNN-based encoder-decoder networks for salient object detection: A comprehensive review and recent advances. Inform Sci 546:835\u2013857","journal-title":"Inform Sci"},{"issue":"6","key":"4799_CR16","doi-asserted-by":"publisher","first-page":"1911","DOI":"10.13031\/2013.3096","volume":"43","author":"AR Jimenez","year":"2000","unstructured":"Jimenez AR, Ceres R, Pons JL (2000) A survey of computer vision methods for locating fruit on trees. Transact ASAE 43(6):1911","journal-title":"Transact ASAE"},{"key":"4799_CR17","unstructured":"Shalini K, Srivastava AK, Allam S, Lilaramani D (2021) Comparative analysis on deep convolutional neural network models using PyTorch and OpenCV DNN frameworks for identifying optimum fruit detection solution on RISC-V architecture. In:\u00a0IEEE Mysore Sub Section International Conference (MysuruCon),\u00a0pp 738\u2013743"},{"key":"4799_CR18","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2021.116205","volume":"190","author":"K Hameed","year":"2022","unstructured":"Hameed K, Chai D, Rassau A (2022) Score-based mask edge improvement of Mask R-CNN for segmentation of fruit and vegetables. Expert Syst Appl 190:116205","journal-title":"Expert Syst Appl"},{"key":"4799_CR19","unstructured":"Song H, Sun D, Chun S, Jampani V, Han D, Heo B, Yang MH (2022) ViDT: an efficient and effective fully Transformer-based object detector. ICLR"},{"key":"4799_CR20","doi-asserted-by":"crossref","unstructured":"Tu S, Pang J, Liu H, Zhuang N, Chen Y, Zheng C, Xue Y (2020) Passion fruit detection and counting based on multiple scale Faster R-CNN using RGB-D images.\u00a0Precis Agricult 21(5):1072\u20131091","DOI":"10.1007\/s11119-020-09709-3"},{"issue":"12","key":"4799_CR21","doi-asserted-by":"publisher","first-page":"19043","DOI":"10.1007\/s11042-021-10704-7","volume":"80","author":"SK Behera","year":"2021","unstructured":"Behera SK, Rath AK, Sethy PK (2021) Fruits yield estimation using Faster R-CNN with MIoU. Multimed Tools Appl 80(12):19043\u201319056","journal-title":"Multimed Tools Appl"},{"key":"4799_CR22","doi-asserted-by":"crossref","unstructured":"Wang H, Mou Q, Yue Y, Zhao H (2020) Research on detection technology of various fruit disease spots based on Mask R-CNN. In\u00a0IEEE International Conference on Mechatronics and Automation (ICMA), pp 1083\u20131087","DOI":"10.1109\/ICMA49215.2020.9233575"},{"key":"4799_CR23","doi-asserted-by":"crossref","unstructured":"Wu S, Sun Y, Huang H (2021) Multi-granularity feature extraction based on vision transformer for tomato leaf disease recognition. In International Academic Exchange Conference on Science and Technology Innovation (IAECST),\u00a0pp 387\u2013390. IEEE","DOI":"10.1109\/IAECST54258.2021.9695688"},{"key":"4799_CR24","doi-asserted-by":"publisher","DOI":"10.1016\/j.compag.2020.105380","volume":"172","author":"W Jia","year":"2020","unstructured":"Jia W, Tian Y, Luo R, Zhang Z, Lian J, Zheng Y (2020) Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot. Comput Electron Agric 172:105380","journal-title":"Comput Electron Agric"},{"key":"4799_CR25","unstructured":"Benz P, Ham S, Zhang C, Karjauv A, Kweon I (2021) Adversarial robustness comparison of vision transformer and MLP-mixer to CNNs. BMVC"},{"key":"4799_CR26","unstructured":"Yu T, Li X, Cai Y, Sun M, Li P (2021) Rethinking token-mixing MLP for MLP-based vision backbone.\u00a0BMVC"},{"key":"4799_CR27","doi-asserted-by":"crossref","unstructured":"Zhang Z, Gong Z, Hong Q, Jiang L (2021) Swin Transformer based classification for rice diseases recognition. In: EEE International Conference on Computer Information Science and Artificial Intelligence (CISAI),\u00a0pp 153\u2013156","DOI":"10.1109\/CISAI54367.2021.00036"},{"key":"4799_CR28","unstructured":"Han Y, Yu K, Batra R, Boyd N, Zhao T, She Y, Hutchinson S, Zhao Y (2021) Learning generalizable vision-tactile robotic grasping strategy for deformable objects via transformer. https:\/\/arxiv.org\/abs\/2112.06374"},{"key":"4799_CR29","doi-asserted-by":"crossref","unstructured":"Xu X, Feng Z, Cao C, Li M, Wu J, Wu Z, Ye S (2021) An improved Swin Transformer-based model for remote sensing object detection and instance segmentation.\u00a0Remote Sens 13(23):4779","DOI":"10.3390\/rs13234779"},{"key":"4799_CR30","doi-asserted-by":"publisher","unstructured":"Touvron H, Bojanowski P, Caron M, Cord M, El-Nouby A, Grave\u00a0 E, J\u00e9gou H (2023)\u00a0 ResMLP: Feedforward Networks for image classification with data-efficient training.\u00a0IEEE Transactions on Pattern Analysis and Machine Intelligence\u00a045:5314\u20135321.\u00a0https:\/\/doi.org\/10.1109\/TPAMI.2022.3206148","DOI":"10.1109\/TPAMI.2022.3206148"},{"key":"4799_CR31","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113594","volume":"159","author":"SI Saedi","year":"2020","unstructured":"Saedi SI, Khosravi H (2020) A deep neural network approach towards real-time on-branch fruit recognition for precision horticulture. Expert Syst Appl 159:113594","journal-title":"Expert Syst Appl"},{"issue":"30","key":"4799_CR32","doi-asserted-by":"publisher","first-page":"70","DOI":"10.1016\/j.ifacol.2019.12.499","volume":"52","author":"P Ganesh","year":"2019","unstructured":"Ganesh P, Volle K, Burks TF, Mehta S (2019) Deep orange: mask R-CNN based orange detection and segmentation. IFAC-PapersOnLine 52(30):70\u201375","journal-title":"IFAC-PapersOnLine"},{"key":"4799_CR33","doi-asserted-by":"crossref","unstructured":"Arkin E, Yadikar N, Muhtar Y, Ubul K (2021) A survey of object detection based on CNN and transformer. In:\u00a0IEEE International Conference on Pattern Recognition and Machine Learning (PRML, pp 99\u2013108","DOI":"10.1109\/PRML52754.2021.9520732"},{"key":"4799_CR34","doi-asserted-by":"crossref","unstructured":"Xiang AJ, Huddin AB, Ibrahim MF, Hashim FH (2021) An oil palm loose fruits image detection system using Faster R-CNN and Jetson TX2. In\u00a0International Conference on Electrical Engineering and Informatics (ICEEI), pp 1\u20136","DOI":"10.1109\/ICEEI52609.2021.9611111"},{"key":"4799_CR35","doi-asserted-by":"crossref","unstructured":"Zhang P, Dai X, Yang J, Xiao B, Yuan L, Zhang L, Gao J (2021) Multi-scale vision longformer: A new vision transformer for high-resolution image encoding. In: IEEE\/CVF International Conference on Computer Vision, pp 2998\u20133008","DOI":"10.1109\/ICCV48922.2021.00299"},{"key":"4799_CR36","doi-asserted-by":"crossref","unstructured":"Kumar D, Kukreja V (2022) Image-based wheat mosaic virus detection with Mask R-CNN model. In: International Conference on Decision Aid Sciences and Applications (DASA), pp 178\u2013182","DOI":"10.1109\/DASA54658.2022.9765199"},{"key":"4799_CR37","unstructured":"Chen X, Hsieh CJ, Gong B (2022) When vision transformers outperform ResNets without pre-training or strong data augmentations. CLR"},{"key":"4799_CR38","unstructured":"Lian D, Yu Z, Sun X, Gao S (2022) As-MLP: An axial shifted MLP architecture for vision. ICLR"},{"key":"4799_CR39","unstructured":"Tolstikhin IO, Houlsby N, Kolesnikov A, Beyer L, Zhai X, Unterthiner T, Dosovitskiy A (2021) MLP-mixer: An all-MLP architecture for vision.\u00a0In: Advances in Neural Information Processing Systems 34:24261\u201324272"},{"key":"4799_CR40","doi-asserted-by":"crossref","unstructured":"Liu Z, Deng Y, Ma F, Du J, Xiong C, Hu M, Ji X (2021) Target detection and tracking algorithm based on improved Mask R-CNN and LMB. In:\u00a0International Conference on Control, Automation and Information Sciences (ICCAIS), pp 1037\u20131041","DOI":"10.1109\/ICCAIS52680.2021.9624519"},{"key":"4799_CR41","doi-asserted-by":"crossref","unstructured":"Pannerselvam K (2021) Adaptive parking slot occupancy detection using vision transformer and LLIE. In: IEEE International Smart Cities Conference (ISC2), pp 1\u20137","DOI":"10.1109\/ISC253183.2021.9562955"},{"key":"4799_CR42","doi-asserted-by":"crossref","unstructured":"Ranftl R, Bochkovskiy A, Koltun V (2021) Vision transformers for dense prediction. In IEEE\/CVF International Conference on Computer Vision, pp 12179\u201312188","DOI":"10.1109\/ICCV48922.2021.01196"},{"key":"4799_CR43","doi-asserted-by":"publisher","unstructured":"\u00a0Zhang Z, Lu X, Cao G, Yang Y, Jiao L, Liu F (2021) ViT-YOLO: Transformer-based YOLO for object detection. In: IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW), pp 2799\u20132808.\u00a0https:\/\/doi.org\/10.1109\/ICCVW54120.2021.00314","DOI":"10.1109\/ICCVW54120.2021.00314"},{"key":"4799_CR44","doi-asserted-by":"crossref","unstructured":"He K, Gkioxari G, Doll\u00e1r P, Girshick R (2017) Mask R-CNN. In: IEEE International Conference on Computer Vision, pp 2961\u20132969","DOI":"10.1109\/ICCV.2017.322"},{"key":"4799_CR45","doi-asserted-by":"publisher","unstructured":"Mai X, Zhang H, Jia X, Meng MQH (2020) Faster R-CNN with classifier fusion for automatic detection of small fruits. IEEE\u00a0 Trans Autom Sci Eng 17(3):1555\u20131569. https:\/\/doi.org\/10.1109\/TASE.2020.2964289","DOI":"10.1109\/TASE.2020.2964289"},{"key":"4799_CR46","doi-asserted-by":"crossref","unstructured":"Luo Z, Nguyen M, Yan W (2022) Kayak and sailboat detection based on the improved YOLO with Transformer. In: International Conference on Control, Automation and Robotics (ICCAR)","DOI":"10.1145\/3561613.3561619"},{"key":"4799_CR47","doi-asserted-by":"crossref","unstructured":"Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, Guo B (2021) Swin Transformer: Hierarchical vision transformer using shifted windows. In: IEEE\/CVF International Conference on Computer Vision, pp 10012\u201310022","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"4799_CR48","doi-asserted-by":"crossref","unstructured":"Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S (2020) End-to-end object detection with transformers. In:\u00a0European Conference on Computer vision, Springer, pp 213\u2013229","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"4799_CR49","doi-asserted-by":"crossref","unstructured":"Dai Z, Cai B, Lin Y, Chen J (2021) Up-DETR: Unsupervised pre-training for object detection with transformers. In:\u00a0IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp 1601\u20131610","DOI":"10.1109\/CVPR46437.2021.00165"},{"key":"4799_CR50","unstructured":"Chen S,\u00a0 Chen S, Xie E, Chongjian GE,\u00a0 Chen R, Liang D, Ping D, Luo P (2021) CycleMLP: A MLPlike architecture for dense prediction. ICLR 2022. https:\/\/openreview.net\/forum?id=NMEceG4v69Y"},{"key":"4799_CR51","doi-asserted-by":"crossref","unstructured":"Yu T, Li X, Cai Y, Sun M, Li P (2022) S2-MLP: spatial-shift MLP architecture for vision. In IEEE\/CVF Winter Conference on Applications of Computer Vision, pp 297\u2013306","DOI":"10.1109\/WACV51458.2022.00367"},{"key":"4799_CR52","doi-asserted-by":"publisher","unstructured":"Yan W (2019) Introduction to intelligent surveillance: surveillance data capture, transmission, and analytics. Springer Cham. https:\/\/doi.org\/10.1007\/978-3-030-10713-0","DOI":"10.1007\/978-3-030-10713-0"}],"container-title":["Applied Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-023-04799-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10489-023-04799-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10489-023-04799-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,10,18]],"date-time":"2023-10-18T13:23:59Z","timestamp":1697635439000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10489-023-04799-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,29]]},"references-count":52,"journal-issue":{"issue":"19","published-print":{"date-parts":[[2023,10]]}},"alternative-id":["4799"],"URL":"https:\/\/doi.org\/10.1007\/s10489-023-04799-8","relation":{},"ISSN":["0924-669X","1573-7497"],"issn-type":[{"value":"0924-669X","type":"print"},{"value":"1573-7497","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,6,29]]},"assertion":[{"value":"14 June 2023","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 June 2023","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"No ethical data in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical and informed consent for data used"}},{"value":"No conflict of interests in this paper that are directly or indirectly related to the work submitted for publication.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}]}}