{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,12]],"date-time":"2026-06-12T03:22:24Z","timestamp":1781234544391,"version":"3.54.1"},"reference-count":100,"publisher":"Springer Science and Business Media LLC","issue":"17","license":[{"start":{"date-parts":[[2023,1,26]],"date-time":"2023-01-26T00:00:00Z","timestamp":1674691200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,1,26]],"date-time":"2023-01-26T00:00:00Z","timestamp":1674691200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2023,7]]},"DOI":"10.1007\/s11042-023-14373-6","type":"journal-article","created":{"date-parts":[[2023,1,26]],"date-time":"2023-01-26T04:41:38Z","timestamp":1674708098000},"page":"25615-25650","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["The multi-learning for food analyses in computer vision: a survey"],"prefix":"10.1007","volume":"82","author":[{"given":"Jingzhao","family":"Dai","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xuejiao","family":"Hu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ming","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yang","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6432-3704","authenticated-orcid":false,"given":"Sidan","family":"Du","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,1,26]]},"reference":[{"key":"14373_CR1","doi-asserted-by":"publisher","first-page":"360","DOI":"10.1016\/j.jvcir.2019.03.011","volume":"60","author":"E Aguilar","year":"2019","unstructured":"Aguilar E, Bola\u00f1os M, Radeva P (2019) Regularized uncertainty-based multi-task learning model for food analysis. J Vis Commun Image Represent 60:360\u2013370. https:\/\/doi.org\/10.1016\/j.jvcir.2019.03.011","journal-title":"J Vis Commun Image Represent"},{"key":"14373_CR2","doi-asserted-by":"publisher","unstructured":"AlZu\u2019bi S, Hawashin B, Mujahed M, Jararweh Y, Gupta BB (2019) An efficient employment of internet of multimedia things in smart and future agriculture. Multimed Tools Appl 78(20):29581\u201329605.\u00a0https:\/\/doi.org\/10.1007\/s11042-019-7367-0","DOI":"10.1007\/s11042-019-7367-0"},{"key":"14373_CR3","doi-asserted-by":"publisher","first-page":"182347","DOI":"10.1109\/ACCESS.2020.3028390","volume":"8","author":"S Anis","year":"2020","unstructured":"Anis S, Lai KW, Chuah JH, Ali SM, Mohafez H, Hadizadeh M, Yan D, Ong ZC (2020) An overview of deep learning approaches in chest radiograph. IEEE Access 8:182347\u2013182354. https:\/\/doi.org\/10.1109\/ACCESS.2020.3028390","journal-title":"IEEE Access"},{"key":"14373_CR4","doi-asserted-by":"publisher","unstructured":"Bahdanau D, Cho K, Bengio Y (2015) Neural machine translation by jointly learning to align and translate. International conference on learning representations (ICLR). https:\/\/doi.org\/10.48550\/arXiv.1409.0473","DOI":"10.48550\/arXiv.1409.0473"},{"key":"14373_CR5","doi-asserted-by":"publisher","unstructured":"Bettadapura V, Thomaz E, Parnami A et al (2015) Leveraging context to support automated food recognition in restaurants. 2015 IEEE Winter Conference on Applications of Computer Vision 580\u2013587. https:\/\/doi.org\/10.1109\/WACV.2015.83","DOI":"10.1109\/WACV.2015.83"},{"key":"14373_CR6","doi-asserted-by":"crossref","unstructured":"Bossard L, Guillaumin M, Van Gool L (2014) Food-101 \u2013 mining discriminative components with random forests. European conference on computer vision (ECCV). Cham 446-461","DOI":"10.1007\/978-3-319-10599-4_29"},{"key":"14373_CR7","doi-asserted-by":"publisher","unstructured":"Chen J, Ngo C-W (2016) Deep-based ingredient recognition for cooking recipe retrieval. Proceedings of the 24th ACM international conference on multimedia. 32-41. https:\/\/doi.org\/10.1145\/2964284.2964315","DOI":"10.1145\/2964284.2964315"},{"key":"14373_CR8","doi-asserted-by":"publisher","unstructured":"Chen M, Dhingra K, Wu W et al (2009) PFID: Pittsburgh fast-food image dataset. 2009 16th IEEE international conference on image processing (ICIP). 289-292. https:\/\/doi.org\/10.1109\/ICIP.2009.5413511","DOI":"10.1109\/ICIP.2009.5413511"},{"key":"14373_CR9","doi-asserted-by":"publisher","unstructured":"Chen J-J, Ngo C-W, Chua T-S (2017) Cross-modal recipe retrieval with rich food attributes. Proceedings of the 25th ACM international conference on multimedia. 1771-1779. https:\/\/doi.org\/10.1145\/3123266.3123428","DOI":"10.1145\/3123266.3123428"},{"key":"14373_CR10","unstructured":"Chen X, Zhu Y, Zhou H et al (2017) ChineseFoodNet: a large-scale image dataset for Chinese food recognition. arXiv:1705.02743"},{"issue":"4","key":"14373_CR11","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"L Chen","year":"2018","unstructured":"Chen L, Papandreou G, Kokkinos I et al (2018) DeepLab: semantic image segmentation with deep convolutional nets, Atrous convolution, and fully connected CRFs. IEEE Trans Pattern Anal Mach Intell 40(4):834\u2013848. https:\/\/doi.org\/10.1109\/TPAMI.2017.2699184","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"14373_CR12","doi-asserted-by":"crossref","unstructured":"Chen Y, Bai Y, Zhang W et al (2019) Destruction and construction learning for fine-grained image recognition. 2019 IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2019.00530"},{"issue":"3","key":"14373_CR13","doi-asserted-by":"publisher","first-page":"588","DOI":"10.1109\/JBHI.2016.2636441","volume":"21","author":"G Ciocca","year":"2017","unstructured":"Ciocca G, Napoletano P, Schettini R (2017) Food recognition: a new dataset, experiments, and results. IEEE J Biomed Health Inf 21(3):588\u2013598. https:\/\/doi.org\/10.1109\/JBHI.2016.2636441","journal-title":"IEEE J Biomed Health Inf"},{"key":"14373_CR14","doi-asserted-by":"publisher","first-page":"32003","DOI":"10.1109\/ACCESS.2020.2973704","volume":"8","author":"G Ciocca","year":"2020","unstructured":"Ciocca G, Micali G, Napoletano P (2020) State recognition of food images using deep features. IEEE Access 8:32003\u201332017. https:\/\/doi.org\/10.1109\/ACCESS.2020.2973704","journal-title":"IEEE Access"},{"key":"14373_CR15","doi-asserted-by":"publisher","unstructured":"Cipolla R, Gal Y, Kendall A (2018) Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 7482\u20137491. https:\/\/doi.org\/10.1109\/CVPR.2018.00781","DOI":"10.1109\/CVPR.2018.00781"},{"key":"14373_CR16","doi-asserted-by":"publisher","unstructured":"Doersch C, Zisserman A (2017) Multi-task self-supervised visual learning. 2017 IEEE International Conference on Computer Vision (ICCV). 2070\u20132079. https:\/\/doi.org\/10.1109\/ICCV.2017.226","DOI":"10.1109\/ICCV.2017.226"},{"key":"14373_CR17","doi-asserted-by":"publisher","unstructured":"Ege T, Yanai K (2017) Simultaneous estimation of food categories and calories with multi-task CNN. 2017 fifteenth IAPR international conference on machine vision applications (MVA). 198-201. https:\/\/doi.org\/10.23919\/MVA.2017.7986835","DOI":"10.23919\/MVA.2017.7986835"},{"key":"14373_CR18","doi-asserted-by":"crossref","unstructured":"Ege T, Yanai K (2017) Image-based food calorie estimation using knowledge on food categories, ingredients and cooking directions. 367-375","DOI":"10.1145\/3126686.3126742"},{"key":"14373_CR19","doi-asserted-by":"crossref","unstructured":"Ege T, Yanai K (2018) Multi-task learning of dish detection and calorie estimation: in CEA\/MADiMa\u201918: joint workshop on multimedia for cooking and eating activities and multimedia assisted dietary management in conjunction with the 27th international joint conference on artificial intelligence IJCAI","DOI":"10.1145\/3230519.3230594"},{"issue":"21\u201323","key":"14373_CR20","doi-asserted-by":"publisher","first-page":"33011","DOI":"10.1007\/s11042-021-11329-6","volume":"80","author":"A Fakhrou","year":"2021","unstructured":"Fakhrou A, Kunhoth J, Al MS (2021) Smartphone-based food recognition system using multiple deep CNN models. Multimed Tools Appl 80(21\u201323):33011\u201333032. https:\/\/doi.org\/10.1007\/s11042-021-11329-6","journal-title":"Multimed Tools Appl"},{"key":"14373_CR21","doi-asserted-by":"publisher","unstructured":"Farinella GM, Moltisanti M, Battiato S (2015) Classifying food images represented as bag of Textons. IEEE international conference on image processing. 5212-5216. https:\/\/doi.org\/10.1109\/ICIP.2014.7026055","DOI":"10.1109\/ICIP.2014.7026055"},{"key":"14373_CR22","doi-asserted-by":"publisher","unstructured":"Fu J, Zheng H, Mei T (2017) Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, pp 4476\u20134484. https:\/\/doi.org\/10.1109\/CVPR.2017.476","DOI":"10.1109\/CVPR.2017.476"},{"key":"14373_CR23","doi-asserted-by":"publisher","unstructured":"Fu H, Wu R, Liu C et al (2020) MCEN: bridging cross-modal gap between cooking recipes and dish images with latent variable model. 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 14558\u201314568. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01458","DOI":"10.1109\/CVPR42600.2020.01458"},{"key":"14373_CR24","doi-asserted-by":"publisher","unstructured":"Gong Y, Wang L, Guo R, Lazebnik S (2014) Multi-scale orderless pooling of deep convolutional activation features. In: Fleet D, Pajdla T, Schiele B, Tuytelaars T (eds) Computer Vision \u2013 ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8695. Springer, Cham. https:\/\/doi.org\/10.1007\/978-3-319-10584-0_26","DOI":"10.1007\/978-3-319-10584-0_26"},{"key":"14373_CR25","doi-asserted-by":"publisher","unstructured":"G\u00fcng\u00f6r C, Baltac\u0131 F, Erdem A et al (2017) Turkish cuisine: a benchmark dataset with Turkish meals for food recognition. In: 2017 25th Signal Processing and Communications Applications Conference (SIU), Antalya, pp 1\u20134. https:\/\/doi.org\/10.1109\/SIU.2017.7960494","DOI":"10.1109\/SIU.2017.7960494"},{"key":"14373_CR26","doi-asserted-by":"crossref","unstructured":"Guo S, Huang W, Zhang H et al (2018) CurriculumNet: weakly supervised learning from large-scale web images.In: computer vision \u2013 ECCV 2018. Pp. 139-154","DOI":"10.1007\/978-3-030-01249-6_9"},{"key":"14373_CR27","doi-asserted-by":"publisher","unstructured":"Hassannejad H, Matrella G, Ciampolini P et al (2016) Food image recognition using very deep convolutional networks. Proceedings of the 2nd international workshop on multimedia assisted dietary management. 41-49. https:\/\/doi.org\/10.1145\/2986035.2986042","DOI":"10.1145\/2986035.2986042"},{"issue":"3","key":"14373_CR28","doi-asserted-by":"publisher","first-page":"848","DOI":"10.1109\/JBHI.2015.2419251","volume":"20","author":"H He","year":"2016","unstructured":"He H, Kong F, Tan J (2016) DietCam: Multiview food recognition using a multikernel SVM. IEEE J Biomed Health Inf 20(3):848\u2013855. https:\/\/doi.org\/10.1109\/JBHI.2015.2419251","journal-title":"IEEE J Biomed Health Inf"},{"key":"14373_CR29","doi-asserted-by":"publisher","unstructured":"He K, Zhang X, Ren S et al (2016) Deep residual learning for image recognition. In:\u00a02016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,\u00a0pp 770\u2013778, https:\/\/doi.org\/10.1109\/CVPR.2016.90","DOI":"10.1109\/CVPR.2016.90"},{"key":"14373_CR30","doi-asserted-by":"publisher","unstructured":"He J, Shao Z, Wright J et al (2020) Multi-task image-based dietary assessment for food recognition and portion size estimation. 2020 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR) 49\u201354. https:\/\/doi.org\/10.1109\/MIPR49039.2020.00018","DOI":"10.1109\/MIPR49039.2020.00018"},{"issue":"2","key":"14373_CR31","doi-asserted-by":"publisher","first-page":"430","DOI":"10.1109\/TMM.2016.2614861","volume":"19","author":"L Herranz","year":"2017","unstructured":"Herranz L, Jiang S, Xu R (2017) Modeling restaurant context for food recognition. IEEE Trans Multimed 19(2):430\u2013440. https:\/\/doi.org\/10.1109\/TMM.2016.2614861","journal-title":"IEEE Trans Multimed"},{"key":"14373_CR32","doi-asserted-by":"publisher","first-page":"296","DOI":"10.1109\/ISM.2010.51","volume":"2010","author":"H Hoashi","year":"2010","unstructured":"Hoashi H, Joutou T, Yanai K (2010) Image recognition of 85 food categories by feature fusion. IEEE Int Symp Multimed 2010:296\u2013301. https:\/\/doi.org\/10.1109\/ISM.2010.51","journal-title":"IEEE Int Symp Multimed"},{"issue":"10","key":"14373_CR33","doi-asserted-by":"publisher","first-page":"2836","DOI":"10.1109\/TMM.2018.2814339","volume":"20","author":"S Horiguchi","year":"2018","unstructured":"Horiguchi S, Amano S, Ogawa M, Aizawa K (2018) Personalized classifier for food image recognition. IEEE Trans Multimed 20(10):2836\u20132848. https:\/\/doi.org\/10.1109\/TMM.2018.2814339","journal-title":"IEEE Trans Multimed"},{"issue":"8","key":"14373_CR34","doi-asserted-by":"publisher","first-page":"2011","DOI":"10.1109\/TPAMI.2019.2913372","volume":"42","author":"J Hu","year":"2020","unstructured":"Hu J, Shen L, Albanie S, Sun G, Wu E (2020) Squeeze-and-excitation networks. IEEE Trans Pattern Anal Mach Intell 42(8):2011\u20132023. https:\/\/doi.org\/10.1109\/TPAMI.2019.2913372","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"14373_CR35","doi-asserted-by":"publisher","first-page":"28583","DOI":"10.1007\/s11042-022-12877-1","volume":"81","author":"R Jha","year":"2022","unstructured":"Jha R (2022) A novel hybrid intelligent technique to enhance customer relationship management in online food delivery system. Multimed Tools Appl 81:28583\u201328606. https:\/\/doi.org\/10.1007\/s11042-022-12877-1","journal-title":"Multimed Tools Appl"},{"key":"14373_CR36","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1109\/TIP.2019.2929447","volume":"29","author":"S Jiang","year":"2020","unstructured":"Jiang S, Min W, Liu L, Luo Z (2020) Multi-scale multi-view deep feature aggregation for food recognition. IEEE Trans Image Process 29:265\u2013276. https:\/\/doi.org\/10.1109\/TIP.2019.2929447","journal-title":"IEEE Trans Image Process"},{"issue":"3","key":"14373_CR37","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3391624","volume":"16","author":"S Jiang","year":"2020","unstructured":"Jiang S, Min W, Lyu Y, Liu L (2020) Few-shot food recognition via multi-view representation learning. ACM Trans Multimed Comput Commun Appl 16(3):1\u201320. https:\/\/doi.org\/10.1145\/3391624","journal-title":"ACM Trans Multimed Comput Commun Appl"},{"key":"14373_CR38","doi-asserted-by":"publisher","unstructured":"Kagaya H, Aizawa K, Ogawa M (2014) Food detection and recognition using convolutional neural network. Proceedings of the ACM international conference on multimedia - MM '14. 1085-1088. https:\/\/doi.org\/10.1145\/2647868.2654970","DOI":"10.1145\/2647868.2654970"},{"key":"14373_CR39","doi-asserted-by":"crossref","unstructured":"Kagaya H, Aizawa K, Ogawa M (2014) Food detection and recognition using convolutional neural network. Acm Int Conf Multim","DOI":"10.1145\/2647868.2654970"},{"key":"14373_CR40","doi-asserted-by":"crossref","unstructured":"Kawano Y, Yanai K (2014) FoodCam-256: a large-scale real-time Mobile food RecognitionSystem employing high-dimensional features and compression of classifier weights. Proceedings of the 22nd ACM international conference on multimedia","DOI":"10.1145\/2647868.2654869"},{"key":"14373_CR41","doi-asserted-by":"publisher","unstructured":"Kawano Y, Yanai K (2015) Automatic expansion of a food image dataset leveraging existing categories with domain adaptation. European conference on computer vision (ECCV). Cham. 3-17. https:\/\/doi.org\/10.1007\/978-3-319-16199-0_1","DOI":"10.1007\/978-3-319-16199-0_1"},{"issue":"6","key":"14373_CR42","doi-asserted-by":"publisher","first-page":"7611","DOI":"10.1007\/s11042-022-12150-5","volume":"81","author":"A Kazi","year":"2022","unstructured":"Kazi A, Panda SP (2022) Determining the freshness of fruits in the food industry by image classification using transfer learning. Multimed Tools Appl 81(6):7611\u20137624. https:\/\/doi.org\/10.1007\/s11042-022-12150-5","journal-title":"Multimed Tools Appl"},{"key":"14373_CR43","doi-asserted-by":"publisher","first-page":"108","DOI":"10.1016\/j.pmcj.2014.05.012","volume":"19","author":"F Kong","year":"2015","unstructured":"Kong F, He H, Raynor HA, Tan J (2015) DietCam: multi-view regular shape food recognition with a camera phone. Pervasive Mob Comput 19:108\u2013121. https:\/\/doi.org\/10.1016\/j.pmcj.2014.05.012","journal-title":"Pervasive Mob Comput"},{"key":"14373_CR44","unstructured":"Liang Y, Li J (2017) Computer vision-based food calorie estimation: dataset, method, and experiment. arXiv:1705.07632"},{"key":"14373_CR45","doi-asserted-by":"publisher","unstructured":"Liang H, Wen G, Hu Y et al (2021) MVANet: multi-tasks guided multi-view attention network for Chinese food recognition. EEE Trans Multimedia 23:3551\u20133561. https:\/\/doi.org\/10.1109\/TMM.2020.3028478","DOI":"10.1109\/TMM.2020.3028478"},{"key":"14373_CR46","unstructured":"Lin TY, Roychowdhury A, Maji S (2017) Bilinear convolutional neural networks for fine-grained visual recognition. IEEE Trans Pattern Anal Mach Intell, 1-1"},{"key":"14373_CR47","unstructured":"Liu X, Xia T, Wang J et al (2017) Fully convolutional attention networks for fine-grained recognition. 2017 IEEE\/CVF Conference on Computer Vision and Pattern Recognition. arXiv:1603.06765v4"},{"key":"14373_CR48","doi-asserted-by":"publisher","unstructured":"Liu C, Cao Y, Luo Y et al (2016) DeepFood: deep learning-based food image recognition for computer-aided dietary assessment. DeepFood: Deep Learning-Based Food Image Recognition for Computer-Aided Dietary Assessment. In: Chang C, Chiari L, Cao Y, Jin H, Mokhtari M, Aloulou H (eds) Inclusive Smart Cities and Digital Health. ICOST 2016. Lecture Notes in Computer Science, vol 9677. Springer, Cham. https:\/\/doi.org\/10.1007\/978-3-319-39601-9_4","DOI":"10.1007\/978-3-319-39601-9_4"},{"key":"14373_CR49","doi-asserted-by":"crossref","unstructured":"Liu Q, Zhang Y, Liu Z, Yuan Y, Cheng L, Zimmermann R (2018). Multi-modal multi-task learning for automatic dietary assessment. Thirty-Second AAAI Conf Artif Intell (AAAI-18). 2347\u20132354","DOI":"10.1609\/aaai.v32i1.11848"},{"key":"14373_CR50","doi-asserted-by":"publisher","unstructured":"Liu C, Liang Y, Xue Y et al (2020) Food and ingredient joint learning for fine-grained recognition. IEEE transactions on circuits and Systems for Video Technology, 1-1. https:\/\/doi.org\/10.1109\/TCSVT.2020.3020079","DOI":"10.1109\/TCSVT.2020.3020079"},{"key":"14373_CR51","doi-asserted-by":"publisher","first-page":"245","DOI":"10.1016\/j.comcom.2021.08.002","volume":"178","author":"Y Liu","year":"2021","unstructured":"Liu Y, Chen J, Bao N, Gupta BB, Lv Z (2021) Survey on atrial fibrillation detection from a single-lead ECG wave for internet of medical things. Comput Commun 178:245\u2013258. https:\/\/doi.org\/10.1016\/j.comcom.2021.08.002","journal-title":"Comput Commun"},{"issue":"7","key":"14373_CR52","doi-asserted-by":"publisher","first-page":"1926","DOI":"10.1109\/JBHI.2020.2987943","volume":"24","author":"FPW Lo","year":"2020","unstructured":"Lo FPW, Sun Y, Qiu J, Lo B (2020) Image-based food classification and volume estimation for dietary assessment: a review. IEEE J Biomed Health Inform 24(7):1926\u20131939. https:\/\/doi.org\/10.1109\/JBHI.2020.2987943","journal-title":"IEEE J Biomed Health Inform"},{"key":"14373_CR53","doi-asserted-by":"publisher","unstructured":"Luvizon DC, Picard D, Tabia H (2018) 2D\/3D pose estimation and action recognition using multitask deep learning. 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition 5137\u20135146. https:\/\/doi.org\/10.1109\/CVPR.2018.00539","DOI":"10.1109\/CVPR.2018.00539"},{"key":"14373_CR54","doi-asserted-by":"publisher","unstructured":"Martinel N, Foresti GL, Micheloni C (2016) Wide-slice residual networks for food recognition. In:\u00a02018 IEEE Winter Conference on Applications of Computer Vision (WACV), Lake Tahoe, pp 567\u2013576. https:\/\/doi.org\/10.1109\/WACV.2018.00068","DOI":"10.1109\/WACV.2018.00068"},{"key":"14373_CR55","doi-asserted-by":"publisher","unstructured":"Matsuda Y, Hoashi H, Yanai K (2012) Recognition of multiple-food images by detecting candidate regions. 2012 IEEE International Conference on Multimedia and Expo, Melbourne, VIC, Australia, 2012, pp. 25-30. https:\/\/doi.org\/10.1109\/ICME.2012.157","DOI":"10.1109\/ICME.2012.157"},{"key":"14373_CR56","unstructured":"Min W, Bao BK, Mei S et al (2017) You are what you eat: exploring rich recipe information for cross-region food analysis. IEEE Trans Multimed, 1\u20131"},{"key":"14373_CR57","doi-asserted-by":"publisher","unstructured":"Min W, Jiang S, Wang S et al (2017) A delicious recipe analysis framework for exploring multi-modal recipes with various attributes. Proceedings of the 25th ACM international conference on multimedia. 402-410. https:\/\/doi.org\/10.1145\/3123266.3123272","DOI":"10.1145\/3123266.3123272"},{"issue":"5","key":"14373_CR58","doi-asserted-by":"publisher","first-page":"1100","DOI":"10.1109\/TMM.2016.2639382","volume":"19","author":"W Min","year":"2017","unstructured":"Min W, Jiang S, Sang J, Wang H, Liu X, Herranz L (2017) Being a Supercook: joint food attributes and multimodal content modeling for recipe retrieval and exploration. IEEE Trans Multimed 19(5):1100\u20131113","journal-title":"IEEE Trans Multimed"},{"key":"14373_CR59","doi-asserted-by":"publisher","unstructured":"Min W, Liu L, Luo Z et al (2019) Ingredient-guided cascaded multi-attention network for food recognition. The 27th ACM international conference on multimedia, pp 1331\u20131339. https:\/\/doi.org\/10.1145\/3343031.3350948","DOI":"10.1145\/3343031.3350948"},{"issue":"5","key":"14373_CR60","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3329168","volume":"52","author":"W Min","year":"2020","unstructured":"Min W, Jiang S, Liu L, Rui Y, Jain R (2020) A survey on food computing. ACM Comput Surv 52(5):1\u201336. https:\/\/doi.org\/10.1145\/3329168","journal-title":"ACM Comput Surv"},{"key":"14373_CR61","doi-asserted-by":"publisher","unstructured":"Ming ZY, Chen J, Cao Y et al (2018) Food photo recognition for dietary tracking; system and experiment. International Conference on Multimedia Modeling (MMM) https:\/\/doi.org\/10.1007\/978-3-319-73600-6_12","DOI":"10.1007\/978-3-319-73600-6_12"},{"key":"14373_CR62","unstructured":"Mnih V, Heess N, Graves A et al (2014) Recurrent models of visual attention. In: NIPS'14: proceedings of the 27th international conference on neural information processing systems, pp 2204\u20132212. http:\/\/arxiv.org\/abs\/1406.6247"},{"key":"14373_CR63","doi-asserted-by":"publisher","unstructured":"Myers A, Johnston N, Rathod V et al (2015) Im2Calories: towards an automated Mobile vision food diary. 2015 IEEE Int Conf Comput Vis (ICCV). 1233\u20131241. https:\/\/doi.org\/10.1109\/ICCV.2015.146","DOI":"10.1109\/ICCV.2015.146"},{"key":"14373_CR64","doi-asserted-by":"publisher","unstructured":"Nag N, Pandey V, Jain R (2017) Health multimedia. Proceedings of the 2017 ACM on international conference on multimedia retrieval. 99-106. https:\/\/doi.org\/10.1145\/3078971.3080545","DOI":"10.1145\/3078971.3080545"},{"key":"14373_CR65","doi-asserted-by":"publisher","unstructured":"Nandhini P, Jaya J, George J (2013) Computer vision system for food quality evaluation \u2014 a review. 2013 International Conference on Current Trends in Engineering and Technology (ICCTET) 85\u201387. https:\/\/doi.org\/10.1109\/ICCTET.2013.6675916","DOI":"10.1109\/ICCTET.2013.6675916"},{"key":"14373_CR66","doi-asserted-by":"publisher","unstructured":"Ning Z, Donahue J, Girshick R et al (2014) Part-based R-CNNs for fine-grained category detection. European conference on computer vision (ECCV). https:\/\/doi.org\/10.48550\/arXiv.1407.3867","DOI":"10.48550\/arXiv.1407.3867"},{"issue":"12","key":"14373_CR67","doi-asserted-by":"publisher","first-page":"1758","DOI":"10.1109\/LSP.2017.2758862","volume":"24","author":"P Pandey","year":"2017","unstructured":"Pandey P, Deepthi A, Mandal B, Puhan NB (2017) FoodNet: recognizing foods using Ensemble of Deep Networks. IEEE Signal Process Lett 24(12):1758\u20131762. https:\/\/doi.org\/10.1109\/LSP.2017.2758862","journal-title":"IEEE Signal Process Lett"},{"key":"14373_CR68","doi-asserted-by":"crossref","unstructured":"Papyan V, Elad M (2015) Multi-scale patch-based image restoration. IEEE transactions on image processing, 249-261","DOI":"10.1109\/TIP.2015.2499698"},{"key":"14373_CR69","doi-asserted-by":"publisher","unstructured":"Park H, Bharadhwaj H, Lim BY (2019) Hierarchical multi-task learning for healthy drink classification. 2019 Int Joint Conf Neural Netw (IJCNN) 1\u20138. https:\/\/doi.org\/10.1109\/IJCNN.2019.8851796","DOI":"10.1109\/IJCNN.2019.8851796"},{"key":"14373_CR70","doi-asserted-by":"crossref","unstructured":"Pouladzadeh P, Yassine A, Shirmohammadi S (2015) FooDD: food detection dataset for calorie measurement using food images.In: new trends in image analysis and processing -- ICIAP 2015 workshops. Pp. 441-448","DOI":"10.1007\/978-3-319-23222-5_54"},{"key":"14373_CR71","doi-asserted-by":"crossref","unstructured":"Sajadmanesh S, Jafarzadeh S, Ossia SA et al (2016) Kissing cuisines: exploring worldwide culinary habits on the web. World Wide Web Conference, Web Science Companion","DOI":"10.1145\/3041021.3055137"},{"key":"14373_CR72","doi-asserted-by":"publisher","unstructured":"Salvador A, Hynes N, Aytar Y et al (2017) Learning cross-modal Embeddings for cooking recipes and food images. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 3068\u20133076. https:\/\/doi.org\/10.1109\/CVPR.2017.327","DOI":"10.1109\/CVPR.2017.327"},{"key":"14373_CR73","doi-asserted-by":"publisher","unstructured":"Sarker MMK, Rashwan HA, Akram F, Talavera E, Banu SF, Radeva P, Puig D (2019) Recognizing food places in egocentric photo-streams using multi-scale Atrous convolutional networks and self-attention mechanism. IEEE Access 7:39069\u201339082. https:\/\/doi.org\/10.1109\/ACCESS.2019.2902225","DOI":"10.1109\/ACCESS.2019.2902225"},{"key":"14373_CR74","doi-asserted-by":"crossref","unstructured":"Sarker MMK, Rashwan HA, Talavera E et al (2019) MACNet: multi-scale Atrous convolution networks for food places classification in egocentric photo-streams. 423-433","DOI":"10.1007\/978-3-030-11021-5_26"},{"key":"14373_CR75","doi-asserted-by":"publisher","unstructured":"Sasano S, Han X, Chen Y (2016) Food recognition by combined bags of color features and texture features. 2016 9th international congress on image and signal processing, BioMedical engineering and informatics (CISP-BMEI). 815-819. https:\/\/doi.org\/10.1109\/CISP-BMEI.2016.7852822","DOI":"10.1109\/CISP-BMEI.2016.7852822"},{"key":"14373_CR76","doi-asserted-by":"publisher","unstructured":"Selvaraju RR, Cogswell M, Das A et al (2017) Grad-CAM: visual explanations from deep networks via gradient-based localization. 2017 IEEE Int Conf Comput Vis (ICCV) 618\u2013626. https:\/\/doi.org\/10.1109\/ICCV.2017.74","DOI":"10.1109\/ICCV.2017.74"},{"key":"14373_CR77","doi-asserted-by":"publisher","unstructured":"Shimoda W, Yanai K (2017) Learning food image similarity for food image retrieval. In:\u00a02017 IEEE Third International Conference on Multimedia Big Data (BigMM), Laguna Hills, pp 165\u2013168. https:\/\/doi.org\/10.1109\/BigMM.2017.73","DOI":"10.1109\/BigMM.2017.73"},{"issue":"8","key":"14373_CR78","doi-asserted-by":"publisher","first-page":"732","DOI":"10.1080\/08839514.2019.1602318","volume":"33","author":"SF Situju","year":"2019","unstructured":"Situju SF, Takimoto H, Sato S, Yamauchi H, Kanagawa A, Lawi A (2019) Food constituent estimation for lifestyle disease prevention by multi-task CNN. Appl Artif Intell 33(8):732\u2013746. https:\/\/doi.org\/10.1080\/08839514.2019.1602318","journal-title":"Appl Artif Intell"},{"key":"14373_CR79","doi-asserted-by":"publisher","unstructured":"Sood S, Singh H (2021) Computer vision and machine learning based approaches for food security: a review. Multimed Tools Appl 80:27973\u201327999.\u00a0\u00a0https:\/\/doi.org\/10.1007\/s11042-021-11036-2","DOI":"10.1007\/s11042-021-11036-2"},{"issue":"1","key":"14373_CR80","first-page":"2949","volume":"15","author":"N Srivastava","year":"2012","unstructured":"Srivastava N, Salakhutdinov R (2012) Multimodal learning with deep Boltzmann machines. J Mach Learn Res 15(1):2949\u20132980","journal-title":"J Mach Learn Res"},{"key":"14373_CR81","doi-asserted-by":"publisher","first-page":"35370","DOI":"10.1109\/ACCESS.2019.2904519","volume":"7","author":"MA Subhi","year":"2019","unstructured":"Subhi MA, Ali SH, Mohammed MA (2019) Vision-based approaches for automatic food recognition and dietary assessment: a survey. IEEE Access 7:35370\u201335381. https:\/\/doi.org\/10.1109\/ACCESS.2019.2904519","journal-title":"IEEE Access"},{"key":"14373_CR82","doi-asserted-by":"publisher","unstructured":"Sung F, Yang Y, Zhang L et al (2018) Learning to compare: relation network for few-shot learning. 2018 IEEE\/CVF Conf Comput Vis Pattern Recognition 1199\u20131208. https:\/\/doi.org\/10.1109\/CVPR.2018.00131","DOI":"10.1109\/CVPR.2018.00131"},{"key":"14373_CR83","doi-asserted-by":"publisher","unstructured":"Taichi J, Keiji Y (2009) A food image recognition system with multiple kernel learning. 2009 16th IEEE international conference on image processing (ICIP). 285-288. https:\/\/doi.org\/10.1109\/ICIP.2009.5413400","DOI":"10.1109\/ICIP.2009.5413400"},{"key":"14373_CR84","doi-asserted-by":"publisher","unstructured":"Tanno R, Okamoto K, Yanai K (2016) DeepFoodCam: A DCNN-based real-time mobile food recognition system. In: Proceedings of the 2nd international workshop on multimedia assisted dietary management - MADiMa '16, pp 89\u201389. https:\/\/doi.org\/10.1145\/2986035.2986044","DOI":"10.1145\/2986035.2986044"},{"key":"14373_CR85","doi-asserted-by":"crossref","unstructured":"Wang H, Min W, Li X et al (2016) Where and what to eat: simultaneous restaurant and dish recognition from food image. Pacific Rim Conference on Multimedia","DOI":"10.1007\/978-3-319-48890-5_51"},{"key":"14373_CR86","doi-asserted-by":"publisher","unstructured":"Wang Z, Chen T, Li G et al (2017) Multi-label image recognition by recurrently discovering attentional regions. In:\u00a02017 IEEE international conference on computer vision (ICCV), Venice, pp 464\u2013472. https:\/\/doi.org\/10.1109\/ICCV.2017.58","DOI":"10.1109\/ICCV.2017.58"},{"key":"14373_CR87","doi-asserted-by":"publisher","unstructured":"Woo S, Park J, Lee JY et al (2018) CBAM: convolutional block attention module. In: Ferrari V, Hebert M, Sminchisescu C, Weiss Y (eds) Computer Vision \u2013 ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, vol 11211. Springer, Cham. https:\/\/doi.org\/10.1007\/978-3-030-01234-2_1","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"14373_CR88","doi-asserted-by":"publisher","unstructured":"Wu R, Wang B, Wang W et al (2015) Harvesting discriminative Meta objects with deep CNN features for scene classification. In:\u00a02015 IEEE international conference on computer vision (ICCV). https:\/\/doi.org\/10.1109\/ICCV.2015.152","DOI":"10.1109\/ICCV.2015.152"},{"key":"14373_CR89","doi-asserted-by":"crossref","unstructured":"Xinhang, Song, Shuqiang et al (2017). Multi-scale multi-feature context modeling for scene recognition in the semantic manifold. IEEE Trans Image Process, 26(6), 2721\u20132735.","DOI":"10.1109\/TIP.2017.2686017"},{"issue":"8","key":"14373_CR90","doi-asserted-by":"publisher","first-page":"1187","DOI":"10.1109\/TMM.2015.2438717","volume":"17","author":"R Xu","year":"2015","unstructured":"Xu R, Herranz L, Jiang S, Wang S, Song X, Jain R (2015) Geolocalized modeling for dish recognition. IEEE Trans Multimed 17(8):1187\u20131199","journal-title":"IEEE Trans Multimed"},{"key":"14373_CR91","doi-asserted-by":"publisher","unstructured":"Xu D, Ouyang W, Wang X et al (2018) PAD-Net: multi-tasks guided prediction-and-distillation network for simultaneous depth estimation and scene parsing. In:\u00a02018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, pp 675\u2013684. https:\/\/doi.org\/10.1109\/CVPR.2018.00077","DOI":"10.1109\/CVPR.2018.00077"},{"key":"14373_CR92","doi-asserted-by":"publisher","unstructured":"Yang S, Chen M, Pomerleau D et al (2010) Food recognition using statistics of pairwise local features. In:\u00a02010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, pp 2249\u20132256. https:\/\/doi.org\/10.1109\/CVPR.2010.5539907","DOI":"10.1109\/CVPR.2010.5539907"},{"key":"14373_CR93","doi-asserted-by":"publisher","unstructured":"Yang J, Shen X, Tian X et al (2018) Local convolutional neural networks for person re-identification. In:\u00a0Proceedings of the 26th ACM international conference on multimedia. October 2018, pp 1074\u20131082. https:\/\/doi.org\/10.1145\/3240508.3240645","DOI":"10.1145\/3240508.3240645"},{"key":"14373_CR94","doi-asserted-by":"publisher","unstructured":"Yu Q, Anzawa M, Amano S et al (2018) Food image recognition by personalized classifier. In:\u00a02018 25th IEEE international conference on image processing (ICIP), Athens, pp 171\u2013175. https:\/\/doi.org\/10.1109\/ICIP.2018.8451422","DOI":"10.1109\/ICIP.2018.8451422"},{"issue":"3","key":"14373_CR95","doi-asserted-by":"publisher","first-page":"489","DOI":"10.1007\/s11390-016-1642-6","volume":"31","author":"X-J Zhang","year":"2016","unstructured":"Zhang X-J, Lu Y-F, Zhang S-H (2016) Multi-task learning for food identification and analysis with deep convolutional neural networks. J Comput Sci Technol 31(3):489\u2013500. https:\/\/doi.org\/10.1007\/s11390-016-1642-6","journal-title":"J Comput Sci Technol"},{"key":"14373_CR96","doi-asserted-by":"publisher","first-page":"104870","DOI":"10.1016\/j.knosys.2019.104870","volume":"183","author":"H Zhang","year":"2019","unstructured":"Zhang H, Xu G, Liang X, Zhang W, Sun X, Huang T (2019) Multi-view multitask learning for knowledge base relation detection. Knowl-Based Syst 183:104870. https:\/\/doi.org\/10.1016\/j.knosys.2019.104870","journal-title":"Knowl-Based Syst"},{"key":"14373_CR97","doi-asserted-by":"publisher","first-page":"57","DOI":"10.1016\/j.neucom.2020.07.018","volume":"414","author":"W Zhang","year":"2020","unstructured":"Zhang W, Wu J, Yang Y (2020) Wi-HSNN: a subnetwork-based encoding structure for dimension reduction and food classification via harnessing multi-CNN model high-level features. Neurocomputing 414:57\u201366. https:\/\/doi.org\/10.1016\/j.neucom.2020.07.018","journal-title":"Neurocomputing"},{"key":"14373_CR98","doi-asserted-by":"publisher","first-page":"5219","DOI":"10.1109\/ICCV.2017.557","volume":"2017","author":"H Zheng","year":"2017","unstructured":"Zheng H, Fu J, Mei T et al (2017) Learning multi-attention convolutional neural network for fine-grained image recognition. IEEE Int Conf Comput Vis (ICCV) 2017:5219\u20135227. https:\/\/doi.org\/10.1109\/ICCV.2017.557","journal-title":"IEEE Int Conf Comput Vis (ICCV)"},{"key":"14373_CR99","doi-asserted-by":"publisher","unstructured":"Zhou F, Lin Y (2016) Fine-grained image classification by exploring bipartite-graph labels. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 1124\u20131133. https:\/\/doi.org\/10.1109\/CVPR.2016.127","DOI":"10.1109\/CVPR.2016.127"},{"key":"14373_CR100","doi-asserted-by":"publisher","unstructured":"Zhu Y, Wang J, Xie L et al (2018) Attention-based pyramid aggregation network for visual place recognition. Proceedings of the 26th ACM international conference on multimedia. 99-107. https:\/\/doi.org\/10.1145\/3240508.3240525","DOI":"10.1145\/3240508.3240525"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14373-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-14373-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14373-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,23]],"date-time":"2023-06-23T20:03:15Z","timestamp":1687550595000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-14373-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,1,26]]},"references-count":100,"journal-issue":{"issue":"17","published-print":{"date-parts":[[2023,7]]}},"alternative-id":["14373"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-14373-6","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,1,26]]},"assertion":[{"value":"11 August 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 December 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 January 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 January 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"We have no conflicts of interest to disclose with regard to this survey paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}