{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,18]],"date-time":"2026-03-18T14:11:33Z","timestamp":1773843093791,"version":"3.50.1"},"reference-count":43,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2025,4,29]],"date-time":"2025-04-29T00:00:00Z","timestamp":1745884800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,4,29]],"date-time":"2025-04-29T00:00:00Z","timestamp":1745884800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1007\/s00530-025-01809-2","type":"journal-article","created":{"date-parts":[[2025,4,29]],"date-time":"2025-04-29T05:09:39Z","timestamp":1745903379000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["Learning multi-scale features automatically from food and ingredients"],"prefix":"10.1007","volume":"31","author":[{"given":"Ruoxuan","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dantong","family":"Ouyang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ximing","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongtao","family":"Bai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chenming","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lili","family":"He","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,4,29]]},"reference":[{"key":"1809_CR1","doi-asserted-by":"publisher","first-page":"170","DOI":"10.1016\/j.ins.2021.10.040","volume":"584","author":"X Gao","year":"2022","unstructured":"Gao, X., Feng, F., Huang, H., Mao, X.-L., Lan, T., Chi, Z.: Food recommendation with graph convolutional network. Inf. Sci. 584, 170\u2013183 (2022)","journal-title":"Inf. Sci."},{"issue":"1s","key":"1809_CR2","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3524618","volume":"19","author":"Y Song","year":"2023","unstructured":"Song, Y., Yang, X., Xu, C.: Self-supervised calorie-aware heterogeneous graph networks for food recommendation. ACM Trans. Multimed. Comput. Commun. Appl. 19(1s), 1\u201323 (2023)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"1809_CR3","doi-asserted-by":"publisher","first-page":"52508","DOI":"10.1109\/ACCESS.2022.3175317","volume":"10","author":"M Rostami","year":"2022","unstructured":"Rostami, M., Oussalah, M., Farrahi, V.: A novel time-aware food recommender-system based on deep learning and graph clustering. IEEE Access 10, 52508\u201352524 (2022)","journal-title":"IEEE Access"},{"key":"1809_CR4","doi-asserted-by":"publisher","first-page":"96695","DOI":"10.1109\/ACCESS.2019.2929413","volume":"7","author":"RY Toledo","year":"2019","unstructured":"Toledo, R.Y., Alzahrani, A.A., Martinez, L.: A food recommender system considering nutritional information and user preferences. IEEE Access 7, 96695\u201396711 (2019)","journal-title":"IEEE Access"},{"issue":"3","key":"1809_CR5","doi-asserted-by":"publisher","first-page":"15294","DOI":"10.2196\/15294","volume":"8","author":"D Herzig","year":"2020","unstructured":"Herzig, D., Nakas, C.T., Stalder, J., Kosinski, C., Laesser, C., Dehais, J., Jaeggi, R., Leichtle, A.B., Dahlweid, F.-M., Stettler, C., et al.: Volumetric food quantification using computer vision on a depth-sensing smartphone: Preclinical study. JMIR Mhealth Uhealth 8(3), 15294 (2020)","journal-title":"JMIR Mhealth Uhealth"},{"key":"1809_CR6","doi-asserted-by":"crossref","unstructured":"Thames, Q., Karpur, A., Norris, W., Xia, F., Panait, L., Weyand, T., Sim, J.: Nutrition5k: Towards automatic nutritional understanding of generic food. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8903\u20138911 (2021)","DOI":"10.1109\/CVPR46437.2021.00879"},{"key":"1809_CR7","doi-asserted-by":"crossref","unstructured":"Naritomi, S., Yanai, K.: Caloriecaptorglass: Food calorie estimation based on actual size using hololens and deep learning. In: 2020 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW), pp. 818\u2013819 (2020). IEEE","DOI":"10.1109\/VRW50115.2020.00260"},{"key":"1809_CR8","doi-asserted-by":"publisher","first-page":"93","DOI":"10.1007\/s00530-024-01297-w","volume":"30","author":"R Zhang","year":"2024","unstructured":"Zhang, R., Ouyang, D., He, L., et al.: Recognize after early fusion: the Chinese food recognition based on the alignment of image and ingredients. Multimed. Syst. 30, 93 (2024)","journal-title":"Multimed. Syst."},{"key":"1809_CR9","doi-asserted-by":"crossref","unstructured":"Liu, C., Cao, Y., Luo, Y., Chen, G., Vokkarane, V., Ma, Y.: Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment. In: Inclusive Smart Cities and Digital Health: 14th International Conference on Smart Homes and Health Telematics, ICOST 2016, Wuhan, China, May 25-27, 2016. Proceedings 14, pp. 37\u201348 (2016). Springer","DOI":"10.1007\/978-3-319-39601-9_4"},{"key":"1809_CR10","doi-asserted-by":"crossref","unstructured":"Zahisham, Z., Lee, C.P., Lim, K.M.: Food recognition with resnet-50. In: 2020 IEEE 2nd International Conference on Artificial Intelligence in Engineering and Technology (IICAIET), pp. 1\u20135 (2020). IEEE","DOI":"10.1109\/IICAIET49801.2020.9257825"},{"key":"1809_CR11","first-page":"1","volume":"8","author":"R Kaur","year":"2023","unstructured":"Kaur, R., Kumar, R., Gupta, M.: Deep neural network for food image classification and nutrient identification: A systematic review. Rev. Endocr. Metab. Disord. 8, 1\u201321 (2023)","journal-title":"Rev. Endocr. Metab. Disord."},{"key":"1809_CR12","first-page":"1","volume":"8","author":"B Shah","year":"2023","unstructured":"Shah, B., Bhavsar, H.: Depth-restricted convolutional neural network-a model for gujarati food image classification. Vis. Comput. 8, 1\u201316 (2023)","journal-title":"Vis. Comput."},{"key":"1809_CR13","doi-asserted-by":"crossref","unstructured":"Min, W., Liu, L., Wang, Z., Luo, Z., Wei, X., Wei, X., Jiang, S.: Isia food-500: A dataset for large-scale food recognition via stacked global-local attention network. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 393\u2013401 (2020)","DOI":"10.1145\/3394171.3414031"},{"key":"1809_CR14","unstructured":"Qiu, J., Lo, F.P.-W., Sun, Y., Wang, S., Lo, B.: Mining discriminative food regions for accurate food recognition. arXiv preprint arXiv:2207.03692 (2022)"},{"key":"1809_CR15","doi-asserted-by":"crossref","unstructured":"Min, W., Wang, Z., Liu, Y., Luo, M., Kang, L., Wei, X., Wei, X., Jiang, S.: Large scale visual food recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (2023)","DOI":"10.1109\/TPAMI.2023.3237871"},{"key":"1809_CR16","doi-asserted-by":"crossref","unstructured":"Dewantara, B.S.B., Devy, A.Z., Bachtiar, M.M., et al.: Recognition of food material and measurement of quality using yolo and wld-svm. In: 2021 International Electronics Symposium (IES), pp. 545\u2013551 (2021). IEEE","DOI":"10.1109\/IES53407.2021.9593949"},{"key":"1809_CR17","doi-asserted-by":"crossref","unstructured":"Poply, P.: An instance segmentation approach to food calorie estimation using mask r-cnn. In: Proceedings of the 2020 3rd International Conference on Signal Processing and Machine Learning, pp. 73\u201378 (2020)","DOI":"10.1145\/3432291.3432295"},{"key":"1809_CR18","doi-asserted-by":"crossref","unstructured":"Min, W., Liu, L., Luo, Z., Jiang, S.: Ingredient-guided cascaded multi-attention network for food recognition. In: Proceedings of the 27th ACM International Conference on Multimedia, pp. 1331\u20131339 (2019)","DOI":"10.1145\/3343031.3350948"},{"key":"1809_CR19","doi-asserted-by":"publisher","unstructured":"He, L., Cai, Z., Ouyang, D., Bai, H.: Food recognition model based on deep learning and attention mechanism. In: 2022 8th International Conference on Big Data Computing and Communications (BigCom), pp. 206\u2013216 (2022). https:\/\/doi.org\/10.1109\/BigCom57025.2022.00034","DOI":"10.1109\/BigCom57025.2022.00034"},{"key":"1809_CR20","doi-asserted-by":"crossref","unstructured":"Salvador, A., Drozdzal, M., Gir\u00f3-i-Nieto, X., Romero, A.: Inverse cooking: Recipe generation from food images. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10453\u201310462 (2019)","DOI":"10.1109\/CVPR.2019.01070"},{"key":"1809_CR21","doi-asserted-by":"crossref","unstructured":"Han, F., Guerrero, R., Pavlovic, V.: Cookgan: Meal image synthesis from ingredients. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 1450\u20131458 (2020)","DOI":"10.1109\/WACV45572.2020.9093463"},{"key":"1809_CR22","doi-asserted-by":"crossref","unstructured":"Papadopoulos, D.P., Tamaazousti, Y., Ofli, F., Weber, I., Torralba, A.: How to make a pizza: Learning a compositional layer-based gan model. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8002\u20138011 (2019)","DOI":"10.1109\/CVPR.2019.00819"},{"key":"1809_CR23","doi-asserted-by":"crossref","unstructured":"Fu, H., Wu, R., Liu, C., Sun, J.: Mcen: Bridging cross-modal gap between cooking recipes and dish images with latent variable model. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14570\u201314580 (2020)","DOI":"10.1109\/CVPR42600.2020.01458"},{"key":"1809_CR24","doi-asserted-by":"crossref","unstructured":"Papadopoulos, D.P., Mora, E., Chepurko, N., Huang, K.W., Ofli, F., Torralba, A.: Learning program representations for food images and cooking recipes. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16559\u201316569 (2022)","DOI":"10.1109\/CVPR52688.2022.01606"},{"key":"1809_CR25","doi-asserted-by":"crossref","unstructured":"Salvador, A., Gundogdu, E., Bazzani, L., Donoser, M.: Revamping cross-modal recipe retrieval with hierarchical transformers and self-supervised learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 15475\u201315484 (2021)","DOI":"10.1109\/CVPR46437.2021.01522"},{"key":"1809_CR26","doi-asserted-by":"crossref","unstructured":"Bossard, L., Guillaumin, M., Van\u00a0Gool, L.: Food-101\u2013mining discriminative components with random forests. In: Computer Vision\u2013ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part VI 13, pp. 446\u2013461 (2014). Springer","DOI":"10.1007\/978-3-319-10599-4_29"},{"key":"1809_CR27","unstructured":"Chen, X., Zhu, Y., Zhou, H., Diao, L., Wang, D.: Chinesefoodnet: A large-scale image dataset for chinese food recognition. arXiv preprint arXiv:1705.02743 (2017)"},{"key":"1809_CR28","doi-asserted-by":"crossref","unstructured":"Chen, J., Ngo, C.-W.: Deep-based ingredient recognition for cooking recipe retrieval. In: Proceedings of the 24th ACM International Conference on Multimedia, pp. 32\u201341 (2016)","DOI":"10.1145\/2964284.2964315"},{"key":"1809_CR29","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141., Polosukhin, I.: Attention is all you need. Advances in neural information processing systems 30 (2017)"},{"key":"1809_CR30","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)"},{"key":"1809_CR31","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1\u20139 (2015)","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"1809_CR32","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"1809_CR33","doi-asserted-by":"crossref","unstructured":"Huang, G., Liu, Z., Van Der\u00a0Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4700\u20134708 (2017)","DOI":"10.1109\/CVPR.2017.243"},{"key":"1809_CR34","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1809_CR35","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"1809_CR36","doi-asserted-by":"crossref","unstructured":"Liu, C., Cao, Y., Luo, Y., Chen, G., Vokkarane, V., Ma, Y.: Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment. In: Inclusive Smart Cities and Digital Health: 14th International Conference on Smart Homes and Health Telematics, ICOST 2016, Wuhan, China, May 25-27, 2016. Proceedings 14, pp. 37\u201348 (2016). Springer","DOI":"10.1007\/978-3-319-39601-9_4"},{"key":"1809_CR37","doi-asserted-by":"crossref","unstructured":"Bolanos, M., Radeva, P.: Simultaneous food localization and recognition. In: 2016 23rd International Conference on Pattern Recognition (ICPR), pp. 3140\u20133145 (2016). IEEE","DOI":"10.1109\/ICPR.2016.7900117"},{"key":"1809_CR38","doi-asserted-by":"crossref","unstructured":"Yanai, K., Kawano, Y.: Food image recognition using deep convolutional network with pre-training and fine-tuning. In: 2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW), pp. 1\u20136 (2015). IEEE","DOI":"10.1109\/ICMEW.2015.7169816"},{"key":"1809_CR39","doi-asserted-by":"crossref","unstructured":"Aguilar, E., Bola\u00f1os, M., Radeva, P.: Food recognition using fusion of classifiers based on cnns. In: Image Analysis and Processing-ICIAP 2017: 19th International Conference, Catania, Italy, September 11-15, 2017, Proceedings, Part II 19, pp. 213\u2013224 (2017). Springer","DOI":"10.1007\/978-3-319-68548-9_20"},{"key":"1809_CR40","doi-asserted-by":"crossref","unstructured":"Hassannejad, H., Matrella, G., Ciampolini, P., De\u00a0Munari, I., Mordonini, M., Cagnoni, S.: Food image recognition using very deep convolutional networks. In: Proceedings of the 2nd International Workshop on Multimedia Assisted Dietary Management, pp. 41\u201349 (2016)","DOI":"10.1145\/2986035.2986042"},{"key":"1809_CR41","doi-asserted-by":"crossref","unstructured":"Kornblith, S., Shlens, J., Le, Q.V.: Do better imagenet models transfer better? In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2661\u20132671 (2019)","DOI":"10.1109\/CVPR.2019.00277"},{"key":"1809_CR42","doi-asserted-by":"publisher","first-page":"217","DOI":"10.1016\/j.compbiomed.2018.02.008","volume":"95","author":"P McAllister","year":"2018","unstructured":"McAllister, P., Zheng, H., Bond, R., Moorhead, A.: Combining deep residual neural network features with supervised machine learning algorithms to classify diverse food image datasets. Comput. Biol. Med. 95, 217\u2013233 (2018)","journal-title":"Comput. Biol. Med."},{"key":"1809_CR43","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1109\/TIP.2019.2929447","volume":"29","author":"S Jiang","year":"2019","unstructured":"Jiang, S., Min, W., Liu, L., Luo, Z.: Multi-scale multi-view deep feature aggregation for food recognition. IEEE Trans. Image Process. 29, 265\u2013276 (2019)","journal-title":"IEEE Trans. Image Process."}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-025-01809-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00530-025-01809-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-025-01809-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,4]],"date-time":"2025-09-04T15:04:47Z","timestamp":1756998287000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00530-025-01809-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,29]]},"references-count":43,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2025,6]]}},"alternative-id":["1809"],"URL":"https:\/\/doi.org\/10.1007\/s00530-025-01809-2","relation":{},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"value":"0942-4962","type":"print"},{"value":"1432-1882","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,4,29]]},"assertion":[{"value":"27 March 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 April 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 April 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"This work was supported in part by the Science Technology Department of Jilin Province, China (20210101181JC).","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"212"}}