{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:10:37Z","timestamp":1765343437668,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":54,"publisher":"ACM","funder":[{"name":"JSPS KAKENHI","award":["23K25247"],"award-info":[{"award-number":["23K25247"]}]},{"name":"JST NEXUS","award":["JPMJNX25C9"],"award-info":[{"award-number":["JPMJNX25C9"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3758276","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:26:55Z","timestamp":1761377215000},"page":"13206-13212","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["FoodLogAthl-218: Constructing a Real-World Food Image Dataset Using Dietary Management Applications"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-7616-3053","authenticated-orcid":false,"given":"Mitsuki","family":"Watanabe","sequence":"first","affiliation":[{"name":"The University of Tokyo, Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7463-2631","authenticated-orcid":false,"given":"Sosuke","family":"Amano","sequence":"additional","affiliation":[{"name":"foo.log Inc., Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2146-6275","authenticated-orcid":false,"given":"Kiyoharu","family":"Aizawa","sequence":"additional","affiliation":[{"name":"The University of Tokyo, Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2752-6179","authenticated-orcid":false,"given":"Yoko","family":"Yamakata","sequence":"additional","affiliation":[{"name":"The University of Tokyo, Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2025. SARAH. https:\/\/corporate.sarah30.com\/. (Accessed on 29\/05\/2025)."},{"key":"e_1_3_2_1_2_1","volume-title":"Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al.","author":"Abdin Marah","year":"2024","unstructured":"Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. 2024. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219 (2024)."},{"key":"e_1_3_2_1_3_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2013.2271474"},{"key":"e_1_3_2_1_5_1","first-page":"1261","article-title":"A food recognition system for diabetic patients based on an optimized bag-of-features model","volume":"18","author":"Anthimopoulos Marios M","year":"2014","unstructured":"Marios M Anthimopoulos, Lauro Gianola, Luca Scarnato, Peter Diem, and Stavroula G Mougiakakou. 2014. A food recognition system for diabetic patients based on an optimized bag-of-features model. JBHI 18, 4 (2014), 1261--1271.","journal-title":"JBHI"},{"key":"e_1_3_2_1_6_1","unstructured":"asken Inc. 2007. Asken (originally in Japanese). https:\/\/www.asken.jp\/. (Accessed on 16\/03\/2024)."},{"key":"e_1_3_2_1_7_1","volume-title":"Openflamingo: An open-source framework for training large autoregressive vision-language models. arXiv preprint arXiv:2308.01390","author":"Awadalla Anas","year":"2023","unstructured":"Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, et al. 2023. Openflamingo: An open-source framework for training large autoregressive vision-language models. arXiv preprint arXiv:2308.01390 (2023)."},{"key":"e_1_3_2_1_8_1","unstructured":"Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang Xiaodong Deng Yang Fan Wenbin Ge Yu Han Fei Huang et al. 2023. Qwen technical report. arXiv preprint arXiv:2309.16609 (2023)."},{"key":"e_1_3_2_1_9_1","volume-title":"Grethe Hyldig, S\u00f8ren Hauberg, Serge Belongie, and Frederik Warburg.","author":"Bender Thoranna","year":"2024","unstructured":"Thoranna Bender, Simon S\u00f8rensen, Alireza Kashani, Kristjan Eldjarn Hjorleifsson, Grethe Hyldig, S\u00f8ren Hauberg, Serge Belongie, and Frederik Warburg. 2024. Learning to taste: A multimodal wine dataset. NeurIPS 36 (2024)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Lukas Bossard Matthieu Guillaumin and Luc Van Gool. 2014. Food-101--mining discriminative components with random forests. In ECCV.","DOI":"10.1007\/978-3-319-10599-4_29"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"T. Cali\u0144ski and J. Harabasz. 1974. A Dendrite Method for Cluster Analysis. Communications in Statistics -- Theory and Methods 3 1 (1974) 1--27.","DOI":"10.1080\/03610927408827101"},{"key":"e_1_3_2_1_12_1","volume-title":"PFID: Pittsburgh fast-food image dataset. In ICIP.","author":"Chen Mei","year":"2009","unstructured":"Mei Chen, Kapil Dhingra, Wen Wu, Lei Yang, Rahul Sukthankar, and Jie Yang. 2009. PFID: Pittsburgh fast-food image dataset. In ICIP."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.1979.4766909"},{"key":"e_1_3_2_1_14_1","volume-title":"Imagenet: A large-scale hierarchical image database. In CVPR.","author":"Deng Jia","year":"2009","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In CVPR."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1136\/bjsports-2015-095538"},{"key":"e_1_3_2_1_16_1","volume-title":"Retrieval and classification of food images. Computers in biology and medicine 77","author":"Farinella Giovanni Maria","year":"2016","unstructured":"Giovanni Maria Farinella, Dario Allegra, Marco Moltisanti, Filippo Stanco, and Sebastiano Battiato. 2016. Retrieval and classification of food images. Computers in biology and medicine 77 (2016), 23--39."},{"key":"e_1_3_2_1_17_1","unstructured":"Google LLC. 2024. Google Search. https:\/\/www.google.com\/. (Accessed on 16\/03\/2024)."},{"key":"e_1_3_2_1_18_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"crossref","unstructured":"Hajime Hoashi Taichi Joutou and Keiji Yanai. 2010. Image recognition of 85 food categories by feature fusion. In ISM.","DOI":"10.1109\/ISM.2010.51"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2814339"},{"key":"e_1_3_2_1_21_1","volume-title":"Vegfru: A domain-specific dataset for fine-grained visual categorization. In ICCV.","author":"Hou Saihui","year":"2017","unstructured":"Saihui Hou, Yushan Feng, and Zilei Wang. 2017. Vegfru: A domain-specific dataset for fine-grained visual categorization. In ICCV."},{"key":"e_1_3_2_1_22_1","first-page":"3","article-title":"Lora: Low-rank adaptation of large language models","volume":"1","author":"Hu Edward J","year":"2022","unstructured":"Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, et al. 2022. Lora: Low-rank adaptation of large language models. In ICLR, Vol. 1. 3.","journal-title":"ICLR"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-96-2054-8_30"},{"key":"e_1_3_2_1_24_1","unstructured":"Pengkun Jiao Xinlan Wu Bin Zhu Jingjing Chen Chong-Wah Ngo and Yugang Jiang. 2024. RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models. arXiv preprint arXiv:2407.12730 (2024)."},{"volume-title":"Principal Component Analysis","author":"Jolliffe I.T.","key":"e_1_3_2_1_25_1","unstructured":"I.T. Jolliffe. 2002. Principal Component Analysis. Springer."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Taichi Joutou and Keiji Yanai. 2009. A food image recognition system with multiple kernel learning. In ICIP.","DOI":"10.1109\/ICIP.2009.5413400"},{"key":"e_1_3_2_1_27_1","volume-title":"Fine-Grained Visual Categorization Workshop, CVPR.","author":"Kaur Parneet","year":"2019","unstructured":"Parneet Kaur, Karan Sikka, Weijun Wang, Serge Belongie, and Ajay Divakaran. 2019. Foodx-251: a dataset for fine-grained food classification. In Fine-Grained Visual Categorization Workshop, CVPR."},{"volume-title":"ECCV Workshops (TASK-CV).","author":"Kawano Y.","key":"e_1_3_2_1_28_1","unstructured":"Y. Kawano and K. Yanai. 2014. Automatic Expansion of a Food Image Dataset Leveraging Existing Categories with Domain Adaptation. In ECCV Workshops (TASK-CV)."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1145\/3463947.3469238"},{"key":"e_1_3_2_1_30_1","unstructured":"Bo Li Peiyuan Zhang Kaichen Zhang Fanyi Pu Xinrun Du Yuhao Dong Haotian Liu Yuanhan Zhang Ge Zhang Chunyuan Li and Ziwei Liu. 2024. LMMs-Eval: Accelerating the Development of Large Multimodal Models. https: \/\/github.com\/EvolvingLMMs-Lab\/lmms-eval"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"crossref","unstructured":"Peiyu Li Xiaobao Huang Yijun Tian and Nitesh V Chawla. 2024. ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation. In CIKM. 3872--3876.","DOI":"10.1145\/3627673.3679885"},{"key":"e_1_3_2_1_32_1","unstructured":"Life Log Technology Inc. 2016. calomeal (originally in Japanese). https:\/\/www.calomeal.com\/about-calomeal\/. (Accessed on 16\/03\/2024)."},{"key":"e_1_3_2_1_33_1","volume-title":"Visual instruction tuning. NeurIPS 36","author":"Liu Haotian","year":"2024","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2024. Visual instruction tuning. NeurIPS 36 (2024)."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"crossref","unstructured":"Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV. 10012--10022.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"e_1_3_2_1_35_1","unstructured":"Zheng Ma Mianzhi Pan Wenhan Wu Kanzhi Cheng Jianbing Zhang Shujian Huang and Jiajun Chen. 2023. Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models. In ACMMM."},{"key":"e_1_3_2_1_36_1","unstructured":"Yuji Matsuda and Keiji Yanai. 2012. Multiple-food recognition considering co-occurrence employing manifold ranking. In ICPR."},{"key":"e_1_3_2_1_37_1","unstructured":"Meituan. 2024. Meituan. https:\/\/www.meituan.com\/. (Accessed on 16\/03\/2024)."},{"key":"e_1_3_2_1_38_1","unstructured":"Weiqing Min Linhu Liu Zhengdong Luo and Shuqiang Jiang. 2019. Ingredient-guided cascaded multi-attention network for food recognition. In ACMMM."},{"key":"e_1_3_2_1_39_1","unstructured":"Weiqing Min Linhu Liu Zhiling Wang Zhengdong Luo Xiaoming Wei Xiaolin Wei and Shuqiang Jiang. 2020. Isia food-500: A dataset for large-scale food recognition via stacked global-local attention network. In ACMMM."},{"key":"e_1_3_2_1_40_1","volume-title":"Large scale visual food recognition. TPAMI","author":"Min Weiqing","year":"2023","unstructured":"Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, and Shuqiang Jiang. 2023. Large scale visual food recognition. TPAMI (2023)."},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Kei Nakamoto Kohei Kumazawa Hiroaki Karasawa Sosuke Amano Yoko Yamakata and Kiyoharu Aizawa. 2022. FoodLog Athl: Multimedia Food Recording Platform for Dietary Guidance and Food Monitoring. In ACMMM Asia.","DOI":"10.1145\/3551626.3564978"},{"key":"e_1_3_2_1_42_1","volume-title":"Yingnan Sun, Siyao Wang, and Benny Lo.","author":"Qiu Jianing","year":"2019","unstructured":"Jianing Qiu, Frank P-W Lo, Yingnan Sun, Siyao Wang, and Benny Lo. 2019. Mining discriminative food regions for accurate food recognition. BMVC (2019)."},{"key":"e_1_3_2_1_43_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In ICML."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1016\/0377-0427(87)90125-7"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"crossref","unstructured":"Doyen Sahoo Wang Hao Shu Ke Wu Xiongwei Hung Le Palakorn Achananuparp Ee-Peng Lim and Steven CH Hoi. 2019. FoodAI: Food image recognition via deep learning for smart food logging. In KDD.","DOI":"10.1145\/3292500.3330734"},{"key":"e_1_3_2_1_46_1","volume-title":"EVA-CLIP: Improved Training Techniques for CLIP at Scale. arXiv preprint arXiv:2303.15389","author":"Sun Quan","year":"2023","unstructured":"Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, and Yue Cao. 2023. EVA-CLIP: Improved Training Techniques for CLIP at Scale. arXiv preprint arXiv:2303.15389 (2023). https:\/\/arxiv.org\/abs\/2303.15389"},{"key":"e_1_3_2_1_47_1","volume-title":"Science and Technology","author":"Education The Japanese","year":"2015","unstructured":"The Japanese Ministry of Education, Culture, Sports, Science and Technology. 2015. STANDARD TABLES OF FOOD COMPOSITION IN JAPAN - 2015 - (Seventh Revised Version). https:\/\/www.mext.go.jp\/en\/policy\/science_technology\/policy\/title01\/detail01\/1374030.htm (Accessed on21\/07\/2024)."},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3684997"},{"key":"e_1_3_2_1_49_1","volume-title":"Text Embeddings by Weakly-Supervised Contrastive Pre-training. arXiv preprint arXiv:2212.03533","author":"Wang Liang","year":"2022","unstructured":"Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, and Furu Wei. 2022. Text Embeddings by Weakly-Supervised Contrastive Pre-training. arXiv preprint arXiv:2212.03533 (2022). https:\/\/arxiv.org\/abs\/2212.03533"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"crossref","unstructured":"Xin Wang Devinder Kumar Nicolas Thome Matthieu Cord and Frederic Precioso. 2015. Recipe recognition with large multimodal food dataset. In ICMEW.","DOI":"10.1109\/ICMEW.2015.7169757"},{"key":"e_1_3_2_1_51_1","volume-title":"Foodlmm: A versatile food assistant using large multi-modal model. arXiv preprint arXiv:2312.14991","author":"Yin Yuehao","year":"2023","unstructured":"Yuehao Yin, Huiyan Qi, Bin Zhu, Jingjing Chen, Yu-Gang Jiang, and Chong-Wah Ngo. 2023. Foodlmm: A versatile food assistant using large multi-modal model. arXiv preprint arXiv:2312.14991 (2023)."},{"key":"e_1_3_2_1_52_1","volume-title":"Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, and Ziwei Liu.","author":"Zhang Kaichen","year":"2024","unstructured":"Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, and Ziwei Liu. 2024. LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models. arXiv:2407.12772 [cs.CL] https:\/\/arxiv.org\/abs\/2407.12772"},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"crossref","unstructured":"Feng Zhou and Yuanqing Lin. 2016. Fine-grained image classification by exploring bipartite-graph labels. In CVPR.","DOI":"10.1109\/CVPR.2016.127"},{"key":"e_1_3_2_1_54_1","volume-title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592","author":"Zhu Deyao","year":"2023","unstructured":"Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. 2023. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592 (2023)."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3758276","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:08:32Z","timestamp":1765343312000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3758276"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":54,"alternative-id":["10.1145\/3746027.3758276","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3758276","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}