{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:15:39Z","timestamp":1767312939628,"version":"3.48.0"},"publisher-location":"Cham","reference-count":30,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032073426","type":"print"},{"value":"9783032073433","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-07343-3_9","type":"book-chapter","created":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:12:50Z","timestamp":1767312770000},"page":"109-120","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Keypoint-Integrated Instruction-Following Data Generation for\u00a0Enhanced Human Pose and\u00a0Action Understanding in\u00a0Multimodal Models"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-5145-0100","authenticated-orcid":false,"given":"Dewen","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1869-1837","authenticated-orcid":false,"given":"Wangpeng","family":"An","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2412-0184","authenticated-orcid":false,"given":"Hayaru","family":"Shouno","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,2]]},"reference":[{"key":"9_CR1","unstructured":"Achiam, J., et\u00a0al.: Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)"},{"key":"9_CR2","first-page":"23716","volume":"35","author":"JB Alayrac","year":"2022","unstructured":"Alayrac, J.B., et al.: Flamingo: a visual language model for few-shot learning. Adv. Neural. Inf. Process. Syst. 35, 23716\u201323736 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"9_CR3","unstructured":"Byeon, M., Park, B., Kim, H., Lee, S., Baek, W., Kim, S.: Coyo-700m: image-text pair dataset (2022), https:\/\/github.com\/kakaobrain\/coyo-dataset, Accessed 5 Apr 2025"},{"key":"9_CR4","doi-asserted-by":"crossref","unstructured":"Changpinyo, S., Sharma, P., Ding, N., Soricut, R.: Conceptual 12m: pushing web-scale image-text pre-training to recognize long-tail visual concepts. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3558\u20133568 (2021)","DOI":"10.1109\/CVPR46437.2021.00356"},{"key":"9_CR5","unstructured":"Chiang, W.L., et\u00a0al.: Vicuna: an open-source chatbot impressing gpt-4 with 90%* chatgpt quality (2023). https:\/\/lmsys.org\/blog\/2023-03-30-vicuna\/, Accessed 5 Apr 2025"},{"key":"9_CR6","doi-asserted-by":"crossref","unstructured":"Cui, C., et\u00a0al.: A survey on multimodal large language models for autonomous driving. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 958\u2013979 (2024)","DOI":"10.1109\/WACVW60836.2024.00106"},{"key":"9_CR7","doi-asserted-by":"crossref","unstructured":"Feng, Y., Lin, J., Dwivedi, S.K., Sun, Y., Patel, P., Black, M.J.: Chatpose: chatting about 3d human pose. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2093\u20132103 (2024)","DOI":"10.1109\/CVPR52733.2024.00204"},{"key":"9_CR8","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TIM.2023.3244220","volume":"72","author":"DG Kyrollos","year":"2023","unstructured":"Kyrollos, D.G., Fuller, A., Greenwood, K., Harrold, J., Green, J.R.: Under the cover infant pose estimation using multimodal data. IEEE Trans. Instrum. Meas. 72, 1\u201312 (2023)","journal-title":"IEEE Trans. Instrum. Meas."},{"issue":"14","key":"9_CR9","doi-asserted-by":"publisher","first-page":"20771","DOI":"10.1007\/s11042-022-13921-w","volume":"82","author":"VH Le","year":"2023","unstructured":"Le, V.H.: Deep learning-based for human segmentation and tracking, 3d human pose estimation and action recognition on monocular video of mads dataset. Multimedia Tools and Applications 82(14), 20771\u201320818 (2023)","journal-title":"Multimedia Tools and Applications"},{"key":"9_CR10","unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.: Blip-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: International Conference On Machine Learning, pp. 19730\u201319742. PMLR (2023)"},{"issue":"10","key":"9_CR11","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3663364","volume":"56","author":"PP Liang","year":"2024","unstructured":"Liang, P.P., Zadeh, A., Morency, L.P.: Foundations & trends in multimodal machine learning: Principles, challenges, and open questions. ACM Comput. Surv. 56(10), 1\u201342 (2024)","journal-title":"ACM Comput. Surv."},{"key":"9_CR12","doi-asserted-by":"publisher","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"9_CR13","first-page":"34892","volume":"36","author":"H Liu","year":"2023","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. Adv. Neural. Inf. Process. Syst. 36, 34892\u201334916 (2023)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"9_CR14","doi-asserted-by":"crossref","unstructured":"Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., Black, M.J.: Smpl: a skinned multi-person linear model. In: Seminal Graphics Papers: Pushing the Boundaries, vol. 2, pp. 851\u2013866 (2023)","DOI":"10.1145\/3596711.3596800"},{"issue":"4","key":"9_CR15","doi-asserted-by":"publisher","first-page":"2182","DOI":"10.3390\/s23042182","volume":"23","author":"MG Morshed","year":"2023","unstructured":"Morshed, M.G., Sultana, T., Alam, A., Lee, Y.K.: Human action recognition: a taxonomy-based survey, updates, and opportunities. Sensors 23(4), 2182 (2023)","journal-title":"Sensors"},{"key":"9_CR16","unstructured":"OpenAI: Hello gpt-4o (2024). https:\/\/openai.com\/index\/hello-gpt-4o\/, Accessed 5 Apr 2025"},{"key":"9_CR17","unstructured":"Peng, Z., et\u00a0al.: Kosmos-2: grounding multimodal large language models to the world. arXiv preprint arXiv:2306.14824 (2023)"},{"key":"9_CR18","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PmLR (2021)"},{"key":"9_CR19","doi-asserted-by":"crossref","unstructured":"Rasley, J., Rajbhandari, S., Ruwase, O., He, Y.: Deepspeed: system optimizations enable training deep learning models with over 100 billion parameters. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 3505\u20133506 (2020)","DOI":"10.1145\/3394486.3406703"},{"key":"9_CR20","first-page":"25278","volume":"35","author":"C Schuhmann","year":"2022","unstructured":"Schuhmann, C., et al.: Laion-5b: an open large-scale dataset for training next generation image-text models. Adv. Neural. Inf. Process. Syst. 35, 25278\u201325294 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"14","key":"9_CR21","doi-asserted-by":"publisher","first-page":"6384","DOI":"10.3390\/s23146384","volume":"23","author":"GAS Surek","year":"2023","unstructured":"Surek, G.A.S., et al.: Video-based human activity recognition using deep learning approaches. Sensors 23(14), 6384 (2023)","journal-title":"Sensors"},{"key":"9_CR22","unstructured":"Wang, P., et\u00a0al.: Qwen2-vl: enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:2409.12191 (2024)"},{"issue":"3","key":"9_CR23","doi-asserted-by":"publisher","first-page":"2300359","DOI":"10.1002\/aisy.202300359","volume":"6","author":"T Wang","year":"2024","unstructured":"Wang, T., Zheng, P., Li, S., Wang, L.: Multimodal human-robot interaction for human-centric smart manufacturing: a survey. Adv. Intell. Syst. 6(3), 2300359 (2024)","journal-title":"Adv. Intell. Syst."},{"key":"9_CR24","first-page":"61501","volume":"36","author":"W Wang","year":"2023","unstructured":"Wang, W., et al.: Visionllm: large language model is also an open-ended decoder for vision-centric tasks. Adv. Neural. Inf. Process. Syst. 36, 61501\u201361513 (2023)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"9_CR25","doi-asserted-by":"crossref","unstructured":"Wu, J., Gan, W., Chen, Z., Wan, S., Yu, P.S.: Multimodal large language models: a survey. In: 2023 IEEE International Conference on Big Data (BigData), pp. 2247\u20132256. IEEE (2023)","DOI":"10.1109\/BigData59044.2023.10386743"},{"key":"9_CR26","doi-asserted-by":"crossref","unstructured":"Wu, P., Xie, S.: V?: Guided visual search as a core mechanism in multimodal llms. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13084\u201313094 (2024)","DOI":"10.1109\/CVPR52733.2024.01243"},{"key":"9_CR27","doi-asserted-by":"crossref","unstructured":"Yildirim, N., et\u00a0al.: Multimodal healthcare AI: identifying and designing clinically relevant vision-language applications for radiology. In: Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems, pp. 1\u201322 (2024)","DOI":"10.1145\/3613904.3642013"},{"issue":"1","key":"9_CR28","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3603618","volume":"56","author":"C Zheng","year":"2023","unstructured":"Zheng, C., et al.: Deep learning-based human pose estimation: a survey. ACM Comput. Surv. 56(1), 1\u201337 (2023)","journal-title":"ACM Comput. Surv."},{"issue":"13","key":"9_CR29","doi-asserted-by":"publisher","first-page":"2805","DOI":"10.3390\/electronics12132805","volume":"12","author":"H Zhou","year":"2023","unstructured":"Zhou, H., Wang, D., Yu, Y., Zhang, Z.: Research progress of human-computer interaction technology based on gesture recognition. Electronics 12(13), 2805 (2023)","journal-title":"Electronics"},{"key":"9_CR30","unstructured":"Zhu, D., Chen, J., Shen, X., Li, X., Elhoseiny, M.: Minigpt-4: enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592 (2023)"}],"container-title":["Lecture Notes in Computer Science","Advanced Concepts for Intelligent Vision Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-07343-3_9","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:12:53Z","timestamp":1767312773000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-07343-3_9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9783032073426","9783032073433"],"references-count":30,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-07343-3_9","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"2 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACIVS","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Advanced Concepts for Intelligent Vision Systems","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tokyo","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28 July 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 July 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"acivs2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.acivs2025.com","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}