{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:45:40Z","timestamp":1777657540607,"version":"3.51.4"},"publisher-location":"Cham","reference-count":58,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031732539","type":"print"},{"value":"9783031732546","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T00:00:00Z","timestamp":1732752000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T00:00:00Z","timestamp":1732752000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-73254-6_6","type":"book-chapter","created":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T07:22:36Z","timestamp":1732692156000},"page":"89-105","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["ControlLLM: Augment Language Models with\u00a0Tools by\u00a0Searching on\u00a0Graphs"],"prefix":"10.1007","author":[{"given":"Zhaoyang","family":"Liu","sequence":"first","affiliation":[]},{"given":"Zeqiang","family":"Lai","sequence":"additional","affiliation":[]},{"given":"Zhangwei","family":"Gao","sequence":"additional","affiliation":[]},{"given":"Erfei","family":"Cui","sequence":"additional","affiliation":[]},{"given":"Ziheng","family":"Li","sequence":"additional","affiliation":[]},{"given":"Xizhou","family":"Zhu","sequence":"additional","affiliation":[]},{"given":"Lewei","family":"Lu","sequence":"additional","affiliation":[]},{"given":"Qifeng","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Yu","family":"Qiao","sequence":"additional","affiliation":[]},{"given":"Jifeng","family":"Dai","sequence":"additional","affiliation":[]},{"given":"Wenhai","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,11,28]]},"reference":[{"key":"6_CR1","unstructured":"Ahn, M., et\u00a0al.: Do as I can, not as I say: grounding language in robotic affordances. arXiv preprint arXiv:2204.01691 (2022)"},{"key":"6_CR2","unstructured":"Besta, M., et al.: Graph of Thoughts: Solving Elaborate Problems with Large Language Models (2023)"},{"key":"6_CR3","unstructured":"Brown, T., et al.: Language models are few-shot learners. In: Advances in Neural Information Processing Systems, vol. 33, pp. 1877\u20131901 (2020)"},{"key":"6_CR4","unstructured":"Chiang, W.L., et al.: Vicuna: an open-source chatbot impressing GPT-4 with 90%* ChatGPT quality (2023). https:\/\/lmsys.org\/blog\/2023-03-30-vicuna\/"},{"key":"6_CR5","unstructured":"Chowdhery, A., et\u00a0al.: Palm: scaling language modeling with pathways. arXiv preprint arXiv:2204.02311 (2022)"},{"key":"6_CR6","unstructured":"Chung, H.W., et\u00a0al.: Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416 (2022)"},{"key":"6_CR7","unstructured":"Dai, W., et al.: Instructblip: towards general-purpose vision-language models with instruction tuning (2023)"},{"key":"6_CR8","unstructured":"Dong, Q., et al.: A survey for in-context learning. arXiv preprint arXiv:2301.00234 (2022)"},{"key":"6_CR9","unstructured":"Dong, R., et\u00a0al.: DreamLLM: synergistic multimodal comprehension and creation. arXiv preprint arXiv:2309.11499 (2023)"},{"key":"6_CR10","doi-asserted-by":"crossref","unstructured":"Gao, Z., et al.: Clova: a closed-loop visual assistant with tool usage and update. arXiv preprint arXiv:2312.10908 (2023)","DOI":"10.1109\/CVPR52733.2024.01259"},{"key":"6_CR11","doi-asserted-by":"crossref","unstructured":"Gupta, T., Kembhavi, A.: Visual programming: compositional visual reasoning without training. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14953\u201314962 (2023)","DOI":"10.1109\/CVPR52729.2023.01436"},{"key":"6_CR12","unstructured":"Hao, S., Liu, T., Wang, Z., Hu, Z.: ToolkenGPT: augmenting frozen language models with massive tools via tool embeddings. arXiv preprint arXiv:2305.11554 (2023)"},{"key":"6_CR13","unstructured":"He, Y., et\u00a0al.: LLMs meet multimodal generation and editing: a survey. arXiv preprint arXiv:2405.19334 (2024)"},{"key":"6_CR14","unstructured":"Ho, N., Schmid, L., Yun, S.Y.: Large language models are reasoning teachers. arXiv preprint arXiv:2212.10071 (2022)"},{"key":"6_CR15","unstructured":"Jiang, Y., et al.: Effectiveness assessment of recent large vision-language models. arXiv preprint arXiv:2403.04306 (2024)"},{"key":"6_CR16","unstructured":"Koh, J.Y., Fried, D., Salakhutdinov, R.: Generating images with multimodal language models. arXiv preprint arXiv:2305.17216 (2023)"},{"key":"6_CR17","doi-asserted-by":"crossref","unstructured":"Lai, X., et al..: Lisa: reasoning segmentation via large language model. arXiv preprint arXiv:2308.00692 (2023)","DOI":"10.1109\/CVPR52733.2024.00915"},{"key":"6_CR18","volume-title":"Robot Motion Planning","author":"JC Latombe","year":"2012","unstructured":"Latombe, J.C.: Robot Motion Planning, vol. 124. Springer, Cham (2012)"},{"key":"6_CR19","unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.: Blip-2: bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597 (2023)"},{"key":"6_CR20","unstructured":"Li, J., Li, D., Xiong, C., Hoi, S.: Blip: bootstrapping language-image pre-training for unified vision-language understanding and generation. In: International Conference on Machine Learning, pp. 12888\u201312900. PMLR (2022)"},{"issue":"1","key":"6_CR21","doi-asserted-by":"publisher","first-page":"16","DOI":"10.1007\/s44267-024-00049-8","volume":"2","author":"C Liu","year":"2024","unstructured":"Liu, C., Jiang, X., Ding, H.: Primitivenet: decomposing the global constraints for referring segmentation. Vis. Intell. 2(1), 16 (2024)","journal-title":"Vis. Intell."},{"key":"6_CR22","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. arXiv preprint arXiv:2304.08485 (2023)"},{"key":"6_CR23","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. In: NeurIPS (2023)"},{"key":"6_CR24","unstructured":"Liu, Z., et\u00a0al.: InternGPT: solving vision-centric tasks by interacting with chatbots beyond language. arXiv preprint arXiv:2305.05662 (2023)"},{"key":"6_CR25","unstructured":"Ma, L., Han, J., Wang, Z., Zhang, D.: CephGPT-4: an interactive multimodal cephalometric measurement and diagnostic system with visual large language model. arXiv preprint arXiv:2307.07518 (2023)"},{"key":"6_CR26","doi-asserted-by":"crossref","unstructured":"Moon, S., et\u00a0al.: Anymal: an efficient and scalable any-modality augmented language model. arXiv preprint arXiv:2309.16058 (2023)","DOI":"10.18653\/v1\/2024.emnlp-industry.98"},{"key":"6_CR27","unstructured":"Mu, Y., et al.: EmbodiedGPT: vision-language pre-training via embodied chain of thought. arXiv preprint arXiv:2305.15021 (2023)"},{"key":"6_CR28","unstructured":"OpenAI: Chatgpt (Mar 14 version) [large language model]. 6 (2023)"},{"key":"6_CR29","unstructured":"Ouyang, L., et al.: Training language models to follow instructions with human feedback. In: Advances in Neural Information Processing Systems, vol. 35, pp. 27730\u201327744 (2022)"},{"key":"6_CR30","unstructured":"Parisi, A., Zhao, Y., Fiedel, N.: Talm: tool augmented language models. arXiv preprint arXiv:2205.12255 (2022)"},{"key":"6_CR31","unstructured":"Patil, S.G., Zhang, T., Wang, X., Gonzalez, J.E.: Gorilla: large language model connected with massive APIs. arXiv preprint arXiv:2305.15334 (2023)"},{"key":"6_CR32","unstructured":"Peng, Z., et al.: Kosmos-2: grounding multimodal large language models to the world. arXiv preprint arXiv:2306.14824 (2023)"},{"key":"6_CR33","unstructured":"Qin, Y., et\u00a0al.: ToolLLM: facilitating large language models to master 16000+ real-world APIs. arXiv preprint arXiv:2307.16789 (2023)"},{"key":"6_CR34","unstructured":"Rae, J.W., et\u00a0al.: Scaling language models: methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446 (2021)"},{"key":"6_CR35","unstructured":"Schick, T., et al.: Toolformer: language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761 (2023)"},{"key":"6_CR36","unstructured":"Shen, Y., Song, K., Tan, X., Li, D., Lu, W., Zhuang, Y.: HuggingGPT: solving AI tasks with ChatGPT and its friends in huggingface. arXiv preprint arXiv:2303.17580 (2023)"},{"issue":"7676","key":"6_CR37","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1038\/nature24270","volume":"550","author":"D Silver","year":"2017","unstructured":"Silver, D., et al.: Mastering the game of go without human knowledge. Nature 550(7676), 354\u2013359 (2017)","journal-title":"Nature"},{"key":"6_CR38","doi-asserted-by":"crossref","unstructured":"Sur\u00eds, D., Menon, S., Vondrick, C.: ViperGPT: visual inference via python execution for reasoning. In: Proceedings of IEEE International Conference on Computer Vision (ICCV) (2023)","DOI":"10.1109\/ICCV51070.2023.01092"},{"key":"6_CR39","unstructured":"Tang, Q., Deng, Z., Lin, H., Han, X., Liang, Q., Sun, L.: Toolalpaca: generalized tool learning for language models with 3000 simulated cases. arXiv preprint arXiv:2306.05301 (2023)"},{"key":"6_CR40","unstructured":"Touvron, H., et al.: Llama: open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)"},{"key":"6_CR41","unstructured":"Touvron, H., et\u00a0al.: Llama 2: open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288 (2023)"},{"key":"6_CR42","first-page":"20","volume":"2","author":"S Vemprala","year":"2023","unstructured":"Vemprala, S., Bonatti, R., Bucker, A., Kapoor, A.: ChatGPT for robotics: design principles and model abilities. Microsoft Auton. Syst. Robot. Res. 2, 20 (2023)","journal-title":"Microsoft Auton. Syst. Robot. Res."},{"key":"6_CR43","unstructured":"Wang, W., et\u00a0al.: VisionLLM: large language model is also an open-ended decoder for vision-centric tasks. arXiv preprint arXiv:2305.11175 (2023)"},{"key":"6_CR44","unstructured":"Wang, X., et al.: Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171 (2022)"},{"key":"6_CR45","unstructured":"Wei, J., et al.: Chain-of-thought prompting elicits reasoning in large language models. In: Advances in Neural Information Processing Systems, vol. 35, pp. 24824\u201324837 (2022)"},{"issue":"1\u20132","key":"6_CR46","doi-asserted-by":"publisher","first-page":"145","DOI":"10.1016\/0004-3702(78)90015-2","volume":"11","author":"SM Weiss","year":"1978","unstructured":"Weiss, S.M., Kulikowski, C.A., Amarel, S., Safir, A.: A model-based method for computer-aided medical decision-making. Artif. Intell. 11(1\u20132), 145\u2013172 (1978)","journal-title":"Artif. Intell."},{"key":"6_CR47","unstructured":"Wu, C., Yin, S., Qi, W., Wang, X., Tang, Z., Duan, N.: Visual ChatGPT: talking, drawing and editing with visual foundation models. arXiv preprint arXiv:2303.04671 (2023)"},{"key":"6_CR48","unstructured":"Wu, S., Fei, H., Qu, L., Ji, W., Chua, T.S.: Next-GPT: any-to-any multimodal LLM. arXiv preprint arXiv:2309.05519 (2023)"},{"key":"6_CR49","unstructured":"Yang, R., et al.: GPT4tools: teaching large language model to use tools via self-instruction (2023)"},{"key":"6_CR50","unstructured":"Yao, S., et al.: Tree of thoughts: deliberate problem solving with large language models. arXiv preprint arXiv:2305.10601 (2023)"},{"key":"6_CR51","unstructured":"Yao, S., et al.: React: synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629 (2022)"},{"key":"6_CR52","doi-asserted-by":"crossref","unstructured":"Yao, Y., Li, Z., Zhao, H.: Beyond chain-of-thought, effective graph-of-thought reasoning in large language models. arXiv preprint arXiv:2305.16582 (2023)","DOI":"10.18653\/v1\/2024.findings-naacl.183"},{"key":"6_CR53","unstructured":"You, H., et al.: Ferret: refer and ground anything anywhere at any granularity (2023)"},{"key":"6_CR54","unstructured":"Zeng, A., et\u00a0al.: GLM-130b: an open bilingual pre-trained model. arXiv preprint arXiv:2210.02414 (2022)"},{"key":"6_CR55","unstructured":"Zhang, R., et al.: Llama-adapter: efficient fine-tuning of language models with zero-init attention. arXiv preprint arXiv:2303.16199 (2023)"},{"key":"6_CR56","unstructured":"Zhang, S., et al.: GPT4RoI: instruction tuning large language model on region-of-interest. arXiv preprint arXiv:2307.03601 (2023)"},{"key":"6_CR57","unstructured":"Zheng, K., He, X., Wang, X.E.: MiniGPT-5: interleaved vision-and-language generation via generative vokens. arXiv preprint arXiv:2310.02239 (2023)"},{"key":"6_CR58","unstructured":"Zhou, D., et\u00a0al.: Least-to-most prompting enables complex reasoning in large language models. arXiv preprint arXiv:2205.10625 (2022)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-73254-6_6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T02:53:26Z","timestamp":1733108006000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-73254-6_6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,28]]},"ISBN":["9783031732539","9783031732546"],"references-count":58,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-73254-6_6","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,11,28]]},"assertion":[{"value":"28 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}