{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,16]],"date-time":"2025-11-16T14:13:20Z","timestamp":1763302400881,"version":"3.45.0"},"publisher-location":"Singapore","reference-count":46,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819533510","type":"print"},{"value":"9789819533527","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T00:00:00Z","timestamp":1763337600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T00:00:00Z","timestamp":1763337600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-3352-7_34","type":"book-chapter","created":{"date-parts":[[2025,11,16]],"date-time":"2025-11-16T14:08:53Z","timestamp":1763302133000},"page":"405-416","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Hierarchical RAG-Driven Multi-hop Reasoning for\u00a0Medical Video Question Answering"],"prefix":"10.1007","author":[{"given":"Ruohan","family":"Gao","sequence":"first","affiliation":[]},{"given":"Qijun","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"YangQianQian","family":"Chen","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,11,17]]},"reference":[{"key":"34_CR1","doi-asserted-by":"publisher","unstructured":"Li, B., et\u00a0al.: Overview of the NLPCC 2023 shared task: Chinese medical instructional video question answering. In: CCF International Conference on Natural Language Processing and Chinese Computing, pp. 233\u2013242. Springer, Cham (2023). https:\/\/doi.org\/10.1007\/978-3-031-44699-3_21","DOI":"10.1007\/978-3-031-44699-3_21"},{"key":"34_CR2","doi-asserted-by":"publisher","unstructured":"Li, B., Weng, Y., Song, Q., Liang, L., Min, X., Zhou, S.: Overview of the NLPCC 2024 shared task 7: multi-lingual medical instructional video question answering. In: Wong, D.F., Wei, Z., Yang, M. (eds.) Natural Language Processing and Chinese Computing, pp. 429\u2013439. Springer Nature Singapore, Singapore (2025). https:\/\/doi.org\/10.1007\/978-981-97-9443-0_38","DOI":"10.1007\/978-981-97-9443-0_38"},{"issue":"12","key":"34_CR3","doi-asserted-by":"publisher","first-page":"8836","DOI":"10.1109\/TPAMI.2024.3411045","volume":"46","author":"S Li","year":"2024","unstructured":"Li, S., Li, B., Sun, B., Weng, Y.: Towards visual-prompt temporal answer grounding in instructional video. IEEE Trans. Pattern Anal. Mach. Intell. 46(12), 8836\u20138853 (2024)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"34_CR4","unstructured":"Li, B., Liu, S., Weng, Y., Du, Y., Tian, Y., Zhou, S.: Overview of the NLPCC 2025 shared task 4: multi-modal, multilingual, and multi-hop medical instructional video question answering challenge. arXiv preprint arXiv:2505.06814 (2025)"},{"key":"34_CR5","doi-asserted-by":"crossref","unstructured":"Lu, S., Liu, Y., Kong, A.W.K.: TF-ICON: diffusion-based training-free cross-domain image composition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 2294\u20132305 (2023)","DOI":"10.1109\/ICCV51070.2023.00218"},{"key":"34_CR6","doi-asserted-by":"crossref","unstructured":"Xin, Y., Junlong, D., Wang, Q., Lin, Z., Yan, K.: VMT-adapter: parameter-efficient transfer learning for multi-task dense scene understanding. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 16085\u201316093 (2024)","DOI":"10.1609\/aaai.v38i14.29541"},{"key":"34_CR7","doi-asserted-by":"crossref","unstructured":"Xin, Y., Junlong, D., Wang, Q., Yan, K., Ding, S.: MmAP: multi-modal alignment prompt for cross-domain multi-task learning. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 16076\u201316084 (2024)","DOI":"10.1609\/aaai.v38i14.29540"},{"key":"34_CR8","doi-asserted-by":"crossref","unstructured":"Bi, J., et al.: LLaVa steering: visual instruction tuning with 500$$\\times $$ fewer parameters through modality linear representation-steering (2025)","DOI":"10.18653\/v1\/2025.acl-long.739"},{"key":"34_CR9","doi-asserted-by":"crossref","unstructured":"Xin, Y., et al.: V-petl bench: a unified visual parameter-efficient transfer learning benchmark. In: Advances in Neural Information Processing Systems, vol. 37, pp. 80522\u201380535 (2024)","DOI":"10.52202\/079017-2560"},{"key":"34_CR10","doi-asserted-by":"crossref","unstructured":"Li, B., Weng, Y., Sun, B., Li, S.: Learning to locate visual answer in video corpus using question. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1\u20135. IEEE (2023)","DOI":"10.1109\/ICASSP49357.2023.10096391"},{"key":"34_CR11","doi-asserted-by":"crossref","unstructured":"Zong, C., Li, B., Zhou, S., Wan, J., Zhang, L.: Ask2loc: learning to locate instructional visual answers by asking questions. arXiv preprint arXiv:2504.15918 (2025)","DOI":"10.2139\/ssrn.5717349"},{"key":"34_CR12","doi-asserted-by":"crossref","unstructured":"Weng, Y., Li, B.: Visual answer localization with cross-modal mutual knowledge transfer. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1\u20135. IEEE (2023)","DOI":"10.1109\/ICASSP49357.2023.10095026"},{"issue":"6","key":"34_CR13","doi-asserted-by":"publisher","first-page":"3072","DOI":"10.3390\/app15063072","volume":"15","author":"Y Tian","year":"2025","unstructured":"Tian, Y., Guo, X., Wang, J., Li, B., Zhou, S.: Video temporal grounding with multi-model collaborative learning. Appl. Sci. 15(6), 3072 (2025)","journal-title":"Appl. Sci."},{"key":"34_CR14","doi-asserted-by":"crossref","unstructured":"Sun, C., Myers, A., Vondrick, C., Murphy, K., Schmid, C.: VideoBERT: a joint model for video and language representation learning. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV) (2019)","DOI":"10.1109\/ICCV.2019.00756"},{"key":"34_CR15","doi-asserted-by":"crossref","unstructured":"Li, D., Yatskar, M., Yin, D., Hsieh, C.J., Chang, K.W.: Hero: hierarchical encoder for video+ language omni-representation pre-training. In: Conference on Empirical Methods in Natural Language Processing (EMNLP) (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.161"},{"key":"34_CR16","unstructured":"Luo, Y., et\u00a0al.: Univl: a unified video and language pre-training model for multi-modal understanding and generation. arXiv preprint arXiv:2002.06353 (2020)"},{"key":"34_CR17","unstructured":"Kiela, D., et\u00a0al.: Supervised multimodal bitransformers for classifying images and text. In: Advances in Neural Information Processing Systems (NeurIPS) (2019)"},{"key":"34_CR18","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: North American Chapter of the Association for Computational Linguistics (NAACL) (2019)"},{"key":"34_CR19","doi-asserted-by":"crossref","unstructured":"Conneau, A., et\u00a0al.: Unsupervised cross-lingual representation learning at scale. In: Annual Meeting of the Association for Computational Linguistics (ACL) (2020)","DOI":"10.18653\/v1\/2020.acl-main.747"},{"key":"34_CR20","doi-asserted-by":"crossref","unstructured":"Lee, J., et\u00a0al.: BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics (2020)","DOI":"10.1093\/bioinformatics\/btz682"},{"key":"34_CR21","doi-asserted-by":"crossref","unstructured":"Gu, Y., et\u00a0al.: Domain-specific language model pretraining for biomedical natural language processing. ACM Trans. Comput. Healthcare (2021)","DOI":"10.1145\/3458754"},{"key":"34_CR22","doi-asserted-by":"crossref","unstructured":"Wang, M., et al.: Lost in multilinguality: dissecting cross-lingual factual inconsistency in transformer language models. arXiv preprint arXiv:2504.04264 (2025)","DOI":"10.18653\/v1\/2025.acl-long.253"},{"key":"34_CR23","doi-asserted-by":"crossref","unstructured":"Yang, Z., Qi, P., Zhang, S., et\u00a0al.: Hotpotqa: a dataset for diverse, explainable multi-hop question answering. In: Conference on Empirical Methods in Natural Language Processing (EMNLP) (2018)","DOI":"10.18653\/v1\/D18-1259"},{"key":"34_CR24","unstructured":"Trivedi, H., et\u00a0al.: Musique: a multihop question answering dataset with realistic paragraphs. In: Conference on Empirical Methods in Natural Language Processing (EMNLP) (2022)"},{"key":"34_CR25","doi-asserted-by":"crossref","unstructured":"Wang, M., Stoll, A., Lange, L., Adel, H., Sch\u00fctze, H., Str\u00f6tgen, J.: Bring your own knowledge: a survey of methods for LLM knowledge expansion. arXiv preprint arXiv:2502.12598 (2025)","DOI":"10.18653\/v1\/2025.l2m2-1.12"},{"key":"34_CR26","doi-asserted-by":"crossref","unstructured":"Feng, H., Gao, Y.: Ad placement optimization algorithm combined with machine learning in internet e-commerce (2025)","DOI":"10.20944\/preprints202502.2167.v1"},{"key":"34_CR27","unstructured":"Fang, H., et\u00a0al.: Hierarchical contextualized contrastive learning for multimodal retrieval. In: Annual Meeting of the Association for Computational Linguistics (ACL) (2022)"},{"key":"34_CR28","unstructured":"Feng, H., Dai, Y., Gao, Y.: Personalized risks and regulatory strategies of large language models in digital advertising. arXiv preprint arXiv:2505.04665 (2025)"},{"key":"34_CR29","doi-asserted-by":"crossref","unstructured":"Wu, S., Huang, X., Lu, D.: Psychological health knowledge-enhanced LLM-based social network crisis intervention text transfer recognition method. arXiv preprint arXiv:2504.07983 (2025)","DOI":"10.1145\/3733006.3733032"},{"key":"34_CR30","unstructured":"Bi, J., et al.: Cot-kinetics: a theoretical modeling assessing LRM reasoning process (2025)"},{"key":"34_CR31","unstructured":"Lewis, P., et\u00a0al.: Retrieval-augmented generation for knowledge-intensive NLP tasks. In: Advances in Neural Information Processing Systems (NeurIPS) (2020)"},{"key":"34_CR32","unstructured":"Wang, Y., et\u00a0al.: Semantic-aware knowledge integration for multimodal NLP. In: Annual Meeting of the Association for Computational Linguistics (ACL) (2022)"},{"key":"34_CR33","unstructured":"Hoffmann, M., et\u00a0al.: Training data compression for deep neural networks in NLP. arXiv preprint arXiv:2002.08217 (2020)"},{"key":"34_CR34","unstructured":"Zhou, X., et\u00a0al.: Medical language processing with deep learning. ACM Trans. Intell. Syst. Technol. (2019)"},{"issue":"D1","key":"34_CR35","doi-asserted-by":"publisher","first-page":"D267","DOI":"10.1093\/nar\/gkh061","volume":"32","author":"O Bodenreider","year":"2004","unstructured":"Bodenreider, O.: The unified medical language system (UMLs): integrating biomedical terminology. Nucleic Acids Res. 32(D1), D267\u2013D270 (2004)","journal-title":"Nucleic Acids Res."},{"key":"34_CR36","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1146\/annurev-biodatasci-080917-013350","volume":"1","author":"NH Shah","year":"2018","unstructured":"Shah, N.H., et al.: Translational bioinformatics: the science of turning biomedical data into knowledge for human health. Ann. Rev. Biomed. Data Sci. 1, 1\u201324 (2018)","journal-title":"Ann. Rev. Biomed. Data Sci."},{"key":"34_CR37","unstructured":"Sun, Y., et\u00a0al.: Openke: an open toolkit for knowledge embedding. In: AAAI Conference on Artificial Intelligence (AAAI) (2021)"},{"key":"34_CR38","doi-asserted-by":"crossref","unstructured":"Reimers, N., Gurevych, I.: Sentence-BERT: sentence embeddings using siamese BERT-networks. In: Conference on Empirical Methods in Natural Language Processing (EMNLP) (2019)","DOI":"10.18653\/v1\/D19-1410"},{"key":"34_CR39","doi-asserted-by":"crossref","unstructured":"Gao, T., Yao, X., Chen, D.: Simcse: simple contrastive learning of sentence embeddings. In: Annual Meeting of the Association for Computational Linguistics (ACL) (2021)","DOI":"10.18653\/v1\/2021.emnlp-main.552"},{"key":"34_CR40","unstructured":"Guan, Y., et\u00a0al.: Multimodal knowledge graph construction and application: a survey. arXiv preprint arXiv:2301.09896 (2023)"},{"key":"34_CR41","unstructured":"Jaderberg, M., et\u00a0al.: Reading wikipedia to answer open-domain questions. In: Annual Meeting of the Association for Computational Linguistics (ACL) (2016)"},{"key":"34_CR42","unstructured":"Liu, Y., et\u00a0al.: RoBERTa: a robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692 (2019)"},{"key":"34_CR43","doi-asserted-by":"crossref","unstructured":"Li, B., Weng, Y., Xia, F., Sun, B., Li, S.: VPAI_lab at MedVidQA 2022: a two-stage cross-modal fusion method for medical instructional video classification. In: Proceedings of the 21st Workshop on Biomedical Language Processing, pp. 212\u2013219 (2022)","DOI":"10.18653\/v1\/2022.bionlp-1.21"},{"key":"34_CR44","doi-asserted-by":"crossref","unstructured":"Wang, M., Adel, H., Lange, L., Str\u00f6tgen, J., Sch\u00fctze, H.: Rehearsal-free modular and compositional continual learning for language models. In: Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers), pp. 469\u2013480 (2024)","DOI":"10.18653\/v1\/2024.naacl-short.39"},{"key":"34_CR45","doi-asserted-by":"publisher","unstructured":"Zhou, Z., Liu, J., Cheng, S., Luo, H., Gu, Y., Ye, J.: Improving cross-modal visual answer localization in Chinese medical instructional video using language prompts. In: CCF International Conference on Natural Language Processing and Chinese Computing, pp. 221\u2013232. Springer (2023). https:\/\/doi.org\/10.1007\/978-3-031-44699-3_20","DOI":"10.1007\/978-3-031-44699-3_20"},{"key":"34_CR46","doi-asserted-by":"publisher","unstructured":"Zhang, H., Zheng, C., He, Y., Zhao, Y., Lai, Y.: Improving multilingual temporal answering grounding in single video via LLM-based translation and OCR enhancement. In: CCF International Conference on Natural Language Processing and Chinese Computing, pp. 145\u2013156. Springer (2024). https:\/\/doi.org\/10.1007\/978-981-97-9443-0_12","DOI":"10.1007\/978-981-97-9443-0_12"}],"container-title":["Lecture Notes in Computer Science","Natural Language Processing and Chinese Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-3352-7_34","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,16]],"date-time":"2025-11-16T14:09:01Z","timestamp":1763302141000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-3352-7_34"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,17]]},"ISBN":["9789819533510","9789819533527"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-3352-7_34","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,17]]},"assertion":[{"value":"17 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"NLPCC","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"CCF International Conference on Natural Language Processing and Chinese Computing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Urumqi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7 August 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 August 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"nlpcc2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/tcci.ccf.org.cn\/conference\/2025\/index.php","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}