{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,25]],"date-time":"2025-03-25T21:16:02Z","timestamp":1742937362200,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":33,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819620630"},{"type":"electronic","value":"9789819620647"}],"license":[{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2064-7_7","type":"book-chapter","created":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T19:24:58Z","timestamp":1735327498000},"page":"87-100","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Multimodal Prompt Learning for\u00a0Audio Visual Scene-Aware Dialog"],"prefix":"10.1007","author":[{"given":"Feifei","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fumiaoyue","family":"Jia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wang","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,28]]},"reference":[{"key":"7_CR1","doi-asserted-by":"crossref","unstructured":"Li, L., Lei, J., et al.: Adversarial VQA: a new benchmark for evaluating the robustness of VQA models. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 2042\u20132051 (2021)","DOI":"10.1109\/ICCV48922.2021.00205"},{"issue":"10","key":"7_CR2","doi-asserted-by":"publisher","first-page":"6056","DOI":"10.1109\/TPAMI.2021.3085755","volume":"44","author":"D Guo","year":"2021","unstructured":"Guo, D., Wang, H., et al.: Context-aware graph inference with knowledge distillation for visual dialog. IEEE Trans. Pattern Anal. Mach. Intell. 44(10), 6056\u20136073 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"7_CR3","doi-asserted-by":"crossref","unstructured":"Das, A., Kottur, S., et al.: Visual dialog. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 326\u2013335 (2017)","DOI":"10.1109\/CVPR.2017.121"},{"key":"7_CR4","doi-asserted-by":"crossref","unstructured":"Seo, P.H., et al.: End-to-end generative pretraining for multimodal video captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 17959\u201317968 (2022)","DOI":"10.1109\/CVPR52688.2022.01743"},{"key":"7_CR5","unstructured":"Nguyen, D.T., et al.: From film to video: multi-turn question answering with multi-modal context. arXiv preprint arXiv:1812.07023 (2018)"},{"key":"7_CR6","doi-asserted-by":"crossref","unstructured":"Le, H., Chen, N., Hoi, S.: Vgnmn: video-grounded neural module networks for video-grounded dialogue systems. In: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 3377\u20133393 (2022)","DOI":"10.18653\/v1\/2022.naacl-main.247"},{"key":"7_CR7","doi-asserted-by":"crossref","unstructured":"Shah, A., Geng, S., et al.: Audio-visual scene-aware dialog and reasoning using audio-visual transformers with joint student-teacher learning. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7732\u20137736. IEEE (2022)","DOI":"10.1109\/ICASSP43922.2022.9746481"},{"key":"7_CR8","unstructured":"Le, H., Chen, N.F., Hoi, S.C.: $$c^{3}$$: compositional counterfactual contrastive learning for video-grounded dialogues. arXiv preprint arXiv:2106.08914 (2021)"},{"key":"7_CR9","doi-asserted-by":"publisher","first-page":"2476","DOI":"10.1109\/TASLP.2021.3065823","volume":"29","author":"Z Li","year":"2021","unstructured":"Li, Z., Li, Z., et al.: Bridging text and video: a universal multimodal transformer for audio-visual scene-aware dialog. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 2476\u20132483 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"8","key":"7_CR10","first-page":"9","volume":"1","author":"A Radford","year":"2019","unstructured":"Radford, A., Jeffrey, W., Child, R., et al.: Language models are unsupervised multitask learners. OpenAI Blog 1(8), 9 (2019)","journal-title":"OpenAI Blog"},{"key":"7_CR11","doi-asserted-by":"crossref","unstructured":"Alamri, H., Cartillier, V., et al.: Audio visual scene-aware dialog. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7558\u20137567 (2019)","DOI":"10.1109\/CVPR.2019.00774"},{"key":"7_CR12","unstructured":"Kim, S., Galley, M., et al.: The eighth dialog system technology challenge. arXiv preprint arXiv:1911.06394 (2019)"},{"key":"7_CR13","doi-asserted-by":"crossref","unstructured":"Alamri, H., Cartillier, V., et al.: Audio visual scene-aware dialog (AVSD) challenge at DSTC7. arXiv preprint arXiv:1806.00525 (2018)","DOI":"10.1109\/CVPR.2019.00774"},{"key":"7_CR14","unstructured":"Radford, A., Kim, J.W., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"7_CR15","unstructured":"Touvron, H., Lavril, T., et al.: Llama: open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)"},{"key":"7_CR16","doi-asserted-by":"crossref","unstructured":"Le, H., Hoi, S.C.H.: Video-grounded dialogues with pretrained generation language models. arXiv preprint arXiv:2006.15319 (2020)","DOI":"10.18653\/v1\/2020.acl-main.518"},{"key":"7_CR17","unstructured":"Le, H., Chen, N.F., Hoi, S.C.H.: Learning reasoning paths over semantic graphs for video-grounded dialogues. arXiv preprint arXiv:2103.00820 (2021)"},{"key":"7_CR18","doi-asserted-by":"crossref","unstructured":"Li, X.L., Liang, P.: Prefix-tuning: optimizing continuous prompts for generation. arXiv preprint arXiv:2101.00190 (2021)","DOI":"10.18653\/v1\/2021.acl-long.353"},{"key":"7_CR19","doi-asserted-by":"crossref","unstructured":"Liu, X., et al.: P-tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv preprint arXiv:2110.07602 (2021)","DOI":"10.18653\/v1\/2022.acl-short.8"},{"key":"7_CR20","doi-asserted-by":"crossref","unstructured":"Liu, X., et al.: GPT understands, too. AI Open (2023)","DOI":"10.1016\/j.aiopen.2023.08.012"},{"key":"7_CR21","doi-asserted-by":"crossref","unstructured":"Lee, Y.-L., Tsai, Y.-H., et al.: Multimodal prompting with missing modalities for visual recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14943\u201314952 (2023)","DOI":"10.1109\/CVPR52729.2023.01435"},{"key":"7_CR22","doi-asserted-by":"crossref","unstructured":"Khattak, M.U., Rasheed, H., et al.: Maple: multi-modal prompt learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19113\u201319122 (2023)","DOI":"10.1109\/CVPR52729.2023.01832"},{"key":"7_CR23","doi-asserted-by":"crossref","unstructured":"Ma, M., Ren, J., Zhao, L., et al.: Are multimodal transformers robust to missing modality? In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18177\u201318186 (2022)","DOI":"10.1109\/CVPR52688.2022.01764"},{"key":"7_CR24","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"510","DOI":"10.1007\/978-3-319-46448-0_31","volume-title":"Computer Vision \u2013 ECCV 2016","author":"GA Sigurdsson","year":"2016","unstructured":"Sigurdsson, G.A., Varol, G., Wang, X., Farhadi, A., Laptev, I., Gupta, A.: Hollywood in homes: crowdsourcing data collection for activity understanding. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9905, pp. 510\u2013526. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46448-0_31"},{"key":"7_CR25","unstructured":"Papineni, K.: Bleu: a method for automatic evaluation of MT. Research Report, Computer Science RC22176 (W0109-022) (2001)"},{"key":"7_CR26","doi-asserted-by":"publisher","first-page":"105","DOI":"10.1007\/s10590-009-9059-4","volume":"23","author":"A Lavie","year":"2009","unstructured":"Lavie, A., Denkowski, M.J.: The meteor metric for automatic evaluation of machine translation. Mach. Transl. 23, 105\u2013115 (2009)","journal-title":"Mach. Transl."},{"key":"7_CR27","unstructured":"Lin, C.-Y.: Rouge: a package for automatic evaluation of summaries. In: Text Summarization Branches Out, pp. 74\u201381 (2004)"},{"key":"7_CR28","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Lawrence Zitnick, C., Parikh, D.: Cider: consensus-based image description evaluation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4566\u20134575 (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"7_CR29","unstructured":"Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017)"},{"key":"7_CR30","unstructured":"Chu, Y.-W., Lin, K.-Y., et al.: Multi-step joint-modality attention network for scene-aware dialogue system. arXiv preprint arXiv:2001.06206 (2020)"},{"key":"7_CR31","doi-asserted-by":"crossref","unstructured":"Le, H., Sahoo, D., et al.: Multimodal transformer networks for end-to-end video-grounded dialogue systems. arXiv preprint arXiv:1907.01166 (2019)","DOI":"10.18653\/v1\/P19-1564"},{"key":"7_CR32","doi-asserted-by":"publisher","first-page":"2476","DOI":"10.1109\/TASLP.2021.3065823","volume":"29","author":"Z Li","year":"2021","unstructured":"Li, Z., Li, Z., Zhang, J., et al.: Bridging text and video: a universal multimodal transformer for audio-visual scene-aware dialog. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 2476\u20132483 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"7_CR33","unstructured":"Yamazaki, Y., Orihashi, S., et al.: Audio visual scene-aware dialog generation with transformer-based video representations. arXiv preprint arXiv:2202.09979 (2022)"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2064-7_7","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T20:02:54Z","timestamp":1735329774000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2064-7_7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,28]]},"ISBN":["9789819620630","9789819620647"],"references-count":33,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2064-7_7","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,28]]},"assertion":[{"value":"28 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Nara","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 January 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 January 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/mmm2025.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}