{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,25]],"date-time":"2025-03-25T17:56:41Z","timestamp":1742925401797,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":42,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819609161"},{"type":"electronic","value":"9789819609178"}],"license":[{"start":{"date-parts":[[2024,12,8]],"date-time":"2024-12-08T00:00:00Z","timestamp":1733616000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,8]],"date-time":"2024-12-08T00:00:00Z","timestamp":1733616000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-0917-8_6","type":"book-chapter","created":{"date-parts":[[2024,12,7]],"date-time":"2024-12-07T07:59:54Z","timestamp":1733558394000},"page":"95-112","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["LoCo-MAD: Long-Range Context-Enhanced Model Towards Plot-Centric Movie Audio Description"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-1576-5894","authenticated-orcid":false,"given":"Jiayi","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0917-001X","authenticated-orcid":false,"given":"Zihao","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3481-7820","authenticated-orcid":false,"given":"Xiaoyu","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,8]]},"reference":[{"key":"6_CR1","unstructured":"Alayrac, J.B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc, K.,Mensch, A., Millican, K., Reynolds, M., Ring, R., Rutherford, E., Cabi, S., Han, T., Gong, Z., Samangooei, S., Monteiro, M., Menick, J.L., Borgeaud, S.,Brock, A., Nematzadeh, A., Sharifzadeh, S., Bi\u0144kowski, M.a., Barreira, R., Vinyals, O., Zisserman, A., Simonyan, K.: Flamingo: a visual language model for few-shot learning. In: Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022. vol.\u00a035, pp. 23716\u201323736. New Orleans, LA, USA (2022)"},{"key":"6_CR2","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"382","DOI":"10.1007\/978-3-319-46454-1_24","volume-title":"Computer Vision \u2013 ECCV 2016","author":"P Anderson","year":"2016","unstructured":"Anderson, P., Fernando, B., Johnson, M., Gould, S.: SPICE: Semantic Propositional Image Caption Evaluation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9909, pp. 382\u2013398. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46454-1_24"},{"key":"6_CR3","doi-asserted-by":"publisher","unstructured":"Bain, M., Nagrani, A., Varol, G., Zisserman, A.: Frozen in time: A joint video and image encoder for end-to-end retrieval. In: 2021 IEEE\/CVF International Conference on Computer Vision, ICCV 2021. pp. 1708\u20131718. IEEE, Montreal, QC, Canada (2021). https:\/\/doi.org\/10.1109\/ICCV48922.2021.00175","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"6_CR4","unstructured":"Chadha, A., Arora, G., Kaloty, N.: iperceive: Applying common-sense reasoning to multi-modal dense video captioning and video question answering. ArXiv abs\/2011.07735 (2020)"},{"issue":"1","key":"6_CR5","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1007\/S11633-022-1369-5","volume":"20","author":"F Chen","year":"2023","unstructured":"Chen, F., Zhang, D., Han, M., Chen, X., Shi, J., Xu, S., Xu, B.: VLP: A survey on vision-language pre-training. Int. J. Autom. Comput. 20(1), 38\u201356 (2023). https:\/\/doi.org\/10.1007\/S11633-022-1369-5","journal-title":"Int. J. Autom. Comput."},{"key":"6_CR6","doi-asserted-by":"publisher","unstructured":"Chen, S., Jiang, Y.: Towards bridging event captioner and sentence localizer for weakly supervised dense event captioning. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021. pp. 8425\u20138435. Computer Vision Foundation \/ IEEE, Virtual Event (2021). https:\/\/doi.org\/10.1109\/CVPR46437.2021.00832","DOI":"10.1109\/CVPR46437.2021.00832"},{"key":"6_CR7","doi-asserted-by":"publisher","unstructured":"Deng, C., Chen, S., Chen, D., He, Y., Wu, Q.: Sketch, ground, and refine: Top-down dense video captioning. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021. pp. 234\u2013243. Computer Vision Foundation \/ IEEE, Virtual Event (2021). https:\/\/doi.org\/10.1109\/CVPR46437.2021.00030","DOI":"10.1109\/CVPR46437.2021.00030"},{"key":"6_CR8","doi-asserted-by":"crossref","unstructured":"Denkowski, M.J., Lavie, A.: Meteor universal: Language specific translation evaluation for any target language. In: Proceedings of the Ninth Workshop on Statistical Machine Translation. pp. 376\u2013380. ACL, Baltimore, USA (2014)","DOI":"10.3115\/v1\/W14-3348"},{"key":"6_CR9","first-page":"3063","volume-title":"Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018","author":"X Duan","year":"2018","unstructured":"Duan, X., Huang, W., Gan, C., Wang, J., Zhu, W., Huang, J.: Weakly supervised dense event captioning in videos. In: Bengio, S., Wallach, H.M., Larochelle, H., Grauman, K., Cesa-Bianchi, N., Garnett, R. (eds.) Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, pp. 3063\u20133073. Montr\u00e9al, Canada (2018)"},{"key":"6_CR10","doi-asserted-by":"publisher","unstructured":"Han, T., Bain, M., Nagrani, A., Varol, G., Xie, W., Zisserman, A.: Autoad II: the sequel - who, when, and what in movie audio description. In: IEEE\/CVF International Conference on Computer Vision, ICCV 2023. pp. 13599\u201313609. IEEE, Paris, France (2023). https:\/\/doi.org\/10.1109\/ICCV51070.2023.01255","DOI":"10.1109\/ICCV51070.2023.01255"},{"key":"6_CR11","doi-asserted-by":"publisher","unstructured":"Han, T., Bain, M., Nagrani, A., Varol, G., Xie, W., Zisserman, A.: Autoad: Movie description in context. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023. pp. 18930\u201318940. IEEE, Vancouver, BC, Canada (2023). https:\/\/doi.org\/10.1109\/CVPR52729.2023.01815","DOI":"10.1109\/CVPR52729.2023.01815"},{"key":"6_CR12","doi-asserted-by":"crossref","unstructured":"Huang, G., Pang, B., Zhu, Z., Rivera, C., Soricut, R.: Multimodal pretraining for dense video captioning. In: Wong, K., Knight, K., Wu, H. (eds.) Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing, AACL\/IJCNLP 2020. pp. 470\u2013490. Association for Computational Linguistics, Suzhou, China (2020)","DOI":"10.18653\/v1\/2020.aacl-main.48"},{"key":"6_CR13","doi-asserted-by":"publisher","unstructured":"Huang, Q., Xiong, Y., Rao, A., Wang, J., Lin, D.: Movienet: A holistic dataset for movie understanding. In: Computer Vision - ECCV 2020 - 16th European Conference. Lecture Notes in Computer Science, vol. 12349, pp. 709\u2013727. Springer, Glasgow, UK (2020). https:\/\/doi.org\/10.1007\/978-3-030-58548-8_41","DOI":"10.1007\/978-3-030-58548-8_41"},{"key":"6_CR14","doi-asserted-by":"publisher","unstructured":"Huang, Q., Gan, Z., Celikyilmaz, A., Wu, D.O., Wang, J., He, X.: Hierarchically structured reinforcement learning for topically coherent visual story generation. In: The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI 2019, The Thirty-First Innovative Applications of Artificial Intelligence Conference, IAAI 2019, The Ninth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019. pp. 8465\u20138472. AAAI Press, Honolulu, Hawaii, USA (2019). https:\/\/doi.org\/10.1609\/AAAI.V33I01.33018465","DOI":"10.1609\/AAAI.V33I01.33018465"},{"key":"6_CR15","doi-asserted-by":"crossref","unstructured":"Huang, T.H., Ferraro, F., Mostafazadeh, N., Misra, I., Agrawal, A., Devlin, J., Girshick, R., He, X., Kohli, P., Batra, D.: Visual storytelling. In: Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: Human language technologies. pp. 1233\u20131239. ACL, San Diego California, USA (2016)","DOI":"10.18653\/v1\/N16-1147"},{"key":"6_CR16","doi-asserted-by":"publisher","unstructured":"Krishna, R., Hata, K., Ren, F., Fei-Fei, L., Niebles, J.C.: Dense-captioning events in videos. In: IEEE International Conference on Computer Vision, ICCV 2017. pp. 706\u2013715. IEEE Computer Society, Venice, Italy (2017). https:\/\/doi.org\/10.1109\/ICCV.2017.83, https:\/\/doi.org\/10.1109\/ICCV.2017.83","DOI":"10.1109\/ICCV.2017.83"},{"key":"6_CR17","unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.C.H.: BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: International Conference on Machine Learning, ICML 2023. Proceedings of Machine Learning Research, vol.\u00a0202, pp. 19730\u201319742. PMLR, Honolulu, Hawaii, USA (2023)"},{"key":"6_CR18","unstructured":"Li, J., Li, D., Xiong, C., Hoi, S.C.H.: BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation. In: International Conference on Machine Learning, ICML 2022. Proceedings of Machine Learning Research, vol.\u00a0162, pp. 12888\u201312900. PMLR, Baltimore, Maryland, USA (2022)"},{"key":"6_CR19","unstructured":"Li, J., Selvaraju, R., Gotmare, A., Joty, S., Xiong, C., Hoi, S.C.H.: Align before fuse: Vision and language representation learning with momentum distillation. In: Advances in Neural Information Processing Systems(NIPS). vol.\u00a034, pp. 9694\u20139705. Curran Associates, Inc., Virtual Event (2021)"},{"issue":"2","key":"6_CR20","doi-asserted-by":"publisher","first-page":"554","DOI":"10.1109\/TMM.2019.2930041","volume":"22","author":"J Li","year":"2020","unstructured":"Li, J., Wong, Y., Zhao, Q., Kankanhalli, M.S.: Video storytelling: Textual summaries for events. IEEE Trans. Multim. 22(2), 554\u2013565 (2020). https:\/\/doi.org\/10.1109\/TMM.2019.2930041","journal-title":"IEEE Trans. Multim."},{"key":"6_CR21","unstructured":"Lin, B., Zhu, B., Ye, Y., Ning, M., Jin, P., Yuan, L.: Video-llava: Learning united visual representation by alignment before projection. ArXiv abs\/2311.10122 (2023)"},{"key":"6_CR22","unstructured":"Lin, C.Y.: Rouge: A package for automatic evaluation of summaries. In: Annual Meeting of the Association for Computational Linguistics(ACL). pp. 74\u201381. ACL, Barcelona, Spain (2004)"},{"key":"6_CR23","unstructured":"Luo, H., Ji, L., Shi, B., Huang, H., Duan, N., Li, T., Chen, X., Zhou, M.: Univilm: A unified video and language pre-training model for multimodal understanding and generation. ArXiv abs\/2002.06353 (2020)"},{"key":"6_CR24","unstructured":"Mokady, R., Hertz, A.: Clipcap: Clip prefix for image captioning. ArXiv abs\/2111.09734 (2021)"},{"key":"6_CR25","doi-asserted-by":"publisher","unstructured":"Nukrai, D., Mokady, R., Globerson, A.: Text-only training for image captioning using noise-injected CLIP. In: Goldberg, Y., Kozareva, Z., Zhang, Y. (eds.) Findings of the Association for Computational Linguistics: EMNLP 2022. pp. 4055\u20134063. Association for Computational Linguistics, Abu Dhabi, United Arab Emirates (2022). https:\/\/doi.org\/10.18653\/V1\/2022.FINDINGS-EMNLP.299","DOI":"10.18653\/V1\/2022.FINDINGS-EMNLP.299"},{"key":"6_CR26","unstructured":"van\u00a0den Oord, A., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. ArXiv abs\/1807.03748 (2018)"},{"key":"6_CR27","doi-asserted-by":"publisher","unstructured":"Park, J.S., Rohrbach, M., Darrell, T., Rohrbach, A.: Adversarial inference for multi-sentence video description. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. pp. 6598\u20136608. Computer Vision Foundation \/ IEEE, Long Beach, CA, USA (2019). https:\/\/doi.org\/10.1109\/CVPR.2019.00676","DOI":"10.1109\/CVPR.2019.00676"},{"key":"6_CR28","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. In: Proceedings of the 38th International Conference on Machine Learning(ICML). vol.\u00a0139, pp. 8748\u20138763. PMLR, Virtual Event (2021)"},{"issue":"1","key":"6_CR29","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1007\/S11263-016-0987-1","volume":"123","author":"A Rohrbach","year":"2017","unstructured":"Rohrbach, A., Torabi, A., Rohrbach, M., Tandon, N., Pal, C.J., Larochelle, H., Courville, A.C., Schiele, B.: Movie description. Int. J. Comput. Vis. 123(1), 94\u2013120 (2017). https:\/\/doi.org\/10.1007\/S11263-016-0987-1","journal-title":"Int. J. Comput. Vis."},{"key":"6_CR30","doi-asserted-by":"publisher","unstructured":"Seo, P.H., Nagrani, A., Arnab, A., Schmid, C.: End-to-end generative pretraining for multimodal video captioning. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022. pp. 17959\u201317968. IEEE, New Orleans, LA, USA (2022). https:\/\/doi.org\/10.1109\/CVPR52688.2022.01743","DOI":"10.1109\/CVPR52688.2022.01743"},{"key":"6_CR31","doi-asserted-by":"publisher","unstructured":"Sharma, P., Ding, N., Goodman, S., Soricut, R.: Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In: Gurevych, I., Miyao, Y. (eds.) Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018. pp. 2556\u20132565. Association for Computational Linguistics, Melbourne, Australia (2018). https:\/\/doi.org\/10.18653\/V1\/P18-1238","DOI":"10.18653\/V1\/P18-1238"},{"key":"6_CR32","doi-asserted-by":"publisher","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016. pp. 2818\u20132826. IEEE Computer Society, Las Vegas, NV, USA (2016). https:\/\/doi.org\/10.1109\/CVPR.2016.308","DOI":"10.1109\/CVPR.2016.308"},{"key":"6_CR33","doi-asserted-by":"publisher","unstructured":"Tang, J., Wang, J., Li, Z., Fu, J., Mei, T.: Show, reward, and tell: Adversarial visual story generation. ACM Trans. Multim. Comput. Commun. Appl. 15(2s), 54:1\u201354:20 (2019). https:\/\/doi.org\/10.1145\/3291925","DOI":"10.1145\/3291925"},{"key":"6_CR34","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L.U., Polosukhin, I.: Attention is all you need. In: Advances in Neural Information Processing Systems(NIPS). vol.\u00a030, pp. 5998\u20136008. Long Beach, CA (2017)"},{"key":"6_CR35","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: Cider: Consensus-based image description evaluation. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 4566\u20134575. IEEE, Boston, MA, USA (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"6_CR36","doi-asserted-by":"publisher","unstructured":"Wang, T., Zhang, R., Lu, Z., Zheng, F., Cheng, R., Luo, P.: End-to-end dense video captioning with parallel decoding. In: 2021 IEEE\/CVF International Conference on Computer Vision, ICCV 2021. pp. 6827\u20136837. IEEE, Montreal, BC, Canada (2021). https:\/\/doi.org\/10.1109\/ICCV48922.2021.00677","DOI":"10.1109\/ICCV48922.2021.00677"},{"key":"6_CR37","unstructured":"Xu, H., Ye, Q., Yan, M., Shi, Y., Ye, J., Xu, Y., Li, C., Bi, B., Qian, Q.,Wang, W., Xu, G., Zhang, J., Huang, S., Huang, F., Zhou, J.: mplug-2: A modularized multi-modal foundation model across text, image and video. In: International Conference on Machine Learning, ICML 2023. vol.\u00a0202, pp. 38728\u201338748. PMLR, Honolulu, Hawaii, USA (2023)"},{"key":"6_CR38","doi-asserted-by":"publisher","unstructured":"Yang, A., Nagrani, A., Seo, P.H., Miech, A., Pont-Tuset, J., Laptev, I., Sivic, J., Schmid, C.: Vid2seq: Large-scale pretraining of a visual language model for dense video captioning. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023. pp. 10714\u201310726. IEEE, Vancouver, BC, Canada (2023). https:\/\/doi.org\/10.1109\/CVPR52729.2023.01032","DOI":"10.1109\/CVPR52729.2023.01032"},{"key":"6_CR39","doi-asserted-by":"publisher","unstructured":"Yu, Y., Chung, J., Yun, H., Kim, J., Kim, G.: Transitional adaptation of pretrained models for visual storytelling. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021. pp. 12658\u201312668. Computer Vision Foundation \/ IEEE, virtual (2021). https:\/\/doi.org\/10.1109\/CVPR46437.2021.01247","DOI":"10.1109\/CVPR46437.2021.01247"},{"key":"6_CR40","unstructured":"Zhang, C., Lin, K.Q., Yang, Z., Wang, J., Li, L., Lin, C.C., Liu, Z., Wang, L.: Mm-narrator: Narrating long-form videos with multimodal in-context learning. ArXiv abs\/2311.17435 (2023)"},{"key":"6_CR41","unstructured":"Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M.T., Li, X., Lin, X.V., Mihaylov, T., Ott, M., Shleifer, S., Shuster, K., Simig, D., Koura, P.S., Sridhar, A., Wang, T., Zettlemoyer, L.: Opt: Open pre-trained transformer language models. ArXiv abs\/2205.01068 (2022)"},{"key":"6_CR42","unstructured":"Zhang, T., Kishore, V., Wu, F., Weinberger, K.Q., Artzi, Y.: Bertscore: Evaluating text generation with BERT. In: 8th International Conference on Learning Representations, ICLR 2020. OpenReview.net, Addis Ababa, Ethiopia (2020)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-0917-8_6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,7]],"date-time":"2024-12-07T08:24:56Z","timestamp":1733559896000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-0917-8_6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,8]]},"ISBN":["9789819609161","9789819609178"],"references-count":42,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-0917-8_6","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,8]]},"assertion":[{"value":"8 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asian Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Hanoi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Vietnam","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"12 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"accv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}