{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T12:29:43Z","timestamp":1771244983875,"version":"3.50.1"},"publisher-location":"Singapore","reference-count":30,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819569496","type":"print"},{"value":"9789819569502","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-6950-2_19","type":"book-chapter","created":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T11:59:25Z","timestamp":1771243165000},"page":"261-275","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["AdSum: Two-Stream Audio-Visual Summarization for\u00a0Automated Video Advertisement Clipping"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0274-4981","authenticated-orcid":false,"given":"Wen","family":"Xie","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yanjun","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gijs","family":"Overgoor","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yakov","family":"Bart","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Agata","family":"Lapedriza Garcia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sarah","family":"Ostadabbas","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,2,17]]},"reference":[{"key":"19_CR1","doi-asserted-by":"crossref","unstructured":"Apostolidis, E., Balaouras, G., Mezaris, V., Patras, I.: Summarizing videos using concentrated attention and considering the uniqueness and diversity of the video frames. In: Proceedings of the 2022 International Conference on Multimedia Retrieval, pp. 407\u2013415 (2022)","DOI":"10.1145\/3512527.3531404"},{"key":"19_CR2","doi-asserted-by":"crossref","unstructured":"Argaw, D.M., et al.: Scaling up video summarization pretraining with large language models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8332\u20138341 (2024)","DOI":"10.1109\/CVPR52733.2024.00796"},{"key":"19_CR3","unstructured":"Baevski, A., Zhou, Y., Mohamed, A., Auli, M.: Wav2vec 2.0: a framework for self-supervised learning of speech representations. Adv. Neural Inf. Process. Syst. 33, 12449\u201312460 (2020)"},{"key":"19_CR4","unstructured":"Barrault, L., et al.: Seamless: multilingual expressive and streaming speech translation. arXiv Preprint ArXiv:2312.05187 (2023)"},{"key":"19_CR5","doi-asserted-by":"crossref","unstructured":"De\u00a0Avila, S.E.F., Lopes, A.P.B., da\u00a0Luz\u00a0Jr, A., de\u00a0Albuquerque\u00a0Ara\u00fajo, A.: Vsumm: a mechanism designed to produce static video summaries and a novel evaluation method. Pattern Recognit. Lett. 32(1), 56\u201368 (2011)","DOI":"10.1016\/j.patrec.2010.08.004"},{"issue":"22","key":"19_CR6","doi-asserted-by":"publisher","first-page":"14617","DOI":"10.1007\/s11042-016-3316-3","volume":"75","author":"Z Fang","year":"2016","unstructured":"Fang, Z., et al.: Abnormal event detection in crowded scenes based on deep learning. Multimedia Tools Appl. 75(22), 14617\u201314639 (2016). https:\/\/doi.org\/10.1007\/s11042-016-3316-3","journal-title":"Multimedia Tools Appl."},{"issue":"7","key":"19_CR7","doi-asserted-by":"publisher","first-page":"717","DOI":"10.1109\/TMM.2010.2052025","volume":"12","author":"Y Fu","year":"2010","unstructured":"Fu, Y., Guo, Y., Zhu, Y., Liu, F., Song, C., Zhou, Z.H.: Multi-view video summarization. IEEE Trans. Multimedia 12(7), 717\u2013729 (2010)","journal-title":"IEEE Trans. Multimedia"},{"key":"19_CR8","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"505","DOI":"10.1007\/978-3-319-10584-0_33","volume-title":"Computer Vision \u2013 ECCV 2014","author":"M Gygli","year":"2014","unstructured":"Gygli, M., Grabner, H., Riemenschneider, H., Van Gool, L.: Creating summaries from user videos. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8695, pp. 505\u2013520. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10584-0_33"},{"key":"19_CR9","doi-asserted-by":"publisher","first-page":"152","DOI":"10.1016\/j.ins.2018.09.050","volume":"478","author":"Z Ji","year":"2019","unstructured":"Ji, Z., Ma, Y., Pang, Y., Li, X.: Query-aware sparse coding for web multi-video summarization. Inf. Sci. 478, 152\u2013166 (2019)","journal-title":"Inf. Sci."},{"issue":"6","key":"19_CR10","doi-asserted-by":"publisher","first-page":"1709","DOI":"10.1109\/TCSVT.2019.2904996","volume":"30","author":"Z Ji","year":"2019","unstructured":"Ji, Z., Xiong, K., Pang, Y., Li, X.: Video summarization with attention-based encoder-decoder networks. IEEE Trans. Circuits Syst. Video Technol. 30(6), 1709\u20131717 (2019)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"3","key":"19_CR11","doi-asserted-by":"publisher","first-page":"1945","DOI":"10.1007\/s11063-020-10200-3","volume":"52","author":"AA Khan","year":"2020","unstructured":"Khan, A.A., Shao, J., Ali, W., Tumrani, S.: Content-aware summarization of broadcast sports videos: an audio-visual feature extraction approach. Neural Process. Lett. 52(3), 1945\u20131968 (2020)","journal-title":"Neural Process. Lett."},{"key":"19_CR12","unstructured":"LeverX: Top 2025 challenges in food & beverage industry (2025). https:\/\/leverx.com\/newsroom\/plm-for-the-food-industry"},{"key":"19_CR13","doi-asserted-by":"publisher","first-page":"1573","DOI":"10.1109\/TIP.2022.3143699","volume":"31","author":"T Liu","year":"2022","unstructured":"Liu, T., Meng, Q., Huang, J.J., Vlontzos, A., Rueckert, D., Kainz, B.: Video summarization through reinforcement learning with a 3D spatio-temporal u-net. IEEE Trans. Image Process. 31, 1573\u20131586 (2022)","journal-title":"IEEE Trans. Image Process."},{"issue":"4","key":"19_CR14","doi-asserted-by":"publisher","first-page":"86","DOI":"10.1509\/jm.16.0048","volume":"82","author":"X Liu","year":"2018","unstructured":"Liu, X., Shi, S.W., Teixeira, T., Wedel, M.: Video content marketing: the making of clips. J. Mark. 82(4), 86\u2013101 (2018)","journal-title":"J. Mark."},{"key":"19_CR15","unstructured":"Magazine, Q.: The top 50 fast-food chains in America (2023). https:\/\/www.qsrmagazine.com\/operations\/fast-food\/ranked-the-top-50-fast-food-chains-in-america\/"},{"key":"19_CR16","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2022.105667","volume":"118","author":"P Meena","year":"2023","unstructured":"Meena, P., Kumar, H., Yadav, S.K.: A review on video summarization techniques. Eng. Appl. Artif. Intell. 118, 105667 (2023)","journal-title":"Eng. Appl. Artif. Intell."},{"key":"19_CR17","doi-asserted-by":"crossref","unstructured":"Otani, M., Nakashima, Y., Rahtu, E., Heikkila, J.: Rethinking the evaluation of video summaries. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7596\u20137604 (2019)","DOI":"10.1109\/CVPR.2019.00778"},{"issue":"1","key":"19_CR18","first-page":"165","volume":"9","author":"SH Ou","year":"2014","unstructured":"Ou, S.H., Lee, C.H., Somayazulu, V.S., Chen, Y.K., Chien, S.Y.: On-line multi-view video summarization for wireless video sensor network. IEEE J. Sel. Top. Signal Process. 9(1), 165\u2013179 (2014)","journal-title":"IEEE J. Sel. Top. Signal Process."},{"issue":"8","key":"19_CR19","doi-asserted-by":"publisher","first-page":"2000","DOI":"10.1109\/TMM.2018.2794265","volume":"20","author":"A Tejero-de Pablos","year":"2018","unstructured":"Tejero-de Pablos, A., Nakashima, Y., Sato, T., Yokoya, N., Linna, M., Rahtu, E.: Summarization of user-generated sports video by using deep action recognition features. IEEE Trans. Multimedia 20(8), 2000\u20132011 (2018)","journal-title":"IEEE Trans. Multimedia"},{"key":"19_CR20","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"540","DOI":"10.1007\/978-3-319-10599-4_35","volume-title":"Computer Vision \u2013 ECCV 2014","author":"D Potapov","year":"2014","unstructured":"Potapov, D., Douze, M., Harchaoui, Z., Schmid, C.: Category-specific video summarization. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8694, pp. 540\u2013555. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10599-4_35"},{"key":"19_CR21","unstructured":"Reduct.Video: Video summarizer for marketing professionals - 17 use cases (2023). https:\/\/reduct.video\/blog\/summarizer-for-marketing"},{"key":"19_CR22","doi-asserted-by":"crossref","unstructured":"Son, J., Park, J., Kim, K.: CSTA: CNN-based spatiotemporal attention for video summarization. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18847\u201318856 (2024)","DOI":"10.1109\/CVPR52733.2024.01783"},{"key":"19_CR23","doi-asserted-by":"crossref","unstructured":"Song, Y., Vallmitjana, J., Stent, A., Jaimes, A.: Tvsum: summarizing web videos using titles. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5179\u20135187 (2015)","DOI":"10.1109\/CVPR.2015.7299154"},{"key":"19_CR24","unstructured":"Sou\u010dek, T., Loko\u010d, J.: Transnet v2: an effective deep network architecture for fast shot transition detection. arXiv Preprint ArXiv:2008.04838 (2020)"},{"key":"19_CR25","unstructured":"Statista: Leading soft drink brands ranked by brand awareness in the united states in 2023 (2024). https:\/\/www.statista.com\/statistics\/1346276\/most-well-known-soft-drink-brands-in-the-united-states\/"},{"key":"19_CR26","unstructured":"TVision Insights: Study: Online and on tv, consumers prefer longer ads to shorter ones (2023). https:\/\/www.tvisioninsights.com\/resources\/study-online-and-on-tv-consumers-prefer-longer-ads-to-shorter-ones"},{"key":"19_CR27","doi-asserted-by":"crossref","unstructured":"Vasudevan, A.B., Gygli, M., Volokitin, A., Van\u00a0Gool, L.: Query-adaptive video summarization via quality-aware relevance estimation. In: Proceedings of the 25th ACM International Conference on Multimedia, pp. 582\u2013590 (2017)","DOI":"10.1145\/3123266.3123297"},{"key":"19_CR28","doi-asserted-by":"crossref","unstructured":"Xie, S., Sun, C., Huang, J., Tu, Z., Murphy, K.: Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 305\u2013321 (2018)","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"19_CR29","doi-asserted-by":"crossref","unstructured":"Xie, W., Luan, L., Zhu, Y., Bart, Y., Ostadabbas, S.: Multimodal drivers of attention interruption to baby product video ads. In: International Conference on Pattern Recognition, pp. 303\u2013318. Springer (2024)","DOI":"10.1007\/978-3-031-78104-9_21"},{"key":"19_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"766","DOI":"10.1007\/978-3-319-46478-7_47","volume-title":"Computer Vision \u2013 ECCV 2016","author":"K Zhang","year":"2016","unstructured":"Zhang, K., Chao, W.-L., Sha, F., Grauman, K.: Video summarization with long short-term memory. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9911, pp. 766\u2013782. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46478-7_47"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-6950-2_19","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T11:59:30Z","timestamp":1771243170000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-6950-2_19"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819569496","9789819569502"],"references-count":30,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-6950-2_19","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"17 February 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Prague","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Czech Republic","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2026","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 January 2026","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31 January 2026","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"32","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2026","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/mmm2026.cz\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}