{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,30]],"date-time":"2026-03-30T20:45:15Z","timestamp":1774903515224,"version":"3.50.1"},"reference-count":65,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2024,1,19]],"date-time":"2024-01-19T00:00:00Z","timestamp":1705622400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2024,1,19]],"date-time":"2024-01-19T00:00:00Z","timestamp":1705622400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"publisher","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"publisher","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"crossref","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"crossref","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"crossref","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"crossref","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/100010661","name":"Horizon 2020 Framework Programme","doi-asserted-by":"crossref","award":["H2020-780656 ReTV"],"award-info":[{"award-number":["H2020-780656 ReTV"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"crossref"}]},{"name":"MODUL University Vienna GmbH"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2024,2]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>To optimise digital content marketing for broadcasters, the Horizon 2020 funded ReTV project developed an end-to-end process termed \u201cTrans-Vector Publishing\u201d and made it accessible through a Web-based tool termed \u201cContent Wizard\u201d. This paper presents this tool with a focus on each of the innovations in data and AI-driven media analysis to address each key step in the digital content marketing workflow: topic selection, content search and video summarisation. First, we use predictive analytics over online data to identify topics the target audience will give the most attention to at a future time. Second, we use neural networks and embeddings to find the video asset closest in content to the identified topic. Third, we use a GAN to create an optimally summarised form of that video for publication, e.g. on social networks. The result is a new and innovative digital content marketing workflow which meets the needs of media organisations in this age of interactive online media where content is transient, malleable and ubiquitous.<\/jats:p>","DOI":"10.1007\/s00530-023-01195-7","type":"journal-article","created":{"date-parts":[[2024,1,18]],"date-time":"2024-01-18T20:01:46Z","timestamp":1705608106000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["AI and data-driven media analysis of TV content for optimised digital content marketing"],"prefix":"10.1007","volume":"30","author":[{"given":"Lyndon","family":"Nixon","sequence":"first","affiliation":[]},{"given":"Konstantinos","family":"Apostolidis","sequence":"additional","affiliation":[]},{"given":"Evlampios","family":"Apostolidis","sequence":"additional","affiliation":[]},{"given":"Damianos","family":"Galanopoulos","sequence":"additional","affiliation":[]},{"given":"Vasileios","family":"Mezaris","sequence":"additional","affiliation":[]},{"given":"Basil","family":"Philipp","sequence":"additional","affiliation":[]},{"given":"Rasa","family":"Bocyte","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,1,19]]},"reference":[{"issue":"4","key":"1195_CR1","doi-asserted-by":"publisher","first-page":"1215","DOI":"10.1016\/j.ijforecast.2010.08.002","volume":"27","author":"PJ Danaher","year":"2011","unstructured":"Danaher, P.J., Dagger, T.S., Smith, M.S.: Forecasting television ratings. Int. J. Forecast. 27(4), 1215\u20131240 (2011)","journal-title":"Int. J. Forecast."},{"key":"1195_CR2","doi-asserted-by":"crossref","unstructured":"Weber, R.: Methods to forecast television viewing patterns for target audiences. Communication Research in Europe and Abroad Challenges of the First Decade. Berlin: DeGruyter (2002)","DOI":"10.1515\/9783110849202.271"},{"issue":"3","key":"1195_CR3","first-page":"147","volume":"1","author":"D Meyer","year":"2006","unstructured":"Meyer, D., Hyndman, R.J.: The accuracy of television network rating forecasts: the effects of data aggregation and alternative models. Model. Assist. Stat. Appl. 1(3), 147\u2013155 (2006)","journal-title":"Model. Assist. Stat. Appl."},{"key":"1195_CR4","doi-asserted-by":"crossref","unstructured":"Goodman, C., Donthu, N.: Using consumer-generated social media posts to improve forecasts of television premiere viewership: extending diffusion of innovation theory. Available at SSRN 4321891 (2023)","DOI":"10.2139\/ssrn.4321891"},{"issue":"3","key":"1195_CR5","doi-asserted-by":"publisher","first-page":"125","DOI":"10.1080\/1041794X.2015.1116593","volume":"81","author":"Y Wang","year":"2016","unstructured":"Wang, Y.: How do television networks use twitter? exploring the relationship between twitter use and television ratings. South Commun. J. 81(3), 125\u2013135 (2016)","journal-title":"South Commun. J."},{"key":"1195_CR6","unstructured":"Hsieh, W.-T., Chou, S.-C.T., Cheng, Y.-H., Wu, C.-M.: Predicting tv audience rating with social media. In: Proceedings of the IJCNLP 2013 Workshop on Natural Language Processing for Social Media (SocialNLP), pp. 1\u20135 (2013)"},{"key":"1195_CR7","doi-asserted-by":"publisher","first-page":"12203","DOI":"10.1007\/s11042-017-4880-x","volume":"77","author":"A Crisci","year":"2018","unstructured":"Crisci, A., Grasso, V., Nesi, P., Pantaleo, G., Paoli, I., Zaza, I.: Predicting tv programme audience by using Twitter based metrics. Multimed. Tools Appl. 77, 12203\u201312232 (2018)","journal-title":"Multimed. Tools Appl."},{"key":"1195_CR8","doi-asserted-by":"crossref","unstructured":"Troncy, R., Laaksonen, J., Tavakoli, H.R., Nixon, L., Mezaris, V., Hosseini, M.: AI4TV 2020: 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 4756\u20134757 (2020)","DOI":"10.1145\/3394171.3421894"},{"issue":"6","key":"1195_CR9","doi-asserted-by":"publisher","first-page":"1631","DOI":"10.1109\/TCSVT.2018.2848458","volume":"29","author":"F Markatopoulou","year":"2019","unstructured":"Markatopoulou, F., Mezaris, V., Patras, I.: Implicit and explicit concept relations in deep neural networks for multi-label video\/image annotation. IEEE Trans. Circuits Syst. Video Technol. 29(6), 1631\u20131644 (2019)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"10s","key":"1195_CR10","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3505244","volume":"54","author":"S Khan","year":"2022","unstructured":"Khan, S., Naseer, M., Hayat, M., Zamir, S.W., Khan, F.S., Shah, M.: Transformers in vision: a survey. ACM Comput. Surv. (CSUR) 54(10s), 1\u201341 (2022)","journal-title":"ACM Comput. Surv. (CSUR)"},{"key":"1195_CR11","doi-asserted-by":"publisher","first-page":"108797","DOI":"10.1109\/ACCESS.2022.3213652","volume":"10","author":"N Gkalelis","year":"2022","unstructured":"Gkalelis, N., Daskalakis, D., Mezaris, V.: ViGAT: bottom-up event recognition and explanation in video using factorized graph attention network. IEEE Access 10, 108797\u2013108816 (2022)","journal-title":"IEEE Access"},{"issue":"10","key":"1195_CR12","doi-asserted-by":"publisher","first-page":"3989","DOI":"10.1109\/TNNLS.2019.2951680","volume":"31","author":"B Zhao","year":"2019","unstructured":"Zhao, B., Li, X., Lu, X.: Property-constrained dual learning for video summarization. IEEE Trans. Neural Netw. Learn. Syst. 31(10), 3989\u20134000 (2019)","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"1195_CR13","doi-asserted-by":"crossref","unstructured":"Chu, W.-T., Liu, Y.-H.: Spatiotemporal modeling and label distribution learning for video summarization. In: 2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP), pp. 1\u20136 (2019). IEEE","DOI":"10.1109\/MMSP.2019.8901741"},{"key":"1195_CR14","doi-asserted-by":"crossref","unstructured":"Rochan, M., Wang, Y.: Video summarization by learning from unpaired data. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7902\u20137911 (2019)","DOI":"10.1109\/CVPR.2019.00809"},{"key":"1195_CR15","doi-asserted-by":"crossref","unstructured":"Jung, Y., Cho, D., Woo, S., Kweon, I.S.: Global-and-local relative position embedding for unsupervised video summarization. In: European Conference on Computer Vision, pp. 167\u2013183 (2020). Springer","DOI":"10.1007\/978-3-030-58595-2_11"},{"issue":"8","key":"1195_CR16","doi-asserted-by":"publisher","first-page":"3278","DOI":"10.1109\/TCSVT.2020.3037883","volume":"31","author":"E Apostolidis","year":"2021","unstructured":"Apostolidis, E., Adamantidou, E., Metsai, A.I., Mezaris, V., Patras, I.: AC-SUM-GAN: connecting actor-critic and generative adversarial networks for unsupervised video summarization. IEEE Trans. Circuits Syst. Video Technol. 31(8), 3278\u20133292 (2021)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"1195_CR17","doi-asserted-by":"crossref","unstructured":"Li, H., Ke, Q., Gong, M., Drummond, T.: Progressive video summarization via multimodal self-supervised learning. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 5584\u20135593 (2023)","DOI":"10.1109\/WACV56688.2023.00554"},{"issue":"10","key":"1195_CR18","doi-asserted-by":"publisher","first-page":"2089","DOI":"10.1109\/TPAMI.2016.2627563","volume":"39","author":"A Habibian","year":"2017","unstructured":"Habibian, A., Mensink, T., Snoek, C.G.: Video2vec embeddings recognize events when examples are scarce. IEEE Trans. Pattern Anal. Mach. Intell. 39(10), 2089\u20132103 (2017). https:\/\/doi.org\/10.1109\/TPAMI.2016.2627563","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1195_CR19","doi-asserted-by":"crossref","unstructured":"Francis, D., Anh\u00a0Nguyen, P., Huet, B., Ngo, C.-W.: Fusion of multimodal embeddings for ad-hoc video search. In: 2019 IEEE\/CVF International Conference on Computer Vision Workshop (ICCVW), pp. 1868\u20131872 (2019)","DOI":"10.1109\/ICCVW.2019.00233"},{"key":"1195_CR20","doi-asserted-by":"crossref","unstructured":"Mithun, N.C., Li, J., Metze, F., Roy-Chowdhury, A.K.: Learning joint embedding with multimodal cues for cross-modal video-text retrieval. In: Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. ICMR \u201918, pp. 19\u201327 (2018). ACM","DOI":"10.1145\/3206025.3206064"},{"key":"1195_CR21","doi-asserted-by":"publisher","first-page":"4351","DOI":"10.1109\/TMM.2020.3042067","volume":"23","author":"X Li","year":"2021","unstructured":"Li, X., Zhou, F., Xu, C., Ji, J., Yang, G.: SEA: sentence encoder assembly for video retrieval by textual queries. IEEE Trans. Multimed. 23, 4351\u20134362 (2021)","journal-title":"IEEE Trans. Multimed."},{"key":"1195_CR22","doi-asserted-by":"publisher","first-page":"1204","DOI":"10.1109\/TIP.2022.3140611","volume":"31","author":"X Yang","year":"2022","unstructured":"Yang, X., Wang, S., Dong, J., Dong, J., Wang, M., Chua, T.-S.: Video moment retrieval with cross-modal neural architecture search. IEEE Trans. Image Process. 31, 1204\u20131216 (2022)","journal-title":"IEEE Trans. Image Process."},{"issue":"8","key":"1195_CR23","first-page":"4065","volume":"44","author":"J Dong","year":"2022","unstructured":"Dong, J., Li, X., Xu, C., Yang, X., Yang, G., Wang, X., Wang, M.: Dual encoding for video retrieval by text. IEEE Trans. Pattern Anal. Mach. Intell. 44(8), 4065\u20134080 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1195_CR24","doi-asserted-by":"crossref","unstructured":"Zhang, X.: Research on design of news video retrieval system based on semantics. In: Proceedings of the 6th International Conference on Virtual and Augmented Reality Simulations, pp. 71\u201375 (2022)","DOI":"10.1145\/3546607.3546618"},{"key":"1195_CR25","doi-asserted-by":"crossref","unstructured":"Zwicklbauer, M., Lamm, W., Gordon, M., Apostolidis, K., Philipp, B., Mezaris, V.: Video Analysis for Interactive Story Creation: The sandm\u00e4nnchen showcase. In: Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery, at ACM Multimedia 2020, pp. 17\u201324 (2020)","DOI":"10.1145\/3422839.3423061"},{"key":"1195_CR26","unstructured":"Glasp: YouTube Summary YouTube with ChatGPT & Claude. https:\/\/glasp.co\/youtube-summary. Accessed: 2023-08-22 (2023)"},{"key":"1195_CR27","doi-asserted-by":"crossref","unstructured":"Collyda, C., Apostolidis, K., Apostolidis, E., Adamantidou, E., Metsai, A.I., Mezaris, V.: A web service for video summarization. In: ACM International Conference on Interactive Media Experiences, pp. 148\u2013153 (2020)","DOI":"10.1145\/3391614.3399391"},{"issue":"7","key":"1195_CR28","doi-asserted-by":"publisher","first-page":"12","DOI":"10.1108\/JD-08-2022-0170","volume":"79","author":"AL Cushing","year":"2022","unstructured":"Cushing, A.L., Osti, G.: \u201cSo how do we balance all of these needs?\u2019\u2019: how the concept of AI technology impacts digital archival expertise. J. Doc. 79(7), 12\u201329 (2022)","journal-title":"J. Doc."},{"key":"1195_CR29","doi-asserted-by":"crossref","unstructured":"Bocyte, R., Oomen, J.: Content adaptation, personalisation and fine-grained retrieval: applying AI to support engagement with and reuse of archival content at scale. In: ICAART (1), pp. 506\u2013511 (2020)","DOI":"10.5220\/0009188505060511"},{"key":"1195_CR30","doi-asserted-by":"crossref","unstructured":"Jin, J.-G., Bae, J., Baek, H.-g., Park, S.-h.: Object-ratio-preserving video retargeting framework based on segmentation and inpainting. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 497\u2013503 (2023)","DOI":"10.1109\/WACVW58289.2023.00055"},{"key":"1195_CR31","doi-asserted-by":"crossref","unstructured":"Apostolidis, K., Mezaris, V.: A fast smart-cropping method and dataset for video retargeting. In: 2021 IEEE International Conference on Image Processing (ICIP), pp. 2618\u20132622 (2021). IEEE","DOI":"10.1109\/ICIP42928.2021.9506390"},{"key":"1195_CR32","doi-asserted-by":"crossref","unstructured":"Casado, M.\u00c1., Guimer\u00e0, J.\u00c0., Bonet, M., Llavador, J.P.: Adapt or die? how traditional spanish tv broadcasters deal with the youth target in the new audio-visual ecosystem. Critical Studies in Television, 17496020221076983 (2022)","DOI":"10.1177\/17496020221076983"},{"key":"1195_CR33","doi-asserted-by":"crossref","unstructured":"Philipp, B., Ciesielski, K., Nixon, L.: Automatically adapting and publishing tv content for increased effectiveness and efficiency. In: Proceedings of the 1st International Workshop on AI for Smart TV Content Production, Access and Delivery, pp. 51\u201352 (2019)","DOI":"10.1145\/3347449.3357487"},{"issue":"6","key":"1195_CR34","doi-asserted-by":"publisher","first-page":"2193","DOI":"10.1007\/s00530-022-00926-6","volume":"28","author":"L Nixon","year":"2022","unstructured":"Nixon, L., Foss, J., Apostolidis, K., Mezaris, V.: Data-driven personalisation of television content: a survey. Multimed. Syst. 28(6), 2193\u20132225 (2022)","journal-title":"Multimed. Syst."},{"key":"1195_CR35","doi-asserted-by":"crossref","unstructured":"Galanopoulos, D., Mezaris, V.: Attention mechanisms, signal encodings and fusion strategies for improved ad-hoc video search with dual encoding networks. In: Proceedings of the 2020 ACM International Conference on Multimedia Retrieval, pp. 336\u2013340 (2020)","DOI":"10.1145\/3372278.3390737"},{"key":"1195_CR36","doi-asserted-by":"crossref","unstructured":"Pantelidis, N., Andreadis, S., Pegia, M., Moumtzidou, A., Galanopoulos, D., Apostolidis, K., Touska, D., Gkountakos, K., Gialampoukidis, I., Vrochidis, S., Mezaris, V., Kompatsiaris, I.: VERGE in vbs 2023. In: Dang-Nguyen, D.-T., Gurrin, C., Larson, M., Smeaton, A.F., Rudinac, S., Dao, M.-S., Trattner, C., Chen, P. (eds.) MultiMedia Modeling, pp. 658\u2013664. Springer, Cham (2023)","DOI":"10.1007\/978-3-031-27077-2_55"},{"key":"1195_CR37","unstructured":"Galanopoulos, D., Mezaris, V.: Cross-modal networks and dual softmax operation for MediaEval NewsImages 2022. In: 2022 Multimedia Evaluation Workshop (MediaEval\u201922), Bergen, Norway (2022)"},{"key":"1195_CR38","unstructured":"Gkountakos, K., Galanopoulos, D., Touska, D., Ioannidis, K., Vrochidis, S., Mezaris, V., Kompatsiaris, I.: ITI-CERTH participation in ActEV and AVS tracks of TRECVID 2022. In: TRECVID 2022 Workshop, Gaithersburg, MD, USA (2022)"},{"key":"1195_CR39","doi-asserted-by":"publisher","unstructured":"Nixon, L.J.B.: Predicting your future audience: Experiments in picking the best topic for future content. In: ACM International Conference on Interactive Media Experiences. IMX \u201920, pp. 185\u2013188. Association for Computing Machinery, New York, NY, USA (2020). https:\/\/doi.org\/10.1145\/3391614.3399398","DOI":"10.1145\/3391614.3399398"},{"key":"1195_CR40","doi-asserted-by":"publisher","unstructured":"Nixon, L.: Predicting your future audience\u2019s popular topics to optimize tv content marketing success. In: Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery. AI4TV \u201920, pp. 5\u201310. Association for Computing Machinery, New York, NY, USA (2020). https:\/\/doi.org\/10.1145\/3422839.3423062","DOI":"10.1145\/3422839.3423062"},{"key":"1195_CR41","unstructured":"Laptev, N., Yosinski, J., Li, L.E., Smyl, S.: Time-series extreme event forecasting with neural networks at uber. In: International Conference on Machine Learning, vol. 34, pp. 1\u20135 (2017)"},{"key":"1195_CR42","doi-asserted-by":"publisher","unstructured":"Bykov, N., Skorohodov, A., Denisenko, E.: Predictive analytics in tv marketing for the mass segment. In: 2023 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), pp. 214\u2013216 (2023). https:\/\/doi.org\/10.1109\/USBEREIT58508.2023.10158901","DOI":"10.1109\/USBEREIT58508.2023.10158901"},{"key":"1195_CR43","doi-asserted-by":"publisher","first-page":"269","DOI":"10.1016\/j.neucom.2019.12.118","volume":"388","author":"S Du","year":"2020","unstructured":"Du, S., Li, T., Yang, Y., Horng, S.-J.: Multivariate time series forecasting via attention-based encoder-decoder framework. Neurocomputing 388, 269\u2013279 (2020)","journal-title":"Neurocomputing"},{"key":"1195_CR44","doi-asserted-by":"publisher","unstructured":"Luong, T., Pham, H., Manning, C.D.: Effective approaches to attention-based neural machine translation. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 1412\u20131421. Association for Computational Linguistics, Lisbon, Portugal (2015). https:\/\/doi.org\/10.18653\/v1\/D15-1166","DOI":"10.18653\/v1\/D15-1166"},{"key":"1195_CR45","unstructured":"Ramachandran, P., Zoph, B., Le, Q.V.: Searching for activation functions (2018). https:\/\/openreview.net\/forum?id=SkBYYyZRZ"},{"key":"1195_CR46","doi-asserted-by":"crossref","unstructured":"Dong, J., Li, X., Xu, C., Ji, S., He, Y., Yang, G., Wang, X.: Dual encoding for zero-example video retrieval. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9346\u20139355 (2019)","DOI":"10.1109\/CVPR.2019.00957"},{"key":"1195_CR47","unstructured":"Faghri, F., Fleet, D.J., Kiros, J.R., Fidler, S.: Vse++: Improving visual-semantic embeddings with hard negatives. In: Proceedings of the British Machine Vision Conference (BMVC) (2018)"},{"key":"1195_CR48","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., Rui, Y.: Msr-vtt: A large video description dataset for bridging video and language. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5288\u20135296 (2016)","DOI":"10.1109\/CVPR.2016.571"},{"key":"1195_CR49","doi-asserted-by":"crossref","unstructured":"Li, Y., Song, Y., Cao, L., Tetreault, J., Goldberg, L., Jaimes, A., Luo, J.: Tgif: A new dataset and benchmark on animated gif description. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4641\u20134650 (2016)","DOI":"10.1109\/CVPR.2016.502"},{"key":"1195_CR50","doi-asserted-by":"crossref","unstructured":"Caba\u00a0Heilbron, F., et al.: ActivityNet: A large-scale video benchmark for human activity understanding. In: Proc. of IEEE CVPR 2015, pp. 961\u2013970 (2015)","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"1195_CR51","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In: Proc. of IEEE\/CVF ICCV 2019, pp. 4581\u20134591 (2019)","DOI":"10.1109\/ICCV.2019.00468"},{"key":"1195_CR52","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763 (2021). PMLR"},{"key":"1195_CR53","unstructured":"Awad, G., Butt, A., Fiscus, J., Joy, D., Delgado, A., et al.: TRECVID 2017: Evaluating ad-hoc and instance video search, events detection, video captioning and hyperlinking. In: TRECVID 2017 Workshop. Gaithersburg, MD, USA (2017)"},{"key":"1195_CR54","unstructured":"Awad, G., Butt, A.A., Curtis, K., Fiscus, J., Godil, A., Lee, Y., Delgado, A., Zhang, J., Godard, E., Chocot, B., Diduch, L., Liu, J., Graham, Y., Jones, G.J.F., , Qu\u00e9not, G.: Evaluating multiple video understanding and retrieval tasks at trecvid 2021. In: Proceedings of TRECVID 2021 (2021). NIST, USA"},{"key":"1195_CR55","doi-asserted-by":"crossref","unstructured":"Li, X., Xu, C., Yang, G., Chen, Z., Dong, J.: W2vv++: Fully deep learning for ad-hoc video search. In: Proceedings of the 27th ACM International Conference on Multimedia, pp. 1786\u20131794 (2019). ACM","DOI":"10.1145\/3343031.3350906"},{"key":"1195_CR56","doi-asserted-by":"crossref","unstructured":"Wu, J., Ngo, C.-W.: Interpretable embedding for ad-hoc video search. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 3357\u20133366. ACM, New York, NY, USA (2020)","DOI":"10.1145\/3394171.3413916"},{"key":"1195_CR57","doi-asserted-by":"publisher","unstructured":"Szegedy, C., Wei Liu, Yangqing Jia, Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: 2015 IEEE\/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 1\u20139 (2015). https:\/\/doi.org\/10.1109\/CVPR.2015.7298594","DOI":"10.1109\/CVPR.2015.7298594"},{"issue":"11","key":"1195_CR58","doi-asserted-by":"publisher","first-page":"1838","DOI":"10.1109\/JPROC.2021.3117472","volume":"109","author":"E Apostolidis","year":"2021","unstructured":"Apostolidis, E., Adamantidou, E., Metsai, A.I., Mezaris, V., Patras, I.: Video summarization using deep neural networks: a survey. Proc. IEEE 109(11), 1838\u20131863 (2021). https:\/\/doi.org\/10.1109\/JPROC.2021.3117472","journal-title":"Proc. IEEE"},{"key":"1195_CR59","doi-asserted-by":"crossref","unstructured":"Apostolidis, E., Adamantidou, E., Metsai, A.I., Mezaris, V., Patras, I.: Unsupervised video summarization via attention-driven adversarial learning. In: International Conference on Multimedia Modeling, pp. 492\u2013504 (2020). Springer","DOI":"10.1007\/978-3-030-37731-1_40"},{"key":"1195_CR60","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107677","volume":"111","author":"P Li","year":"2021","unstructured":"Li, P., Ye, Q., Zhang, L., Yuan, L., Xu, X., Shao, L.: Exploring global diverse attention via pairwise temporal relation for video summarization. Pattern Recogn. 111, 107677 (2021)","journal-title":"Pattern Recogn."},{"key":"1195_CR61","doi-asserted-by":"crossref","unstructured":"Jung, Y., Cho, D., Kim, D., Woo, S., Kweon, I.S.: Discriminative feature learning for unsupervised video summarization. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 8537\u20138544 (2019)","DOI":"10.1609\/aaai.v33i01.33018537"},{"key":"1195_CR62","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248\u2013255 (2009). Ieee","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1195_CR63","doi-asserted-by":"crossref","unstructured":"Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., Torralba, A.: Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (2017)","DOI":"10.1167\/17.10.296"},{"key":"1195_CR64","unstructured":"Tan, M., Le, Q.: Efficientnet: Rethinking model scaling for convolutional neural networks. In: International Conference on Machine Learning, pp. 6105\u20136114 (2019). PMLR"},{"key":"1195_CR65","unstructured":"Over, P.: TRECVID 2013\u2013an overview of the goals, tasks, data, evaluation mechanisms and metrics (2013)"}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-023-01195-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00530-023-01195-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-023-01195-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,14]],"date-time":"2024-02-14T01:13:20Z","timestamp":1707873200000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00530-023-01195-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,1,19]]},"references-count":65,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,2]]}},"alternative-id":["1195"],"URL":"https:\/\/doi.org\/10.1007\/s00530-023-01195-7","relation":{"has-preprint":[{"id-type":"doi","id":"10.21203\/rs.3.rs-3001096\/v1","asserted-by":"object"}]},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"value":"0942-4962","type":"print"},{"value":"1432-1882","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,1,19]]},"assertion":[{"value":"30 May 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"8 December 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"19 January 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no competing interests to declare that are relevant to the content of this article.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"25"}}