{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T05:17:29Z","timestamp":1781587049999,"version":"3.54.5"},"reference-count":81,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2023,8,24]],"date-time":"2023-08-24T00:00:00Z","timestamp":1692835200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,8,24]],"date-time":"2023-08-24T00:00:00Z","timestamp":1692835200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2023,12]]},"DOI":"10.1007\/s00530-023-01143-5","type":"journal-article","created":{"date-parts":[[2023,8,24]],"date-time":"2023-08-24T06:02:10Z","timestamp":1692856930000},"page":"3481-3504","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":54,"title":["Interactive video retrieval in the age of effective joint embedding deep models: lessons from the 11th VBS"],"prefix":"10.1007","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3558-4144","authenticated-orcid":false,"given":"Jakub","family":"Loko\u010d","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5519-1962","authenticated-orcid":false,"given":"Stelios","family":"Andreadis","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2442-4900","authenticated-orcid":false,"given":"Werner","family":"Bailer","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9825-1654","authenticated-orcid":false,"given":"Aaron","family":"Duane","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2903-3968","authenticated-orcid":false,"given":"Cathal","family":"Gurrin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9127-4175","authenticated-orcid":false,"given":"Zhixin","family":"Ma","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3011-2487","authenticated-orcid":false,"given":"Nicola","family":"Messina","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1356-9434","authenticated-orcid":false,"given":"Thao-Nhu","family":"Nguyen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8082-4509","authenticated-orcid":false,"given":"Ladislav","family":"Pe\u0161ka","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5389-9465","authenticated-orcid":false,"given":"Luca","family":"Rossetto","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8046-0362","authenticated-orcid":false,"given":"Loris","family":"Sauter","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3548-0537","authenticated-orcid":false,"given":"Konstantin","family":"Schall","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9218-1704","authenticated-orcid":false,"given":"Klaus","family":"Schoeffmann","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9720-3645","authenticated-orcid":false,"given":"Omar Shahbaz","family":"Khan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3396-1516","authenticated-orcid":false,"given":"Florian","family":"Spiess","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7182-7038","authenticated-orcid":false,"given":"Lucia","family":"Vadicamo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2505-9178","authenticated-orcid":false,"given":"Stefanos","family":"Vrochidis","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,8,24]]},"reference":[{"key":"1143_CR1","unstructured":"Alayrac, J.B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc, K., Mensch, A., Millican, K., Reynolds, M., et al.: Flamingo: a visual language model for few-shot learning. arXiv preprint arXiv:2204.14198 (2022)"},{"key":"1143_CR2","doi-asserted-by":"publisher","unstructured":"Amato, G., Bolettieri, P., Carrara, F., Debole, F., Falchi, F., Gennaro, C., Vadicamo, L., Vairo, C.: VISIONE at VBS2019. In: International Conference on Multimedia Modeling, pp. 591\u2013596. Springer (2019). https:\/\/doi.org\/10.1007\/978-3-030-05716-9_51","DOI":"10.1007\/978-3-030-05716-9_51"},{"key":"1143_CR3","doi-asserted-by":"publisher","unstructured":"Amato, G., Bolettieri, P., Carrara, F., Debole, F., Falchi, F., Gennaro, C., Vadicamo, L., Vairo, C.: The visione video search system: Exploiting off-the-shelf text search engines for large-scale video retrieval. Journal of Imaging 7(5) (2021). https:\/\/doi.org\/10.3390\/jimaging7050076","DOI":"10.3390\/jimaging7050076"},{"key":"1143_CR4","doi-asserted-by":"publisher","first-page":"543","DOI":"10.1007\/978-3-030-98355-0_52","volume-title":"Multi Media Modeling","author":"G Amato","year":"2022","unstructured":"Amato, G., Bolettieri, P., Carrara, F., Falchi, F., Gennaro, C., Messina, N., Vadicamo, L., Vairo, C.: (2022) Visione at video browser showdown,: In: Huet, B., Gurrin, C., Tran, M.T., Dang-Nguyen, D.T., Hu, A.M.C., Huynh Thi Thanh, B., Huet, B. (eds.) Multi Media Modeling, pp. 543\u2013548. Springer International Publishing, Cham (2022)"},{"key":"1143_CR5","doi-asserted-by":"publisher","unstructured":"Amato, G., Bolettieri, P., Falchi, F., Gennaro, C., Messina, N., Vadicamo, L., Vairo, C.: VISIONE at video browser showdown 2021. In: International Conference on Multimedia Modeling, pp. 473\u2013478. Springer (2021). Doi: https:\/\/doi.org\/10.1007\/978-3-030-67835-7_47","DOI":"10.1007\/978-3-030-67835-7_47"},{"key":"1143_CR6","doi-asserted-by":"crossref","unstructured":"Andreadis, S., Moumtzidou, A., Galanopoulos, D., Pantelidis, N., Apostolidis, K., Touska, D., Gkountakos, K., Pegia, M., Gialampoukidis, I., Vrochidis, S., Mezaris, V., Kompatsiaris, I.: VERGE in vbs 2022. In: International Conference on Multimedia Modeling. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_50"},{"key":"1143_CR7","doi-asserted-by":"crossref","unstructured":"Baek, J., Kim, G., Lee, J., Park, S., Han, D., Yun, S., Oh, S.J., Lee, H.: What is wrong with scene text recognition model comparisons? dataset and model analysis. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 4715\u20134723 (2019)","DOI":"10.1109\/ICCV.2019.00481"},{"key":"1143_CR8","doi-asserted-by":"crossref","unstructured":"Baek, Y., Lee, B., Han, D., Yun, S., Lee, H.: Character region awareness for text detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9365\u20139374 (2019)","DOI":"10.1109\/CVPR.2019.00959"},{"key":"1143_CR9","doi-asserted-by":"publisher","unstructured":"Bailer, W., Arnold, R., Benz, V., Coccomini, D., Gkagkas, A., Gu\u00f0mundsson, G.T., Heller, S., J\u00f3nsson, B.T., Loko\u010d, J., Messina, N., Pantelidis, N., Wu, J.: Improving Query and Assessment Quality in Text-Based Interactive Video Retrieval Evaluation. In: Proceedings of the 2023 ACM International Conference on Multimedia Retrieval. New York: Association for Computing Machinery, pp. 597\u2013601 (2023). https:\/\/doi.org\/10.1145\/3591106.3592281","DOI":"10.1145\/3591106.3592281"},{"key":"1143_CR10","doi-asserted-by":"crossref","unstructured":"Bailey, P., Moffat, A., Scholer, F., Thomas, P.: Retrieval consistency in the presence of query variations. In: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 395\u2013404 (2017)","DOI":"10.1145\/3077136.3080839"},{"issue":"10","key":"1143_CR11","doi-asserted-by":"publisher","first-page":"2582","DOI":"10.1364\/JOSAA.25.002582","volume":"25","author":"R Benavente","year":"2008","unstructured":"Benavente, R., Vanrell, M., Baldrich, R.: Parametric fuzzy sets for automatic color naming. JOSA A 25(10), 2582\u20132593 (2008)","journal-title":"JOSA A"},{"key":"1143_CR12","unstructured":"Bochkovskiy, A., Wang, C.Y., Liao, H.Y.M.: Yolov4: Optimal speed and accuracy of object detection. CoRR arXiv:2004.10934 (2020)"},{"key":"1143_CR13","doi-asserted-by":"crossref","unstructured":"Cao, Z., Hidalgo, G., Simon, T., Wei, S., Sheikh, Y.: Openpose: Realtime multi-person 2d pose estimation using part affinity fields. CoRR abs\/1812.08008 (2018)","DOI":"10.1109\/CVPR.2017.143"},{"key":"1143_CR14","doi-asserted-by":"publisher","unstructured":"Chen, K., Pang, J., Wang, J., Xiong, Y., Li, X., Sun, S., Feng, W., Liu, Z., Shi, J., Ouyang, W., Loy, C.C., Lin, D.: Hybrid task cascade for instance segmentation. In: Conference on Computer Vision and Pattern Recognition pp. 4969\u20134978 (2019). https:\/\/doi.org\/10.1109\/CVPR.2019.00511","DOI":"10.1109\/CVPR.2019.00511"},{"key":"1143_CR15","doi-asserted-by":"crossref","unstructured":"Chen, L.C., Zhu, Y., Papandreou, G., Schroff, F., Adam, H.: Encoder-decoder with atrous separable convolution for semantic image segmentation. In: Proceedings of the European Conference on Computer Vision (ECCV) (2018)","DOI":"10.1007\/978-3-030-01234-2_49"},{"key":"1143_CR16","doi-asserted-by":"publisher","unstructured":"Cox, I., Miller, M., Omohundro, S., Yianilos, P.: Pichunter: Bayesian relevance feedback for image retrieval. In: International Conference on Pattern Recognition, vol. 3, pp. 361\u2013369. IEEE (1996). https:\/\/doi.org\/10.1109\/ICPR.1996.546971","DOI":"10.1109\/ICPR.1996.546971"},{"key":"1143_CR17","unstructured":"Deng, D., Liu, H., Li, X., Cai, D.: Pixellink: Detecting scene text via instance segmentation. In: Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), pp. 6773\u20136780. AAAI (2018)"},{"key":"1143_CR18","doi-asserted-by":"publisher","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: Conference on Computer Vision and Pattern Recognition, pp. 248\u2013255. IEEE (2009). https:\/\/doi.org\/10.1109\/CVPR.2009.5206848","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1143_CR19","doi-asserted-by":"publisher","first-page":"580","DOI":"10.1007\/978-3-030-98355-0_58","volume-title":"MultiMedia Modeling","author":"A Duane","year":"2022","unstructured":"Duane, A., J\u00f3nsson, B.T.: Virma: (2022) Virtual reality multimedia analytics at video browser showdown,: In: Huet, B.T., Gurrin, C., Tran, M.T., Dang-Nguyen, D.T., Hu, A.M.C., Huynh Thi Thanh, B., Huet, B. (eds.) MultiMedia Modeling, pp. 580\u2013585. Springer International Publishing, Cham (2022)"},{"key":"1143_CR20","unstructured":"Fang, H., Xiong, P., Xu, L., Chen, Y.: Clip2video: Mastering video-text retrieval via image clip. arXiv preprint arXiv:2106.11097 (2021)"},{"key":"1143_CR21","doi-asserted-by":"publisher","unstructured":"Galanopoulos, D., Mezaris, V.: Attention mechanisms, signal encodings and fusion strategies for improved ad-hoc video search with dual encoding networks. In: International Conference on Multimedia Retrieval, pp. 336\u2013340. ACM (2020). https:\/\/doi.org\/10.1145\/3372278.3390737","DOI":"10.1145\/3372278.3390737"},{"key":"1143_CR22","doi-asserted-by":"crossref","unstructured":"Girshick, R.: Fast r-cnn. In: Proceedings of the IEEE international conference on computer vision, pp. 1440\u20131448 (2015)","DOI":"10.1109\/ICCV.2015.169"},{"key":"1143_CR23","doi-asserted-by":"publisher","unstructured":"G\u00edslason, S., J\u00f3nsson, B., Amsaleg, L.: Integration of exploration and search: A case study of the m3 model. In: Proceedings of the International Conference on MultiMedia Modeling (MMM), Lecture Notes in Computer Science, pp. 156\u2013168. Springer, Germany (2019). https:\/\/doi.org\/10.1007\/978-3-030-05710-7_13","DOI":"10.1007\/978-3-030-05710-7_13"},{"key":"1143_CR24","doi-asserted-by":"crossref","unstructured":"Gkountakos, K., Touska, D., Ioannidis, K., Tsikrika, T., Vrochidis, S., Kompatsiaris, I.: Spatio-temporal activity detection and recognition in untrimmed surveillance videos. In: Proceedings of the 2021 International Conference on Multimedia Retrieval, pp. 451\u2013455 (2021)","DOI":"10.1145\/3460426.3463591"},{"key":"1143_CR25","doi-asserted-by":"publisher","unstructured":"Gurrin, C., Zhou, L., Healy, G., J\u00f3nsson, B.\u00de., Dang-Nguyen, D., Lokoc, J., Tran, M., H\u00fcrst, W., Rossetto, L., Sch\u00f6ffmann, K.: Introduction to the fifth annual lifelog search challenge, lsc\u201922. In: V. Oria, M.L. Sapino, S. Satoh, B. Kerherv\u00e9, W. Cheng, I. Ide, V.K. Singh (eds.) ICMR \u201922: International Conference on Multimedia Retrieval, Newark, NJ, USA, June 27 - 30, 2022, pp. 685\u2013687. ACM (2022). https:\/\/doi.org\/10.1145\/3512527.3531439","DOI":"10.1145\/3512527.3531439"},{"key":"1143_CR26","doi-asserted-by":"crossref","unstructured":"Hara, K., Kataoka, H., Satoh, Y.: Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet? In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6546\u20136555 (2018)","DOI":"10.1109\/CVPR.2018.00685"},{"key":"1143_CR27","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision, pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"1143_CR28","doi-asserted-by":"crossref","unstructured":"Heller, S., Arnold, R., Gasser, R., Gsteiger, V., Parian-Scherb, M., Rossetto, L., Sauter, L., Spiess, F., Schuldt, H.: Multi-modal interactive video retrieval with temporal queries. In: International Conference on Multimedia Modeling, Lecture Notes in Computer Science. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_44"},{"key":"1143_CR29","doi-asserted-by":"publisher","first-page":"493","DOI":"10.1007\/978-3-030-98355-0_44","volume-title":"MultiMedia Modeling","author":"S Heller","year":"2022","unstructured":"Heller, S., Arnold, R., Gasser, R., Gsteiger, V., Parian-Scherb, M., Rossetto, L., Sauter, L., Spiess, F., Schuldt, H.: Multi-modal Interactive Video Retrieval with Temporal Queries. In: MultiMedia Modeling, pp. 493\u2013498. Springer International Publishing, Cham (2022)"},{"key":"1143_CR30","doi-asserted-by":"publisher","first-page":"435","DOI":"10.1007\/978-3-030-67835-7_41","volume-title":"Int. Conf. Multimed. Model.","author":"S Heller","year":"2021","unstructured":"Heller, S., Gasser, R., Illi, C., Pasquinelli, M., Sauter, L., Spiess, F., Schuldt, H.: Towards explainable interactive multi-modal video retrieval with vitrivr. In: Int. Conf. Multimed. Model., pp. 435\u2013440. Springer, UK (2021)"},{"issue":"1","key":"1143_CR31","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s13735-021-00225-2","volume":"11","author":"S Heller","year":"2022","unstructured":"Heller, S., Gsteiger, V., Bailer, W., Gurrin, C., J\u00f3nsson, B.\u00de, Lokoc, J., Leibetseder, A., Mejzl\u00edk, F., Peska, L., Rossetto, L., Schall, K., Schoeffmann, K., Schuldt, H., Spiess, F., Tran, L., Vadicamo, L., Vesel\u00fd, P., Vrochidis, S., Wu, J.: Interactive video retrieval evaluation at a distance: comparing sixteen interactive video search systems in a remote setting at the 10th video browser showdown. Int. J. Multim. Inf. Retr. 11(1), 1\u201318 (2022). https:\/\/doi.org\/10.1007\/s13735-021-00225-2","journal-title":"Int. J. Multim. Inf. Retr."},{"key":"1143_CR32","doi-asserted-by":"crossref","unstructured":"Hezel, N., Barthel, K.U.: Dynamic construction and manipulation of hierarchical quartic image graphs. In: Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval, ICMR \u201918, p. 513-516. Association for Computing Machinery, New York, NY, USA (2018)","DOI":"10.1145\/3206025.3206093"},{"key":"1143_CR33","doi-asserted-by":"crossref","unstructured":"Hezel, N., Schall, K., Jung, K., Barthel, K.U.: Efficient search and browsing of large-scale video collections with vibro. In: B. \u00de\u00f3r J\u00f3nsson, C. Gurrin, M.T. Tran, D.T. Dang-Nguyen, A.M.C. Hu, B. Huynh Thi Thanh, B. Huet (eds.) MultiMedia Modeling, pp. 487\u2013492. Springer International Publishing, Cham (2022)","DOI":"10.1007\/978-3-030-98355-0_43"},{"key":"1143_CR34","doi-asserted-by":"crossref","unstructured":"Ho, K., Dinh, V.X., Nguyen, H.Q., Le, K., Tran, K.D., Do, T., Mai, T.D., Ngo, T.D., Le, D.D.: Uit at vbs 2022: An unified and interactive video retrieval system with temporal search. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 556-561. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_54"},{"issue":"1","key":"1143_CR35","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1109\/TPAMI.2010.57","volume":"33","author":"H J\u00e9gou","year":"2010","unstructured":"J\u00e9gou, H., Douze, M., Schmid, C.: Product quantization for nearest neighbor search. IEEE Transact. Patt. Anal. Mach. Intell. 33(1), 117\u2013128 (2010). https:\/\/doi.org\/10.1109\/TPAMI.2010.57","journal-title":"IEEE Transact. Patt. Anal. Mach. Intell."},{"key":"1143_CR36","unstructured":"Jia, C., Yang, Y., Xia, Y., Chen, Y.T., Parekh, Z., Pham, H., Le, Q., Sung, Y.H., Li, Z., Duerig, T.: Scaling up visual and vision-language representation learning with noisy text supervision. In: International Conference on Machine Learning, p. 4904\u20134916. PMLR (2021)"},{"key":"1143_CR37","doi-asserted-by":"crossref","unstructured":"Khan, O.S., J\u00f3nsson, B.T., Larsen, M., Poulsen, L., Koelma, D.C., Rudinac, S., Worring, M., Zah\u00e1lka, J.: Exquisitor at the video browser showdown 2021: Relationships between semantic classifiers. In: MultiMedia Modeling: 27th International Conference, MMM 2021, Prague, Czech Republic, June 22-24, 2021, Proceedings, Part II, p. 410-416. Springer-Verlag (2021)","DOI":"10.1007\/978-3-030-67835-7_37"},{"key":"1143_CR38","doi-asserted-by":"crossref","unstructured":"Khan, O.S., J\u00f3nsson, B.T., Rudinac, S., Zah\u00e1lka, J., Ragnarsd\u00f3ttir, H., \u00deorleiksd\u00f3ttir, T., Gu\u00f0mundsson, G.T., Amsaleg, L., Worring, M.: Interactive learning for multimedia at large. In: Advances in Information Retrieval: 42nd European Conference on IR Research, ECIR 2020, Lisbon, Portugal, April 14-17, 2020, Proceedings, Part I, p. 495-510. Springer-Verlag (2020)","DOI":"10.1007\/978-3-030-45439-5_33"},{"key":"1143_CR39","doi-asserted-by":"crossref","unstructured":"Khan, O.S., Larsen, M.D., Poulsen, L.A.S., J\u00f3nsson, B.T., Zah\u00e1lka, J., Rudinac, S., Koelma, D., Worring, M.: Exquisitor at the lifelog search challenge 2020. In: Proceedings of the Third Annual Workshop on Lifelog Search Challenge, LSC \u201920, p. 19-22. Association for Computing Machinery (2020)","DOI":"10.1145\/3379172.3391718"},{"key":"1143_CR40","doi-asserted-by":"crossref","unstructured":"Khan, O.S., Sharma, U., J\u00f3nsson, B.T., Koelma, D.C., Rudinac, S., Worring, M., Zah\u00e1lka, J.: Exquisitor at the video browser showdown 2022. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 511-517. Springer-Verlag (2022)","DOI":"10.1007\/978-3-030-98355-0_47"},{"key":"1143_CR41","doi-asserted-by":"crossref","unstructured":"Le, T.K., Ninh, V.T., Tran, M.K., Healy, G., Gurrin, C., Tran, M.T.: Avseeker: An active video retrieval engine at vbs2022. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 537-542. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_51"},{"key":"1143_CR42","doi-asserted-by":"crossref","unstructured":"Lee, S., Park, S., Ro, Y.M.: Ivist: Interactive video search tool in vbs 2022. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 524-529. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_49"},{"key":"1143_CR43","doi-asserted-by":"crossref","unstructured":"Leibetseder, A., Schoeffmann, K.: divexplore 6.0: Itec\u2019s interactive video exploration system at vbs 2022. In: International Conference on Multimedia Modeling, pp. 569\u2013574. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_56"},{"key":"1143_CR44","doi-asserted-by":"publisher","unstructured":"Li, X., Xu, C., Yang, G., Chen, Z., Dong, J.: W2VV++: Fully Deep Learning for Ad-hoc Video Search. In: Proceedings of the 27th ACM International Conference on Multimedia, pp. 1786\u20131794. ACM, Nice France (2019). https:\/\/doi.org\/10.1145\/3343031.3350906","DOI":"10.1145\/3343031.3350906"},{"key":"1143_CR45","doi-asserted-by":"crossref","unstructured":"Li, X., Yin, X., Li, C., Zhang, P., Hu, X., Zhang, L., Wang, L., Hu, H., Dong, L., Wei, F., et al.: Oscar: Object-semantics aligned pre-training for vision-language tasks. In: European Conference on Computer Vision, pp. 121\u2013137. Springer (2020)","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"1143_CR46","doi-asserted-by":"publisher","unstructured":"Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., Zitnick, C.L.: Microsoft COCO: common objects in context. In: Computer Vision \u2013 ECCV, pp. 740\u2013755. Springer (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"1143_CR47","doi-asserted-by":"publisher","first-page":"388","DOI":"10.1007\/978-3-031-19833-5_23","volume-title":"Computer vision - ECCV 2022","author":"Z Lin","year":"2022","unstructured":"Lin, Z., Geng, S., Zhang, R., Gao, P., de Melo, G., Wang, X., Dai, J., Qiao, Y., Li, H.: Frozen clip models are efficient video learners. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) Computer vision - ECCV 2022, pp. 388\u2013404. Springer Nature Switzerland, Cham (2022)"},{"key":"1143_CR48","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1143_CR49","doi-asserted-by":"crossref","unstructured":"Loko\u010d, J., Mejzl\u00edk, F., Sou\u010dek, T., Dokoupil, P., Pe\u0161ka, L.: Video search with context-aware ranker and relevance feedback. In: B. \u00de\u00f3r J\u00f3nsson, C. Gurrin, M.T. Tran, D.T. Dang-Nguyen, A.M.C. Hu, B. Huynh Thi Thanh, B. Huet (eds.) MultiMedia Modeling, pp. 505\u2013510. Springer International Publishing, Cham (2022)","DOI":"10.1007\/978-3-030-98355-0_46"},{"key":"1143_CR50","doi-asserted-by":"publisher","unstructured":"Loko\u010d, J., Sou\u010dek, T., Vesel\u00fd, P., Mejzl\u00edk, F., Ji, J., Xu, C., Li, X.: A W2VV++ case study with automated and interactive text-to-video retrieval. In: International Conference on Multimedia. ACM (2020). https:\/\/doi.org\/10.1145\/3394171.3414002","DOI":"10.1145\/3394171.3414002"},{"key":"1143_CR51","doi-asserted-by":"publisher","unstructured":"Loko\u010d, J., Vesel\u00fd, P., Mejzl\u00edk, F., Koval\u010d\u00edk, G., Sou\u010dek, T., Rossetto, L., Schoeffmann, K., Bailer, W., Gurrin, C., Sauter, L., Song, J., Vrochidis, S., Wu, J., J\u00f3nsson, B.\u00de.: Is the reign of interactive search eternal? findings from the video browser showdown 2020. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 17(3) (2021). https:\/\/doi.org\/10.1145\/3445031","DOI":"10.1145\/3445031"},{"issue":"12","key":"1143_CR52","doi-asserted-by":"publisher","first-page":"3361","DOI":"10.1109\/TMM.2018.2830110","volume":"20","author":"J Loko\u010d","year":"2018","unstructured":"Loko\u010d, J., Bailer, W., Schoeffmann, K., Muenzer, B., Awad, G.: On influential trends in interactive video retrieval: Video browser showdown 2015\u20132017. IEEE Transact. Multimed. 20(12), 3361\u20133376 (2018). https:\/\/doi.org\/10.1109\/TMM.2018.2830110","journal-title":"IEEE Transact. Multimed."},{"key":"1143_CR53","volume-title":"MultiMedia modeling - 29th international conference, mmm 2023, bergen, norway, January 9\u201312, 2023","author":"J Loko\u010d","year":"2023","unstructured":"Loko\u010d, J., Pe\u0161ka, L.: A study of a cross-modal interactive search tool using clip and temporal fusion. In: Priya, D. (ed.) MultiMedia modeling - 29th international conference, mmm 2023, bergen, norway, January 9\u201312, 2023. Lecture Notes in Computer Science. Springer, UK (2023)"},{"key":"1143_CR54","doi-asserted-by":"crossref","unstructured":"Luu, D.T., Quan, K.A.C., Nguyen, T.Q., Hua, V.S., Nguyen, M.C., Tran, M.T., Nguyen, V.T.: Cdc: Color-based diffusion model with caption embedding in vbs 2022. p. 575-579. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_57"},{"key":"1143_CR55","unstructured":"Ma, Z., Wu, J., Hou, Z., Ngo, C.W.: Reinforcement learning-based interactive video search. In: B. \u00de\u00f3r J\u00f3nsson, C. Gurrin, M.T. Tran, D.T. Dang-Nguyen, A.M.C. Hu, B. Huynh Thi Thanh, B. Huet (eds.) MultiMedia Modeling, pp. 549\u2013555. Springer International Publishing, Cham (2022)"},{"issue":"6","key":"1143_CR56","doi-asserted-by":"publisher","first-page":"1631","DOI":"10.1109\/TCSVT.2018.2848458","volume":"29","author":"F Markatopoulou","year":"2018","unstructured":"Markatopoulou, F., Mezaris, V., Patras, I.: Implicit and explicit concept relations in deep neural networks for multi-label video\/image annotation. IEEE Transact. Circuits Syst. Video Tech 29(6), 1631\u20131644 (2018)","journal-title":"IEEE Transact. Circuits Syst. Video Tech"},{"key":"1143_CR57","doi-asserted-by":"publisher","unstructured":"Markatopoulou, F., Moumtzidou, A., Galanopoulos, D., Avgerinakis, K., Andreadis, S., Gialampoukidis, I., Tachos, S., Vrochidis, S., Mezaris, V., Kompatsiaris, I., Patras, I.: ITI-CERTH participation in TRECVID 2017. In: TREC Video Retrieval Evaluation. NIST (2017). https:\/\/doi.org\/10.5281\/zenodo.1183440","DOI":"10.5281\/zenodo.1183440"},{"key":"1143_CR58","doi-asserted-by":"crossref","unstructured":"Messina, N., Falchi, F., Esuli, A., Amato, G.: Transformer reasoning network for image-text matching and retrieval. In: 2020 25th International Conference on Pattern Recognition (ICPR), pp. 5222\u20135229. IEEE (2021)","DOI":"10.1109\/ICPR48806.2021.9413172"},{"key":"1143_CR59","doi-asserted-by":"crossref","unstructured":"Mettes, P., Koelma, D.C., Snoek, C.G.: The imagenet shuffle: Reorganized pre-training for video event detection. In: Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval, ICMR \u201916, p. 175-182. Association for Computing Machinery (2016)","DOI":"10.1145\/2911996.2912036"},{"key":"1143_CR60","doi-asserted-by":"publisher","unstructured":"Nguyen, T.N., Puangthamawathanakun, B., Healy, G., Nguyen, B.T., Gurrin, C., Caputo, A.: Videofall - A Hierarchical Search Engine for VBS2022. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 518-523. Springer-Verlag, Berlin, Heidelberg (2022). https:\/\/doi.org\/10.1007\/978-3-030-98355-0_48","DOI":"10.1007\/978-3-030-98355-0_48"},{"key":"1143_CR61","doi-asserted-by":"publisher","unstructured":"Pittaras, N., Markatopoulou, F., Mezaris, V., Patras, I.: Comparison of fine-tuning and extension strategies for deep convolutional neural networks. In: International Conference on Multimedia Modeling, pp. 102\u2013114. Springer (2017). https:\/\/doi.org\/10.1007\/978-3-319-51811-4_9","DOI":"10.1007\/978-3-319-51811-4_9"},{"key":"1143_CR62","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. CoRR (2021). arXiv:2103.00020"},{"key":"1143_CR63","doi-asserted-by":"publisher","unstructured":"Revaud, J., Almazan, J., Rezende, R., de Souza, C.: Learning with average precision: Training image retrieval with a listwise loss. In: International Conference on Computer Vision, pp. 5106\u20135115. IEEE (2019). https:\/\/doi.org\/10.1109\/ICCV.2019.00521","DOI":"10.1109\/ICCV.2019.00521"},{"key":"1143_CR64","doi-asserted-by":"publisher","unstructured":"Rossetto, L., Gasser, R., Sauter, L., Bernstein, A., Schuldt, H.: A system for interactive multimedia retrieval evaluations. In: International Conference on Multimedia Modeling. Springer (2021). https:\/\/doi.org\/10.1007\/978-3-030-67835-7_33","DOI":"10.1007\/978-3-030-67835-7_33"},{"key":"1143_CR65","doi-asserted-by":"publisher","unstructured":"Rossetto, L., Parian, M.A., Gasser, R., Giangreco, I., Heller, S., Schuldt, H.: Deep learning-based concept detection in vitrivr. In: International Conference on Multimedia Modeling, pp. 616\u2013621. Springer (2019). https:\/\/doi.org\/10.1007\/978-3-030-05716-9_55","DOI":"10.1007\/978-3-030-05716-9_55"},{"key":"1143_CR66","doi-asserted-by":"publisher","unstructured":"Rossetto, L., Schuldt, H., Awad, G., Butt, A.A.: V3C - A research video collection. In: International Conference on Multimedia Modeling, pp. 349\u2013360. Springer (2019). https:\/\/doi.org\/10.1007\/978-3-030-05710-7_29","DOI":"10.1007\/978-3-030-05710-7_29"},{"key":"1143_CR67","doi-asserted-by":"publisher","unstructured":"Sauter, L., Amiri Parian, M., Gasser, R., Heller, S., Rossetto, L., Schuldt, H.: Combining boolean and multimedia retrieval in vitrivr for large-scale video search. In: International Conference on Multimedia Modeling, pp. 760\u2013765. Springer (2020). https:\/\/doi.org\/10.1007\/978-3-030-37734-2_66","DOI":"10.1007\/978-3-030-37734-2_66"},{"key":"1143_CR68","unstructured":"Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C.W., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., Schramowski, P., Kundurthy, S.R., Crowson, K., Schmidt, L., Kaczmarczyk, R., Jitsev, J.: LAION-5b: An open large-scale dataset for training next generation image-text models. In: Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2022). https:\/\/openreview.net\/forum?id=M3Y74vmsMcY"},{"key":"1143_CR69","unstructured":"Shao, S., Zhao, Z., Li, B., Xiao, T., Yu, G., Zhang, X., Sun, J.: Crowdhuman: A benchmark for detecting human in a crowd. arXiv preprint arXiv:1805.00123 (2018)"},{"issue":"9","key":"1143_CR70","doi-asserted-by":"publisher","first-page":"2035","DOI":"10.1109\/TPAMI.2018.2848939","volume":"41","author":"B Shi","year":"2019","unstructured":"Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai, X.: ASTER: An attentional scene text recognizer with flexible rectification. IEEE Transactions on Pattern Analysis and Machine Intelligence 41(9), 2035\u20132048 (2019). https:\/\/doi.org\/10.1109\/TPAMI.2018.2848939","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1143_CR71","doi-asserted-by":"crossref","unstructured":"Spiess, F., Gasser, R., Heller, S., Parian-Scherb, M., Rossetto, L., Sauter, L., Schuldt, H.: Multi-modal video retrieval in virtual reality with vitrivr-vr. In: International Conference on Multimedia Modeling, Lecture Notes in Computer Science. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_45"},{"key":"1143_CR72","doi-asserted-by":"publisher","unstructured":"Spiess, F., Gasser, R., Heller, S., Rossetto, L., Sauter, L., Schuldt, H.: Competitive interactive video retrieval in virtual reality with vitrivr-vr. In: International Conference on Multimedia Modeling, pp. 441\u2013447. Springer (2021). https:\/\/doi.org\/10.1007\/978-3-030-67835-7_42","DOI":"10.1007\/978-3-030-67835-7_42"},{"key":"1143_CR73","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: Thirty-first AAAI conference on artificial intelligence (2017)","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"1143_CR74","unstructured":"Tan, M., Le, Q.V.: Efficientnet: Rethinking model scaling for convolutional neural networks. In: International Conference on Machine Learning, pp. 6105\u20136114. PMLR (2019)"},{"key":"1143_CR75","doi-asserted-by":"crossref","unstructured":"Tran, M.T., Hoang-Xuan, N., Trang-Trung, H.P., Le, T.C., Tran, M.K., Le, M.Q., Le, T.K., Ninh, V.T., Gurrin, C.: V-first: A flexible interactive retrieval system for video at vbs 2022. In: MultiMedia Modeling: 28th International Conference, MMM 2022, Phu Quoc, Vietnam, June 6-10, 2022, Proceedings, Part II, p. 562-568. Springer (2022)","DOI":"10.1007\/978-3-030-98355-0_55"},{"issue":"7","key":"1143_CR76","doi-asserted-by":"publisher","first-page":"1512","DOI":"10.1109\/TIP.2009.2019809","volume":"18","author":"J Van De Weijer","year":"2009","unstructured":"Van De Weijer, J., Schmid, C., Verbeek, J., Larlus, D.: Learning color names for real-world applications. IEEE Transact. Image Process. 18(7), 1512\u20131523 (2009)","journal-title":"IEEE Transact. Image Process."},{"key":"1143_CR77","doi-asserted-by":"publisher","unstructured":"Vesel\u00fd, P., Mejzl\u00edk, F., Loko\u010d, J.: Somhunter V2 at video browser showdown 2021. In: International Conference on Multimedia Modeling, pp. 461\u2013466. Springer (2021). https:\/\/doi.org\/10.1007\/978-3-030-67835-7_45","DOI":"10.1007\/978-3-030-67835-7_45"},{"key":"1143_CR78","doi-asserted-by":"publisher","unstructured":"Wu, J., Ngo, C.W.: Interpretable embedding for ad-hoc video search. In: Proceedings of the 28th ACM International Conference on Multimedia, MM \u201920, p. 3357-3366. Association for Computing Machinery, New York, NY, USA (2020). https:\/\/doi.org\/10.1145\/3394171.3413916","DOI":"10.1145\/3394171.3413916"},{"key":"1143_CR79","doi-asserted-by":"crossref","unstructured":"Zaidi, S.S.A., Ansari, M.S., Aslam, A., Kanwal, N., Asghar, M., Lee, B.: A survey of modern deep learning based object detection models. Digital Signal Processing p. 103514 (2022)","DOI":"10.1016\/j.dsp.2022.103514"},{"key":"1143_CR80","doi-asserted-by":"crossref","unstructured":"Zhang, H., Wang, Y., Dayoub, F., Sunderhauf, N.: VarifocalNet: An IoU-aware dense object detector. In: 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE (2021)","DOI":"10.1109\/CVPR46437.2021.00841"},{"issue":"3","key":"1143_CR81","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1007\/s11263-018-1140-0","volume":"127","author":"B Zhou","year":"2019","unstructured":"Zhou, B., Zhao, H., Puig, X., Xiao, T., Fidler, S., Barriuso, A., Torralba, A.: Semantic understanding of scenes through the ADE20K dataset. Int. J. Comput. Vis. 127(3), 302\u2013321 (2019). https:\/\/doi.org\/10.1007\/s11263-018-1140-0","journal-title":"Int. J. Comput. Vis."}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-023-01143-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00530-023-01143-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-023-01143-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,16]],"date-time":"2023-11-16T11:11:05Z","timestamp":1700133065000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00530-023-01143-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,8,24]]},"references-count":81,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2023,12]]}},"alternative-id":["1143"],"URL":"https:\/\/doi.org\/10.1007\/s00530-023-01143-5","relation":{},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"value":"0942-4962","type":"print"},{"value":"1432-1882","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,8,24]]},"assertion":[{"value":"9 December 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 July 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 August 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}