{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,30]],"date-time":"2026-06-30T00:33:39Z","timestamp":1782779619878,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":41,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,5,30]],"date-time":"2024-05-30T00:00:00Z","timestamp":1717027200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"Horizon Europe 2020: Marie Sk?odowska-Curie Actions","award":["765140"],"award-info":[{"award-number":["765140"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,5,30]]},"DOI":"10.1145\/3652583.3657582","type":"proceedings-article","created":{"date-parts":[[2024,6,7]],"date-time":"2024-06-07T06:30:40Z","timestamp":1717741840000},"page":"1214-1218","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":8,"title":["Multi-modal Video Summarization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7943-2591","authenticated-orcid":false,"given":"Jia-Hong","family":"Huang","sequence":"first","affiliation":[{"name":"University of Amsterdam, Amsterdam, Netherlands"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2024,6,7]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/3338533.3366583"},{"key":"e_1_3_2_1_2_1","volume-title":"Spatiotemporal Modeling and Label Distribution Learning for Video Summarization. In 2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP). IEEE, 1--6.","author":"Chu Wei-Ta","year":"2019","unstructured":"Wei-Ta Chu and Yu-Hsin Liu. 2019. Spatiotemporal Modeling and Label Distribution Learning for Video Summarization. In 2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP). IEEE, 1--6."},{"key":"e_1_3_2_1_3_1","volume-title":"Stefano Mangini, and Marcel Worring.","author":"Sipio Riccardo Di","year":"2022","unstructured":"Riccardo Di Sipio, Jia-Hong Huang, Samuel Yen-Chi Chen, Stefano Mangini, and Marcel Worring. 2022. The Dawn of Quantum Natural Language Processing. ICASSP (2022)."},{"key":"e_1_3_2_1_4_1","volume-title":"Asian Conference on Computer Vision. Springer, 39--54","author":"Fajtl Jiri","year":"2018","unstructured":"Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, and Paolo Remagnino. 2018. Summarizing videos with attention. In Asian Conference on Computer Vision. Springer, 39--54."},{"key":"e_1_3_2_1_5_1","unstructured":"Boqing Gong Wei-Lun Chao Kristen Grauman and Fei Sha. 2014. Diverse sequential subset selection for supervised video summarization. In Advances in neural information processing systems. 2069--2077."},{"key":"e_1_3_2_1_6_1","volume-title":"Creating summaries from user videos","author":"Gygli Michael","unstructured":"Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. 2014. Creating summaries from user videos. In ECCV. Springer, 505--520."},{"key":"e_1_3_2_1_7_1","volume-title":"Silco: Show a few images, localize the common object. In ICCV. 5067--5076.","author":"Hu Tao","year":"2019","unstructured":"Tao Hu, Pascal Mettes, Jia-Hong Huang, and Cees GM Snoek. 2019. Silco: Show a few images, localize the common object. In ICCV. 5067--5076."},{"key":"e_1_3_2_1_8_1","volume-title":"Robustness Analysis of Visual Question Answering Models by Basic Questions","author":"Huang Jia-Hong","year":"2017","unstructured":"Jia-Hong Huang. 2017. Robustness Analysis of Visual Question Answering Models by Basic Questions. King Abdullah University of Science and Technology, Master Thesis (2017)."},{"key":"e_1_3_2_1_9_1","volume-title":"VQABQ: Visual Question Answering by Basic Questions. VQA ChallengeWorkshop, CVPR","author":"Huang Jia-Hong","year":"2017","unstructured":"Jia-Hong Huang, Modar Alfadly, and Bernard Ghanem. 2017. VQABQ: Visual Question Answering by Basic Questions. VQA ChallengeWorkshop, CVPR (2017)."},{"key":"e_1_3_2_1_10_1","volume-title":"VQA Challenge and Visual Dialog Workshop, CVPR","author":"Huang Jia-Hong","year":"2018","unstructured":"Jia-Hong Huang, Modar Alfadly, and Bernard Ghanem. 2018. Robustness Analysis of Visual QA Models by Basic Questions. VQA Challenge and Visual Dialog Workshop, CVPR (2018)."},{"key":"e_1_3_2_1_11_1","volume-title":"Assessing the robustness of visual question answering. arXiv preprint arXiv:1912.01452","author":"Huang Jia-Hong","year":"2019","unstructured":"Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, and Marcel Worring. 2019. Assessing the robustness of visual question answering. arXiv preprint arXiv:1912.01452 (2019)."},{"key":"e_1_3_2_1_12_1","volume-title":"Improving Visual Question Answering Models through Robustness Analysis and In- Context Learning with a Chain of Basic Questions. arXiv preprint arXiv:2304.03147","author":"Huang Jia-Hong","year":"2023","unstructured":"Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, and MarcelWorring. 2023. Improving Visual Question Answering Models through Robustness Analysis and In- Context Learning with a Chain of Basic Questions. arXiv preprint arXiv:2304.03147 (2023)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018449"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Jia-Hong Huang Luka Murn Marta Mrak and MarcelWorring. 2021. GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video Summarization. In ICMR. 580--589.","DOI":"10.1145\/3460426.3463662"},{"key":"e_1_3_2_1_15_1","volume-title":"Query- Based Video Summarization with Pseudo Label Supervision. In 2023 IEEE International Conference on Image Processing (ICIP). IEEE, 1430--1434","author":"Huang Jia-Hong","year":"2023","unstructured":"Jia-Hong Huang, Luka Murn, Marta Mrak, and Marcel Worring. 2023. Query- Based Video Summarization with Pseudo Label Supervision. In 2023 IEEE International Conference on Image Processing (ICIP). IEEE, 1430--1434."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Jia-Hong Huang and Marcel Worring. 2020. Query-controllable video summarization. In ICMR. 242--250.","DOI":"10.1145\/3372278.3390695"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Jia-Hong Huang Ting-Wei Wu and Marcel Worring. 2021. Contextualized keyword representations for multi-modal retinal image captioning. In ICMR. 645--652.","DOI":"10.1145\/3460426.3463667"},{"key":"e_1_3_2_1_18_1","volume-title":"Zenglin Shi, I Lin, Jesper Tegner, Marcel Worring, et al.","author":"Huang Jia-Hong","year":"2022","unstructured":"Jia-Hong Huang, Ting-Wei Wu, C-H Huck Yang, Zenglin Shi, I Lin, Jesper Tegner, Marcel Worring, et al. 2022. Non-Local Attention Improves Description Generation for Retinal Images. In WACV. 1606--1615."},{"key":"e_1_3_2_1_19_1","volume-title":"Chao-Han Huck Yang, and Marcel Worring","author":"Huang Jia-Hong","year":"2021","unstructured":"Jia-Hong Huang, Ting-Wei Wu, Chao-Han Huck Yang, and Marcel Worring. 2021. Deep context-encoding network for retinal image captioning. In ICIP. IEEE, 3762--3766."},{"key":"e_1_3_2_1_20_1","volume-title":"Chao-Han Huck Yang, and Marcel Worring","author":"Huang Jia-Hong","year":"2021","unstructured":"Jia-Hong Huang, Ting-Wei Wu, Chao-Han Huck Yang, and Marcel Worring. 2021. Longer Version for\" Deep Context-Encoding Network for Retinal Image Captioning\". arXiv preprint arXiv:2105.14538 (2021)."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICME52920.2022.9859948"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00262"},{"key":"e_1_3_2_1_23_1","volume-title":"Pin-Yu Chen, Min-Hung Chen, and MarcelWorring.","author":"Huang Jia-Hong","year":"2023","unstructured":"Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hung Chen, and MarcelWorring. 2023. Conditional Modeling Based Automatic Video Summarization. ACM Transactions on Multimedia Computing, Communications, and Applications (Under review) (2023)."},{"key":"e_1_3_2_1_24_1","volume-title":"Fangyu Liu, Meng Tian, Yi-Chieh Liu, Ting- Wei Wu, I Lin, Kang Wang, Hiromasa Morikawa, Hernghua Chang, et al.","author":"Huang Jia-Hong","year":"2021","unstructured":"Jia-Hong Huang, C-H Huck Yang, Fangyu Liu, Meng Tian, Yi-Chieh Liu, Ting- Wei Wu, I Lin, Kang Wang, Hiromasa Morikawa, Hernghua Chang, et al. 2021. DeepOpht: medical report generation for retinal images via deep models and visual explanation. In WACV. 2442--2452."},{"key":"e_1_3_2_1_25_1","volume-title":"Hiromasa Morikawa, Hao-Hsiang Yang, and Jesper Tegner.","author":"Huck Yang C-H","year":"2018","unstructured":"C-H Huck Yang, Fangyu Liu, Jia-Hong Huang, Meng Tian, I-Hung Lin, Yi Chieh Liu, Hiromasa Morikawa, Hao-Hsiang Yang, and Jesper Tegner. 2018. Autoclassification of retinal diseases in the limit of sparse data using a two-streams machine learning model. In ACCV. Springer, 323--338."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.04.132"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2904996"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01590"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018537"},{"key":"e_1_3_2_1_30_1","volume-title":"Jia-Hong Huang, Meng Tian, Hiromasa Morikawa, Yi-Chang James Tsai, and Jesper Tegner.","author":"Liu Yi-Chieh","year":"2018","unstructured":"Yi-Chieh Liu, Hao-Hsiang Yang, C-H Huck Yang, Jia-Hong Huang, Meng Tian, Hiromasa Morikawa, Yi-Chang James Tsai, and Jesper Tegner. 2018. Synthesizing new retinal symptom images by multiple generative models. In ACCV. Springer, 235--250."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2019.8803639"},{"key":"e_1_3_2_1_32_1","volume-title":"Proceedings of the IEEE conference on computer vision and pattern recognition. 5179--5187","author":"Song Yale","year":"2015","unstructured":"Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. 2015. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE conference on computer vision and pattern recognition. 5179--5187."},{"key":"e_1_3_2_1_33_1","volume-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision. 1859--1868","author":"Wu Ting-Wei","year":"2023","unstructured":"Ting-Wei Wu, Jia-Hong Huang, Joseph Lin, and Marcel Worring. 2023. Expertdefined Keywords Improve Interpretability of Retinal Image Captioning. In Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision. 1859--1868."},{"key":"e_1_3_2_1_34_1","volume-title":"Workshop on Computational Biology, ICML","author":"Huck Yang C-H","year":"2018","unstructured":"C-H Huck Yang, Jia-Hong Huang, Fangyu Liu, Fang-Yi Chiu, Mengya Gao, Weifeng Lyu, Jesper Tegner, et al. 2018. A novel hybrid machine learning model for auto-classification of retinal diseases. Workshop on Computational Biology, ICML (2018)."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0267697"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2017.2771247"},{"key":"e_1_3_2_1_37_1","volume-title":"Video summarization with long short-term memory","author":"Zhang Ke","unstructured":"Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. 2016. Video summarization with long short-term memory. In ECCV. Springer, 766--782."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1145\/3321408.3322622"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123328"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00773"},{"key":"e_1_3_2_1_41_1","volume-title":"Video summarisation by classification with deep reinforcement learning. arXiv preprint:1807.03089","author":"Zhou Kaiyang","year":"2018","unstructured":"Kaiyang Zhou, Tao Xiang, and Andrea Cavallaro. 2018. Video summarisation by classification with deep reinforcement learning. arXiv preprint:1807.03089 (2018)."}],"event":{"name":"ICMR '24: International Conference on Multimedia Retrieval","location":"Phuket Thailand","acronym":"ICMR '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia","SIGSOFT ACM Special Interest Group on Software Engineering"]},"container-title":["Proceedings of the 2024 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3652583.3657582","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3652583.3657582","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T08:51:07Z","timestamp":1755766267000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3652583.3657582"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,30]]},"references-count":41,"alternative-id":["10.1145\/3652583.3657582","10.1145\/3652583"],"URL":"https:\/\/doi.org\/10.1145\/3652583.3657582","relation":{},"subject":[],"published":{"date-parts":[[2024,5,30]]},"assertion":[{"value":"2024-06-07","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}