{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:41:26Z","timestamp":1755823286605,"version":"3.44.0"},"publisher-location":"New York, NY, USA","reference-count":43,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Australian Research Council","award":["DP210102674"],"award-info":[{"award-number":["DP210102674"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612004","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:27:30Z","timestamp":1698391650000},"page":"6643-6652","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["TopicCAT: Unsupervised Topic-Guided Co-Attention Transformer for Extreme Multimodal Summarisation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3394-0114","authenticated-orcid":false,"given":"Peggy","family":"Tang","sequence":"first","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6891-8059","authenticated-orcid":false,"given":"Kun","family":"Hu","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6926-0538","authenticated-orcid":false,"given":"Lei","family":"Zhang","sequence":"additional","affiliation":[{"name":"International Digital Economy Academy, Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9803-0256","authenticated-orcid":false,"given":"Junbin","family":"Gao","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4516-9729","authenticated-orcid":false,"given":"Jiebo","family":"Luo","sequence":"additional","affiliation":[{"name":"University of Rochester, Rochester, NY, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8043-0312","authenticated-orcid":false,"given":"Zhiyong","family":"Wang","sequence":"additional","affiliation":[{"name":"The University of Sydney, Sydney, NSW, Australia"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","volume-title":"Combining Adversarial and Reinforcement Learning for Video Thumbnail Selection. In International Conference on Multimedia Retrieval (ICMR)","author":"Apostolidis Evlampios","year":"2021","unstructured":"Evlampios Apostolidis, Eleni Adamantidou, Vasileios Mezaris, and Ioannis Patras. 2021. Combining Adversarial and Reinforcement Learning for Video Thumbnail Selection. In International Conference on Multimedia Retrieval (ICMR) (Taipei, Taiwan). Association for Computing Machinery, New York, NY, USA, 1--9."},{"key":"e_1_3_2_2_2_1","volume-title":"Summarizing Videos Using Concentrated Attention and Considering the Uniqueness and Diversity of the Video Frames. In International Conference on Multimedia Retrieval (ICMR)","author":"Apostolidis Evlampios","year":"2022","unstructured":"Evlampios Apostolidis, Georgios Balaouras, Vasileios Mezaris, and Ioannis Patras. 2022. Summarizing Videos Using Concentrated Attention and Considering the Uniqueness and Diversity of the Video Frames. In International Conference on Multimedia Retrieval (ICMR) (Newark, NJ, USA). Association for Computing Machinery, New York, NY, USA, 407--415."},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"publisher","DOI":"10.5555\/944919.944965"},{"key":"e_1_3_2_2_4_1","article-title":"Latent Dirichlet Allocation","volume":"3","author":"Blei David M.","year":"2003","unstructured":"David M. Blei, Andrew Y. Ng, and Michael I. Jordan. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research, Vol. 3 (mar 2003), 993--1022.","journal-title":"Journal of Machine Learning Research"},{"key":"e_1_3_2_2_5_1","volume-title":"TLDR: Extreme Summarization of Scientific Documents. In Findings of the Association for Computational Linguistics: EMNLP","author":"Cachola Isabel","year":"2020","unstructured":"Isabel Cachola, Kyle Lo, Arman Cohan, and Daniel Weld. 2020. TLDR: Extreme Summarization of Scientific Documents. In Findings of the Association for Computational Linguistics: EMNLP 2020. Association for Computational Linguistics, Online, 4766--4777."},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2018.8486533"},{"key":"e_1_3_2_2_7_1","first-page":"13s","article-title":"A Survey on Multi-Modal","volume":"55","author":"Jangra Anubhav","year":"2023","unstructured":"Anubhav Jangra, Sourajit Mukherjee, Adam Jatowt, Sriparna Saha, and Mohammad Hasanuzzaman. 2023. A Survey on Multi-Modal Summarization. Comput. Surveys, Vol. 55, 13s (feb 2023), 1--36.","journal-title":"Summarization. Comput. Surveys"},{"key":"e_1_3_2_2_8_1","volume-title":"From Word Embeddings To Document Distances. In International Conference on Machine Learning (ICML). JMLR.org","author":"Kusner Matt","year":"2015","unstructured":"Matt Kusner, Yu Sun, Nicholas Kolkin, and Kilian Weinberger. 2015. From Word Embeddings To Document Distances. In International Conference on Machine Learning (ICML). JMLR.org, Lille, France, 957--966."},{"key":"e_1_3_2_2_9_1","volume-title":"Hearst","author":"Laban Philippe","year":"2020","unstructured":"Philippe Laban, Andrew Hsi, John Canny, and Marti A. Hearst. 2020. The Summary Loop: Learning to Write Abstractive Summaries Without Examples. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, Online, 5135--5150."},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.752"},{"key":"e_1_3_2_2_11_1","volume-title":"ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out. Association for Computational Linguistics, Barcelona, Spain, 74--81."},{"volume-title":"Conference on Empirical Methods in Natural Language Processing and the International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)","author":"Liu Yang","key":"e_1_3_2_2_12_1","unstructured":"Yang Liu and Mirella Lapata. 2019. Text Summarization with Pretrained Encoders. In Conference on Empirical Methods in Natural Language Processing and the International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Association for Computational Linguistics, Hong Kong, China, 3730--3740."},{"key":"e_1_3_2_2_13_1","volume-title":"Decoupled Weight Decay Regularization. In International Conference on Learning Representations (ICLR). OpenReview.net","author":"Loshchilov Ilya","year":"2018","unstructured":"Ilya Loshchilov and Frank Hutter. 2018. Decoupled Weight Decay Regularization. In International Conference on Learning Representations (ICLR). OpenReview.net, New Orleans, LA, USA."},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2019.07.108"},{"key":"e_1_3_2_2_15_1","volume-title":"On Faithfulness and Factuality in Abstractive Summarization. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics","author":"Maynez Joshua","year":"2020","unstructured":"Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. 2020. On Faithfulness and Factuality in Abstractive Summarization. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, Online, 1906--1919."},{"key":"e_1_3_2_2_16_1","volume-title":"Schwing","author":"Messaoud Safa","year":"2021","unstructured":"Safa Messaoud, Ismini Lourentzou, Assma Boughoula, Mona Zehni, Zhizhen Zhao, Chengxiang Zhai, and Alexander G. Schwing. 2021. DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization. In International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). Association for Computing Machinery, New York, NY, USA, 1389--1399."},{"key":"e_1_3_2_2_17_1","volume-title":"Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics","author":"Mihalcea Rada","year":"2004","unstructured":"Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing Order into Text. In Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Barcelona, Spain, 404--411."},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475635"},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01335"},{"volume-title":"Findings of the Association for Computational Linguistics: (AACL-IJCNLP)","author":"Mukherjee Sourajit","key":"e_1_3_2_2_20_1","unstructured":"Sourajit Mukherjee, Anubhav Jangra, Sriparna Saha, and Adam Jatowt. 2022. Topic-aware Multimodal Summarization. In Findings of the Association for Computational Linguistics: (AACL-IJCNLP). Association for Computational Linguistics, Online only, 387--398."},{"key":"e_1_3_2_2_21_1","volume-title":"Large-Scale Syntactic Language Modeling with Treelets. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics","author":"Pauls Adam","year":"2012","unstructured":"Adam Pauls and Dan Klein. 2012. Large-Scale Syntactic Language Modeling with Treelets. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, Jeju Island, Korea, 959--968."},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN48605.2020.9206951"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.217"},{"key":"e_1_3_2_2_24_1","volume-title":"Learning Transferable Visual Models From Natural Language Supervision. In International Conference on Machine Learning (ICML), Marina Meila and Tong Zhang (Eds.). PMLR, Online, 8748--8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In International Conference on Machine Learning (ICML), Marina Meila and Tong Zhang (Eds.). PMLR, Online, 8748--8763."},{"key":"e_1_3_2_2_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093615"},{"key":"e_1_3_2_2_26_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D13-1115"},{"volume-title":"Get To The Point: Summarization with Pointer-Generator Networks. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics","author":"Liu Peter J.","key":"e_1_3_2_2_27_1","unstructured":"Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get To The Point: Summarization with Pointer-Generator Networks. In Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, Vancouver, Canada, 1073--1083."},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.229"},{"key":"e_1_3_2_2_29_1","volume-title":"Markus Hagenbuchner, Ah Chung Tsoi, Mohammed Bennamoun, Simon JG Lewis, and Zhiyong Wang.","author":"Sun Renfei","year":"2023","unstructured":"Renfei Sun, Kun Hu, Kaylena A Ehgoetz Martens, Markus Hagenbuchner, Ah Chung Tsoi, Mohammed Bennamoun, Simon JG Lewis, and Zhiyong Wang. 2023. Higher Order Polynomial Transformer for Fine-Grained Freezing of Gait Detection. IEEE Transactions on Neural Networks and Learning Systems (2023), 1--14."},{"key":"e_1_3_2_2_30_1","volume-title":"TLDW: Extreme multimodal summarisation of news videos","author":"Tang Peggy","year":"2023","unstructured":"Peggy Tang, Kun Hu, Lei Zhang, Jiebo Luo, and Zhiyong Wang. 2023. TLDW: Extreme multimodal summarisation of news videos. IEEE Transactions on Circuits and Systems for Video Technology (2023)."},{"key":"e_1_3_2_2_31_1","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","volume":"30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017a. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS), Vol. 30 (2017)."},{"key":"e_1_3_2_2_32_1","volume-title":"International Conference on Neural Information Processing Systems (NeurIPS)","volume":"30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017b. Attention is all you need. In International Conference on Neural Information Processing Systems (NeurIPS), Vol. 30. Curran Associates, Inc., Long Beach, CA, USA."},{"key":"e_1_3_2_2_33_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i5.25752"},{"key":"e_1_3_2_2_34_1","volume-title":"Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush.","author":"Wolf Thomas","year":"2020","unstructured":"Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R\u00e9mi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 2020. Transformers: State-of-the-Art Natural Language Processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Association for Computational Linguistics, Online, 38--45."},{"key":"e_1_3_2_2_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2959451"},{"key":"e_1_3_2_2_36_1","volume-title":"International Conference on Machine Learning (ICML). PMLR, Online, 11328--11339","author":"Zhang Jingqing","year":"2020","unstructured":"Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter Liu. 2020b. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization. In International Conference on Machine Learning (ICML). PMLR, Online, 11328--11339."},{"key":"e_1_3_2_2_37_1","volume-title":"Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization. In Thirty-Sixth AAAI Conference on Artificial Intelligence, AAAI","author":"Zhang Litian","year":"2022","unstructured":"Litian Zhang, Xiaoming Zhang, and Junshu Pan. 2022b. Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization. In Thirty-Sixth AAAI Conference on Artificial Intelligence, AAAI 2022. AAAI Press, 11676--11684."},{"key":"e_1_3_2_2_38_1","volume-title":"BERTScore: Evaluating Text Generation with BERT. In International Conference on Learning Representations (ICLR). OpenReview.net, Addis Ababa, Ethiopia.","author":"Zhang Tianyi","year":"2020","unstructured":"Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. 2020a. BERTScore: Evaluating Text Generation with BERT. In International Conference on Learning Representations (ICLR). OpenReview.net, Addis Ababa, Ethiopia."},{"volume-title":"Conference of the North American","author":"Zhang Zihan","key":"e_1_3_2_2_39_1","unstructured":"Zihan Zhang, Meng Fang, Ling Chen, and Mohammad Reza Namazi Rad. 2022a. Is Neural Topic Modelling Better than Clustering? An Empirical Study on Clustering with Contextual Embeddings for Topics. In Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). Association for Computational Linguistics, Seattle, United States, 3886--3893."},{"key":"e_1_3_2_2_40_1","volume-title":"Topic Modeling of Multimodal Data: An Autoregressive Approach. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE","author":"Zheng Yin","year":"2014","unstructured":"Yin Zheng, Yu-Jin Zhang, and Hugo Larochelle. 2014. Topic Modeling of Multimodal Data: An Autoregressive Approach. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, Columbus, OH, USA, 1370--1377."},{"key":"e_1_3_2_2_41_1","volume-title":"MSMO: Multimodal Summarization with Multimodal Output. In Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics","author":"Zhu Junnan","year":"2018","unstructured":"Junnan Zhu, Haoran Li, Tianshang Liu, Yu Zhou, Jiajun Zhang, and Chengqing Zong. 2018. MSMO: Multimodal Summarization with Multimodal Output. In Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Brussels, Belgium, 4154--4164."},{"key":"e_1_3_2_2_42_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6525"},{"key":"e_1_3_2_2_43_1","unstructured":"Elaine Zosa and Lidia Pivovarova. 2022. Multilingual and Multimodal Topic Modelling with Pretrained Embeddings. In International Conference on Computational Linguistics (COLING). International Committee on Computational Linguistics Gyeongju Republic of Korea 4037--4048."}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Ottawa ON Canada","acronym":"MM '23"},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612004","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612004","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T23:58:37Z","timestamp":1755820717000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612004"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":43,"alternative-id":["10.1145\/3581783.3612004","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612004","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}