{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,24]],"date-time":"2026-03-24T11:48:34Z","timestamp":1774352914967,"version":"3.50.1"},"reference-count":29,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,6,18]],"date-time":"2023-06-18T00:00:00Z","timestamp":1687046400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,6,18]],"date-time":"2023-06-18T00:00:00Z","timestamp":1687046400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,6,18]]},"DOI":"10.1109\/ijcnn54540.2023.10192022","type":"proceedings-article","created":{"date-parts":[[2023,8,2]],"date-time":"2023-08-02T17:30:03Z","timestamp":1690997403000},"page":"1-8","source":"Crossref","is-referenced-by-count":5,"title":["Can Multimodal Pointer Generator Transformers Produce Topically Relevant Summaries?"],"prefix":"10.1109","author":[{"given":"Sourajit","family":"Mukherjee","sequence":"first","affiliation":[{"name":"Department of Mathematics"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Adam","family":"Jatowt","sequence":"additional","affiliation":[{"name":"University of Innsbruck,Department of Computer Science"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Raghvendra","family":"Kumar","sequence":"additional","affiliation":[{"name":"Indian Institute of Technology Patna,Department of Computer Science and Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anubhav","family":"Jangra","sequence":"additional","affiliation":[{"name":"Indian Institute of Technology Patna,Department of Computer Science and Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sriparna","family":"Saha","sequence":"additional","affiliation":[{"name":"Indian Institute of Technology Patna,Department of Computer Science and Engineering"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","author":"qiu","year":"2022","journal-title":"Mhms Multimodal hierarchical multimedia summarization"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2021.107152"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.402"},{"key":"ref14","volume":"abs 1911 9826","author":"zadeh","year":"2019","journal-title":"Factorized multimodal transformer for multimodal sequential learning"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/577"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.33"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1448"},{"key":"ref1","volume":"abs 2109 5199","author":"jangra","year":"2021","journal-title":"A survey on multi-modal summarization"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICBASE53849.2021.00051"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6525"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2013.2267205"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN52387.2021.9534082"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1099"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/s12559-018-9611-8"},{"key":"ref26","author":"simonyan","year":"2015","journal-title":"Very Deep Convolutional Networks for Large-scale Image Recognition"},{"key":"ref25","author":"cer","year":"2018","journal-title":"Universal sentence encoder"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6332"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0223477"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2011.5711541"},{"key":"ref28","author":"bahdanau","year":"2016","journal-title":"Neural machine translation by jointly learning to align and translate"},{"key":"ref27","volume":"abs 1503 3832","author":"schroff","year":"2015","journal-title":"Facenet A unified embed-ding for face recognition and clustering"},{"key":"ref29","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"lin","year":"2004","journal-title":"Text Summarization Branches Out"},{"key":"ref8","author":"jangra","year":"2020","journal-title":"Multi-modal summary generation using multi-objective optimization"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-45442-5_24"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6525"},{"key":"ref4","volume":"abs 1706 3762","author":"vaswani","year":"2017","journal-title":"Attention is all you need"},{"key":"ref3","author":"haviv","year":"2022","journal-title":"Transformer language models without positional encodings still learn positional information"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/SPIN.2019.8711625"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/2822907"}],"event":{"name":"2023 International Joint Conference on Neural Networks (IJCNN)","location":"Gold Coast, Australia","start":{"date-parts":[[2023,6,18]]},"end":{"date-parts":[[2023,6,23]]}},"container-title":["2023 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10190990\/10190992\/10192022.pdf?arnumber=10192022","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,21]],"date-time":"2023-08-21T17:47:33Z","timestamp":1692640053000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10192022\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,18]]},"references-count":29,"URL":"https:\/\/doi.org\/10.1109\/ijcnn54540.2023.10192022","relation":{},"subject":[],"published":{"date-parts":[[2023,6,18]]}}}