{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T15:17:17Z","timestamp":1759331837599},"reference-count":32,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,10,16]],"date-time":"2022-10-16T00:00:00Z","timestamp":1665878400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,10,16]],"date-time":"2022-10-16T00:00:00Z","timestamp":1665878400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,10,16]]},"DOI":"10.1109\/icip46576.2022.9897231","type":"proceedings-article","created":{"date-parts":[[2022,11,3]],"date-time":"2022-11-03T21:27:24Z","timestamp":1667510844000},"source":"Crossref","is-referenced-by-count":6,"title":["Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks"],"prefix":"10.1109","author":[{"given":"Motonari","family":"Kambara","sequence":"first","affiliation":[{"name":"Keio University,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Komei","family":"Sugiura","sequence":"additional","affiliation":[{"name":"Keio University,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00102"},{"key":"ref2","first-page":"5998","article-title":"Attention Is All You Need","volume-title":"NeurIPS","author":"Vaswani"},{"key":"ref3","article-title":"Relational Self-Attention: What\u2019s Missing in Attention for Video Understanding","volume-title":"NeurIPS","author":"Kim"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00443"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref6","first-page":"2048","article-title":"Show, Attend and Tell: Neural Image Caption Generation with Visual Attention","volume-title":"ICML","author":"Xu"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.233"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3107026"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1080\/01691864.2021.1913446"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3295748"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3355390"},{"key":"ref12","article-title":"Multi-modal Dependency Tree for Video Captioning","volume-title":"NeurIPS","author":"Zhao"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00756"},{"key":"ref14","article-title":"UniVL: A Unified Video and Language Pre-training Model for Multimodal Understanding and Generation","author":"Luo","year":"2020"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00030"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00675"},{"key":"ref17","first-page":"1378","article-title":"Image Captioning in Near Future from Vehicle Camera Images and Motion Information","volume-title":"IEEE IV","author":"Mori"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2021.103230"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.706"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00235"},{"key":"ref21","first-page":"4171","article-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding","volume-title":"NAACL-HLT","author":"Devlin"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12342"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-44468-9_64"},{"key":"ref24","year":"2018","journal-title":"World Robot Summit 2018 Partner robot challenge Virtual Space Rules & Regulations"},{"key":"ref25","first-page":"22605","article-title":"COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning","volume-title":"NeurIPS","author":"Ging"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00272"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/S0893-6080(98)00010-0"},{"key":"ref29","first-page":"311","article-title":"BLEU: a method for automatic evaluation of machine translation","volume-title":"ACL","author":"Papineni"},{"key":"ref30","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","volume-title":"Text summarization branches out","author":"Lin"},{"key":"ref31","first-page":"65","article-title":"METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments","volume-title":"the ACL Workshop on IEEM for MTS","author":"Banerjee"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"}],"event":{"name":"2022 IEEE International Conference on Image Processing (ICIP)","location":"Bordeaux, France","start":{"date-parts":[[2022,10,16]]},"end":{"date-parts":[[2022,10,19]]}},"container-title":["2022 IEEE International Conference on Image Processing (ICIP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9897158\/9897159\/09897231.pdf?arnumber=9897231","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,22]],"date-time":"2024-01-22T21:07:54Z","timestamp":1705957674000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9897231\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,16]]},"references-count":32,"URL":"https:\/\/doi.org\/10.1109\/icip46576.2022.9897231","relation":{},"subject":[],"published":{"date-parts":[[2022,10,16]]}}}