{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,1]],"date-time":"2025-07-01T19:31:36Z","timestamp":1751398296794,"version":"3.37.3"},"reference-count":59,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2022]]},"DOI":"10.1109\/access.2022.3185243","type":"journal-article","created":{"date-parts":[[2022,6,22]],"date-time":"2022-06-22T19:41:37Z","timestamp":1655926897000},"page":"67653-67668","source":"Crossref","is-referenced-by-count":6,"title":["Pre-Trained Word Embedding and Language Model Improve Multimodal Machine Translation: A Case Study in Multi30K"],"prefix":"10.1109","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4657-8214","authenticated-orcid":false,"given":"Tosho","family":"Hirasawa","sequence":"first","affiliation":[{"name":"Graduate School of System Design, Tokyo Metropolitan University, Hino, Tokyo, Japan"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5117-5447","authenticated-orcid":false,"given":"Masahiro","family":"Kaneko","sequence":"additional","affiliation":[{"name":"Graduate School of System Design, Tokyo Metropolitan University, Hino, Tokyo, Japan"}]},{"given":"Aizhan","family":"Imankulova","sequence":"additional","affiliation":[{"name":"Graduate School of System Design, Tokyo Metropolitan University, Hino, Tokyo, Japan"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1166-1739","authenticated-orcid":false,"given":"Mamoru","family":"Komachi","sequence":"additional","affiliation":[{"name":"Graduate School of System Design, Tokyo Metropolitan University, Hino, Tokyo, Japan"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W16-3210"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1017\/S1351324918000074"},{"key":"ref3","first-page":"1","article-title":"Neural machine translation by jointly learning to align and translate","volume-title":"Proc. ICLR","author":"Bahdanau"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-020-18073-9"},{"key":"ref5","first-page":"145","article-title":"Tohoku-AIP-NTT at WMT 2020 news translation task","volume-title":"Proc. 5th Conf. Mach. Transl.","author":"Kiyono"},{"key":"ref6","first-page":"1","article-title":"Findings of the 2020 conference on machine translation (WMT20)","volume-title":"Proc. 5th Conf. Mach. Transl.","author":"Barrault"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00166"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W18-6439"},{"key":"ref9","first-page":"923","article-title":"OpenSubtitles2016: Extracting large parallel corpora from movie and TV subtitles","volume-title":"Proc. LREC","author":"Lison"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.eacl-main.112"},{"key":"ref12","first-page":"1","article-title":"Cross-lingual language model pretraining","volume-title":"Proc. NeurIPS","volume":"32","author":"Lample"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-2084"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00051"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-3012"},{"key":"ref16","first-page":"1","article-title":"Improving zero-shot learning by mitigating the hubness problem","volume-title":"ICLR, Workshop Track","author":"Dinu"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W16-2506"},{"key":"ref18","first-page":"2487","article-title":"Hubs in space: Popular nearest neighbors in high-dimensional data","volume":"11","author":"Radovanovi\u0107","year":"2010","journal-title":"J. Mach. Learn. Res."},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v29i1.9629"},{"key":"ref20","first-page":"1","article-title":"All-but-the-top: Simple and effective postprocessing for word representations","volume-title":"Proc. ICLR","author":"Mu"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.149"},{"key":"ref22","first-page":"32","article-title":"Debiasing word embeddings improves multimodal machine translation","volume-title":"Proc. Mach. Transl. Summit XVII, Res. Track","author":"Hirasawa"},{"key":"ref23","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. NAACL","author":"Devlin"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1387"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.391"},{"key":"ref26","first-page":"1","article-title":"Incorporating BERT into neural machine translation","volume-title":"Proc. ICLR","author":"Zhu"},{"key":"ref27","first-page":"5998","article-title":"Attention is all you need","volume-title":"Proc. NeurIPS","author":"Vaswani"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1514"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.323"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W18-6441"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1009"},{"key":"ref32","first-page":"1","article-title":"Von Mises\u2013Fisher loss for training sequence to sequence models with continuous outputs","volume-title":"Proc. ICLR","author":"Kumar"},{"key":"ref33","first-page":"7057","article-title":"Cross-lingual language model pretraining","volume-title":"Proc. NeurIPS","author":"Lample"},{"article-title":"Language models are unsupervised multitask learners","year":"2019","author":"Radford","key":"ref34"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-5603"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"ref37","first-page":"13","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. NeurIPS","author":"Lu"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.7005"},{"key":"ref39","article-title":"VisualBERT: A simple and performant baseline for vision and language","author":"Li","year":"2019","journal-title":"arXiv:1908.03557"},{"key":"ref40","first-page":"1","article-title":"VL-BERT: Pre-training of generic visual-linguistic representations","volume-title":"Proc. ICLR","author":"Su"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W18-6438"},{"key":"ref43","first-page":"130","article-title":"Imagination improves multimodal translation","volume-title":"Proc. IJCNLP","author":"Elliott"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-2031"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1400"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-4012"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1162"},{"key":"ref48","first-page":"91","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume-title":"Proc. NeurIPS","author":"Ren"},{"key":"ref49","first-page":"3111","article-title":"Distributed representations of words and phrases and their compositionality","volume-title":"Proc. NeurIPS","author":"Mikolov"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1515\/pralin-2017-0035"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W17-4718"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-3348"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/7287.001.0001"},{"article-title":"Multimodal machine translation","year":"2019","author":"Caglayan","key":"ref57"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1329"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1422"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9668973\/09803016.pdf?arnumber=9803016","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,1]],"date-time":"2024-02-01T05:31:32Z","timestamp":1706765492000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9803016\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"references-count":59,"URL":"https:\/\/doi.org\/10.1109\/access.2022.3185243","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2022]]}}}