{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,9]],"date-time":"2025-09-09T21:36:22Z","timestamp":1757453782956,"version":"3.37.3"},"reference-count":77,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100008967","name":"bilim akademisi","doi-asserted-by":"publisher","award":["BAGEP 2021"],"award-info":[{"award-number":["BAGEP 2021"]}],"id":[{"id":"10.13039\/501100008967","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004412","name":"T\u00fcrkiye Bilimler Akademisi","doi-asserted-by":"publisher","award":["GEBIP 2018"],"award-info":[{"award-number":["GEBIP 2018"]}],"id":[{"id":"10.13039\/501100004412","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004410","name":"T\u00fcrkiye Bilimsel ve Teknolojik Arastirma Kurumu","doi-asserted-by":"publisher","award":["217E054"],"award-info":[{"award-number":["217E054"]}],"id":[{"id":"10.13039\/501100004410","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100010897","name":"Newton Fund","doi-asserted-by":"publisher","award":["352343575"],"award-info":[{"award-number":["352343575"]}],"id":[{"id":"10.13039\/100010897","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100000781","name":"European Research Council","doi-asserted-by":"publisher","award":["Starting Grant No. 678017"],"award-info":[{"award-number":["Starting Grant No. 678017"]}],"id":[{"id":"10.13039\/501100000781","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Machine Translation"],"published-print":{"date-parts":[[2021,6]]},"DOI":"10.1007\/s10590-021-09276-y","type":"journal-article","created":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T15:03:51Z","timestamp":1625151831000},"page":"265-288","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["MSVD-Turkish: a comprehensive multimodal video dataset for integrated vision and language research in Turkish"],"prefix":"10.1007","volume":"35","author":[{"given":"Begum","family":"Citamak","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ozan","family":"Caglayan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Menekse","family":"Kuyu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6744-8614","authenticated-orcid":false,"given":"Erkut","family":"Erdem","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Aykut","family":"Erdem","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pranava","family":"Madhyastha","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lucia","family":"Specia","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,7,1]]},"reference":[{"issue":"6","key":"9276_CR1","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3355390","volume":"52","author":"N Aafaq","year":"2019","unstructured":"Aafaq N, Mian A, Liu W, Gilani SZ, Shah M (2019) Video description: a survey of methods, datasets and evaluation metrics and description. ACM Comput Surv 52(6):1\u201337","journal-title":"ACM Comput Surv"},{"key":"9276_CR2","unstructured":"Akin AA, Akin MD (2007) Zemberek, an open source NLP framework for Turkic languages"},{"key":"9276_CR3","unstructured":"Bahdanau D, Cho K, Bengio Y (2015) Neural machine translation by jointly learning to align and translate. In: Proc. International Conference on Learning Representations (ICLR), San Diego, California, USA, arXiv:1409.0473"},{"key":"9276_CR4","unstructured":"Barbu A, Bridge A, Burchill Z, Coroian D, Dickinson S, Fidler S, Michaux A, Mussman S, Narayanaswamy S, Salvi D, Schmidt L, Shangguan J, Siskind JM, Waggoner J, Wang S, Wei J, Yin Y, Zhang Z (2012) Video in sentences out. In: Proc. 28th Conference on Uncertainty in Artificial Intelligence (UAI2012), Catalina Island, California, USA, arXiv:1204.2742,"},{"key":"9276_CR5","doi-asserted-by":"crossref","unstructured":"Barrault L, Bougares F, Specia L, Lala C, Elliott D, Frank S (2018) Findings of the third shared task on multimodal machine translation. In: Proc. Third Conference on Machine Translation, Volume 2: Shared Task Papers, Association for Computational Linguistics, Brussels, Belgium, pp 308\u2013327, http:\/\/www.aclweb.org\/anthology\/W18-6402","DOI":"10.18653\/v1\/W18-6402"},{"key":"9276_CR6","unstructured":"Caglayan O (2019) Multimodal Machine Translation. Theses, Universit\u00e9 du Maine, https:\/\/tel.archives-ouvertes.fr\/tel-02309868"},{"key":"9276_CR7","doi-asserted-by":"crossref","unstructured":"Caglayan O, Aransa W, Bardet A, Garc\u00eda-Mart\u00ednez M, Bougares F, Barrault L, Masana M, Herranz L, van\u00a0de Weijer J (2017a) LIUM-CVC submissions for WMT17 multimodal translation task. In: Proc. Second Conference on Machine Translation, Volume 2: Shared Task Papers, Association for Computational Linguistics, Copenhagen, Denmark, pp 432\u2013439, http:\/\/www.aclweb.org\/anthology\/W17-4746","DOI":"10.18653\/v1\/W17-4746"},{"key":"9276_CR8","doi-asserted-by":"crossref","unstructured":"Caglayan O, Aransa W, Wang Y, Masana M, Garc\u00eda-Mart\u00ednez M, Bougares F, Barrault L, van\u00a0de Weijer J (2016a) Does multimodality help human and machine for translation and image captioning? In: Proc. First Conference on Machine Translation, Association for Computational Linguistics, Berlin, Germany, pp 627\u2013633, http:\/\/www.aclweb.org\/anthology\/W\/W16\/W16-2358","DOI":"10.18653\/v1\/W16-2358"},{"key":"9276_CR9","unstructured":"Caglayan O, Barrault L, Bougares F (2016b) Multimodal attention for neural machine translation. Computing Research Repository arXiv:1609.03976"},{"key":"9276_CR10","doi-asserted-by":"publisher","unstructured":"Caglayan O, Garc\u00eda-Mart\u00ednez M, Bardet A, Aransa W, Bougares F, Barrault L (2017b) NMTPY: A flexible toolkit for advanced neural machine translation systems. Prague Bull Math Linguistics 109:15\u201328. https:\/\/doi.org\/10.1515\/pralin-2017-0035, https:\/\/ufal.mff.cuni.cz\/pbml\/109\/art-caglayan-et-al.pdf","DOI":"10.1515\/pralin-2017-0035"},{"key":"9276_CR11","doi-asserted-by":"crossref","unstructured":"Calixto I, Elliott D, Frank S (2016) DCU-UvA multimodal MT system report. In: Proceedings of the First Conference on Machine Translation, Association for Computational Linguistics, Berlin, Germany, pp 634\u2013638, http:\/\/www.aclweb.org\/anthology\/W\/W16\/W16-2359","DOI":"10.18653\/v1\/W16-2359"},{"key":"9276_CR12","doi-asserted-by":"crossref","unstructured":"Calixto I, Liu Q (2017) Incorporating global visual features into attention-based neural machine translation. In: Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, Copenhagen, Denmark, pp 992\u20131003, https:\/\/www.aclweb.org\/anthology\/D17-1105","DOI":"10.18653\/v1\/D17-1105"},{"key":"9276_CR13","unstructured":"Chen D, Dolan W (2011) Collecting highly parallel data for paraphrase evaluation. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL): Human Language Technologies, Association for Computational Linguistics, Portland, Oregon, USA, pp 190\u2013200, https:\/\/www.aclweb.org\/anthology\/P11-1020"},{"key":"9276_CR14","doi-asserted-by":"crossref","unstructured":"Chen Y, Wang S, Zhang W, Huang Q (2018) Less is more: Picking informative frames for video captioning. In: Proc. European Conference on Computer Vision (ECCV), Munich, Germany, pp 367\u2013384","DOI":"10.1007\/978-3-030-01261-8_22"},{"key":"9276_CR15","doi-asserted-by":"crossref","unstructured":"Cho K, van Merrienboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y (2014) Learning phrase representations using rnn encoder\u2013decoder for statistical machine translation. In: Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, Doha, Qatar, pp 1724\u20131734, http:\/\/www.aclweb.org\/anthology\/D14-1179","DOI":"10.3115\/v1\/D14-1179"},{"key":"9276_CR16","doi-asserted-by":"crossref","unstructured":"Das P, Xu C, Doell R, Corso J (2013) A thousand frames in just a few words: Lingual description of videos through latent topics and sparse object stitching. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Portland, Oregon, USA, pp 2634\u20132641","DOI":"10.1109\/CVPR.2013.340"},{"key":"9276_CR17","doi-asserted-by":"publisher","unstructured":"Denkowski M, Lavie A (2014) Meteor universal: Language specific translation evaluation for any target language. In: Proc. 9th Workshop on Statistical Machine Translation, Association for Computational Linguistics, Baltimore, Maryland, USA, pp 376\u2013380, https:\/\/doi.org\/10.3115\/v1\/W14-3348,","DOI":"10.3115\/v1\/W14-3348"},{"key":"9276_CR18","doi-asserted-by":"crossref","unstructured":"Donahue J, Hendricks LA, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T (2015) Long-term recurrent convolutional networks for visual recognition and description. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, Massachusetts, USA, arXiv:1411.4389","DOI":"10.21236\/ADA623249"},{"key":"9276_CR19","doi-asserted-by":"crossref","unstructured":"Elliott D, Frank S, Barrault L, Bougares F, Specia L (2017) Findings of the second shared task on multimodal machine translation and multilingual image description. In: Proc. 2nd Conference on Machine Translation, Volume 2: Shared Task Papers, Association for Computational Linguistics, Copenhagen, Denmark, pp 215\u2013233, http:\/\/www.aclweb.org\/anthology\/W17-4718","DOI":"10.18653\/v1\/W17-4718"},{"key":"9276_CR20","doi-asserted-by":"crossref","unstructured":"Elliott D, Frank S, Sima\u2019an K, Specia L (2016) Multi30k: Multilingual english-german image descriptions. In: Proc. 5th Workshop on Vision and Language, Association for Computational Linguistics, Berlin, Germany, pp 70\u201374, http:\/\/anthology.aclweb.org\/W16-3210","DOI":"10.18653\/v1\/W16-3210"},{"key":"9276_CR21","unstructured":"Elliott D, K\u00e1d\u00e1r \u00c0 (2017) Imagination improves multimodal translation. In: Proc. 8th International Joint Conference on Natural Language Processing (IJCNLP) (Volume 1: Long Papers), Asian Federation of Natural Language Processing, Taipei, Taiwan, pp 130\u2013141, http:\/\/aclweb.org\/anthology\/I17-1014"},{"key":"9276_CR22","doi-asserted-by":"publisher","unstructured":"Gella S, Lewis M, Rohrbach M (2018) A dataset for telling the stories of social media videos. In: Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, Brussels, Belgium, pp 968\u2013974, https:\/\/doi.org\/10.18653\/v1\/D18-1117,","DOI":"10.18653\/v1\/D18-1117"},{"key":"9276_CR23","doi-asserted-by":"crossref","unstructured":"Guadarrama S, Krishnamoorthy N, Malkarnenkar G, Venugopalan S, Mooney R, Darrell T, Saenko K (2013) Youtube2text: Recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition. In: Proc. IEEE International Conference on Computer Vision (ICCV), Sydney, Australia, pp 2712\u20132719, http:\/\/www.cs.utexas.edu\/users\/ai-labpub-view.php?PubID=127409","DOI":"10.1109\/ICCV.2013.337"},{"key":"9276_CR24","unstructured":"Hakeem A, Sheikh Y, Shah M (2004) $$case^e$$: A hierarchical event representation for the analysis of videos. Proc. Association for the Advancement of Artificial Intelligence (AAAI), San Jose, California, USA, pp 263\u2013268"},{"key":"9276_CR25","doi-asserted-by":"crossref","unstructured":"Hanckmann P, Schutte K, Burghouts GJ (2012) Automated textual descriptions for a wide range of video events with 48 human actions. In: Proc. European Conference on Computer Vision (ECCV), Firenze, Italy","DOI":"10.1007\/978-3-642-33863-2_37"},{"key":"9276_CR26","doi-asserted-by":"publisher","unstructured":"He K, Xiangyu Z, Shaoqing R, Sun J (2016) Deep residual learning for image recognition. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, Nevada, USA, pp 770\u2013778, https:\/\/doi.org\/10.1109\/CVPR.2016.90","DOI":"10.1109\/CVPR.2016.90"},{"issue":"8","key":"9276_CR27","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"9276_CR28","doi-asserted-by":"crossref","unstructured":"Huang PY, Liu F, Shiang SR, Oh J, Dyer C (2016) Attention-based multimodal neural machine translation. In: Proc. First Conference on Machine Translation, Association for Computational Linguistics, Berlin, Germany, pp 639\u2013645, http:\/\/www.aclweb.org\/anthology\/W\/W16\/W16-2360","DOI":"10.18653\/v1\/W16-2360"},{"key":"9276_CR29","unstructured":"Inan H, Khosravi K, Socher R (2016) Tying word vectors and word classifiers: A loss framework for language modeling. CoRR arXiv:1611.01462,"},{"key":"9276_CR30","unstructured":"Kingma D, Ba J (2014) Adam: A method for stochastic optimization. CoRR arXiv:1412.6980"},{"issue":"2","key":"9276_CR31","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1023\/A:1020346032608","volume":"50","author":"A Kojima","year":"2012","unstructured":"Kojima A, Tamura T, Fukunaga K (2012) Natural language description of human activities from video images based on concept hierarchy of actions. Int J Comput Vision (IJCV) 50(2):171\u2013184","journal-title":"Int J Comput Vision (IJCV)"},{"issue":"1","key":"9276_CR32","doi-asserted-by":"publisher","first-page":"61","DOI":"10.1177\/001316447003000105","volume":"30","author":"K Krippendorff","year":"1970","unstructured":"Krippendorff K (1970) Estimating the reliability, systematic error and random error of interval data. Educ Psychol Measur 30(1):61\u201370. https:\/\/doi.org\/10.1177\/001316447003000105","journal-title":"Educ Psychol Measur"},{"key":"9276_CR33","doi-asserted-by":"crossref","unstructured":"Krishna R, Hata K, Ren F, Li F, Niebles JC (2017) Dense-captioning events in videos. arXiv:1705.00754,","DOI":"10.1109\/ICCV.2017.83"},{"key":"9276_CR34","doi-asserted-by":"crossref","unstructured":"Krishnamoorthy N, Malkarnenkar G, Mooney R, Saenko K, Guadarrama S (2013) Generating natural-language video descriptions using text-mined knowledge. In: Proc. Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL): Human Language Technologies, Association for Computational Linguistics, Atlanta, Georgia, USA, pp 10\u201319, https:\/\/www.aclweb.org\/anthology\/W13-1302","DOI":"10.1609\/aaai.v27i1.8679"},{"key":"9276_CR35","doi-asserted-by":"crossref","unstructured":"Kudo T, Richardson J (2018) Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In: Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP): System Demonstrations, Association for Computational Linguistics, Brussels, Belgium, pp 66\u201371, http:\/\/www.aclweb.org\/anthology\/D18-2012","DOI":"10.18653\/v1\/D18-2012"},{"key":"9276_CR36","doi-asserted-by":"publisher","unstructured":"Libovick\u00fd J, Helcl J (2017) Attention strategies for multi-source sequence-to-sequence learning. In: Proc. 55th Annual Meeting of the Association for Computational Linguistics (ACL) (Volume 2: Short Papers), Association for Computational Linguistics, Vancouver, Canada, pp 196\u2013202, https:\/\/doi.org\/10.18653\/v1\/P17-2031","DOI":"10.18653\/v1\/P17-2031"},{"key":"9276_CR37","unstructured":"Lin CY (2004) ROUGE: A package for automatic evaluation of summaries. Proc. Annual Meeting of the Association for Computational Linguistics (ACL), Barcelona, Spain, pp 74\u201381"},{"key":"9276_CR38","doi-asserted-by":"crossref","unstructured":"Lin TY, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft COCO: Common objects in context. In: Proc. European Conference on Computer Vision (ECCV), Springer, Zurich, Switzerland, pp 740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"9276_CR39","doi-asserted-by":"crossref","unstructured":"Li Y, Song Y, Cao L, Tetreault JR, Goldberg L, Jaimes A, Luo J (2016) TGIF: A new dataset and benchmark on animated GIF description. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, Nevada, USA, arXiv:1604.02748,","DOI":"10.1109\/CVPR.2016.502"},{"key":"9276_CR40","doi-asserted-by":"crossref","unstructured":"Ott M, Edunov S, Baevski A, Fan A, Gross S, Ng N, Grangier D, Auli M (2019) fairseq: A Fast, Extensible Toolkit for Sequence Modeling. In: Proc. Conference of the North American Chapter of the Association for Computational Linguistics (NAACL): Human Language Technologies, Minneapolis, Minnesota, USA","DOI":"10.18653\/v1\/N19-4009"},{"key":"9276_CR41","doi-asserted-by":"publisher","unstructured":"Papineni K, Roukos S, Ward T, Zhu WJ (2002) Bleu: A method for automatic evaluation of machine translation. In: Proc. 40th Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, Philadelphia, Pennsylvania, USA, pp 311\u2013318, https:\/\/doi.org\/10.3115\/1073083.1073135","DOI":"10.3115\/1073083.1073135"},{"key":"9276_CR42","doi-asserted-by":"publisher","unstructured":"Plummer BA, Wang L, Cervantes CM, Caicedo JC, Hockenmaier J, Lazebnik S (2015) Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. In: Proc. IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, pp 2641\u20132649, https:\/\/doi.org\/10.1109\/ICCV.2015.303","DOI":"10.1109\/ICCV.2015.303"},{"key":"9276_CR43","doi-asserted-by":"publisher","unstructured":"Post M (2018) A call for clarity in reporting BLEU scores. In: Proceedings of the Third Conference on Machine Translation: Research Papers, Association for Computational Linguistics, Brussels, Belgium, pp 186\u2013191, https:\/\/doi.org\/10.18653\/v1\/W18-6319","DOI":"10.18653\/v1\/W18-6319"},{"key":"9276_CR44","doi-asserted-by":"crossref","unstructured":"Press O, Wolf L (2017) Using the output embedding to improve language models. In: Proc. 15th Conference of the European Chapter of the Association for Computational Linguistics, Valencia, Spain, arXiv:1608.05859,","DOI":"10.18653\/v1\/E17-2025"},{"key":"9276_CR45","doi-asserted-by":"crossref","unstructured":"Qi P, Zhang Y, Zhang Y, Bolton J, Manning CD (2020) Stanza: A Python natural language processing toolkit for many human languages. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, https:\/\/nlp.stanford.edu\/pubs\/qi2020stanza.pdf","DOI":"10.18653\/v1\/2020.acl-demos.14"},{"key":"9276_CR46","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1162\/tacl_a_00207","volume":"1","author":"M Regneri","year":"2013","unstructured":"Regneri M, Rohrbach M, Wetzel D, Thater S, Schiele B, Pinkal M (2013) Grounding action descriptions in videos. Trans Assoc Comput Linguist 1:25\u201336","journal-title":"Trans Assoc Comput Linguist"},{"key":"9276_CR47","doi-asserted-by":"crossref","unstructured":"Rohrbach M, Amin S, Andriluka M, Schiele B (2012) A database for fine grained activity detection of cooking activities. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society, Providence, Rhode Island, USA, pp 1194\u20131201","DOI":"10.1109\/CVPR.2012.6247801"},{"key":"9276_CR48","doi-asserted-by":"crossref","unstructured":"Rohrbach M, Qiu W, Titov I, Thater S, Pinkal M, Schiele B (2013) Translating video content to natural language descriptions. In: Proc. IEEE International Conference on Computer Vision (ICCV), IEEE Computer Society, Sydney, Australia, pp 433\u2013440","DOI":"10.1109\/ICCV.2013.61"},{"key":"9276_CR49","doi-asserted-by":"publisher","unstructured":"Rohrbach A, Rohrbach M, Tandon N, Schiele B (2015) A dataset for movie description. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Boston, Massachusetts, USA, pp 3202\u20133212, https:\/\/doi.org\/10.1109\/CVPR.2015.7298940","DOI":"10.1109\/CVPR.2015.7298940"},{"issue":"1","key":"9276_CR50","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1007\/s11263-016-0987-1","volume":"123","author":"A Rohrbach","year":"2017","unstructured":"Rohrbach A, Torabi A, Rohrbach M, Tandon N, Pal C, Larochelle H, Courville A, Schiele B (2017) Movie description. Int J Comput Vision 123(1):94\u2013120. https:\/\/doi.org\/10.1007\/s11263-016-0987-1","journal-title":"Int J Comput Vision"},{"key":"9276_CR51","doi-asserted-by":"crossref","unstructured":"Senina A, Rohrbach M, Qiu W, Friedrich A, Amin S, Andriluka M, Pinkal M, Schiele B (2014) Coherent multi-sentence video description with variable level of detail. arXiv:1403.6173","DOI":"10.1007\/978-3-319-11752-2_15"},{"key":"9276_CR52","doi-asserted-by":"crossref","unstructured":"Sennrich R, Haddow B, Birch A (2016) Neural machine translation of rare words with subword units. In: Proc. 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Association for Computational Linguistics, Berlin, Germany, pp 1715\u20131725, http:\/\/www.aclweb.org\/anthology\/P16-1162","DOI":"10.18653\/v1\/P16-1162"},{"key":"9276_CR53","doi-asserted-by":"crossref","unstructured":"Sennrich R, Firat O, Cho K, Birch-Mayne A, Haddow B, Hitschler J, Junczys-Dowmunt M, L\u00e4ubli S, Miceli Barone A, Mokry J, Nadejde M (2017) Nematus: a toolkit for neural machine translation. In: Proceedings of the EACL 2017 Software Demonstrations, Association for Computational Linguistics (ACL), Valencia, Spain, pp 65\u201368","DOI":"10.18653\/v1\/E17-3017"},{"key":"9276_CR54","doi-asserted-by":"crossref","unstructured":"Sigurdsson GA, Varol G, Wang X, Farhadi A, Laptev I, Gupta A (2016) Hollywood in homes: Crowdsourcing data collection for activity understanding. arXiv:1604.01753,","DOI":"10.1007\/978-3-319-46448-0_31"},{"key":"9276_CR55","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, cite arxiv:1409.1556"},{"key":"9276_CR56","doi-asserted-by":"crossref","unstructured":"Specia L, Frank S, Sima\u2019an K, Elliott D (2016) A shared task on multimodal machine translation and crosslingual image description. In: Proc. of the First Conference on Machine Translation, Association for Computational Linguistics, Berlin, Germany, pp 543\u2013553, http:\/\/www.aclweb.org\/anthology\/W\/W16\/W16-2346","DOI":"10.18653\/v1\/W16-2346"},{"issue":"1","key":"9276_CR57","first-page":"1929","volume":"15","author":"N Srivastava","year":"2014","unstructured":"Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R (2014) Dropout: A simple way to prevent neural networks from overfitting. J Mach Learn Res 15(1):1929\u20131958","journal-title":"J Mach Learn Res"},{"key":"9276_CR58","unstructured":"Srivastava N, Mansimov E, Salakhutdinov R (2015) Unsupervised learning of video representations using lstms. arXiv:1502.04681,"},{"key":"9276_CR59","doi-asserted-by":"crossref","unstructured":"Sulubacak U, Caglayan O, Gr\u00f6nroos SA, Rouhe A, Elliott D, Specia L, Tiedemann J (2019) Multimodal machine translation through visuals and speech. arXiv:191112798","DOI":"10.1007\/s10590-020-09250-0"},{"key":"9276_CR60","unstructured":"Sutskever I, Vinyals O, Le QV (2014) Sequence to sequence learning with neural networks. In: Proc. 27th International Conference on Neural Information Processing Systems (NeurIPS), MIT Press, Montreal, Canada, pp 3104\u20133112, http:\/\/dl.acm.org\/citation.cfm?id=2969033.2969173"},{"key":"9276_CR61","unstructured":"Thomason J, Venugopalan S, Guadarrama S, Saenko K, Mooney R (2014) Integrating language and vision to generate natural language descriptions of videos in the wild. In: Proc. International Conference on Computational Linguistics (COLING): Technical Papers, Dublin, Ireland, pp 1218\u20131227, https:\/\/www.aclweb.org\/anthology\/C14-1115"},{"key":"9276_CR62","unstructured":"Torabi A, Pal CJ, Larochelle H, Courville AC (2015) Using descriptive video services to create a large data source for video annotation research. arXiv:1503.01070,"},{"key":"9276_CR63","doi-asserted-by":"publisher","unstructured":"Unal ME, Citamak B, Yagcioglu S, Erdem A, Erdem E, Cinbis NI, Cakici R (2016) TasvirEt: A benchmark dataset for automatic Turkish description generation from images. In: Proc. 24th Signal Processing and Communication Application Conference (SIU), pp 1977\u20131980, https:\/\/doi.org\/10.1109\/SIU.2016.7496155","DOI":"10.1109\/SIU.2016.7496155"},{"key":"9276_CR64","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Lu, Polosukhin I (2017) Attention is all you need. In: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, Garnett R (eds) Advances in Neural Information Processing Systems 30, Curran Associates, Inc., pp 5998\u20136008, http:\/\/papers.nips.cc\/paper\/7181-attention-is-all-you-need.pdf"},{"key":"9276_CR65","unstructured":"Vaswani A, Bengio S, Brevdo E, Chollet F, Gomez AN, Gouws S, Jones L, Kaiser L, Kalchbrenner N, Parmar N, Sepassi R, Shazeer N, Uszkoreit J (2018) Tensor2tensor for neural machine translation. arXiv:1803.07416"},{"key":"9276_CR66","doi-asserted-by":"crossref","unstructured":"Vedantam R, Lawrence\u00a0Zitnick C, Parikh D (2015) Cider: Consensus-based image description evaluation. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Boston, Massachusetts, USA, pp 4566\u20134575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"9276_CR67","doi-asserted-by":"crossref","unstructured":"Venugopalan S, Rohrbach M, Donahue J, Mooney R, Darrell T, Saenko K (2015) Sequence to Sequence-Video to Text. In: Proc. IEEE International Conference on Computer Vision (ICCV), Santiago, Chile","DOI":"10.1109\/ICCV.2015.515"},{"key":"9276_CR68","doi-asserted-by":"crossref","unstructured":"Wang X, Chen W, Wu J, Wang Y, Wang WY (2018) Video captioning via hierarchical reinforcement learning. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, Utah, United States, arXiv:1711.11135","DOI":"10.1109\/CVPR.2018.00443"},{"key":"9276_CR69","doi-asserted-by":"crossref","unstructured":"Wang X, Wu J, Chen J, Li L, Wang YF, Wang WY (2019) Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In: Proc. IEEE International Conference on Computer Vision (ICCV), Seoul, Korea","DOI":"10.1109\/ICCV.2019.00468"},{"key":"9276_CR70","unstructured":"Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhudinov R, Zemel R, Bengio Y (2015) Show, attend and tell: Neural image caption generation with visual attention. In: Proc. 32nd International Conference on Machine Learning (ICML), JMLR Workshop and Conference Proceedings, Lille, France, pp 2048\u20132057, http:\/\/jmlr.org\/proceedings\/papers\/v37\/xuc15.pdf"},{"key":"9276_CR71","doi-asserted-by":"crossref","unstructured":"Xu J, Mei T, Yao T, Rui Y (2016) MSR-VTT: A Large Video Description Dataset for Bridging Video and Language. In: Proc. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, Nevada, USA","DOI":"10.1109\/CVPR.2016.571"},{"key":"9276_CR72","doi-asserted-by":"crossref","unstructured":"Yao L, Torabi A, Cho K, Ballas N, Pal C, Larochelle H, Courville A (2015) Describing videos by exploiting temporal structure. In: Proc. IEEE International Conference on Computer Vision (ICCV), Santiago, Chile","DOI":"10.1109\/ICCV.2015.512"},{"key":"9276_CR73","doi-asserted-by":"crossref","unstructured":"Yoshikawa Y, Shigeto Y, Takeuchi A (2017) STAIR captions: Constructing a large-scale japanese image caption dataset. In: Proc. 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, arXiv:1705.00823,","DOI":"10.18653\/v1\/P17-2066"},{"key":"9276_CR74","doi-asserted-by":"crossref","unstructured":"Yu H, Wang J, Huang Z, Yang Y, Xu W (2016) Video paragraph captioning using hierarchical recurrent neural networks. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, Nevada, USA, arXiv:1510.07712,","DOI":"10.1109\/CVPR.2016.496"},{"key":"9276_CR75","doi-asserted-by":"crossref","unstructured":"Zeng K, Chen T, Niebles JC, Sun M (2016) Title generation for user generated videos. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, Nevada, USA, arXiv:1608.07068,","DOI":"10.1007\/978-3-319-46475-6_38"},{"key":"9276_CR76","doi-asserted-by":"crossref","unstructured":"Zhou L, Kalantidis Y, Chen X, Corso JJ, Rohrbach M (2019) Grounded video description. In: Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, California, USA, arXiv:1812.06587","DOI":"10.1109\/CVPR.2019.00674"},{"key":"9276_CR77","unstructured":"Zhou L, Xu C, Corso JJ (2017) Procnets: Learning to segment procedures in untrimmed and unconstrained videos. arXiv:1703.09788"}],"container-title":["Machine Translation"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10590-021-09276-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10590-021-09276-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10590-021-09276-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,5]],"date-time":"2023-11-05T14:36:32Z","timestamp":1699194992000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10590-021-09276-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,6]]},"references-count":77,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2021,6]]}},"alternative-id":["9276"],"URL":"https:\/\/doi.org\/10.1007\/s10590-021-09276-y","relation":{},"ISSN":["0922-6567","1573-0573"],"issn-type":[{"type":"print","value":"0922-6567"},{"type":"electronic","value":"1573-0573"}],"subject":[],"published":{"date-parts":[[2021,6]]},"assertion":[{"value":"15 December 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 June 2021","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 July 2021","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}