{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:27:17Z","timestamp":1740122837599,"version":"3.37.3"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2019,12,2]],"date-time":"2019-12-02T00:00:00Z","timestamp":1575244800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,12,2]],"date-time":"2019-12-02T00:00:00Z","timestamp":1575244800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2021,5]]},"DOI":"10.1007\/s11042-019-08439-7","type":"journal-article","created":{"date-parts":[[2019,12,2]],"date-time":"2019-12-02T17:32:18Z","timestamp":1575307938000},"page":"16141-16152","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Sequential image encoding for vision-to-language problems"],"prefix":"10.1007","volume":"80","author":[{"given":"Jicheng","family":"Wang","sequence":"first","affiliation":[]},{"given":"Yuanen","family":"Zhou","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1042-8361","authenticated-orcid":false,"given":"Zhenzhen","family":"Hu","sequence":"additional","affiliation":[]},{"given":"Xu","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Meng","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,12,2]]},"reference":[{"key":"8439_CR1","doi-asserted-by":"crossref","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: CVPR","DOI":"10.1109\/CVPR.2018.00636"},{"key":"8439_CR2","doi-asserted-by":"crossref","unstructured":"Andreas J, Rohrbach M, Darrell T, Klein D (2016) Learning to compose neural networks for question answering. arXiv:1601.01705","DOI":"10.18653\/v1\/N16-1181"},{"key":"8439_CR3","doi-asserted-by":"crossref","unstructured":"Antol S, Agrawal A, Lu J, Mitchell M, Batra D, Lawrence Zitnick C, Parikh D (2015) Vqa: visual question answering. In: Proceedings of the IEEE international conference on computer vision, pp 2425\u20132433","DOI":"10.1109\/ICCV.2015.279"},{"key":"8439_CR4","unstructured":"Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate. arXiv:1409.0473"},{"key":"8439_CR5","doi-asserted-by":"crossref","unstructured":"Dai B, Ye D, Lin D (2018) Rethinking the form of latent states in image captioning ECCV","DOI":"10.1007\/978-3-030-01228-1_18"},{"key":"8439_CR6","unstructured":"Elliott D, Keller F (2013) Image description using visual dependency representations. In: Proceedings of the 2013 conference on empirical methods in natural language processing, pp 1292\u20131302"},{"key":"8439_CR7","doi-asserted-by":"crossref","unstructured":"Fukui A, Park DH, Yang D, Rohrbach A, Darrell T, Rohrbach M (2016) Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv:1606.01847","DOI":"10.18653\/v1\/D16-1044"},{"issue":"8","key":"8439_CR8","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neur Comput 9(8):1735\u20131780","journal-title":"Neur Comput"},{"key":"8439_CR9","doi-asserted-by":"crossref","unstructured":"Hu R, Andreas J, Rohrbach M, Darrell T, Saenko K (2017) Learning to reason: end-to-end module networks for visual question answering. arXiv:1704.05526, 3","DOI":"10.1109\/ICCV.2017.93"},{"key":"8439_CR10","doi-asserted-by":"crossref","unstructured":"Jia X, Gavves E, Fernando B, Tuytelaars T (2015) Guiding long-short term memory for image caption generation. arXiv:1509.04942","DOI":"10.1109\/ICCV.2015.277"},{"key":"8439_CR11","doi-asserted-by":"crossref","unstructured":"Johnson J, Hariharan B, van der Maaten L, Hoffman J, Fei-Fei L, Zitnick CL, Girshick RB (2017) Inferring and executing programs for visual reasoning. In: ICCV, pp 3008\u20133017","DOI":"10.1109\/ICCV.2017.325"},{"key":"8439_CR12","doi-asserted-by":"crossref","unstructured":"Karpathy A, Fei-Fei L (2015) Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3128\u20133137","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"8439_CR13","unstructured":"Kim JH, Lee SW, Kwak D, Heo MO, Kim J, Ha JW, Zhang BT (2016) Multimodal residual learning for visual qa. In: Advances in neural information processing systems, pp 361\u2013369"},{"key":"8439_CR14","unstructured":"Kuznetsova P, Ordonez V, Berg AC, Berg TL, Choi Y (2012) Collective generation of natural image descriptions. In: Proceedings of the 50th annual meeting of the association for computational linguistics: long papers, vol 1. Association for Computational Linguistics, pp 359\u2013368"},{"key":"8439_CR15","doi-asserted-by":"crossref","unstructured":"Li L, Tang S, Deng L, Zhang Y, Tian Q (2017) Image caption with global-local attention. In: AAAI, pp 4133\u20134139","DOI":"10.1609\/aaai.v31i1.11236"},{"key":"8439_CR16","doi-asserted-by":"crossref","unstructured":"Lin TY, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft coco: common objects in context. In: European conference on computer vision. Springer, pp 740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"8439_CR17","doi-asserted-by":"crossref","unstructured":"Lin Y, Pang Z, Wang D, Zhuang Y (2018) Feature enhancement in attention for visual question answering. In: IJCAI, pp 4216\u20134222","DOI":"10.24963\/ijcai.2018\/586"},{"key":"8439_CR18","doi-asserted-by":"publisher","unstructured":"Liu C, Sun F, Wang C, Wang F, Yuille A (2017) Mat: a multimodal attentive translator for image captioning. In: Proceedings of the twenty-sixth international joint conference on artificial intelligence, IJCAI-17, pp 4033\u20134039. https:\/\/doi.org\/10.24963\/ijcai.2017\/563","DOI":"10.24963\/ijcai.2017\/563"},{"key":"8439_CR19","unstructured":"Lu J, Yang J, Batra D, Parikh D (2016) Hierarchical question-image co-attention for visual question answering. In: Advances in neural information processing systems, pp 289\u2013297"},{"key":"8439_CR20","doi-asserted-by":"crossref","unstructured":"Lu P, Ji L, Zhang W, Duan N, Zhou M, Wang J (2018) R-vqa: learning visual relation facts with semantic attention for visual question answering. arXiv:1805.09701","DOI":"10.1145\/3219819.3220036"},{"key":"8439_CR21","doi-asserted-by":"crossref","unstructured":"Lu P, Li H, Zhang W, Wang J, Wang X (2018) Co-attending free-form regions and detections with multi-modal multiplicative feature embedding for visual question answering. In: AAAI 2018, pp 7218\u20137225","DOI":"10.1609\/aaai.v32i1.12240"},{"key":"8439_CR22","unstructured":"Mao J, Xu W, Yang Y, Wang J, Huang Z, Yuille A (2014) Deep captioning with multimodal recurrent neural networks (m-rnn). arXiv:1412.6632"},{"key":"8439_CR23","doi-asserted-by":"crossref","unstructured":"Mason R, Charniak E (2014) Nonparametric method for data-driven image captioning. In: Proceedings of the 52nd annual meeting of the association for computational linguistics (volume 2: short papers), vol 2, pp 592\u2013598","DOI":"10.3115\/v1\/P14-2097"},{"key":"8439_CR24","unstructured":"Mitchell M, Han X, Dodge J, Mensch A, Goyal A, Berg A, Yamaguchi K, Berg T, Stratos K, Daum\u00e9 H III (2012) Midge: generating image descriptions from computer vision detections. In: Proceedings of the 13th conference of the European chapter of the association for computational linguistics. Association for Computational Linguistics, pp 747\u2013756"},{"key":"8439_CR25","doi-asserted-by":"crossref","unstructured":"Mun J, Cho M, Han B (2017) Text-guided attention model for image captioning. In: AAAI, pp 4233\u20134239","DOI":"10.1609\/aaai.v31i1.11237"},{"issue":"1","key":"8439_CR26","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1007\/s11263-015-0840-y","volume":"119","author":"V Ordonez","year":"2016","unstructured":"Ordonez V, Han X, Kuznetsova P, Kulkarni G, Mitchell M, Yamaguchi K, Stratos K, Goyal A, Dodge J, Mensch A et al (2016) Large scale retrieval and generation of image descriptions. Int J Comput Vis 119(1):46\u201359","journal-title":"Int J Comput Vis"},{"key":"8439_CR27","unstructured":"Ren S, He K, Girshick R, Sun J (2015) Faster r-cnn: towards real-time object detection with region proposal networks. In: Advances in neural information processing systems, pp 91\u201399"},{"key":"8439_CR28","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556"},{"key":"8439_CR29","unstructured":"Sutskever I, Vinyals O, Le QV (2014) Sequence to sequence learning with neural networks. In: Advances in neural information processing systems, pp 3104\u20133112"},{"key":"8439_CR30","doi-asserted-by":"crossref","unstructured":"Vedantam R, Lawrence Zitnick C, Parikh D (2015) Cider: consensus-based image description evaluation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4566\u2013 4575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"8439_CR31","doi-asserted-by":"crossref","unstructured":"Vinyals O, Toshev A, Bengio S, Erhan D (2015) Show and tell: a neural image caption generator. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3156\u20133164","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"8439_CR32","unstructured":"Wang P, Wu Q, Shen C, Hengel Avd, Dick A (2015) Explicit knowledge-based reasoning for visual question answering. arXiv:1511.02570"},{"key":"8439_CR33","doi-asserted-by":"crossref","unstructured":"Wang P, Wu Q, Shen C, Dick A, van den Hengel A (2017) Fvqa: fact-based visual question answering. IEEE Transactions on Pattern Analysis and Machine Intelligence","DOI":"10.1109\/TPAMI.2017.2754246"},{"key":"8439_CR34","doi-asserted-by":"crossref","unstructured":"Wu Q, Shen C, Liu L, Dick A, van den Hengel A (2016) What value do explicit high level concepts have in vision to language problems?. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 203\u2013212","DOI":"10.1109\/CVPR.2016.29"},{"key":"8439_CR35","doi-asserted-by":"crossref","unstructured":"Wu Q, Wang P, Shen C, Dick A, van den Hengel A (2016) Ask me anything: free-form visual question answering based on knowledge from external sources. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4622\u20134630","DOI":"10.1109\/CVPR.2016.500"},{"key":"8439_CR36","doi-asserted-by":"publisher","first-page":"21","DOI":"10.1016\/j.cviu.2017.05.001","volume":"163","author":"Q Wu","year":"2017","unstructured":"Wu Q, Teney D, Wang P, Shen C, Dick A, van den Hengel A (2017) Visual question answering: a survey of methods and datasets. Comput Vis Image Underst 163:21\u201340","journal-title":"Comput Vis Image Underst"},{"key":"8439_CR37","unstructured":"Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhudinov R, Zemel R, Bengio Y (2015) Show, attend and tell: neural image caption generation with visual attention. In: International conference on machine learning, pp 2048\u20132057"},{"key":"8439_CR38","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A (2016) Stacked attention networks for image question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 21\u201329","DOI":"10.1109\/CVPR.2016.10"},{"key":"8439_CR39","doi-asserted-by":"crossref","unstructured":"Yin X, Ordonez V (2017) Obj2text: generating visually descriptive language from object layouts. In: Proceedings of the 2017 conference on empirical methods in natural language processing, pp 177\u2013187","DOI":"10.18653\/v1\/D17-1017"},{"key":"8439_CR40","doi-asserted-by":"crossref","unstructured":"You Q, Jin H, Wang Z, Fang C, Luo J (2016) Image captioning with semantic attention. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4651\u20134659","DOI":"10.1109\/CVPR.2016.503"},{"key":"8439_CR41","doi-asserted-by":"crossref","unstructured":"Yu D, Fu J, Mei T, Rui Y (2017) Multi-level attention networks for visual question answering. In: 2017 IEEE Conference on computer vision and pattern recognition (CVPR). IEEE, pp 4187\u20134195","DOI":"10.1109\/CVPR.2017.446"},{"key":"8439_CR42","doi-asserted-by":"crossref","unstructured":"Yu Z, Yu J, Fan J, Tao D (2017) Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: Proc. IEEE int. conf. comp. vis, vol 3","DOI":"10.1109\/ICCV.2017.202"},{"key":"8439_CR43","unstructured":"Zhang Y, Hare J, Pr\u00fcgel-Bennett A (2018) Learning to count objects in natural images for visual question answering. arXiv:1802.05766"},{"key":"8439_CR44","unstructured":"Zhou B, Tian Y, Sukhbaatar S, Szlam A, Fergus R (2015) Simple baseline for visual question answering. arXiv:1512.02167"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08439-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-019-08439-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08439-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,7]],"date-time":"2022-10-07T11:43:59Z","timestamp":1665143039000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-019-08439-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,12,2]]},"references-count":44,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2021,5]]}},"alternative-id":["8439"],"URL":"https:\/\/doi.org\/10.1007\/s11042-019-08439-7","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"type":"print","value":"1380-7501"},{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2019,12,2]]},"assertion":[{"value":"9 May 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 July 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 November 2019","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 December 2019","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}