{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T00:50:44Z","timestamp":1740099044290,"version":"3.37.3"},"publisher-location":"Cham","reference-count":34,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319759272"},{"type":"electronic","value":"9783319759289"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-319-75928-9_52","type":"book-chapter","created":{"date-parts":[[2018,2,23]],"date-time":"2018-02-23T07:14:14Z","timestamp":1519370054000},"page":"584-596","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Multimodal Attention Agents in Visual Conversation"],"prefix":"10.1007","author":[{"given":"Lorena","family":"Kodra","sequence":"first","affiliation":[]},{"given":"Elinda Kajo","family":"Me\u00e7e","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,2,24]]},"reference":[{"key":"52_CR1","doi-asserted-by":"crossref","unstructured":"Das, A., Kottur, S., Moura, J. M.F., Lee, S., Batra, D.: Learning cooperative visual dialog agents with deep reinforcement learning. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.321"},{"key":"52_CR2","doi-asserted-by":"crossref","unstructured":"Das, A., Kottur, S., Gupta, K., Singh, A., Yadav, D., Moura, J.M.F., Parikh, D., Batra, D.: Visual dialog. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.121"},{"key":"52_CR3","doi-asserted-by":"crossref","unstructured":"de Vries, H., Strub, F., Chandar, S., Pietquin, O., Larochelle, H., Courville, A.: GuessWhat?! Visual object discovery through multi-modal dialogue. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.475"},{"key":"52_CR4","doi-asserted-by":"crossref","unstructured":"Strub, F., de Vries, H., Mary, J., Piot, B., Courville, A., Pietquin, O.: End-to-end optimization of goal-driven and visually grounded dialogue systems. arXiv:1703.05423 (2017)","DOI":"10.24963\/ijcai.2017\/385"},{"key":"52_CR5","doi-asserted-by":"crossref","unstructured":"Chattopadhyay, P., Yadav, D., Prabhu, V., Chandrasekaran, A., Das, A., Lee, S., Batra, D., Parikh, D.: Evaluating visual conversational agents via cooperative human-AI games. In: CVPR (2017)","DOI":"10.1609\/hcomp.v5i1.13312"},{"key":"52_CR6","unstructured":"Hyeonseob, N., Jung-Woo, H., Jeonghee, K.: Dual Attention Networks for Multimodal Reasoning and Matching. arXiv:1611.00471 (2017)"},{"key":"52_CR7","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Groth, O., Bernstein, M., Fei-Fei, L.: Visual7W: grounded question answering in images. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.540"},{"key":"52_CR8","doi-asserted-by":"crossref","unstructured":"Hendricks, L.A., Venugopalan, S., Rohrbach, M., Mooney, R., Saenko, K., Darrell, T.: Deep compositional captioning: describing novel object categories without paired training data. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.8"},{"key":"52_CR9","unstructured":"Delbrouck, J. B., Dupont, S.: Multimodal compact bilinear pooling for multimodal neural machine translation. In: ICLR (2017)"},{"key":"52_CR10","unstructured":"Collobert, R., Kavukcuoglu, K., Farabet, C.: Torch7: a matlab-like environment for machine learning. In: BigLearn, NIPS Workshop (2011)"},{"key":"52_CR11","doi-asserted-by":"crossref","unstructured":"Huang, P-Y., Liu, F., Shiang, Sz-R., Oh, J., Dyer, C.: Attention-based multimodal neural machine translation. In: Proceedings of the First Conference on Machine Translation (2016)","DOI":"10.18653\/v1\/W16-2360"},{"key":"52_CR12","unstructured":"Kingma, D., Ba, J.: Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)"},{"key":"52_CR13","unstructured":"Glorot, X., Bengio, Y.: Understanding the difficulty of training deep feedforward neural networks. In: AISTATS, pp. 249\u2013256 (2010)"},{"key":"52_CR14","unstructured":"Lu, J., Yang, J., Batra, D., Parikh, D.: Hierarchical question-image co-attention for visual question answering. In: NIPS (2016)"},{"key":"52_CR15","doi-asserted-by":"crossref","unstructured":"Caglayan, O., Aransa, W., Wang, Y., Masana, M., Garc\u00eda-Mart\u00ednez, M., Bougares, F., Barrault, L., van de Weijer, J.: Does multimodality help human and machine for translation and image captioning? arXiv preprint arXiv:1605.09186 (2016)","DOI":"10.18653\/v1\/W16-2358"},{"key":"52_CR16","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.: VQA: Visual Question Answering. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.279"},{"key":"52_CR17","doi-asserted-by":"crossref","unstructured":"Xu, H., Saenko, K.: Ask, attend and answer: exploring question-guided spatial attention for visual question answering. In: ECCV (2016)","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"52_CR18","doi-asserted-by":"crossref","unstructured":"Yang, Z., He, X., Gao, J., Deng, L., Smola, A.: Stacked attention networks for image question answering. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.10"},{"key":"52_CR19","unstructured":"Xiong, C., Merity, S., Socher, R.: Dynamic memory networks for visual and textual question answering. In: ICML (2016)"},{"key":"52_CR20","doi-asserted-by":"crossref","unstructured":"Mei, H., Bansal, M., Walter, M. R.: Listen, attend, and walk: neural mapping of navigational instructions to action sequences. In: AAAI (2016)","DOI":"10.1609\/aaai.v30i1.10364"},{"key":"52_CR21","doi-asserted-by":"crossref","unstructured":"Lin, T-Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, C. L., Dollar, P.: Microsoft COCO: Common Objects in Context. arXiv:1405.0312 (2015)","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"52_CR22","doi-asserted-by":"crossref","unstructured":"Fukui, A., Huk Park, D., Yang, D., Rohrbach, A., Darrell, T., Rohrbach, M.: Multimodal compact bilinear pooling for visual question answering and visual grounding. In: EMNLP (2016)","DOI":"10.18653\/v1\/D16-1044"},{"key":"52_CR23","doi-asserted-by":"crossref","unstructured":"Tapaswi, M., Zhu, Y., Stiefelhagen, R., Torralba, A., Urtasun, R., Fidler. S.: MovieQA: understanding stories in movies through question-answering. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.501"},{"issue":"2","key":"52_CR24","doi-asserted-by":"crossref","first-page":"42","DOI":"10.1109\/MMUL.2014.29","volume":"21","author":"K Tu","year":"2014","unstructured":"Tu, K., Meng, M., Lee, M.W., Choe, T.E., Zhu, S.C.: Joint video and text parsing for understanding events and answering queries. IEEE Multimedia 21(2), 42\u201370 (2014)","journal-title":"IEEE Multimedia"},{"key":"52_CR25","doi-asserted-by":"crossref","unstructured":"Zitnick, L., Agrawal, A., Antol, S., Mitchell, M., Batra, D., Parikh, D.: Measuring machine intelligence through visual question answering. AI Mag. (2016)","DOI":"10.1609\/aimag.v37i1.2647"},{"key":"52_CR26","doi-asserted-by":"crossref","unstructured":"Ma, L., Lu, Z., Li, H.: Learning to answer questions from image using convolutional neural network. In: AAAI (2016)","DOI":"10.1609\/aaai.v30i1.10442"},{"key":"52_CR27","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. In: CVPR, pp. 3156\u20133164 (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"52_CR28","unstructured":"Xu, K., Ba, J., Kiros, R., Courville, A., Salakhutdinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: neural image caption generation with visual attention. arXiv preprint arXiv:1502.03044 (2015)"},{"key":"52_CR29","unstructured":"Berkeley Design Technology: A Test Drive of the NVIDIA Jetson TX1 Developer Kit for Deep Learning and Computer Vision Applications. https:\/\/www.bdti.com\/MyBDTI\/pubs:Nvidia_JetsonTX1_Kit.pdf . Accessed 06 Nov 2017"},{"key":"52_CR30","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Fei-Fei, L.: Deep visual-semantic alignments for generating image descriptions. In: CVPR, pp. 3128\u20133137 (2015)","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"52_CR31","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: ICLR (2014)"},{"key":"52_CR32","doi-asserted-by":"crossref","unstructured":"Noh, H., Hongsuck Seo, P., Han, B.: Image question answering using convolutional neural network with dynamic parameter prediction. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.11"},{"key":"52_CR33","unstructured":"Li, R., Jia, J.: Visual question answering with Question Representation Update (QRU). In: NIPS (2016)"},{"key":"52_CR34","unstructured":"Ren, M., Kiros, R., Zemel, R.: Exploring models and data for image question answering. In: NIPS (2015)"}],"container-title":["Lecture Notes on Data Engineering and Communications Technologies","Advances in Internet, Data &amp; Web Technologies"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-75928-9_52","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,9,1]],"date-time":"2023-09-01T07:33:34Z","timestamp":1693553614000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-75928-9_52"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783319759272","9783319759289"],"references-count":34,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-75928-9_52","relation":{},"ISSN":["2367-4512","2367-4520"],"issn-type":[{"type":"print","value":"2367-4512"},{"type":"electronic","value":"2367-4520"}],"subject":[],"published":{"date-parts":[[2018]]}}}