{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T18:05:29Z","timestamp":1755799529781,"version":"3.44.0"},"publisher-location":"Cham","reference-count":29,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783030000202"},{"type":"electronic","value":"9783030000219"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-030-00021-9_40","type":"book-chapter","created":{"date-parts":[[2018,9,25]],"date-time":"2018-09-25T11:21:11Z","timestamp":1537874471000},"page":"440-451","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Attention-Based Bidirectional Recurrent Neural Networks for Description Generation of Videos"],"prefix":"10.1007","author":[{"given":"Xiaotong","family":"Du","sequence":"first","affiliation":[]},{"given":"Jiabin","family":"Yuan","sequence":"additional","affiliation":[]},{"given":"Hu","family":"Liu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,9,26]]},"reference":[{"issue":"12","key":"40_CR1","doi-asserted-by":"publisher","first-page":"2891","DOI":"10.1109\/TPAMI.2012.162","volume":"35","author":"G Kulkarni","year":"2013","unstructured":"Kulkarni, G., Premraj, V., Ordonez, V.: BabyTalk: understanding and generating simple image descriptions. IEEE Trans. Pattern Anal. Mach. Intell. 35(12), 2891\u20132903 (2013)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"40_CR2","doi-asserted-by":"crossref","unstructured":"Chen, X., Zitnick, C.L.: Mind\u2019s eye: a recurrent visual representation for image caption generation. In: IEEE Computer Vision and Pattern Recognition, pp. 2422\u20132431 (2015)","DOI":"10.1109\/CVPR.2015.7298856"},{"key":"40_CR3","doi-asserted-by":"crossref","unstructured":"Rohrbach, M., Qiu, W., Titov, I., et al.: Translating video content to natural language descriptions. In: IEEE International Conference on Computer Vision, pp. 433\u2013440. IEEE Computer Society (2013)","DOI":"10.1109\/ICCV.2013.61"},{"key":"40_CR4","doi-asserted-by":"crossref","unstructured":"Venugopalan, S., Xu, H., Donahue, J., et al.: Translating videos to natural language using deep recurrent neural networks. Comput. Sci. (2014)","DOI":"10.3115\/v1\/N15-1173"},{"key":"40_CR5","doi-asserted-by":"crossref","unstructured":"Venugopalan, S., Rohrbach, M., Donahue, J., et al.: Sequence to sequence - video to text. In: IEEE International Conference on Computer Vision, pp. 4534\u20134542. IEEE (2015)","DOI":"10.1109\/ICCV.2015.515"},{"key":"40_CR6","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Computer Vision and Pattern Recognition, pp. 770\u2013778 (2015)","DOI":"10.1109\/CVPR.2016.90"},{"key":"40_CR7","unstructured":"Tran, D., Bourdev, L., Fergus, R., et al.: C3D: Generic Features for Video Analysis. Eprint Arxiv (2014)"},{"key":"40_CR8","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1007\/978-3-319-44781-0_1","volume-title":"ICANN 2016","author":"A Peris","year":"2016","unstructured":"Peris, A., Bolanos, M., Radeva, P., Casacuberta, F.: Video description using bidirectional recurrent neural networks. In: Villa, A., Masulli, P., Rivero, A. (eds.) ICANN 2016. LNCS, vol. 9887, pp. 3\u201311. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-44781-0_1"},{"key":"40_CR9","doi-asserted-by":"crossref","unstructured":"Yi, B., Yang, Y., Shen, F., et al.: Bidirectional long-short term memory for video description. In: ACM on Multimedia Conference, pp. 436\u2013440. ACM (2016)","DOI":"10.1145\/2964284.2967258"},{"key":"40_CR10","unstructured":"Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. Comput. Sci.(2014)"},{"key":"40_CR11","first-page":"199","volume":"53","author":"L Yao","year":"2015","unstructured":"Yao, L., Torabi, A., Cho, K., et al.: Video description generation incorporating spatio-temporal features and a soft-attention mechanism. Eprint Arxiv 53, 199\u2013211 (2015)","journal-title":"Eprint Arxiv"},{"key":"40_CR12","unstructured":"Barbu, A., Bridge, A., Burchill, Z., et al.: Video in sentences out. In: Twenty-Eighth Conference on Uncertainty in Artificial Intelligence. arXiv, 274\u2013283 (2012)"},{"key":"40_CR13","doi-asserted-by":"crossref","unstructured":"Yu, H., Wang, J., Huang, Z., et al.: Video paragraph captioning using hierarchical recurrent neural networks. In: Computer Vision and Pattern Recognition, pp. 4584\u20134593. IEEE (2016)","DOI":"10.1109\/CVPR.2016.496"},{"key":"40_CR14","doi-asserted-by":"crossref","unstructured":"Cho, K., Van Merrienboer, B., Bahdanau, D., et al.: On the properties of neural machine translation: encoder-decoder approaches. Comput. Sci. (2014)","DOI":"10.3115\/v1\/W14-4012"},{"key":"40_CR15","doi-asserted-by":"crossref","unstructured":"Venugopalan, S., Hendricks, L.A., Mooney, R., et al.: Improving LSTM-based video description with linguistic knowledge mined from text. In: Conference on Empirical Methods in Natural Language Processing, Austin, Texas, pp. 1961\u20131966 (2016)","DOI":"10.18653\/v1\/D16-1204"},{"key":"40_CR16","first-page":"272","volume":"6738","author":"H Xu","year":"2015","unstructured":"Xu, H., Venugopalan, S., Ramanishka, V., et al.: A multi-scale multiple instance video description network. Comput. Sci. 6738, 272\u2013279 (2015)","journal-title":"Comput. Sci."},{"key":"40_CR17","doi-asserted-by":"crossref","unstructured":"Bin Y, Yang Y, Shen F, et al. Bidirectional long-short term memory for video description. In: ACM on Multimedia Conference, pp. 436\u2013440 (2016)","DOI":"10.1145\/2964284.2967258"},{"key":"40_CR18","doi-asserted-by":"crossref","unstructured":"Pasunuru, R., Bansal, M.: Multi-task video captioning with video and entailment generation. In: Meeting of the Association for Computational Linguistics, pp. 1273\u20131283 (2017)","DOI":"10.18653\/v1\/P17-1117"},{"key":"40_CR19","doi-asserted-by":"crossref","unstructured":"Hershey, S., Chaudhuri, S., Ellis, D.P.W., et al.: CNN architectures for large-scale audio classification. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2379\u2013190X (2017)","DOI":"10.1109\/ICASSP.2017.7952132"},{"issue":"10","key":"40_CR20","doi-asserted-by":"publisher","first-page":"1533","DOI":"10.1109\/TASLP.2014.2339736","volume":"22","author":"O Abdel-Hamid","year":"2014","unstructured":"Abdel-Hamid, O., Mohamed, A.R., Jiang, H., et al.: Convolutional neural networks for speech recognition. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(10), 1533\u20131545 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"40_CR21","doi-asserted-by":"crossref","unstructured":"Jin, Q., Chen, J., Chen, S., et al.: Describing videos using multi-modal fusion. In: ACM on Multimedia Conference, pp. 1087\u20131091. ACM (2016)","DOI":"10.1145\/2964284.2984065"},{"key":"40_CR22","doi-asserted-by":"crossref","unstructured":"Ramanishka, V., Das, A., Dong, H.P., et al.: Multimodal video description. In: ACM on Multimedia Conference, pp. 1092\u20131096. ACM (2016)","DOI":"10.1145\/2964284.2984066"},{"key":"40_CR23","doi-asserted-by":"crossref","unstructured":"D\u2019Angelo, E., Paratte, J., Puy, G., et al.: Fast TV-L1 optical flow for interactivity. In: IEEE International Conference on Image Processing, pp. 1885\u20131888. IEEE (2011)","DOI":"10.1109\/ICIP.2011.6115836"},{"key":"40_CR24","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., et al.: Learning Spatiotemporal Features with 3D Convolutional Networks. eprint arXiv:1412.0767 (2014)","DOI":"10.1109\/ICCV.2015.510"},{"issue":"12","key":"40_CR25","doi-asserted-by":"publisher","first-page":"e0144610","DOI":"10.1371\/journal.pone.0144610","volume":"10","author":"T Giannakopoulos","year":"2015","unstructured":"Giannakopoulos, T.: pyAudioAnalysis: an open-source python library for audio signal analysis. Plos One 10(12), e0144610 (2015)","journal-title":"Plos One"},{"key":"40_CR26","unstructured":"Srivastava, N., Mansimov, E., Salakhutdinov, R.: Unsupervised Learning of Video Representations using LSTMs. eprint arXiv:1502.04681 (2015)"},{"key":"40_CR27","doi-asserted-by":"crossref","unstructured":"Denkowski, M., Lavie, A.: Meteor universal: language specific translation evaluation for any target language. In: The Workshop on Statistical Machine Translation, pp. 376\u2013380 (2014)","DOI":"10.3115\/v1\/W14-3348"},{"key":"40_CR28","first-page":"311","volume":"4","author":"K Papineni","year":"2002","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. Meeting on Association for Computational Linguistics 4, 311\u2013318 (2002)","journal-title":"Meeting on Association for Computational Linguistics"},{"key":"40_CR29","unstructured":"Zeiler, M.D.: ADADELTA: an adaptive learning rate method. Comput. Sci. (2012)"}],"container-title":["Lecture Notes in Computer Science","Cloud Computing and Security"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-00021-9_40","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,19]],"date-time":"2025-08-19T23:53:01Z","timestamp":1755647581000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-030-00021-9_40"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783030000202","9783030000219"],"references-count":29,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-00021-9_40","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"ICCCS","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Cloud Computing and Security","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Haikou","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 June 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"10 June 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"incodldos2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/www.icccsconf.org\/icccs2018.html","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}