{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T18:10:30Z","timestamp":1775067030843,"version":"3.50.1"},"publisher-location":"Cham","reference-count":48,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319920061","type":"print"},{"value":"9783319920078","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-319-92007-8_9","type":"book-chapter","created":{"date-parts":[[2018,5,21]],"date-time":"2018-05-21T15:02:40Z","timestamp":1526914960000},"page":"97-108","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":53,"title":["Attention-Based Temporal Weighted Convolutional Neural Network for Action Recognition"],"prefix":"10.1007","author":[{"given":"Jinliang","family":"Zang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Le","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ziyi","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qilin","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gang","family":"Hua","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nanning","family":"Zheng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,5,22]]},"reference":[{"issue":"1","key":"9_CR1","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji, S., Xu, W., Yang, M., Yu, K.: 3D convolutional neural networks for human action recognition. IEEE T-PAMI 35(1), 221\u2013231 (2013)","journal-title":"IEEE T-PAMI"},{"key":"9_CR2","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large- scale video classification with convolutional neural networks. In: CVPR, pp. 1725\u20131732 (2014)","DOI":"10.1109\/CVPR.2014.223"},{"issue":"2","key":"9_CR3","doi-asserted-by":"publisher","first-page":"1249","DOI":"10.1121\/1.3672656","volume":"131","author":"Q Zhang","year":"2012","unstructured":"Zhang, Q., Abeida, H., Xue, M., Rowe, W., Li, J.: Fast implementation of sparse iterative covariance-based estimation for source localization. J. Acoust. Soc. Am. 131(2), 1249\u20131259 (2012)","journal-title":"J. Acoust. Soc. Am."},{"issue":"6","key":"9_CR4","doi-asserted-by":"publisher","first-page":"1341","DOI":"10.3390\/s17061341","volume":"17","author":"Lingyan Ran","year":"2017","unstructured":"Ran, L., Zhang, Y., Zhang, Q., Yang, T.: Convolutional neural network-based robot navigation using uncalibrated spherical images. Sensors 17(6), p. 1341 (2017)","journal-title":"Sensors"},{"issue":"4","key":"9_CR5","doi-asserted-by":"publisher","first-page":"933","DOI":"10.1109\/TSP.2012.2231676","volume":"61","author":"H Abeida","year":"2013","unstructured":"Abeida, H., Zhang, Q., Li, J., Merabtine, N.: Iterative sparse asymptotic minimum variance based approaches for array processing. IEEE Trans. Sig. Process. 61(4), 933\u2013944 (2013)","journal-title":"IEEE Trans. Sig. Process."},{"key":"9_CR6","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4724\u20134733. IEEE (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"9_CR7","doi-asserted-by":"crossref","unstructured":"Le, W., Jianru, X., Nanning, Z., Gang, H.: Automatic salient object extraction with contextual cue. In: ICCV, pp. 105\u2013112 (2011)","DOI":"10.1109\/ICCV.2011.6126231"},{"issue":"10","key":"9_CR8","doi-asserted-by":"publisher","first-page":"2074","DOI":"10.1109\/TPAMI.2016.2612187","volume":"39","author":"L Wang","year":"2017","unstructured":"Wang, L., Hua, G., Sukthankar, R., Xue, J., Zheng, N.: Video object discovery and co-segmentation with extremely weak supervision. T-PAMI 39(10), 2074\u20132088 (2017)","journal-title":"T-PAMI"},{"key":"9_CR9","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR, pp. 3431\u20133440 (2015)","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"9_CR10","unstructured":"Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recog-nition in videos. In: NIPS, pp. 568\u2013576 (2014)"},{"key":"9_CR11","doi-asserted-by":"crossref","unstructured":"Yue-Hei, Ng, J., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R.: Beyond short snippets: deep networks for video classification. In: CVPR, pp. 4694\u20134702 (2015)","DOI":"10.1109\/CVPR.2015.7299101"},{"key":"9_CR12","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Limin Wang","year":"2016","unstructured":"Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X., Van Gool, L.: Temporal segment networks: towards good practices for deep action recognition. In: ECCV, pp. 20\u201336 (2016)"},{"key":"9_CR13","doi-asserted-by":"crossref","unstructured":"Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In: CVPR, pp. 2625\u20132634 (2015)","DOI":"10.21236\/ADA623249"},{"key":"9_CR14","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3D convolutional networks. In: ICCV, pp. 4489\u20134497 (2015)","DOI":"10.1109\/ICCV.2015.510"},{"key":"9_CR15","doi-asserted-by":"crossref","unstructured":"Ch\u00e9ron, G., Laptev, I., Schmid, C.: P-cnn: pose-based cnn features for action recognition. In: ICCV, pp. 3218\u20133226 (2015)","DOI":"10.1109\/ICCV.2015.368"},{"key":"9_CR16","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Pinz, A., Zisserman, A.: Convolutional two-stream network fusion for video action recognition. In: CVPR, pp. 1933\u20131941 (2016)","DOI":"10.1109\/CVPR.2016.213"},{"key":"9_CR17","doi-asserted-by":"crossref","unstructured":"Huang, J., Zhou, W., Zhang, Q., Li, H., Li, W.: Video-based sign language recog-nition without temporal segmentation. arXiv preprint arXiv:1801.10111 (2018)","DOI":"10.1609\/aaai.v32i1.11903"},{"key":"9_CR18","doi-asserted-by":"crossref","unstructured":"Wang, H., Schmid, C.: Action recognition with improved trajectories. In: ICCV, pp. 3551\u20133558 (2013)","DOI":"10.1109\/ICCV.2013.441"},{"key":"9_CR19","doi-asserted-by":"crossref","unstructured":"Schuldt, C., Laptev, I., Caputo, B.: Recognizing human actions: a local SVM approach. In: ICPR, vol. 3, pp. 32\u201336 (2004)","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"9_CR20","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: Ucf101: a dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402 (2012)"},{"key":"9_CR21","first-page":"571","volume-title":"High Performance Computing in Science and Engineering \u201812","author":"Hilde Kuehne","year":"2012","unstructured":"Kuehne, H., Jhuang, H., Stiefelhagen, R., Serre, T.: Hmdb51: a large video database for human motion recognition. In: High Performance Computing in Science and Engineering, pp. 571\u2013582 (2013)"},{"key":"9_CR22","doi-asserted-by":"crossref","unstructured":"Luong, M.T., Pham, H., Manning, C.D.: Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025 (2015)","DOI":"10.18653\/v1\/D15-1166"},{"key":"9_CR23","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: neural image caption generation with visual attention. In: ICML, pp. 2048\u20132057 (2015)"},{"key":"9_CR24","unstructured":"Mnih, V., Heess, N., Graves, A., et al.: Recurrent models of visual attention. In: NIPS, pp. 2204\u20132212 (2014)"},{"key":"9_CR25","doi-asserted-by":"crossref","unstructured":"Wang, H., Kl\u00a8aser, A., Schmid, C., Liu, C.L.: Action recognition by dense trajectories. In: CVPR, pp. 3169\u20133176 (2011)","DOI":"10.1109\/CVPR.2011.5995407"},{"issue":"2\u20133","key":"9_CR26","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I.: On space-time interest points. IJCV 64(2\u20133), 107\u2013123 (2005)","journal-title":"IJCV"},{"issue":"10","key":"9_CR27","doi-asserted-by":"publisher","first-page":"2421","DOI":"10.3390\/s17102421","volume":"17","author":"Lingyan Ran","year":"2017","unstructured":"Ran, L., Zhang, Y., Wei, W., Zhang, Q.: A hyperspectral image classification framework with spatial pixel pair features. Sensors 17(10), p. 2421 (2017)","journal-title":"Sensors"},{"key":"9_CR28","doi-asserted-by":"crossref","unstructured":"Wang, J., Liu, Z., Wu, Y., Yuan, J.: Mining actionlet ensemble for action recognition with depth cameras. In: CVPR, pp. 1290\u20131297 (2012)","DOI":"10.1109\/CVPR.2012.6247813"},{"key":"9_CR29","doi-asserted-by":"crossref","unstructured":"Du, Y., Wang, W., Wang, L.: Hierarchical recurrent neural network for skeleton based action recognition. In: CVPR, pp. 1110\u20131118 (2015)","DOI":"10.1109\/CVPR.2015.7298714"},{"key":"9_CR30","doi-asserted-by":"crossref","unstructured":"Zhang, Q., Hua, G.: Multi-view visual recognition of imperfect testing data. In: Proceedings of the 23rd Annual ACM Conference on Multimedia Conference, pp. 561\u2013570. ACM (2015)","DOI":"10.1145\/2733373.2806224"},{"key":"9_CR31","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"65","DOI":"10.1007\/978-3-319-16865-4_5","volume-title":"Computer Vision \u2013 ACCV 2014","author":"Q Zhang","year":"2015","unstructured":"Zhang, Q., Hua, G., Liu, W., Liu, Z., Zhang, Z.: Can visual recognition benefit from auxiliary information in training? In: Cremers, D., Reid, I., Saito, H., Yang, M.-H. (eds.) ACCV 2014. LNCS, vol. 9003, pp. 65\u201380. Springer, Cham (2015). https:\/\/doi.org\/10.1007\/978-3-319-16865-4_5"},{"key":"9_CR32","doi-asserted-by":"publisher","first-page":"138","DOI":"10.2197\/ipsjtcva.7.138","volume":"7","author":"Q Zhang","year":"2015","unstructured":"Zhang, Q., Hua, G., Liu, W., Liu, Z., Zhang, Z.: Auxiliary training information assisted visual recognition. IPSJ Trans. Comput. Vis. Appl. 7, 138\u2013150 (2015)","journal-title":"IPSJ Trans. Comput. Vis. Appl."},{"key":"9_CR33","doi-asserted-by":"crossref","unstructured":"Yao, L., Torabi, A., Cho, K., Ballas, N., Pal, C., Larochelle, H., Courville, A.: Describing videos by exploiting temporal structure. In: ICCV, pp. 4507\u20134515 (2015)","DOI":"10.1109\/ICCV.2015.512"},{"issue":"11","key":"9_CR34","doi-asserted-by":"publisher","first-page":"2782","DOI":"10.1109\/TPAMI.2013.65","volume":"35","author":"A Gaidon","year":"2013","unstructured":"Gaidon, A., Harchaoui, Z., Schmid, C.: Temporal localization of actions with actoms. IEEE T-PAMI 35(11), 2782\u20132795 (2013)","journal-title":"IEEE T-PAMI"},{"key":"9_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, Q., Abeida, H., Xue, M., Rowe, W., Li, J.: Fast implementation of sparse iterative covariance-based estimation for array processing. In: 2011 Conference Record of the Forty Fifth Asilomar Conference on Signals, Systems and Computers (ASILOMAR), pp. 2031\u20132035. IEEE (2011)","DOI":"10.1109\/ACSSC.2011.6190383"},{"key":"9_CR36","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"9_CR37","unstructured":"Ioffe, S., Szegedy, C.: Batch normalization: accelerating deep network training by reducing internal covariate shift. In: ICML, pp. 448\u2013456 (2015)"},{"key":"9_CR38","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: a large-scale hierarchical image database. In: CVPR, pp. 248\u2013255 (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"9_CR39","unstructured":"Paszke, A., Gross, S., Chintala, S., Chanan, G.: Pytorch (2017)"},{"key":"9_CR40","doi-asserted-by":"crossref","unstructured":"Cai, Z., Wang, L., Peng, X., Qiao, Y.: Multi-view super vector for action recognition. In: CVPR, pp. 596\u2013603 (2014)","DOI":"10.1109\/CVPR.2014.83"},{"key":"9_CR41","first-page":"109","volume":"150","author":"X Peng","year":"2016","unstructured":"Peng, X., Wang, L., Wang, X., Qiao, Y.: Bag of visual words and fusion methods for action recognition: comprehensive study and good practice. CVIU 150, 109\u2013125 (2016)","journal-title":"CVIU"},{"issue":"3","key":"9_CR42","doi-asserted-by":"publisher","first-page":"254","DOI":"10.1007\/s11263-015-0859-0","volume":"119","author":"L Wang","year":"2016","unstructured":"Wang, L., Qiao, Y., Tang, X.: Mofap: a multi-level representation for action recognition. IJCV 119(3), 254\u2013271 (2016)","journal-title":"IJCV"},{"key":"9_CR43","doi-asserted-by":"crossref","unstructured":"Sun, L., Jia, K., Yeung, D.Y., Shi, B.E.: Human action recognition using factorized spatio-temporal convolutional networks. In: ICCV, pp. 4597\u20134605 (2015)","DOI":"10.1109\/ICCV.2015.522"},{"key":"9_CR44","doi-asserted-by":"crossref","unstructured":"Wang, L., Qiao, Y., Tang, X.: Action recognition with trajectory-pooled deep- convolutional descriptors. In: CVPR, pp. 4305\u20134314 (2015)","DOI":"10.1109\/CVPR.2015.7299059"},{"key":"9_CR45","doi-asserted-by":"crossref","unstructured":"Varol, G., Laptev, I., Schmid, C.: Long-term temporal convolutions for action recognition. In: IEEE T-PAMI (2017)","DOI":"10.1109\/TPAMI.2017.2712608"},{"key":"9_CR46","doi-asserted-by":"crossref","unstructured":"Zhu, W., Hu, J., Sun, G., Cao, X., Qiao, Y.: A key volume mining deep framework for action recognition. In: CVPR, pp. 1991\u20131999 (2016)","DOI":"10.1109\/CVPR.2016.219"},{"key":"9_CR47","doi-asserted-by":"crossref","unstructured":"Fernando, B., Gavves, E., Oramas, J.M., Ghodrati, A., Tuytelaars, T.: Modeling video evolution for action recognition. In: CVPR, pp. 5378\u20135387 (2015)","DOI":"10.1109\/CVPR.2015.7299176"},{"key":"9_CR48","doi-asserted-by":"crossref","unstructured":"Ni, B., Moulin, P., Yang, X., Yan, S.: Motion part regularization: improving action recognition via trajectory selection. In: CVPR, pp. 3698\u20133706 (2015)","DOI":"10.1109\/CVPR.2015.7298993"}],"container-title":["IFIP Advances in Information and Communication Technology","Artificial Intelligence Applications and Innovations"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-92007-8_9","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,4]],"date-time":"2025-07-04T17:19:35Z","timestamp":1751649575000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-319-92007-8_9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783319920061","9783319920078"],"references-count":48,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-92007-8_9","relation":{},"ISSN":["1868-4238","1868-422X"],"issn-type":[{"value":"1868-4238","type":"print"},{"value":"1868-422X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]},"assertion":[{"value":"22 May 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"AIAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"IFIP International Conference on Artificial Intelligence Applications and Innovations","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Rhodes","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Greece","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2018","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25 May 2018","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 May 2018","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"aiai2018","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/easyconferences.eu\/aiai2018\/index.html","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}