{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T11:45:39Z","timestamp":1742989539744,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":39,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819620630"},{"type":"electronic","value":"9789819620647"}],"license":[{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2064-7_27","type":"book-chapter","created":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T19:24:51Z","timestamp":1735327491000},"page":"367-380","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Saliency Based Data Augmentation for\u00a0Few-Shot Video Action Recognition"],"prefix":"10.1007","author":[{"given":"Yongqiang","family":"Kong","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunhong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Annan","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,28]]},"reference":[{"key":"27_CR1","unstructured":"Blattmann, A., et al.: Stable video diffusion: scaling latent video diffusion models to large datasets. arXiv preprint arXiv:1907.09021 (2023)"},{"key":"27_CR2","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1007\/978-3-540-24673-2_3","volume-title":"Computer Vision - ECCV 2004","author":"T Brox","year":"2004","unstructured":"Brox, T., Bruhn, A., Papenberg, N., Weickert, J.: High accuracy optical flow estimation based on a theory for warping. In: Pajdla, T., Matas, J. (eds.) ECCV 2004. LNCS, vol. 3024, pp. 25\u201336. Springer, Heidelberg (2004). https:\/\/doi.org\/10.1007\/978-3-540-24673-2_3"},{"key":"27_CR3","doi-asserted-by":"crossref","unstructured":"Cao, K., Ji, J., Cao, Z., Chang, C.Y., Niebles, J.C.: Few-shot video classification via temporal alignment. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10615\u201310624 (2020)","DOI":"10.1109\/CVPR42600.2020.01063"},{"key":"27_CR4","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 4724\u20134733 (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"27_CR5","doi-asserted-by":"crossref","unstructured":"Cipolla, R., Gal, Y., Kendall, A.: Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7482\u20137491 (2018)","DOI":"10.1109\/CVPR.2018.00781"},{"issue":"4","key":"27_CR6","doi-asserted-by":"publisher","first-page":"594","DOI":"10.1109\/TPAMI.2006.79","volume":"28","author":"L Fei-Fei","year":"2006","unstructured":"Fei-Fei, L., Fergus, R., Perona, P.: One-shot learning of object categories. IEEE Trans. Pattern Anal. Mach. Intell. 28(4), 594\u2013611 (2006)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"27_CR7","doi-asserted-by":"crossref","unstructured":"Fu, Y., et al.: Embodied one-shot video recognition: learning from actions of a virtual embodied agent. In: Proceedings of the ACM International Conference on Multimedia, pp. 411\u2013419 (2019)","DOI":"10.1145\/3343031.3351015"},{"key":"27_CR8","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"242","DOI":"10.1007\/978-3-031-19821-2_14","volume-title":"ECCV 2022","author":"SN Gowda","year":"2022","unstructured":"Gowda, S.N., Rohrbach, M., Keller, F., Sevilla-Lara, L.: Learn2Augment: learning to composite videos for data augmentation in action recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13691, pp. 242\u2013259. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19821-2_14"},{"key":"27_CR9","doi-asserted-by":"crossref","unstructured":"Goyal, R., et al.: The \u201csomething something\u201d video database for learning and evaluating visual common sense. In: IEEE International Conference on Computer Vision, pp. 5843\u20135851 (2017)","DOI":"10.1109\/ICCV.2017.622"},{"key":"27_CR10","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: IEEE International Conference on Computer Vision, pp. 2980\u20132988 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"27_CR11","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"issue":"4","key":"27_CR12","doi-asserted-by":"publisher","first-page":"815","DOI":"10.1109\/TPAMI.2018.2815688","volume":"41","author":"Q Hou","year":"2019","unstructured":"Hou, Q., Cheng, M.M., Hu, X., Borji, A., Tu, Z., Torr, P.H.S.: Deeply supervised salient object detection with short connections. IEEE Trans. Pattern Anal. Mach. Intell. 41(4), 815\u2013828 (2019)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"27_CR13","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"351","DOI":"10.1007\/978-3-031-19772-7_21","volume-title":"ECCV 2022","author":"Y Huang","year":"2022","unstructured":"Huang, Y., Yang, L., Sato, Y.: Compound prototype matching for few-shot action recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13664, pp. 351\u2013368. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_21"},{"key":"27_CR14","doi-asserted-by":"crossref","unstructured":"Kirillov, A., et al.: Segment anything. In: IEEE\/CVF International Conference on Computer Vision, pp. 3992\u20134003 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"27_CR15","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., Serre, T.: HMDB: a large video database for human motion recognition. In: 2011 International Conference on Computer Vision, pp. 2556\u20132563 (2011)","DOI":"10.1109\/ICCV.2011.6126543"},{"issue":"11","key":"27_CR16","doi-asserted-by":"publisher","first-page":"5012","DOI":"10.1109\/TIP.2016.2602079","volume":"25","author":"G Li","year":"2016","unstructured":"Li, G., Yu, Y.: Visual saliency detection based on multiscale deep CNN features. IEEE Trans. Image Process. 25(11), 5012\u20135024 (2016)","journal-title":"IEEE Trans. Image Process."},{"key":"27_CR17","doi-asserted-by":"publisher","first-page":"6438","DOI":"10.1109\/TIP.2020.2988568","volume":"29","author":"N Liu","year":"2020","unstructured":"Liu, N., Han, J., Yang, M.H.: PiCANet: pixel-wise contextual attention learning for accurate saliency detection. IEEE Trans. Image Process. 29, 6438\u20136451 (2020)","journal-title":"IEEE Trans. Image Process."},{"key":"27_CR18","doi-asserted-by":"publisher","first-page":"1026","DOI":"10.1109\/TIP.2022.3232209","volume":"32","author":"M Ma","year":"2023","unstructured":"Ma, M., Xia, C., Xie, C., Chen, X., Li, J.: Boosting broader receptive fields for salient object detection. IEEE Trans. Image Process. 32, 1026\u20131038 (2023)","journal-title":"IEEE Trans. Image Process."},{"key":"27_CR19","doi-asserted-by":"crossref","unstructured":"Patravali, J., Mittal, G., Yu, Y., Li, F., Chen, M.: Unsupervised few-shot action recognition via action-appearance aligned meta-adaptation. In: IEEE\/CVF International Conference on Computer Vision, pp. 8464\u20138474 (2021)","DOI":"10.1109\/ICCV48922.2021.00837"},{"issue":"4","key":"27_CR20","doi-asserted-by":"publisher","first-page":"818","DOI":"10.1109\/TPAMI.2016.2562626","volume":"39","author":"H Peng","year":"2017","unstructured":"Peng, H., Li, B., Ling, H., Hu, W., Xiong, W., Maybank, S.J.: Salient object detection via structured matrix decomposition. IEEE Trans. Pattern Anal. Mach. Intell. 39(4), 818\u2013832 (2017)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"27_CR21","doi-asserted-by":"crossref","unstructured":"Perrett, T., Masullo, A., Burghardt, T., Mirmehdi, M., Damen, D.: Temporal-relational crosstransformers for few-shot action recognition. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 475\u2013484 (2021)","DOI":"10.1109\/CVPR46437.2021.00054"},{"key":"27_CR22","doi-asserted-by":"crossref","unstructured":"Qian, R., et al.: Spatiotemporal contrastive video representation learning. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6960\u20136970 (2021)","DOI":"10.1109\/CVPR46437.2021.00689"},{"key":"27_CR23","doi-asserted-by":"crossref","unstructured":"Qin, Y., Lu, H., Xu, Y., Wang, H.: Saliency detection via cellular automata. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 110\u2013119 (2015)","DOI":"10.1109\/CVPR.2015.7298606"},{"key":"27_CR24","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: UCF101: a dataset of 101 human actions classes from videos in the wild. arxiv preprint arxiv:1212.0402 (2012)"},{"key":"27_CR25","doi-asserted-by":"crossref","unstructured":"Thatipelli, A., Narayan, S., Khan, S., Anwer, R.M., Khan, F.S., Ghanem, B.: Spatio-temporal relation modeling for few-shot action recognition. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19926\u201319935 (2022)","DOI":"10.1109\/CVPR52688.2022.01933"},{"key":"27_CR26","doi-asserted-by":"crossref","unstructured":"Wang, L., Lu, H., Ruan, X., Yang, M.H.: Deep networks for saliency detection via local estimation and global search. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3183\u20133192 (2015)","DOI":"10.1109\/CVPR.2015.7298938"},{"issue":"6","key":"27_CR27","doi-asserted-by":"publisher","first-page":"1899","DOI":"10.1007\/s11263-023-01917-4","volume":"132","author":"X Wang","year":"2024","unstructured":"Wang, X., et al.: Clip-guided prototype modulating for few-shot action recognition. Int. J. Comput. Vision 132(6), 1899\u20131912 (2024)","journal-title":"Int. J. Comput. Vision"},{"key":"27_CR28","doi-asserted-by":"crossref","unstructured":"Wanyan, Y., Yang, X., Chen, C., Xu, C.: Active exploration of multimodal complementarity for few-shot action recognition. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6492\u20136502 (2023)","DOI":"10.1109\/CVPR52729.2023.00628"},{"key":"27_CR29","doi-asserted-by":"crossref","unstructured":"Xia, H., Li, K., Min, M.R., Ding, Z.: Few-shot video classification via representation fusion and promotion learning. In: IEEE\/CVF International Conference on Computer Vision, pp. 19254\u201319263 (2023)","DOI":"10.1109\/ICCV51070.2023.01769"},{"issue":"5","key":"27_CR30","doi-asserted-by":"publisher","first-page":"1689","DOI":"10.1109\/TIP.2012.2216276","volume":"22","author":"Y Xie","year":"2013","unstructured":"Xie, Y., Lu, H., Yang, M.H.: Bayesian saliency via low and mid level cues. IEEE Trans. Image Process. 22(5), 1689\u20131698 (2013)","journal-title":"IEEE Trans. Image Process."},{"key":"27_CR31","doi-asserted-by":"crossref","unstructured":"Xing, J., Wang, M., Liu, Y., Mu, B.: Revisiting the spatial and temporal modeling for few-shot action recognition. In: Proceedings of the AAAI Conference on Artificial Intelligence, pp. 3001\u20133009 (2023)","DOI":"10.1609\/aaai.v37i3.25403"},{"key":"27_CR32","doi-asserted-by":"crossref","unstructured":"Xing, J., et al.: Boosting few-shot action recognition with graph-guided hybrid matching. In: IEEE\/CVF International Conference on Computer Vision, pp. 1740\u20131750 (2023)","DOI":"10.1109\/ICCV51070.2023.00167"},{"key":"27_CR33","doi-asserted-by":"crossref","unstructured":"Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M.H.: Saliency detection via graph-based manifold ranking. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3166\u20133173 (2013)","DOI":"10.1109\/CVPR.2013.407"},{"key":"27_CR34","unstructured":"Yu, F., Koltun, V.: Multi-scale context aggregation by dilated convolutions. In: International Conference on Learning Representations (2016)"},{"issue":"5","key":"27_CR35","doi-asserted-by":"publisher","first-page":"3795","DOI":"10.1109\/TCSVT.2023.3321190","volume":"34","author":"J Yuan","year":"2024","unstructured":"Yuan, J., Zhu, A., Xu, Q., Wattanachote, K., Gong, Y.: CTIF-Net: a CNN-transformer iterative fusion network for salient object detection. IEEE Trans. Circuits Syst. Video Technol. 34(5), 3795\u20133805 (2024)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"27_CR36","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"525","DOI":"10.1007\/978-3-030-58558-7_31","volume-title":"ECCV 2020","author":"H Zhang","year":"2020","unstructured":"Zhang, H., et al.: Few-shot action recognition with permutation-invariant attention. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.M. (eds.) ECCV 2020. LNCS, vol. 12350, pp. 525\u2013542. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58558-7_31"},{"key":"27_CR37","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Jia, G., Chen, L., Zhang, M., Yong, J.: Self-paced video data augmentation by generative adversarial networks with insufficient samples. In: Proceedings of the ACM International Conference on Multimedia, pp. 1652\u20131660 (2020)","DOI":"10.1145\/3394171.3414003"},{"key":"27_CR38","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"782","DOI":"10.1007\/978-3-030-01234-2_46","volume-title":"Computer Vision \u2013 ECCV 2018","author":"L Zhu","year":"2018","unstructured":"Zhu, L., Yang, Y.: Compound memory networks for few-shot video classification. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11211, pp. 782\u2013797. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01234-2_46"},{"key":"27_CR39","doi-asserted-by":"crossref","unstructured":"Zhu, W., Liang, S., Wei, Y., Sun, J.: Saliency optimization from robust background detection. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 2814\u20132821 (2014)","DOI":"10.1109\/CVPR.2014.360"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2064-7_27","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T20:04:59Z","timestamp":1735329899000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2064-7_27"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,28]]},"ISBN":["9789819620630","9789819620647"],"references-count":39,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2064-7_27","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,28]]},"assertion":[{"value":"28 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Nara","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 January 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 January 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/mmm2025.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}