{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:19:43Z","timestamp":1777655983778,"version":"3.51.4"},"publisher-location":"Cham","reference-count":74,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031727634","type":"print"},{"value":"9783031727641","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T00:00:00Z","timestamp":1729814400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T00:00:00Z","timestamp":1729814400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72764-1_27","type":"book-chapter","created":{"date-parts":[[2024,10,24]],"date-time":"2024-10-24T14:03:10Z","timestamp":1729778590000},"page":"474-493","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["Trajectory-Aligned Space-Time Tokens for\u00a0Few-Shot Action Recognition"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-5308-9682","authenticated-orcid":false,"given":"Pulkit","family":"Kumar","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0004-0257-8831","authenticated-orcid":false,"given":"Namitha","family":"Padmanabhan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2486-2241","authenticated-orcid":false,"given":"Luke","family":"Luo","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0002-2135-8311","authenticated-orcid":false,"given":"Sai Saketh","family":"Rambhatla","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8928-8554","authenticated-orcid":false,"given":"Abhinav","family":"Shrivastava","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,10,25]]},"reference":[{"issue":"9","key":"27_CR1","doi-asserted-by":"publisher","first-page":"1734","DOI":"10.1109\/TPAMI.2015.2496141","volume":"38","author":"D Alexey","year":"2016","unstructured":"Alexey, D., Fischer, P., Tobias, J., Springenberg, M.R., Brox, T.: Discriminative unsupervised feature learning with exemplar convolutional neural networks. IEEE TPAMI 38(9), 1734\u20131747 (2016)","journal-title":"IEEE TPAMI"},{"key":"27_CR2","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lu\u010di\u0107, M., Schmid, C.: Vivit: a video vision transformer. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6836\u20136846 (2021)","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"27_CR3","unstructured":"Asano, Y.M., Rupprecht, C., Vedaldi, A.: Self-labelling via simultaneous clustering and representation learning. arXiv preprint arXiv:1911.05371 (2019)"},{"key":"27_CR4","unstructured":"Bao, H., Dong, L., Piao, S., Wei, F.: Beit: bert pre-training of image transformers. arXiv preprint arXiv:2106.08254 (2021)"},{"key":"27_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"404","DOI":"10.1007\/11744023_32","volume-title":"Computer Vision \u2013 ECCV 2006","author":"H Bay","year":"2006","unstructured":"Bay, H., Tuytelaars, T., Van Gool, L.: SURF: speeded up robust features. In: Leonardis, A., Bischof, H., Pinz, A. (eds.) ECCV 2006. LNCS, vol. 3951, pp. 404\u2013417. Springer, Heidelberg (2006). https:\/\/doi.org\/10.1007\/11744023_32"},{"key":"27_CR6","unstructured":"Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: Proceedings of the International Conference on Machine Learning (ICML), July 2021"},{"key":"27_CR7","unstructured":"Bishay, M., Zoumpourlis, G., Patras, I.: Tarn: temporal attentive relation network for few-shot and zero-shot action recognition. arXiv preprint arXiv:1907.09021 (2019)"},{"key":"27_CR8","unstructured":"Bojanowski, P., Joulin, A.: Unsupervised learning by predicting noise. In: International Conference on Machine Learning, pp. 517\u2013526. PMLR (2017)"},{"key":"27_CR9","doi-asserted-by":"crossref","unstructured":"Cao, K., Ji, J., Cao, Z., Chang, C.Y., Niebles, J.C.: Few-shot video classification via temporal alignment. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10618\u201310627 (2020)","DOI":"10.1109\/CVPR42600.2020.01063"},{"key":"27_CR10","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1007\/978-3-030-01264-9_9","volume-title":"Computer Vision \u2013 ECCV 2018","author":"M Caron","year":"2018","unstructured":"Caron, M., Bojanowski, P., Joulin, A., Douze, M.: Deep clustering for unsupervised learning of visual features. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) Computer Vision \u2013 ECCV 2018. LNCS, vol. 11218, pp. 139\u2013156. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01264-9_9"},{"key":"27_CR11","first-page":"9912","volume":"33","author":"M Caron","year":"2020","unstructured":"Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., Joulin, A.: Unsupervised learning of visual features by contrasting cluster assignments. Adv. Neural. Inf. Process. Syst. 33, 9912\u20139924 (2020)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"27_CR12","doi-asserted-by":"crossref","unstructured":"Caron, M., et al.: Emerging properties in self-supervised vision transformers. In: Proceedings of the International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"27_CR13","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4724\u20134733 (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"27_CR14","doi-asserted-by":"crossref","unstructured":"Chen, X., He, K.: Exploring simple siamese representation learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 15750\u201315758 (2021)","DOI":"10.1109\/CVPR46437.2021.01549"},{"key":"27_CR15","doi-asserted-by":"crossref","unstructured":"DeTone, D., Malisiewicz, T., Rabinovich, A.: Superpoint: Self-supervised interest point detection and description. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 224\u2013236 (2018)","DOI":"10.1109\/CVPRW.2018.00060"},{"key":"27_CR16","doi-asserted-by":"crossref","unstructured":"Doersch, C., Gupta, A., Efros, A.A.: Unsupervised visual representation learning by context prediction. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1422\u20131430 (2015)","DOI":"10.1109\/ICCV.2015.167"},{"key":"27_CR17","first-page":"13610","volume":"35","author":"C Doersch","year":"2022","unstructured":"Doersch, C., Gupta, A., Markeeva, L., Recasens, A., Smaira, L., Aytar, Y., Carreira, J., Zisserman, A., Yang, Y.: Tap-vid: a benchmark for tracking any point in a video. Adv. Neural. Inf. Process. Syst. 35, 13610\u201313626 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"27_CR18","doi-asserted-by":"crossref","unstructured":"Doersch, C., et al.: Tapir: tracking any point with per-frame initialization and temporal refinement. arXiv preprint arXiv:2306.08637 (2023)","DOI":"10.1109\/ICCV51070.2023.00923"},{"key":"27_CR19","doi-asserted-by":"crossref","unstructured":"Dosovitskiy, A., et al.: Flownet: learning optical flow with convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2758\u20132766 (2015)","DOI":"10.1109\/ICCV.2015.316"},{"key":"27_CR20","unstructured":"El-Nouby, A., Izacard, G., Touvron, H., Laptev, I., Jegou, H., Grave, E.: Are large-scale datasets necessary for self-supervised pre-training? arXiv preprint arXiv:2112.10740 (2021)"},{"key":"27_CR21","doi-asserted-by":"crossref","unstructured":"Fu, Y., Zhang, L., Wang, J., Fu, Y., Jiang, Y.G.: Depth guided adaptive meta-fusion network for few-shot video recognition. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 1142\u20131151 (2020)","DOI":"10.1145\/3394171.3413502"},{"key":"27_CR22","unstructured":"Goyal, P., et\u00a0al.: Self-supervised pretraining of visual features in the wild. arXiv preprint arXiv:2103.01988 (2021)"},{"key":"27_CR23","doi-asserted-by":"crossref","unstructured":"Goyal, R., et al.: The \u201csomething something\u201d video database for learning and evaluating visual common sense. In: 2017 IEEE International Conference on Computer Vision (ICCV), pp. 5843\u20135851 (2017)","DOI":"10.1109\/ICCV.2017.622"},{"key":"27_CR24","doi-asserted-by":"publisher","unstructured":"Harley, A.W., Fang, Z., Fragkiadaki, K.: Particle video revisited: tracking through occlusions using point trajectories. In: European Conference on Computer Vision, pp. 59\u201375. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20047-2_4","DOI":"10.1007\/978-3-031-20047-2_4"},{"key":"27_CR25","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., Girshick, R.: Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16000\u201316009 (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"27_CR26","doi-asserted-by":"crossref","unstructured":"He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised visual representation learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9729\u20139738 (2020)","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"27_CR27","unstructured":"Henaff, O.: Data-efficient image recognition with contrastive predictive coding. In: International Conference on Machine Learning, pp. 4182\u20134192. PMLR (2020)"},{"key":"27_CR28","doi-asserted-by":"publisher","unstructured":"Huang, Y., Yang, L., Sato, Y.: Compound prototype matching for few-shot action recognition. In: European Conference on Computer Vision, pp. 351\u2013368. Springer (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_21","DOI":"10.1007\/978-3-031-19772-7_21"},{"key":"27_CR29","doi-asserted-by":"crossref","unstructured":"Karaev, N., Rocco, I., Graham, B., Neverova, N., Vedaldi, A., Rupprecht, C.: Cotracker: it is better to track together. arXiv preprint arXiv:2307.07635 (2023)","DOI":"10.1007\/978-3-031-73033-7_2"},{"key":"27_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"31","DOI":"10.1007\/978-3-642-24471-1_3","volume-title":"Similarity-Based Pattern Recognition","author":"O Kliper-Gross","year":"2011","unstructured":"Kliper-Gross, O., Hassner, T., Wolf, L.: One shot similarity metric learning for action recognition. In: Pelillo, M., Hancock, E.R. (eds.) SIMBAD 2011. LNCS, vol. 7005, pp. 31\u201345. Springer, Heidelberg (2011). https:\/\/doi.org\/10.1007\/978-3-642-24471-1_3"},{"key":"27_CR31","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T.A., Serre, T.: Hmdb: a large video database for human motion recognition. In: 2011 International Conference on Computer Vision, pp. 2556\u20132563 (2011)","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"27_CR32","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D.G.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision 60, 91\u2013110 (2004)","journal-title":"Int. J. Comput. Vision"},{"key":"27_CR33","doi-asserted-by":"crossref","unstructured":"Moing, G.L., Ponce, J., Schmid, C.: Dense optical tracking: Connecting the dots. arXiv preprint arXiv:2312.00786 (2023)","DOI":"10.1109\/CVPR52733.2024.01815"},{"key":"27_CR34","doi-asserted-by":"crossref","unstructured":"Muller, M.: Dynamic time warping in information retrieval for music and motion. Dynamic time warping Information retrieval for music and motion, pp. 69\u201384 (2007)","DOI":"10.1007\/978-3-540-74048-3_4"},{"key":"27_CR35","doi-asserted-by":"crossref","unstructured":"Neoral, M., \u0160er\u1ef3ch, J., Matas, J.: Mft: long-term tracking of every pixel. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 6837\u20136847 (2024)","DOI":"10.1109\/WACV57701.2024.00669"},{"key":"27_CR36","doi-asserted-by":"publisher","unstructured":"Nguyen, K.D., Tran, Q.H., Nguyen, K., Hua, B.S., Nguyen, R.: Inductive and transductive few-shot video classification via appearance and temporal alignments. In: European Conference on Computer Vision, pp. 471\u2013487. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20044-1_27","DOI":"10.1007\/978-3-031-20044-1_27"},{"key":"27_CR37","unstructured":"Ni, X., Liu, Y., Wen, H., Ji, Y., Xiao, J., Yang, Y.: Multimodal prototype-enhanced network for few-shot action recognition. arXiv preprint arXiv:2212.04873 (2022)"},{"key":"27_CR38","unstructured":"Oquab, M., et al.: Dinov2: learning robust visual features without supervision. ArXiv abs\/2304.07193 (2023)"},{"key":"27_CR39","doi-asserted-by":"crossref","unstructured":"Pathak, D., Krahenbuhl, P., Donahue, J., Darrell, T., Efros, A.A.: Context encoders: Feature learning by inpainting. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2536\u20132544 (2016)","DOI":"10.1109\/CVPR.2016.278"},{"key":"27_CR40","doi-asserted-by":"crossref","unstructured":"Perrett, T., Masullo, A., Burghardt, T., Mirmehdi, M., Damen, D.: Temporal-relational crosstransformers for few-shot action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 475\u2013484 (2021)","DOI":"10.1109\/CVPR46437.2021.00054"},{"issue":"6","key":"27_CR41","doi-asserted-by":"publisher","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","volume":"28","author":"R Poppe","year":"2010","unstructured":"Poppe, R.: A survey on vision-based human action recognition. Image Vis. Comput. 28(6), 976\u2013990 (2010)","journal-title":"Image Vis. Comput."},{"key":"27_CR42","doi-asserted-by":"publisher","first-page":"72","DOI":"10.1007\/s11263-008-0136-6","volume":"80","author":"P Sand","year":"2008","unstructured":"Sand, P., Teller, S.: Particle video: long-range motion estimation using point trajectories. Int. J. Comput. Vision 80, 72\u201391 (2008)","journal-title":"Int. J. Comput. Vision"},{"key":"27_CR43","doi-asserted-by":"crossref","unstructured":"Shao, D., Zhao, Y., Dai, B., Lin, D.: Finegym: a hierarchical video dataset for fine-grained action understanding. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2020)","DOI":"10.1109\/CVPR42600.2020.00269"},{"key":"27_CR44","doi-asserted-by":"crossref","unstructured":"Shi, J., et\u00a0al.: Good features to track. In: 1994 Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 593\u2013600. IEEE (1994)","DOI":"10.1109\/CVPR.1994.323794"},{"key":"27_CR45","doi-asserted-by":"crossref","unstructured":"Shi, X., et al.: Videoflow: exploiting temporal cues for multi-frame optical flow estimation. arXiv preprint arXiv:2303.08340 (2023)","DOI":"10.1109\/ICCV51070.2023.01146"},{"key":"27_CR46","unstructured":"Soomro, K., Zamir, A., Shah, M.: Ucf101: a dataset of 101 human actions classes from videos in the wild. ArXiv abs\/1212.0402 (2012)"},{"key":"27_CR47","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"402","DOI":"10.1007\/978-3-030-58536-5_24","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Z Teed","year":"2020","unstructured":"Teed, Z., Deng, J.: RAFT: recurrent all-pairs field transforms for optical flow. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12347, pp. 402\u2013419. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58536-5_24"},{"key":"27_CR48","doi-asserted-by":"crossref","unstructured":"Thatipelli, A., Narayan, S., Khan, S., Anwer, R.M., Khan, F.S., Ghanem, B.: Spatio-temporal relation modeling for few-shot action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19958\u201319967 (2022)","DOI":"10.1109\/CVPR52688.2022.01933"},{"issue":"137\u2013154","key":"27_CR49","first-page":"3","volume":"9","author":"C Tomasi","year":"1991","unstructured":"Tomasi, C., Kanade, T.: Detection and tracking of point. Int. J. Comput. Vis. 9(137\u2013154), 3 (1991)","journal-title":"Int. J. Comput. Vis."},{"key":"27_CR50","first-page":"10078","volume":"35","author":"Z Tong","year":"2022","unstructured":"Tong, Z., Song, Y., Wang, J., Wang, L.: Videomae: masked autoencoders are data-efficient learners for self-supervised video pre-training. Adv. Neural. Inf. Process. Syst. 35, 10078\u201310093 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"27_CR51","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3d convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 4489\u20134497 (2015)","DOI":"10.1109\/ICCV.2015.510"},{"key":"27_CR52","unstructured":"Vinyals, O., Blundell, C., Lillicrap, T., Wierstra, D., et\u00a0al.: Matching networks for one shot learning. Advances in neural information processing systems 29 (2016)"},{"key":"27_CR53","doi-asserted-by":"crossref","unstructured":"Wang, Q., Chang, Y.Y., Cai, R., Li, Z., Hariharan, B., Holynski, A., Snavely, N.: Tracking everything everywhere all at once. arXiv preprint arXiv:2306.05422 (2023)","DOI":"10.1109\/ICCV51070.2023.01813"},{"key":"27_CR54","unstructured":"Wang, X., et al.: Proposal relation network for temporal action detection. arXiv preprint arXiv:2106.11812 (2021)"},{"key":"27_CR55","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Molo: motion-augmented long-short contrastive learning for few-shot action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18011\u201318021 (2023)","DOI":"10.1109\/CVPR52729.2023.01727"},{"key":"27_CR56","doi-asserted-by":"crossref","unstructured":"Wang, X., Zhang, S., Qing, Z., Shao, Y., Gao, C., Sang, N.: Self-supervised learning for semi-supervised temporal action proposal. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1905\u20131914 (2021)","DOI":"10.1109\/CVPR46437.2021.00194"},{"key":"27_CR57","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Hybrid relation guided set matching for few-shot action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19948\u201319957 (2022)","DOI":"10.1109\/CVPR52688.2022.01932"},{"key":"27_CR58","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.110110","volume":"147","author":"X Wang","year":"2024","unstructured":"Wang, X., et al.: Hyrsm++: hybrid relation guided temporal set matching for few-shot action recognition. Pattern Recogn. 147, 110110 (2024)","journal-title":"Pattern Recogn."},{"key":"27_CR59","doi-asserted-by":"crossref","unstructured":"Wang, X., Yan, Y., Hu, H.M., Li, B., Wang, H.: Cross-modal contrastive learning network for few-shot action recognition. IEEE Trans. Image Process. (2024)","DOI":"10.1109\/TIP.2024.3354104"},{"key":"27_CR60","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Semantic-guided relation propagation network for few-shot action recognition. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 816\u2013825 (2021)","DOI":"10.1145\/3474085.3475253"},{"key":"27_CR61","doi-asserted-by":"crossref","unstructured":"Wu, J., Zhang, T., Zhang, Z., Wu, F., Zhang, Y.: Motion-modulated temporal fragment alignment network for few-shot action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9151\u20139160 (2022)","DOI":"10.1109\/CVPR52688.2022.00894"},{"key":"27_CR62","doi-asserted-by":"crossref","unstructured":"Wu, Z., Xiong, Y., Yu, S.X., Lin, D.: Unsupervised feature learning via non-parametric instance discrimination. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3733\u20133742 (2018)","DOI":"10.1109\/CVPR.2018.00393"},{"key":"27_CR63","doi-asserted-by":"crossref","unstructured":"Xiao, Y., et al.: Spatialtracker: tracking any 2d pixels in 3d space. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 20406\u201320417 (2024)","DOI":"10.1109\/CVPR52733.2024.01929"},{"key":"27_CR64","doi-asserted-by":"crossref","unstructured":"Xing, J., Wang, M., Mu, B., Liu, Y.: Revisiting the spatial and temporal modeling for few-shot action recognition. In: AAAI Conference on Artificial Intelligence (2023). https:\/\/api.semanticscholar.org\/CorpusID:255999953","DOI":"10.1609\/aaai.v37i3.25403"},{"key":"27_CR65","doi-asserted-by":"crossref","unstructured":"Xing, J., et al.: Boosting few-shot action recognition with graph-guided hybrid matching. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 1740\u20131750 (2023)","DOI":"10.1109\/ICCV51070.2023.00167"},{"key":"27_CR66","doi-asserted-by":"crossref","unstructured":"Xu, J., Ranftl, R., Koltun, V.: Accurate optical flow via direct cost volume processing. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1289\u20131297 (2017)","DOI":"10.1109\/CVPR.2017.615"},{"key":"27_CR67","doi-asserted-by":"crossref","unstructured":"Zhang, F., Woodford, O.J., Prisacariu, V.A., Torr, P.H.: Separable flow: learning motion cost volumes for optical flow estimation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10807\u201310817 (2021)","DOI":"10.1109\/ICCV48922.2021.01063"},{"key":"27_CR68","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"525","DOI":"10.1007\/978-3-030-58558-7_31","volume-title":"Computer Vision \u2013 ECCV 2020","author":"H Zhang","year":"2020","unstructured":"Zhang, H., Zhang, L., Qi, X., Li, H., Torr, P.H.S., Koniusz, P.: Few-shot action recognition with permutation-invariant attention. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12350, pp. 525\u2013542. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58558-7_31"},{"key":"27_CR69","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"649","DOI":"10.1007\/978-3-319-46487-9_40","volume-title":"Computer Vision \u2013 ECCV 2016","author":"R Zhang","year":"2016","unstructured":"Zhang, R., Isola, P., Efros, A.A.: Colorful image colorization. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9907, pp. 649\u2013666. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46487-9_40"},{"key":"27_CR70","doi-asserted-by":"crossref","unstructured":"Zhang, S., Zhou, J., He, X.: Learning implicit temporal alignment for few-shot video classification. arXiv preprint arXiv:2105.04823 (2021)","DOI":"10.24963\/ijcai.2021\/181"},{"key":"27_CR71","doi-asserted-by":"publisher","unstructured":"Zheng, S., Chen, S., Jin, Q.: Few-shot action recognition with hierarchical matching and contrastive learning. In: European Conference on Computer Vision, pp. 297\u2013313. Springer (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_18","DOI":"10.1007\/978-3-031-19772-7_18"},{"key":"27_CR72","doi-asserted-by":"crossref","unstructured":"Zheng, Y., Harley, A.W., Shen, B., Wetzstein, G., Guibas, L.J.: Pointodyssey: a large-scale synthetic dataset for long-term point tracking. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 19855\u201319865 (2023)","DOI":"10.1109\/ICCV51070.2023.01818"},{"key":"27_CR73","doi-asserted-by":"crossref","unstructured":"Zhu, L., Yang, Y.: Compound memory networks for few-shot video classification. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 751\u2013766 (2018)","DOI":"10.1007\/978-3-030-01234-2_46"},{"issue":"1","key":"27_CR74","first-page":"273","volume":"44","author":"L Zhu","year":"2020","unstructured":"Zhu, L., Yang, Y.: Label independent memory for semi-supervised few-shot video classification. IEEE Trans. Pattern Anal. Mach. Intell. 44(1), 273\u2013285 (2020)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72764-1_27","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,30]],"date-time":"2024-11-30T06:29:12Z","timestamp":1732948152000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72764-1_27"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,25]]},"ISBN":["9783031727634","9783031727641"],"references-count":74,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72764-1_27","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,25]]},"assertion":[{"value":"25 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}