{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:11:01Z","timestamp":1775578261131,"version":"3.50.1"},"publisher-location":"Cham","reference-count":68,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031734137","type":"print"},{"value":"9783031734144","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T00:00:00Z","timestamp":1729814400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T00:00:00Z","timestamp":1729814400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-73414-4_11","type":"book-chapter","created":{"date-parts":[[2024,10,24]],"date-time":"2024-10-24T17:02:54Z","timestamp":1729789374000},"page":"182-199","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":10,"title":["Multimodal Cross-Domain Few-Shot Learning for\u00a0Egocentric Action Recognition"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-7090-6564","authenticated-orcid":false,"given":"Masashi","family":"Hatano","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8274-3710","authenticated-orcid":false,"given":"Ryo","family":"Hachiuma","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9115-8414","authenticated-orcid":false,"given":"Ryo","family":"Fujii","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2421-9862","authenticated-orcid":false,"given":"Hideo","family":"Saito","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,10,25]]},"reference":[{"key":"11_CR1","doi-asserted-by":"crossref","unstructured":"Bock, M., Moeller, M., Van\u00a0Laerhoven, K., Kuehne, H.: WEAR: a multimodal dataset for wearable and egocentric video activity recognition. arXiv preprint arXiv:2304.05088 (2023)","DOI":"10.1145\/3699776"},{"key":"11_CR2","doi-asserted-by":"crossref","unstructured":"Bousmalis, K., Silberman, N., Dohan, D., Erhan, D., Krishnan, D.: Unsupervised pixel-level domain adaptation with generative adversarial networks. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.18"},{"key":"11_CR3","unstructured":"Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning of visual representations. In: ICML (2020)"},{"key":"11_CR4","unstructured":"Chen, W.Y., Liu, Y.C., Kira, Z., Wang, Y.C., Huang, J.B.: A closer look at few-shot classification. In: ICLR (2019)"},{"key":"11_CR5","doi-asserted-by":"crossref","unstructured":"Damen, D., et al.: Scaling egocentric vision: the epic-kitchens dataset. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01225-0_44"},{"key":"11_CR6","unstructured":"Engel, J., et al.: Project aria: a new tool for egocentric multi-modal AI research. arXiv preprint arXiv:2308.13561 (2023)"},{"key":"11_CR7","unstructured":"Finn, C., Abbeel, P., Levine, S.: Model-agnostic meta-learning for fast adaptation of deep networks. In: ICML (2017)"},{"key":"11_CR8","doi-asserted-by":"publisher","unstructured":"Fujii, R., Hatano, M., Saito, H., Kajita, H.: EgoSurgery-Phase: a dataset of surgical phase recognition from egocentric open surgery videos. In: Linguraru, M.G., et al. (eds.) Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2024. MICCAI 2024. LNCS, vol. 15006. Springer, Cham (2024). https:\/\/doi.org\/10.1007\/978-3-031-72089-5_18","DOI":"10.1007\/978-3-031-72089-5_18"},{"key":"11_CR9","doi-asserted-by":"crossref","unstructured":"Gabeur, V., Sun, C., Alahari, K., Schmid, C.: Multi-modal Transformer for Video Retrieval. In: ECCV (2020)","DOI":"10.1007\/978-3-030-58548-8_13"},{"key":"11_CR10","unstructured":"Ganin, Y., Lempitsky, V.: Unsupervised domain adaptation by backpropagation. In: ICML (2015)"},{"key":"11_CR11","doi-asserted-by":"crossref","unstructured":"Gong, X., Mohan, S., Dhingra, N., Bazin, J.C., Li, Y., Wang, Z., Ranjan, R.: MMG-Ego4D: multimodal generalization in egocentric action recognition. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.00627"},{"key":"11_CR12","unstructured":"Grauman, K., et al.: Ego4D: around the world in 3,000 hours of egocentric video. In: CVPR (2022)"},{"key":"11_CR13","unstructured":"Grauman, K., et al.: Ego-Exo4D: understanding skilled human activity from first-and third-person perspectives. In: CVPR (2024)"},{"key":"11_CR14","doi-asserted-by":"crossref","unstructured":"Guo, Y., et al.: A broader study of cross-domain few-shot learning. In: ECCV (2020)","DOI":"10.1007\/978-3-030-58583-9_8"},{"key":"11_CR15","unstructured":"Hoffman, J., et al.: CyCADA: cycle-consistent adversarial domain adaptation. In: ICML (2018)"},{"key":"11_CR16","doi-asserted-by":"crossref","unstructured":"Hu, Y., Ma, A.J.: Adversarial feature augmentation for cross-domain few-shot classification. In: ECCV (2022)","DOI":"10.1007\/978-3-031-20044-1_2"},{"key":"11_CR17","doi-asserted-by":"crossref","unstructured":"Huang, C., Tian, Y., Kumar, A., Xu, C.: Egocentric audio-visual object localization. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.02194"},{"key":"11_CR18","doi-asserted-by":"crossref","unstructured":"Huang, Z., et al.: FlowFormer: a transformer architecture for optical flow. In: ECCV (2022)","DOI":"10.1007\/978-3-031-19790-1_40"},{"key":"11_CR19","unstructured":"Islam, A., Chen, C.F., Panda, R., Karlinsky, L., Feris, R., Radke, R.: Dynamic distillation network for cross-domain few-shot recognition with unlabeled data. In: NeurIPS (2021)"},{"key":"11_CR20","unstructured":"Jiang, T., et al.: RTMPose: real-time multi-person pose estimation based on MMPose. arXiv preprint arXiv:2303.07399 (2023)"},{"key":"11_CR21","unstructured":"Kazakos, E., Huh, J., Nagrani, A., Zisserman, A., Damen, D.: With a little help from my temporal context: multimodal egocentric action recognition. In: BMVC (2021)"},{"key":"11_CR22","doi-asserted-by":"crossref","unstructured":"Kazakos, E., Nagrani, A., Zisserman, A., Damen, D.: Epic-fusion: Audio-visual temporal binding for egocentric action recognition. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00559"},{"key":"11_CR23","doi-asserted-by":"crossref","unstructured":"Kondratyuk, D., Yuan, L., Li, Y., Zhang, L., Tan, M., Brown, M., Gong, B.: MoviNets: mobile video networks for efficient video recognition. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01576"},{"key":"11_CR24","doi-asserted-by":"crossref","unstructured":"Lee, K., Maji, S., Ravichandran, A., Soatto, S.: Meta-learning with differentiable convex optimization. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.01091"},{"key":"11_CR25","doi-asserted-by":"crossref","unstructured":"Li, W.H., Liu, X., Bilen, H.: Cross-domain few-shot learning with task-specific adapters. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00702"},{"key":"11_CR26","doi-asserted-by":"crossref","unstructured":"Liang, H., Zhang, Q., Dai, P., Lu, J.: Boosting the generalization capability in cross-domain few-shot learning via noise-enhanced supervised autoencoder. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00929"},{"key":"11_CR27","doi-asserted-by":"crossref","unstructured":"Liu, Y., Lee, J., Zhu, L., Chen, L., Shi, H., Yang, Y.: A multi-mode modulator for multi-domain few-shot classification. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00834"},{"key":"11_CR28","unstructured":"Long, M., Cao, Z., Wang, J., Jordan, M.I.: Conditional adversarial domain adaptation. In: NeurIPS (2018)"},{"key":"11_CR29","doi-asserted-by":"crossref","unstructured":"Materzynska, J., Xiao, T., Herzig, R., Xu, H., Wang, X., Darrell, T.: Something-else: compositional action recognition with spatial-temporal interaction networks. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00113"},{"key":"11_CR30","doi-asserted-by":"crossref","unstructured":"Moon, G., Kwon, H., Lee, K.M., Cho, M.: IntegralAction: pose-driven feature integration for robust human action recognition in videos. In: CVPR (2021)","DOI":"10.1109\/CVPRW53098.2021.00372"},{"key":"11_CR31","doi-asserted-by":"crossref","unstructured":"Munro, J., Damen, D.: Multi-modal domain adaptation for fine-grained action recognition. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00020"},{"key":"11_CR32","unstructured":"Nagrani, A., Yang, S., Arnab, A., Jansen, A., Schmid, C., Sun, C.: Attention bottlenecks for multimodal fusion. In: NeurIPS (2021)"},{"key":"11_CR33","doi-asserted-by":"publisher","first-page":"175","DOI":"10.1016\/j.neucom.2021.11.081","volume":"472","author":"A N\u00fa\u00f1ez-Marcos","year":"2022","unstructured":"N\u00fa\u00f1ez-Marcos, A., Azkune, G., Arganda-Carreras, I.: Egocentric vision-based action recognition: a survey. Neurocomputing 472, 175\u2013197 (2022)","journal-title":"Neurocomputing"},{"key":"11_CR34","unstructured":"Phoo, C.P., Hariharan, B.: Self-training for few-shot transfer across extreme task differences. In: ICLR (2021)"},{"key":"11_CR35","doi-asserted-by":"crossref","unstructured":"Pirsiavash, H., Ramanan, D.: Detecting activities of daily living in first-person camera views. In: CVPR (2012)","DOI":"10.1109\/CVPR.2012.6248010"},{"key":"11_CR36","doi-asserted-by":"crossref","unstructured":"Plizzari, C., Perrett, T., Caputo, B., Damen, D.: What can a cook in Italy teach a mechanic in India? action recognition generalisation over scenarios and locations. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01256"},{"key":"11_CR37","doi-asserted-by":"crossref","unstructured":"Plizzari, C., Planamente, M., Goletto, G., Cannici, M., Gusso, E., Matteucci, M., Caputo, B.: E2(GO)MOTION: motion augmented event stream for egocentric action recognition. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01931"},{"key":"11_CR38","doi-asserted-by":"crossref","unstructured":"Poleg, Y., Ephrat, A., Peleg, S., Arora, C.: Compact CNN for indexing egocentric videos. In: WACV (2016)","DOI":"10.1109\/WACV.2016.7477708"},{"key":"11_CR39","doi-asserted-by":"crossref","unstructured":"Radevski, G., Grujicic, D., Blaschko, M., Moens, M.F., Tuytelaars, T.: Multimodal distillation for egocentric action recognition. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.00481"},{"key":"11_CR40","doi-asserted-by":"crossref","unstructured":"Ragusa, F., Furnari, A., Farinella, G.M.: Meccano: A multimodal egocentric dataset for humans behavior understanding in the industrial-like domain. Comput. Vis. Image Underst. (CVIU) 235, 103764 (2023)","DOI":"10.1016\/j.cviu.2023.103764"},{"key":"11_CR41","doi-asserted-by":"crossref","unstructured":"Ragusa, F., et al.: Enigma-51: towards a fine-grained understanding of human-object interactions in industrial scenarios. In: WACV (2024)","DOI":"10.1109\/WACV57701.2024.00449"},{"key":"11_CR42","unstructured":"Ramakrishnan, S.K., Al-Halah, Z., Grauman, K.: SpotEm: efficient video search for episodic memory. In: ICML (2023)"},{"key":"11_CR43","doi-asserted-by":"crossref","unstructured":"Ryan, F., Jiang, H., Shukla, A., Rehg, J.M., Ithapu, V.K.: Egocentric auditory attention localization in conversations. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01409"},{"key":"11_CR44","doi-asserted-by":"crossref","unstructured":"Samarasinghe, S., Rizve, M.N., Kardan, N., Shah, M.: CDFSL-V: cross-domain few-shot learning for videos. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01069"},{"key":"11_CR45","doi-asserted-by":"crossref","unstructured":"Schoonbeek, T.J., Houben, T., Onvlee, H., van\u00a0der Sommen, F., et\u00a0al.: Industreal: a dataset for procedure step recognition handling execution errors in egocentric videos in an industrial-like setting. In: WACV (2024)","DOI":"10.1109\/WACV57701.2024.00431"},{"key":"11_CR46","doi-asserted-by":"crossref","unstructured":"Sener, F., et al.: Assembly101: a large-scale multi-view video dataset for understanding procedural activities. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.02042"},{"key":"11_CR47","unstructured":"Snell, J., Swersky, K., Zemel, R.: Prototypical networks for few-shot learning. In: NeurIPS (2017)"},{"key":"11_CR48","doi-asserted-by":"crossref","unstructured":"Song, X., et al.: Spatio-temporal contrastive domain adaptation for action recognition. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00966"},{"key":"11_CR49","doi-asserted-by":"crossref","unstructured":"Sung, F., Yang, Y., Zhang, L., Xiang, T., Torr, P.H., Hospedales, T.M.: Learning to compare: Relation network for few-shot learning. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00131"},{"key":"11_CR50","unstructured":"Tan, S., Nagarajan, T., Grauman, K.: EgoDistill: egocentric head motion distillation for efficient video understanding. In: NeurIPS (2023)"},{"key":"11_CR51","doi-asserted-by":"crossref","unstructured":"Tekin, B., Bogo, F., Pollefeys, M.: H+ o: unified egocentric recognition of 3d hand-object poses and interactions. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00464"},{"key":"11_CR52","unstructured":"Tong, Z., Song, Y., Wang, J., Wang, L.: VideoMAE: masked autoencoders are data-efficient learners for self-supervised video pre-training. In: NeurIPS (2022)"},{"key":"11_CR53","unstructured":"Tseng, H.Y., Lee, H.Y., Huang, J.B., Yang, M.H.: Cross-domain few-shot classification via learned feature-wise transformation. In: ICLR (2020)"},{"key":"11_CR54","doi-asserted-by":"crossref","unstructured":"Tzeng, E., Hoffman, J., Saenko, K., Darrell, T.: Adversarial discriminative domain adaptation. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.316"},{"key":"11_CR55","unstructured":"Vinyals, O., Blundell, C., Lillicrap, T., kavukcuoglu, k., Wierstra, D.: Matching networks for one shot learning. In: NeurIPS (2016)"},{"key":"11_CR56","doi-asserted-by":"crossref","unstructured":"Wang, J., Luvizon, D., Xu, W., Liu, L., Sarkar, K., Theobalt, C.: Scene-aware egocentric 3d human pose estimation. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01252"},{"key":"11_CR57","doi-asserted-by":"crossref","unstructured":"Wang, J., Yang, X., Li, H., Liu, L., Wu, Z., Jiang, Y.G.: Efficient video transformers with spatial-temporal token selection. In: ECCV (2022)","DOI":"10.1007\/978-3-031-19833-5_5"},{"key":"11_CR58","unstructured":"Wang, J., et al.: Maximizing spatio-temporal entropy of deep 3D CNNs for efficient video recognition. In: ICLR (2023)"},{"key":"11_CR59","doi-asserted-by":"publisher","unstructured":"Wang, R., Ktistakis, S., Zhang, S., Meboldt, M., Lohmeyer, Q.: POV-surgery: a dataset for egocentric hand and tool pose estimation during surgical activities. In: Greenspan, H., et al. Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2023. MICCAI 2023. LNCS, vol. 14228. Springer, Cham (2023). https:\/\/doi.org\/10.1007\/978-3-031-43996-4_42","DOI":"10.1007\/978-3-031-43996-4_42"},{"key":"11_CR60","doi-asserted-by":"crossref","unstructured":"Wang, W., Duan, L., Wang, Y., En, Q., Fan, J., Zhang, Z.: Remember the difference: Cross-domain few-shot semantic segmentation via meta-memory transfer. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00693"},{"key":"11_CR61","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Hybrid relation guided set matching for few-shot action recognition. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01932"},{"key":"11_CR62","doi-asserted-by":"crossref","unstructured":"Wang, X., Zhu, L., Wang, H., Yang, Y.: Interactive prototype learning for egocentric action recognition. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00806"},{"key":"11_CR63","doi-asserted-by":"crossref","unstructured":"Wang, X., Gupta, A.: Videos as space-time region graphs. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01228-1_25"},{"key":"11_CR64","doi-asserted-by":"crossref","unstructured":"Xie, Q., Luong, M.T., Hovy, E., Le, Q.V.: Self-training with noisy student improves ImageNet classification. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01070"},{"key":"11_CR65","doi-asserted-by":"crossref","unstructured":"Zhang, P., Zhang, B., Zhang, T., Chen, D., Wang, Y., Wen, F.: Prototypical pseudo label denoising and target structure learning for domain adaptive semantic segmentation. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01223"},{"key":"11_CR66","unstructured":"ZHANG, R., Che, T., Ghahramani, Z., Bengio, Y., Song, Y.: MetaGAN: an adversarial approach to few-shot learning. In: NeurIPS (2018)"},{"key":"11_CR67","doi-asserted-by":"crossref","unstructured":"Zhao, A., Ding, M., Lu, Z., Xiang, T., Niu, Y., Guan, J., Wen, J.R.: Domain-adaptive few-shot learning. In: WACV (2021)","DOI":"10.1109\/WACV48630.2021.00143"},{"key":"11_CR68","doi-asserted-by":"crossref","unstructured":"Zhou, F., Wang, P., Zhang, L., Wei, W., Zhang, Y.: Revisiting prototypical network for cross domain few-shot learning. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01921"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-73414-4_11","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,30]],"date-time":"2024-11-30T06:49:24Z","timestamp":1732949364000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-73414-4_11"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,25]]},"ISBN":["9783031734137","9783031734144"],"references-count":68,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-73414-4_11","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,25]]},"assertion":[{"value":"25 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}