{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T21:05:59Z","timestamp":1778101559344,"version":"3.51.4"},"publisher-location":"Cham","reference-count":31,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031720888","type":"print"},{"value":"9783031720895","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024]]},"DOI":"10.1007\/978-3-031-72089-5_40","type":"book-chapter","created":{"date-parts":[[2024,10,2]],"date-time":"2024-10-02T16:02:20Z","timestamp":1727884940000},"page":"422-432","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["MuST: Multi-scale Transformers for\u00a0Surgical Phase Recognition"],"prefix":"10.1007","author":[{"given":"Alejandra","family":"P\u00e9rez","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Santiago","family":"Rodr\u00edguez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nicol\u00e1s","family":"Ayobi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nicol\u00e1s","family":"Aparicio","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Eug\u00e9nie","family":"Dessevres","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pablo","family":"Arbel\u00e1ez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,10,3]]},"reference":[{"key":"40_CR1","unstructured":"Ayobi, N., Rodr\u00edguez, S., P\u00e9rez, A., et\u00a0al.: Pixel-wise recognition for holistic surgical scene understanding (2024)"},{"key":"40_CR2","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., et\u00a0al.: End-to-end object detection with transformers. In: European conference on computer vision. pp. 213\u2013229. Springer (2020)","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"40_CR3","doi-asserted-by":"crossref","unstructured":"Chen, C.F.R., Fan, Q., Panda, R.: Crossvit: Cross-attention multi-scale vision transformer for image classification. In: Proceedings of the IEEE\/CVF international conference on computer vision. pp. 357\u2013366 (2021)","DOI":"10.1109\/ICCV48922.2021.00041"},{"key":"40_CR4","doi-asserted-by":"crossref","unstructured":"Czempiel, T., Paschali, M., Keicher, M., et\u00a0al.: Tecno: Surgical phase recognition with multi-stage temporal convolutional networks. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2020. pp. 343\u2013352. Springer (2020)","DOI":"10.1007\/978-3-030-59716-0_33"},{"key":"40_CR5","doi-asserted-by":"crossref","unstructured":"Czempiel, T., Paschali, M., Ostler, D., et\u00a0al.: Opera: Attention-regularized transformers for surgical phase recognition. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021. pp. 604\u2013614. Springer (2021)","DOI":"10.1007\/978-3-030-87202-1_58"},{"issue":"11","key":"40_CR6","doi-asserted-by":"publisher","first-page":"5405","DOI":"10.1109\/JBHI.2023.3311628","volume":"27","author":"KC Demir","year":"2023","unstructured":"Demir, K.C., et\u00a0al.: Deep learning in surgical workflow analysis: A review of phase and step recognition. IEEE Journal of Biomedical and Health Informatics 27(11), 5405\u20135417 (2023). https:\/\/doi.org\/10.1109\/JBHI.2023.3311628","journal-title":"IEEE Journal of Biomedical and Health Informatics"},{"issue":"11","key":"40_CR7","doi-asserted-by":"publisher","first-page":"3309","DOI":"10.1109\/TMI.2022.3182995","volume":"41","author":"X Ding","year":"2022","unstructured":"Ding, X., Li, X.: Exploring segment-level semantics for online phase recognition from surgical videos. IEEE Transactions on Medical Imaging 41(11), 3309\u20133319 (2022)","journal-title":"IEEE Transactions on Medical Imaging"},{"key":"40_CR8","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et\u00a0al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"40_CR9","doi-asserted-by":"crossref","unstructured":"Fan, H., et\u00a0al.: Multiscale vision transformers. In: international conference on computer vision. pp. 6824\u20136835 (2021)","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"40_CR10","doi-asserted-by":"publisher","unstructured":"Feichtenhofer, C., Fan, H., Malik, J., He, K.: Slowfast networks for video recognition. In: 2019 IEEE\/CVF International Conference on Computer Vision (ICCV). pp. 6201\u20136210 (2019). https:\/\/doi.org\/10.1109\/ICCV.2019.00630","DOI":"10.1109\/ICCV.2019.00630"},{"key":"40_CR11","doi-asserted-by":"crossref","unstructured":"Gao, X., Jin, Y., Long, Y., Dou, Q., Heng, P.A.: Trans-svnet: Accurate phase recognition from surgical videos via hybrid embedding aggregation transformer. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021. pp. 593\u2013603. Springer (2021)","DOI":"10.1007\/978-3-030-87202-1_57"},{"key":"40_CR12","doi-asserted-by":"crossref","unstructured":"Girdhar, R., Grauman, K.: Anticipative Video Transformer. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.01325"},{"key":"40_CR13","doi-asserted-by":"publisher","DOI":"10.1016\/j.cmpb.2021.106452","volume":"212","author":"A Huaulm\u00e9","year":"2021","unstructured":"Huaulm\u00e9, A., et\u00a0al.: Micro-surgical anastomose workflow recognition challenge report. Computer Methods and Programs in Biomedicine 212, 106452 (2021)","journal-title":"Computer Methods and Programs in Biomedicine"},{"issue":"5","key":"40_CR14","doi-asserted-by":"publisher","first-page":"1114","DOI":"10.1109\/TMI.2017.2787657","volume":"37","author":"Y Jin","year":"2017","unstructured":"Jin, Y., Dou, Q., Chen, H., Yu, L., Qin, J., Fu, C.W., Heng, P.A.: Sv-rcnet: workflow recognition from surgical videos using recurrent convolutional network. IEEE transactions on medical imaging 37(5), 1114\u20131126 (2017)","journal-title":"IEEE transactions on medical imaging"},{"issue":"7","key":"40_CR15","doi-asserted-by":"publisher","first-page":"1911","DOI":"10.1109\/TMI.2021.3069471","volume":"40","author":"Y Jin","year":"2021","unstructured":"Jin, Y., Long, Y., Chen, C., et\u00a0al.: Temporal memory relation network for workflow recognition from surgical video. IEEE Transactions on Medical Imaging 40(7), 1911\u20131923 (2021)","journal-title":"IEEE Transactions on Medical Imaging"},{"issue":"17","key":"40_CR16","doi-asserted-by":"publisher","first-page":"8746","DOI":"10.3390\/app12178746","volume":"12","author":"K Kirtac","year":"2022","unstructured":"Kirtac, K., Aydin, N., Lavanchy, J.L., et\u00a0al.: Surgical phase recognition: From public datasets to real-world data. Applied Sciences 12(17), \u00a08746 (2022)","journal-title":"Applied Sciences"},{"key":"40_CR17","doi-asserted-by":"crossref","unstructured":"Liu, Y., Boels, M., Garcia-Peraza-Herrera, L.C., Vercauteren, T., Dasgupta, P., Granados, A., Ourselin, S.: Lovit: Long video transformer for surgical phase recognition. arXiv preprint arXiv:2305.08989 (2023)","DOI":"10.1109\/ICCV51070.2023.01927"},{"key":"40_CR18","doi-asserted-by":"crossref","unstructured":"Liu, Y., Huo, J., Peng, J., et\u00a0al.: Skit: a fast key information video transformer for online surgical phase recognition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision. pp. 21074\u201321084 (2023)","DOI":"10.1109\/ICCV51070.2023.01927"},{"key":"40_CR19","doi-asserted-by":"publisher","unstructured":"Maier-Hein, L., Eisenmann, M., Sarikaya, D., M\u00e4rz, K., et\u00a0al.: Surgical data science - from concepts toward clinical translation. Medical Image Analysis 76, 102306 (2022). https:\/\/doi.org\/10.1016\/j.media.2021.102306, https:\/\/www.sciencedirect.com\/science\/article\/pii\/S1361841521003510","DOI":"10.1016\/j.media.2021.102306"},{"key":"40_CR20","doi-asserted-by":"crossref","unstructured":"Meng, Y., et\u00a0al.: Ar-net: Adaptive frame resolution for efficient action recognition. In: Computer Vision\u2013ECCV 2020. pp. 86\u2013104. Springer (2020)","DOI":"10.1007\/978-3-030-58571-6_6"},{"issue":"2","key":"40_CR21","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1080\/13645706.2019.1584116","volume":"28","author":"N Padoy","year":"2019","unstructured":"Padoy, N.: Machine and deep learning for workflow recognition during surgery. Minimally Invasive Therapy & Allied Technologies 28(2), 82\u201390 (2019)","journal-title":"Minimally Invasive Therapy & Allied Technologies"},{"key":"40_CR22","doi-asserted-by":"publisher","unstructured":"Padoy, N., Blum, T., Ahmadi, S.A., Feussner, H., Berger, M.O., Navab, N.: Statistical modeling and recognition of surgical workflow. Medical Image Analysis 16(3), 632\u2013641 (2012). https:\/\/doi.org\/10.1016\/j.media.2010.10.001, https:\/\/www.sciencedirect.com\/science\/article\/pii\/S1361841510001131, computer Assisted Interventions","DOI":"10.1016\/j.media.2010.10.001"},{"key":"40_CR23","doi-asserted-by":"crossref","unstructured":"Stergiou, A., Damen, D.: The wisdom of crowds: Temporal progressive attention for early action prediction. In: Conference on Computer Vision and Pattern Recognition. pp. 14709\u201314719 (2023)","DOI":"10.1109\/CVPR52729.2023.01413"},{"issue":"1","key":"40_CR24","doi-asserted-by":"publisher","first-page":"86","DOI":"10.1109\/TMI.2016.2593957","volume":"36","author":"AP Twinanda","year":"2016","unstructured":"Twinanda, A.P., et\u00a0al.: Endonet: a deep architecture for recognition tasks on laparoscopic videos. IEEE transactions on medical imaging 36(1), 86\u201397 (2016)","journal-title":"IEEE transactions on medical imaging"},{"key":"40_CR25","unstructured":"Twinanda, A.P., et\u00a0al.: Single-and multi-task architectures for surgical workflow challenge at m2cai 2016. arXiv preprint arXiv:1610.08844 (2016)"},{"key":"40_CR26","unstructured":"Twinanda, A.P.: Vision-based approaches for surgical activity recognition using laparoscopic and RBGD videos. Ph.D. thesis, Strasbourg (2017)"},{"key":"40_CR27","doi-asserted-by":"crossref","unstructured":"Valderrama, N., Ruiz\u00a0Puentes, P., Hern\u00e1ndez, I., Ayobi, N., Verlyck, M., et\u00a0al.: Towards holistic surgical scene understanding. In: International conference on medical image computing and computer-assisted intervention. pp. 442\u2013452. Springer (2022)","DOI":"10.1007\/978-3-031-16449-1_42"},{"key":"40_CR28","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141., Polosukhin, I.: Attention is all you need. Advances in neural information processing systems 30 (2017)"},{"key":"40_CR29","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2023.102770","volume":"86","author":"M Wagner","year":"2023","unstructured":"Wagner, M., et\u00a0al.: Comparative validation of machine learning algorithms for surgical workflow and skill analysis with the heichole benchmark. Medical Image Analysis 86, 102770 (2023)","journal-title":"Medical Image Analysis"},{"key":"40_CR30","doi-asserted-by":"crossref","unstructured":"Yi, F., Jiang, T.: Hard frame detection and online mapping for surgical phase recognition. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019. pp. 449\u2013457. Springer (2019)","DOI":"10.1007\/978-3-030-32254-0_50"},{"key":"40_CR31","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.a.: Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159 (2020)"}],"container-title":["Lecture Notes in Computer Science","Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72089-5_40","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,2]],"date-time":"2024-10-02T16:07:06Z","timestamp":1727885226000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72089-5_40"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"ISBN":["9783031720888","9783031720895"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72089-5_40","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"3 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no competing interests to declare that are relevant to the content of this article.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"MICCAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Medical Image Computing and Computer-Assisted Intervention","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Marrakesh","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Morocco","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7 October 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miccai2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/conferences.miccai.org\/2024\/en\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}