{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,14]],"date-time":"2025-06-14T12:10:01Z","timestamp":1749903001562,"version":"3.41.0"},"reference-count":31,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J CARS"],"DOI":"10.1007\/s11548-025-03349-6","type":"journal-article","created":{"date-parts":[[2025,4,3]],"date-time":"2025-04-03T04:26:56Z","timestamp":1743654416000},"page":"1067-1075","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Training-free temporal object tracking in surgical videos"],"prefix":"10.1007","volume":"20","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4010-4387","authenticated-orcid":false,"given":"Subhadeep","family":"Koley","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abdolrahim","family":"Kadkhodamohammadi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Santiago","family":"Barbarisi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Danail","family":"Stoyanov","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Imanol","family":"Luengo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,4,1]]},"reference":[{"issue":"2","key":"3349_CR1","doi-asserted-by":"publisher","first-page":"375","DOI":"10.1007\/s11548-023-02971-6","volume":"19","author":"M Grammatikopoulou","year":"2024","unstructured":"Grammatikopoulou M, Sanchez-Matilla R, Bragman F, Owen D, Culshaw L, Kerr K, Stoyanov D, Luengo I (2024) A spatio-temporal network for video semantic segmentation in surgical videos. Int J Comput Assist Radiol Surg 19(2):375\u2013382","journal-title":"Int J Comput Assist Radiol Surg"},{"issue":"3","key":"3349_CR2","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1038\/s41575-022-00701-y","volume":"20","author":"F Chadebecq","year":"2023","unstructured":"Chadebecq F, Lovat LB, Stoyanov D (2023) Artificial intelligence and automation in endoscopy and surgery. Nat Rev Gastroenterol Hepatol 20(3):171\u2013182","journal-title":"Nat Rev Gastroenterol Hepatol"},{"issue":"6","key":"3349_CR3","doi-asserted-by":"publisher","first-page":"456","DOI":"10.1159\/000511934","volume":"36","author":"F Chadebecq","year":"2020","unstructured":"Chadebecq F, Vasconcelos F, Mazomenos E, Stoyanov D (2020) Computer vision in the surgical operating room. Visc Med 36(6):456\u2013462","journal-title":"Visc Med"},{"key":"3349_CR4","unstructured":"Hong W-Y, Kao C-L, Kuo Y-H, Wang J-R, Chang W-L, Shih C-S (2020) CholecSeg8k: a semantic segmentation dataset for laparoscopic cholecystectomy based on Cholec80, pp 1\u20136. arXiv preprint arXiv:2012.12453 abs\/2012.12453"},{"issue":"4","key":"3349_CR5","doi-asserted-by":"publisher","first-page":"1513","DOI":"10.1109\/TMI.2023.3341948","volume":"43","author":"J Chen","year":"2023","unstructured":"Chen J, Li M, Han H, Zhao Z, Chen X (2023) SurgNet: self-supervised pretraining with semantic consistency for vessel and instrument segmentation in surgical images. IEEE Trans Med Imaging 43(4):1513\u20131525","journal-title":"IEEE Trans Med Imaging"},{"key":"3349_CR6","doi-asserted-by":"crossref","unstructured":"Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B (2022) High-resolution image synthesis with latent diffusion models. In: CVPR, pp 10684\u201310695","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"3349_CR7","doi-asserted-by":"crossref","unstructured":"Zhang L, Agrawala M (2023) Adding conditional control to text-to-image diffusion models. In: ICCV, pp 3836\u20133847","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"3349_CR8","doi-asserted-by":"crossref","unstructured":"Ruiz N, Li Y, Jampani V, Pritch Y, Rubinstein M, Aberman K (2023) DreamBooth: fine tuning text-to-image diffusion models for subject-driven generation. In: CVPR, pp 22500\u201322510","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"3349_CR9","doi-asserted-by":"crossref","unstructured":"Xu C, Ling H, Fidler S, Litany O (2024) 3DiffTection: 3D object detection with geometry-aware diffusion features. In: CVPR, pp 10617\u201310627","DOI":"10.1109\/CVPR52733.2024.01010"},{"key":"3349_CR10","unstructured":"Tang L, Jia M, Wang Q, Phoo CP, Hariharan B (2023) Emergent correspondence from image diffusion. In: NeurIPS, pp 1363\u20131389"},{"key":"3349_CR11","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. In: NeurIPS, pp 6000\u20136010"},{"key":"3349_CR12","unstructured":"Sun K, Zhao Y, Jiang B, Cheng T, Xiao B, Liu D, Mu Y, Wang X, Liu W, Wang J (2019) High-resolution representations for labeling pixels and regions, pp 1\u201313. arXiv preprint arXiv:1904.04514 abs\/1904.04514"},{"key":"3349_CR13","doi-asserted-by":"crossref","unstructured":"Ronneberger O, Fischer P, Brox T (2015) U-Net: convolutional networks for biomedical image segmentation. In: MICCAI, pp 234\u2013241","DOI":"10.1007\/978-3-319-24574-4_28"},{"issue":"2\u20133","key":"3349_CR14","doi-asserted-by":"publisher","first-page":"126","DOI":"10.1049\/htl2.12069","volume":"11","author":"L Zhang","year":"2024","unstructured":"Zhang L, Hayashi Y, Oda M, Mori K (2024) Towards better laparoscopic video segmentation: a class-wise contrastive learning approach with multi-scale feature extraction. Healthc Technol Lett 11(2\u20133):126\u2013136","journal-title":"Healthc Technol Lett"},{"key":"3349_CR15","doi-asserted-by":"crossref","unstructured":"Zhao X, Hayashi Y, Oda M, Kitasaka T, Mori K (2023) Masked frequency consistency for domain-adaptive semantic segmentation of laparoscopic images. In: MICCAI, pp 663\u2013673","DOI":"10.1007\/978-3-031-43907-0_63"},{"key":"3349_CR16","doi-asserted-by":"crossref","unstructured":"Chen H, Zhang Y, Cun X, Xia M, Wang X, Weng C, Shan Y (2024) VideoCrafter2: overcoming data limitations for high-quality video diffusion models. In: CVPR, pp 7310\u20137320","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"3349_CR17","doi-asserted-by":"crossref","unstructured":"Li AC, Prabhudesai M, Duggal S, Brown E, Pathak D (2023) Your diffusion model is secretly a zero-shot classifier. In: ICCV, pp 2206\u20132217","DOI":"10.1109\/ICCV51070.2023.00210"},{"key":"3349_CR18","doi-asserted-by":"crossref","unstructured":"Luo R, Song Z, Ma L, Wei J, Yang W, Yang M (2024) DiffusionTrack: diffusion model for multi-object tracking. In: AAAI, pp 3991\u20133999","DOI":"10.1609\/aaai.v38i5.28192"},{"key":"3349_CR19","unstructured":"Hedlin E, Sharma G, Mahajan S, Isack H, Kar A, Tagliasacchi A, Yi KM (2023)Unsupervised semantic correspondence using stable diffusion. In: NeurIPS, pp 8266\u20138279"},{"key":"3349_CR20","unstructured":"Zhang J, Herrmann C, Hur J, Cabrera LP, Jampani V, Sun D, Yang M-H (2023) A tale of two features: stable diffusion complements DINO for zero-shot semantic correspondence. In: NeurIPS, pp 45533\u201345547"},{"key":"3349_CR21","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J (2021) Learning transferable visual models from natural language supervision. In: ICML, pp 8748\u20138763"},{"key":"3349_CR22","unstructured":"Cheng Y, Li L, Xu Y, Li X, Yang Z, Wang W, Yang Y (2023) Segment and track anything, pp 1\u20138. arXiv preprint arXiv:2305.06558 abs\/2305.06558"},{"key":"3349_CR23","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, Uszkoreit J, Houlsby N (2021) An image is worth 16x16 words: transformers for image recognition at scale. In: ICLR"},{"key":"3349_CR24","unstructured":"Oquab M, Darcet T, Moutakanni T, Vo H, Szafraniec M, Khalidov V, Fernandez P, Haziza D, Massa F, El-Nouby A et al (2024) DINOv2: learning robust visual features without supervision. TMLR"},{"key":"3349_CR25","doi-asserted-by":"crossref","unstructured":"Caron M, Touvron H, Misra I, J\u00e9gou H, Mairal J, Bojanowski P, Joulin A (2021) Emerging properties in self-supervised vision transformers. In: ICCV, pp 9650\u20139660","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"3349_CR26","doi-asserted-by":"crossref","unstructured":"Kirillov A, Mintun E, Ravi N, Mao H, Rolland C, Gustafson L, Xiao T, Whitehead S, Berg AC, Lo W-Y (2023) Segment anything. In: ICCV, pp 4015\u20134026","DOI":"10.1109\/ICCV51070.2023.00371"},{"issue":"1","key":"3349_CR27","doi-asserted-by":"publisher","first-page":"654","DOI":"10.1038\/s41467-024-44824-z","volume":"15","author":"J Ma","year":"2024","unstructured":"Ma J, He Y, Li F, Han L, You C, Wang B (2024) Segment anything in medical images. Nat Commun 15(1):654\u2013662","journal-title":"Nat Commun"},{"key":"3349_CR28","doi-asserted-by":"crossref","unstructured":"Lin T-Y, Doll\u00e1r P, Girshick R, He K, Hariharan B, Belongie S (2017) Feature pyramid networks for object detection. In: CVPR, pp 2117\u20132125","DOI":"10.1109\/CVPR.2017.106"},{"key":"3349_CR29","unstructured":"Bodenstedt S, Allan M, Agustinos A, Du X, Garcia-Peraza-Herrera L, Kenngott H, Kurmann T, M\u00fcller-Stich B, Ourselin S, Pakhomov D (2018) Comparative evaluation of instrument segmentation and tracking methods in minimally invasive surgery, pp 1\u201314. arXiv preprint arXiv:1805.02475 abs\/1805.02475"},{"key":"3349_CR30","unstructured":"Pont-Tuset J, Perazzi F, Caelles S, Arbel\u00e1ez P, Sorkine-Hornung A, Van\u00a0Gool L (2017) The 2017 Davis challenge on video object segmentation, pp 1\u20136. arXiv preprint arXiv:1704.00675 abs\/1704.00675"},{"key":"3349_CR31","doi-asserted-by":"crossref","unstructured":"Cherti M, Beaumont R, Wightman R, Wortsman M, Ilharco G, Gordon C, Schuhmann C, Schmidt L, Jitsev J (2023) Reproducible scaling laws for contrastive language-image learning. In: CVPR, pp 2818\u20132829","DOI":"10.1109\/CVPR52729.2023.00276"}],"container-title":["International Journal of Computer Assisted Radiology and Surgery"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11548-025-03349-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11548-025-03349-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11548-025-03349-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,14]],"date-time":"2025-06-14T11:34:41Z","timestamp":1749900881000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11548-025-03349-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,1]]},"references-count":31,"journal-issue":{"issue":"6","published-online":{"date-parts":[[2025,6]]}},"alternative-id":["3349"],"URL":"https:\/\/doi.org\/10.1007\/s11548-025-03349-6","relation":{},"ISSN":["1861-6429"],"issn-type":[{"type":"electronic","value":"1861-6429"}],"subject":[],"published":{"date-parts":[[2025,4,1]]},"assertion":[{"value":"10 January 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 March 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 April 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Mr. Koley, Mr. Barbarisi, Dr. Kadkhodamohammadi, Dr. Luengo, and Prof. Stoyanov are employees of Medtronic plc.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This article does not contain any studies with human participants or animals performed by any of the authors.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}]}}