{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T15:14:39Z","timestamp":1780672479521,"version":"3.54.1"},"reference-count":90,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,27]],"date-time":"2026-04-27T00:00:00Z","timestamp":1777248000000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100002745","name":"Bayerische Forschungsstiftung","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002745","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Medical Image Analysis"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.media.2026.104083","type":"journal-article","created":{"date-parts":[[2026,4,25]],"date-time":"2026-04-25T15:09:34Z","timestamp":1777129774000},"page":"104083","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":2,"special_numbering":"C","title":["Decoding the surgical scene: A scoping review of scene graphs in surgery"],"prefix":"10.1016","volume":"112","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-2910-7737","authenticated-orcid":false,"given":"Angelo","family":"Henriques","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Korab","family":"Hoxha","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Daniel","family":"Zapp","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"P.","family":"Charbel Issa","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6032-5611","authenticated-orcid":false,"given":"Nassir","family":"Navab","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9764-5731","authenticated-orcid":false,"given":"M. Ali","family":"Nasseri","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.media.2026.104083_b1","doi-asserted-by":"crossref","unstructured":"Ahmadi, S.A., Sielhorst, T., Stauder, R., Horn, M., Feussner, H., Navab, N., 2006. Recovery of surgical workflow without explicit models. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 420\u2013428.","DOI":"10.1007\/11866565_52"},{"key":"10.1016\/j.media.2026.104083_b2","doi-asserted-by":"crossref","first-page":"24","DOI":"10.1016\/j.media.2018.11.008","article-title":"CATARACTS: Challenge on automatic tool annotation for cataRACT surgery","volume":"52","author":"Al Hajj","year":"2019","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104083_b3","series-title":"2018 Robotic scene segmentation challenge","author":"Allan","year":"2020"},{"key":"10.1016\/j.media.2026.104083_b4","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103290","article-title":"Multimodal graph representation learning for robust surgical workflow recognition with adversarial feature disentanglement","volume":"123","author":"Bai","year":"2025","journal-title":"Inf. Fusion"},{"issue":"1","key":"10.1016\/j.media.2026.104083_b5","doi-asserted-by":"crossref","first-page":"264","DOI":"10.1109\/TMI.2023.3299518","article-title":"Concept graph neural networks for surgical video understanding","volume":"43","author":"Ban","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"issue":"6","key":"10.1016\/j.media.2026.104083_b6","doi-asserted-by":"crossref","first-page":"1085","DOI":"10.1007\/s11548-024-03091-5","article-title":"EndoViT: pretraining vision transformers on a large collection of endoscopic images","volume":"19","author":"Bati\u0107","year":"2024","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b7","doi-asserted-by":"crossref","unstructured":"Biagini, D., Navab, N., Farshad, A., 2025. HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation. In: Proceedings of Medical Image Computing and Computer Assisted Intervention. MICCAI 2025, pp. 310\u2013319.","DOI":"10.1007\/978-3-032-05114-1_30"},{"key":"10.1016\/j.media.2026.104083_b8","first-page":"366","article-title":"Algorithms in surgical action recognition: A survey","author":"Bian","year":"2024","journal-title":"IEEE Int. Conf. Real-Time Comput. Robot."},{"key":"10.1016\/j.media.2026.104083_b9","first-page":"25","article-title":"OR specific domain model for usability evaluations of intra-operative systems","volume":"vol. 6689","author":"Bigdelou","year":"2011"},{"key":"10.1016\/j.media.2026.104083_b10","series-title":"EEE International Conference on Bioinformatics and Biomedicine","first-page":"645","article-title":"Medical scene graphs and reasoning","author":"Cao","year":"2021"},{"issue":"1","key":"10.1016\/j.media.2026.104083_b11","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TPAMI.2021.3137605","article-title":"A comprehensive survey of scene graphs: Generation and application","volume":"45","author":"Chang","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"12","key":"10.1016\/j.media.2026.104083_b12","doi-asserted-by":"crossref","first-page":"10297","DOI":"10.1109\/TPAMI.2024.3445463","article-title":"A survey on graph neural networks and graph transformers in computer vision: A task-oriented perspective","volume":"46","author":"Chen","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"11","key":"10.1016\/j.media.2026.104083_b13","doi-asserted-by":"crossref","first-page":"5405","DOI":"10.1109\/JBHI.2023.3311628","article-title":"Deep learning in surgical workflow analysis: A review of phase and step recognition","volume":"27","author":"Demir","year":"2023","journal-title":"IEEE J. Biomed. Health Inform."},{"key":"10.1016\/j.media.2026.104083_b14","doi-asserted-by":"crossref","unstructured":"Dhamo, H., Farshad, A., Laina, I., Navab, N., Hager, G.D., Tombari, F., Rupprecht, C., 2020. Semantic Image Manipulation Using Scene Graphs. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. pp. 5213\u20135222.","DOI":"10.1109\/CVPR42600.2020.00526"},{"key":"10.1016\/j.media.2026.104083_b15","doi-asserted-by":"crossref","first-page":"9473","DOI":"10.1109\/ACCESS.2024.3525145","article-title":"Visual question answering in robotic surgery: A comprehensive review","volume":"13","author":"Ding","year":"2025","journal-title":"IEEE Access"},{"key":"10.1016\/j.media.2026.104083_b16","series-title":"2023 IEEE International Conference on Distributed Computing, VLSI, Electrical Circuits and Robotics (DISCOVER)","article-title":"Knowledge-based scene graph generation in medical field","author":"D\u2019souza","year":"2023"},{"key":"10.1016\/j.media.2026.104083_b17","first-page":"1","article-title":"SurGrID: Controllable surgical simulation via scene graph to image diffusion","author":"Frisch","year":"2025","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b18","doi-asserted-by":"crossref","unstructured":"Fujii, R., Hatano, M., Saito, H., Kajita, H., 2024. EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 187\u2013196.","DOI":"10.1007\/978-3-031-72089-5_18"},{"issue":"4","key":"10.1016\/j.media.2026.104083_b19","doi-asserted-by":"crossref","first-page":"684","DOI":"10.1097\/SLA.0000000000004425","article-title":"Machine learning for surgical phase recognition: A systematic review","volume":"273","author":"Garrow","year":"2021","journal-title":"Ann. Surg."},{"issue":"4","key":"10.1016\/j.media.2026.104083_b20","doi-asserted-by":"crossref","first-page":"1628","DOI":"10.1109\/TMI.2023.3345736","article-title":"MT4MTL-KD: A multi-teacher knowledge distillation framework for triplet recognition","volume":"43","author":"Gui","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b21","doi-asserted-by":"crossref","unstructured":"Guo, D., Lin, M., Pei, J., Tang, H., Jin, Y., Heng, P.A., 2024. Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 714\u2013724.","DOI":"10.1007\/978-3-031-72089-5_67"},{"key":"10.1016\/j.media.2026.104083_b22","first-page":"11","article-title":"Lightweight rendezvous model based on pruning and knowledgedistillation for action triplet recognition in laparoscopic surgery videos","volume":"vol. 1077","author":"Ha","year":"2024"},{"key":"10.1016\/j.media.2026.104083_b23","series-title":"Surgery-R1: Advancing surgical-VQLA with reasoning multimodal large language model via reinforcement learning","author":"Hao","year":"2025"},{"key":"10.1016\/j.media.2026.104083_b24","doi-asserted-by":"crossref","unstructured":"Hao, P., Wang, H., Li, S., Xing, Z., Yang, G., Wu, K., Zhu, L., 2025b. Surgical-MambaLLM: Mamba2-enhanced Multimodal Large Language Model for VQLA in Robotic Surgery. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 573\u2013583.","DOI":"10.1007\/978-3-032-05114-1_55"},{"key":"10.1016\/j.media.2026.104083_b25","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"81","article-title":"Dynamic scene graph representation for surgical video","author":"Holm","year":"2023"},{"key":"10.1016\/j.media.2026.104083_b26","series-title":"ProtoFlow: Interpretable and robust surgical workflow modeling with learned dynamic scene graph prototypes","author":"Holm","year":"2025"},{"key":"10.1016\/j.media.2026.104083_b27","series-title":"Computer Graphics: Principles and Practice","author":"Hughes","year":"2013"},{"key":"10.1016\/j.media.2026.104083_b28","doi-asserted-by":"crossref","unstructured":"Islam, M., Seenivasan, L., Ming, L.C., Ren, H., 2020. Learning and Reasoning with the Graph Structure Representation in Robotic Surgery. In: Medical Image Computing and Computer Assisted Intervention. MICCAI, pp. 627\u2013636.","DOI":"10.1007\/978-3-030-59716-0_60"},{"key":"10.1016\/j.media.2026.104083_b29","doi-asserted-by":"crossref","unstructured":"Johnson, J., Krishna, R., Stark, M., Li, L.J., Shamma, D.A., Bernstein, M.S., Fei-Fei, L., 2015. Image Retrieval Using Scene Graphs. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3668\u20133678.","DOI":"10.1109\/CVPR.2015.7298990"},{"issue":"1","key":"10.1016\/j.media.2026.104083_b30","doi-asserted-by":"crossref","first-page":"317","DOI":"10.1038\/s41597-019-0322-0","article-title":"MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports","volume":"6","author":"Johnson","year":"2019","journal-title":"Sci. Data"},{"key":"10.1016\/j.media.2026.104083_b31","doi-asserted-by":"crossref","unstructured":"K\u00f6ksal, \u00c7., Ghazaei, G., Holm, F., Farshad, A., Navab, N., 2024. SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction. In: International Workshop on Graphs in Biomedical Image Analysis. pp. 106\u2013117.","DOI":"10.1007\/978-3-031-83243-7_10"},{"issue":"1","key":"10.1016\/j.media.2026.104083_b32","doi-asserted-by":"crossref","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","article-title":"Visual genome: Connecting language and vision using crowdsourced dense image annotations","volume":"123","author":"Krishna","year":"2017","journal-title":"Int. J. Comput. Vis."},{"issue":"7","key":"10.1016\/j.media.2026.104083_b33","doi-asserted-by":"crossref","first-page":"1291","DOI":"10.1007\/s11548-024-03147-6","article-title":"Parameter-efficient framework for surgical action triplet recognition","volume":"19","author":"Li","year":"2024","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"issue":"2","key":"10.1016\/j.media.2026.104083_b34","doi-asserted-by":"crossref","first-page":"4212","DOI":"10.1109\/LRA.2022.3148454","article-title":"SIRNet: Fine-grained surgical interaction recognition","volume":"7","author":"Li","year":"2022","journal-title":"IEEE Robot. Autom. Lett."},{"issue":"10","key":"10.1016\/j.media.2026.104083_b35","doi-asserted-by":"crossref","first-page":"4983","DOI":"10.1109\/JBHI.2023.3299321","article-title":"MT-FiST: A multi-task fine-grained spatial-temporal framework for surgical action triplet recognition","volume":"27","author":"Li","year":"2023","journal-title":"IEEE J. Biomed. Health Inform."},{"key":"10.1016\/j.media.2026.104083_b36","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.127052","article-title":"Scene graph generation: A comprehensive survey","volume":"566","author":"Li","year":"2024","journal-title":"Neurocomputing"},{"issue":"8","key":"10.1016\/j.media.2026.104083_b37","doi-asserted-by":"crossref","first-page":"2803","DOI":"10.1109\/TMI.2024.3381209","article-title":"Instrument-tissue interaction detection framework for surgical video understanding","volume":"43","author":"Lin","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b38","doi-asserted-by":"crossref","unstructured":"Lin, C., Zheng, S., Liu, Z., Li, Y., Zhu, Z., Zhao, Y., 2022. SGT Scene Graph-Guided Transformer for Surgical Report Generation. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 507\u2013518.","DOI":"10.1007\/978-3-031-16449-1_48"},{"issue":"4","key":"10.1016\/j.media.2026.104083_b39","doi-asserted-by":"crossref","first-page":"1337","DOI":"10.1109\/TMI.2023.3335909","article-title":"SGT++: Improved scene graph-guided transformer for surgical report generation","volume":"43","author":"Lin","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b40","series-title":"Surgical triplet recognition via diffusion model","author":"Liu","year":"2024"},{"issue":"9","key":"10.1016\/j.media.2026.104083_b41","doi-asserted-by":"crossref","first-page":"691","DOI":"10.1038\/s41551-017-0132-7","article-title":"Surgical data science for next-generation interventions","volume":"1","author":"Maier-Hein","year":"2017","journal-title":"Nat. Biomed. Eng."},{"key":"10.1016\/j.media.2026.104083_b42","doi-asserted-by":"crossref","DOI":"10.1016\/j.ijsu.2021.106151","article-title":"A systematic review on artificial intelligence in robot-assisted surgery","volume":"95","author":"Moglia","year":"2021","journal-title":"Int. J. Surg. (London, England)"},{"key":"10.1016\/j.media.2026.104083_b43","series-title":"The endoscapes dataset for surgical scene segmentation, object detection, and critical view of safety assessment: Official splits and benchmark","author":"Murali","year":"2023"},{"issue":"3","key":"10.1016\/j.media.2026.104083_b44","doi-asserted-by":"crossref","first-page":"1247","DOI":"10.1109\/TMI.2023.3333034","article-title":"Latent graph representations for critical view of safety assessment","volume":"43","author":"Murali","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b45","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2023.102803","article-title":"CholecTriplet2021: A benchmark challenge for surgical action triplet recognition","volume":"86","author":"Nwoye","year":"2023","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104083_b46","series-title":"Recognition of instrument-tissue interactions in endoscopic videos via action triplets","first-page":"364","author":"Nwoye","year":"2020"},{"key":"10.1016\/j.media.2026.104083_b47","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2022.102433","article-title":"Rendezvous: Attention mechanisms for the recognition of surgical action triplets in endoscopic videos","volume":"78","author":"Nwoye","year":"2022","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104083_b48","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2023.102888","article-title":"CholecTriplet2022: Show me a tool and tell me the triplet \u2013 an endoscopic vision challenge for surgical action triplet detection","volume":"89","author":"Nwoye","year":"2023","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104083_b49","doi-asserted-by":"crossref","unstructured":"\u00d6zsoy, E., Czempiel, T., Holm, F., Pellegrini, C., Navab, N., 2023. LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms. In: International Conference on Medical Image Computing and Computer-Assisted Intervention.","DOI":"10.1007\/978-3-031-43996-4_29"},{"issue":"5","key":"10.1016\/j.media.2026.104083_b50","doi-asserted-by":"crossref","first-page":"791","DOI":"10.1007\/s11548-023-03022-w","article-title":"Holistic OR domain modeling: a semantic scene graph approach","volume":"19","author":"\u00d6zsoy","year":"2024","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b51","series-title":"EgoExOR: An ego-exo-centric operating room dataset for surgical activity understanding","author":"\u00d6zsoy","year":"2025"},{"key":"10.1016\/j.media.2026.104083_b52","doi-asserted-by":"crossref","unstructured":"\u00d6zsoy, E., \u00d6rnek, E.P., Eck, U., Czempiel, T., Tombari, F., Navab, N., 2022. 4D-OR: Semantic Scene Graphs for OR Domain Modeling. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 475\u2013485.","DOI":"10.1007\/978-3-031-16449-1_45"},{"key":"10.1016\/j.media.2026.104083_b53","series-title":"Multimodal semantic scene graphs for holistic modeling of surgical procedures","author":"\u00d6zsoy","year":"2021"},{"key":"10.1016\/j.media.2026.104083_b54","series-title":"Specialized foundation models for intelligent operating rooms","author":"\u00d6zsoy","year":"2025"},{"key":"10.1016\/j.media.2026.104083_b55","doi-asserted-by":"crossref","unstructured":"\u00d6zsoy, E., Pellegrini, C., Czempiel, T., Tristram, F., Yuan, K., Bani-Harouni, D., Eck, U., Busam, B., Keicher, M., Navab, N., 2025c. MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments. In: Proceedings of the Computer Vision and Pattern Recognition Conference. pp. 19378\u201319389.","DOI":"10.1109\/CVPR52734.2025.01805"},{"key":"10.1016\/j.media.2026.104083_b56","doi-asserted-by":"crossref","unstructured":"\u00d6zsoy, E., Pellegrini, C., Keicher, M., Navab, N., 2024b. ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 455\u2013465.","DOI":"10.1007\/978-3-031-72089-5_43"},{"issue":"4","key":"10.1016\/j.media.2026.104083_b57","doi-asserted-by":"crossref","first-page":"12623","DOI":"10.1109\/LRA.2022.3221310","article-title":"Rethinking feature extraction: Gradient-based localized feature extraction for end-to-end surgical downstream tasks","volume":"7","author":"Pang","year":"2022","journal-title":"IEEE Robot. Autom. Lett."},{"key":"10.1016\/j.media.2026.104083_b58","article-title":"\u015c2former-OR: Single-stage Bi-modal transformer for scene graph generation in OR","author":"Pei","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b59","article-title":"Instrument-tissue-guided surgical action triplet detection via textual-temporal trail exploration","volume":"PP","author":"Pei","year":"2025","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b60","doi-asserted-by":"crossref","unstructured":"Rodin, I., Furnari, A., Min, K., Tripathi, S., Farinella, G.M., 2024. Action Scene Graphs for Long-Form Understanding of Egocentric Videos. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. pp. 18622\u201318632.","DOI":"10.1109\/CVPR52733.2024.01762"},{"key":"10.1016\/j.media.2026.104083_b61","doi-asserted-by":"crossref","unstructured":"Sanner, A.P., Grauhan, N.F., Brockmann, M.A., Othman, A.E., Mukhopadhyay, A., 2024. Voxel Scene Graph for Intracranial Hemorrhage. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 519\u2013529.","DOI":"10.1007\/978-3-031-72069-7_49"},{"key":"10.1016\/j.media.2026.104083_b62","series-title":"GP-VLS: A general-purpose vision language model for surgery","author":"Schmidgall","year":"2024"},{"issue":"3s","key":"10.1016\/j.media.2026.104083_b63","doi-asserted-by":"crossref","first-page":"729","DOI":"10.1097\/ALN.0b013e318280a40f","article-title":"Situation awareness in anesthesia: concept and research","volume":"118","author":"Schulz","year":"2013","journal-title":"Anesthesiology"},{"issue":"2","key":"10.1016\/j.media.2026.104083_b64","article-title":"Biomimetic incremental domain generalization with a graph network for surgical scene understanding","volume":"7","author":"Seenivasan","year":"2022","journal-title":"Biomimetics (Basel, Switzerland)"},{"issue":"5","key":"10.1016\/j.media.2026.104083_b65","doi-asserted-by":"crossref","first-page":"921","DOI":"10.1007\/s11548-022-02800-2","article-title":"Task-aware asynchronous multi-task model with class incremental contrastive learning for surgical scene understanding","volume":"18","author":"Seenivasan","year":"2023","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"issue":"2","key":"10.1016\/j.media.2026.104083_b66","doi-asserted-by":"crossref","first-page":"3858","DOI":"10.1109\/LRA.2022.3146544","article-title":"Global-reasoned multi-task learning model for surgical scene understanding","volume":"7","author":"Seenivasan","year":"2022","journal-title":"IEEE Robot. Autom. Lett."},{"issue":"6","key":"10.1016\/j.media.2026.104083_b67","doi-asserted-by":"crossref","first-page":"1053","DOI":"10.1007\/s11548-023-02914-1","article-title":"Rendezvous in time: an attention-based temporal fusion approach for surgical triplet recognition","volume":"18","author":"Sharma","year":"2023","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b68","doi-asserted-by":"crossref","unstructured":"Sharma, S., Nwoye, C.I., Mutter, D., Padoy, N., 2023b. Surgical Action Triplet Detection by Mixed Supervised Learning of Instrument-Tissue Interactions. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 505\u2013514.","DOI":"10.1007\/978-3-031-43996-4_48"},{"key":"10.1016\/j.media.2026.104083_b69","first-page":"1","article-title":"Multiview integration network for multitask robotic surgical scene analysis","volume":"74","author":"Shen","year":"2025","journal-title":"IEEE Trans. Instrum. Meas."},{"key":"10.1016\/j.media.2026.104083_b70","doi-asserted-by":"crossref","unstructured":"Shin, J., Cho, E., Kim, K.Y., Kim, J.Y., Kim, S.T., Oh, N., 2025. Towards Holistic Surgical Scene Graph. In: Proceedings of Medical Image Computing and Computer Assisted Intervention. MICCAI 2025, pp. 617\u2013626.","DOI":"10.1007\/978-3-032-05114-1_59"},{"key":"10.1016\/j.media.2026.104083_b71","doi-asserted-by":"crossref","unstructured":"Sivakumar, S.K., Frisch, Y., Ghazaei, G., Mukhopadhyay, A., 2025. SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis. In: Proceedings of Medical Image Computing and Computer Assisted Intervention. MICCAI 2025, pp. 511\u2013521.","DOI":"10.1007\/978-3-032-05114-1_49"},{"key":"10.1016\/j.media.2026.104083_b72","series-title":"MVOR: A multi-view RGB-D operating room dataset for 2D and 3D human pose estimation","author":"Srivastav","year":"2018"},{"issue":"3","key":"10.1016\/j.media.2026.104083_b73","doi-asserted-by":"crossref","first-page":"341","DOI":"10.1145\/142920.134089","article-title":"An object-oriented 3D graphics toolkit","volume":"26","author":"Strauss","year":"1992","journal-title":"ACM SIGGRAPH Comput. Graph."},{"issue":"7","key":"10.1016\/j.media.2026.104083_b74","doi-asserted-by":"crossref","first-page":"467","DOI":"10.7326\/M18-0850","article-title":"PRISMA extension for scoping reviews (PRISMA-ScR): Checklist and explanation","volume":"169","author":"Tricco","year":"2018","journal-title":"Ann. Intern. Med."},{"key":"10.1016\/j.media.2026.104083_b75","doi-asserted-by":"crossref","unstructured":"Tripathi, S., Sridhar, S.N., Sundaresan, S., Tang, H., 2019. Compact Scene Graphs for Layout Composition and Patch Retrieval. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops.","DOI":"10.1109\/CVPRW.2019.00094"},{"issue":"1","key":"10.1016\/j.media.2026.104083_b76","doi-asserted-by":"crossref","first-page":"86","DOI":"10.1109\/TMI.2016.2593957","article-title":"EndoNet: A deep architecture for recognition tasks on laparoscopic videos","volume":"36","author":"Twinanda","year":"2016","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b77","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"10","key":"10.1016\/j.media.2026.104083_b78","doi-asserted-by":"crossref","first-page":"1929","DOI":"10.1007\/s11548-024-03226-8","article-title":"Towards multimodal graph neural networks for surgical instrument anticipation","volume":"19","author":"Wagner","year":"2024","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b79","series-title":"EndoChat: Grounded multimodal large language model for endoscopic surgery","author":"Wang","year":"2025"},{"key":"10.1016\/j.media.2026.104083_b80","series-title":"IEEE International Conference on Robotics and Automation","first-page":"2702","article-title":"Dynamic interactive relation capturing via scene graph learning for robotic surgical report generation","author":"Wang","year":"2023"},{"issue":"12","key":"10.1016\/j.media.2026.104083_b81","doi-asserted-by":"crossref","first-page":"4457","DOI":"10.1109\/TMI.2024.3426953","article-title":"Video-instrument synergistic network for referring video instrument segmentation in robotic surgery","volume":"43","author":"Wang","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b82","series-title":"ChestImaGenome dataset for clinical reasoning","author":"Wu","year":"2021"},{"issue":"12","key":"10.1016\/j.media.2026.104083_b83","doi-asserted-by":"crossref","first-page":"8550","DOI":"10.1109\/TCSVT.2022.3191838","article-title":"Forest graph convolutional network for surgical action triplet recognition in endoscopic videos","volume":"32","author":"Xi","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.media.2026.104083_b84","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2022.105616","article-title":"Scene-graph-driven semantic feature matching for monocular digestive endoscopy","volume":"146","author":"Yang","year":"2022","journal-title":"Comput. Biol. Med."},{"key":"10.1016\/j.media.2026.104083_b85","first-page":"146","article-title":"VISAGE: Video synthesis using action graphs for surgery","volume":"vol. 15274","author":"Yeganeh","year":"2025"},{"issue":"7","key":"10.1016\/j.media.2026.104083_b86","doi-asserted-by":"crossref","first-page":"1409","DOI":"10.1007\/s11548-024-03141-y","article-title":"Advancing surgical VQA with scene graph knowledge","volume":"19","author":"Yuan","year":"2024","journal-title":"Int. J. Comput. Assist. Radiol. Surg."},{"key":"10.1016\/j.media.2026.104083_b87","series-title":"Learning multi-modal representations by watching hundreds of surgical video lectures","author":"Yuan","year":"2023"},{"issue":"12","key":"10.1016\/j.media.2026.104083_b88","doi-asserted-by":"crossref","first-page":"4470","DOI":"10.1109\/TMI.2024.3424505","article-title":"Attribute prototype-guided iterative scene graph for explainable radiology report generation","volume":"43","author":"Zhang","year":"2024","journal-title":"IEEE Trans. Med. Imaging"},{"issue":"5","key":"10.1016\/j.media.2026.104083_b89","doi-asserted-by":"crossref","first-page":"2218","DOI":"10.1109\/TMI.2025.3529294","article-title":"Knowledge-driven framework for anatomical landmark annotation in laparoscopic surgery","volume":"44","author":"Zhang","year":"2025","journal-title":"IEEE Trans. Med. Imaging"},{"key":"10.1016\/j.media.2026.104083_b90","first-page":"114","article-title":"An end-to-end spatial-temporal transformer model for surgical action triplet recognition","volume":"vol. 104","author":"Zou","year":"2023"}],"container-title":["Medical Image Analysis"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001520?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001520?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T00:04:21Z","timestamp":1778803461000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1361841526001520"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":90,"alternative-id":["S1361841526001520"],"URL":"https:\/\/doi.org\/10.1016\/j.media.2026.104083","relation":{},"ISSN":["1361-8415"],"issn-type":[{"value":"1361-8415","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Decoding the surgical scene: A scoping review of scene graphs in surgery","name":"articletitle","label":"Article Title"},{"value":"Medical Image Analysis","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.media.2026.104083","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Authors. Published by Elsevier B.V.","name":"copyright","label":"Copyright"}],"article-number":"104083"}}