{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T02:51:28Z","timestamp":1776135088226,"version":"3.50.1"},"reference-count":44,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2024YFC3809400"],"award-info":[{"award-number":["2024YFC3809400"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U24A6005"],"award-info":[{"award-number":["U24A6005"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Advanced Engineering Informatics"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.aei.2026.104643","type":"journal-article","created":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:17:16Z","timestamp":1775002636000},"page":"104643","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PA","title":["Worker intent recognition for human-crane collaboration: an uncertainty-aware and interpretable multimodal large language model"],"prefix":"10.1016","volume":"74","author":[{"given":"Siying","family":"Cao","sequence":"first","affiliation":[]},{"given":"Wei","family":"Zhou","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-9759-1198","authenticated-orcid":false,"given":"Yifan","family":"Lu","sequence":"additional","affiliation":[]},{"given":"Xiuzhi","family":"Deng","sequence":"additional","affiliation":[]},{"given":"Jitong","family":"Zhao","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.aei.2026.104643_b0005","doi-asserted-by":"crossref","first-page":"367","DOI":"10.1016\/j.autcon.2016.08.025","article-title":"A framework for real-time pro-active safety assistance for mobile crane lifting operations","volume":"72","author":"Fang","year":"2016","journal-title":"Autom. Constr."},{"key":"10.1016\/j.aei.2026.104643_b0010","doi-asserted-by":"crossref","first-page":"373","DOI":"10.1016\/j.procir.2020.05.253","article-title":"Semantic knowledge based reasoning framework for human robot collaboration","volume":"97","author":"Akkaladevi","year":"2021","journal-title":"Procedia CIRP"},{"key":"10.1016\/j.aei.2026.104643_b0015","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.126147","article-title":"Human intention recognition using context relationships in complex scenes","volume":"266","author":"Tong","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.aei.2026.104643_b0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.109574","article-title":"Designing deep neural networks for driver intention recognition","volume":"139","author":"Vellenga","year":"2025","journal-title":"Eng. Appl. Artif. Intel."},{"key":"10.1016\/j.aei.2026.104643_b0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.125914","article-title":"RAG-based explainable prediction of road users behaviors for automated driving using knowledge graphs and large language models","volume":"265","author":"Hussien","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.aei.2026.104643_b0030","doi-asserted-by":"crossref","first-page":"26999","DOI":"10.1038\/s41598-024-77916-3","article-title":"Enhancing intention prediction and interpretability in service robots with LLM and KG","volume":"14","author":"Zhou","year":"2024","journal-title":"Sci. Rep."},{"key":"10.1016\/j.aei.2026.104643_b0035","doi-asserted-by":"crossref","DOI":"10.1016\/j.autcon.2020.103085","article-title":"Deep learning for site safety: Real-time detection of personal protective equipment","volume":"112","author":"Nath","year":"2020","journal-title":"Autom. Constr."},{"key":"10.1016\/j.aei.2026.104643_b0040","doi-asserted-by":"crossref","first-page":"170","DOI":"10.1016\/j.aei.2018.12.005","article-title":"A deep learning-based approach for mitigating falls from height with computer vision: Convolutional neural network","volume":"39","author":"Fang","year":"2019","journal-title":"Adv. Eng. Inf."},{"key":"10.1016\/j.aei.2026.104643_b0045","doi-asserted-by":"crossref","first-page":"225","DOI":"10.1016\/j.eng.2023.10.004","article-title":"Construction activity analysis of workers based on human posture estimation information","volume":"33","author":"Zhou","year":"2024","journal-title":"Engineering"},{"key":"10.1016\/j.aei.2026.104643_b0050","doi-asserted-by":"crossref","first-page":"104373","DOI":"10.1016\/j.aei.2026.104373","article-title":"Real-time multimodal fusion and semantic mapping for robotic tower crane perception","volume":"71","author":"Lu","year":"2026","journal-title":"Advanced Engineering Informatics"},{"key":"10.1016\/j.aei.2026.104643_b0055","first-page":"1","article-title":"Collaborative behavior design of industrial robots for multiple human-robot collaboration, in","volume":"2013","author":"Ding","year":"2013","journal-title":"IEEE ISR"},{"key":"10.1016\/j.aei.2026.104643_b0060","series-title":"Handbook of Measuring System Design","year":"2005"},{"key":"10.1016\/j.aei.2026.104643_b0065","series-title":"Companion of the 2018 ACM\/IEEE International Conference on Human-Robot Interaction","first-page":"279","article-title":"Human Intention Prediction in Human-Robot Collaborative Tasks","author":"Wang","year":"2018"},{"key":"10.1016\/j.aei.2026.104643_b0070","doi-asserted-by":"crossref","first-page":"5754","DOI":"10.3390\/app11125754","article-title":"Human\u2013Robot Collaborative Assembly based on Eye-Hand and a Finite State Machine in a Virtual Environment","volume":"11","author":"Zhao","year":"2021","journal-title":"Appl. Sci."},{"key":"10.1016\/j.aei.2026.104643_b0075","doi-asserted-by":"crossref","DOI":"10.1016\/j.compind.2022.103627","article-title":"Guillem Aleny\u00e0, OCRA \u2013 an ontology for collaborative robotics and adaptation","volume":"138","author":"Olivares-Alarcos","year":"2022","journal-title":"Comput. Ind."},{"key":"10.1016\/j.aei.2026.104643_b0080","doi-asserted-by":"crossref","first-page":"358","DOI":"10.3390\/biomimetics8040358","article-title":"A Novel Human Intention Prediction Approach based on Fuzzy Rules through Wearable Sensing in Human\u2013Robot Handover","volume":"8","author":"Zou","year":"2023","journal-title":"Biomimetics"},{"key":"10.1016\/j.aei.2026.104643_b0085","doi-asserted-by":"crossref","unstructured":". Llorens-Bonilla, H.H. Asada, Control and Coordination of Supernumerary Robotic Limbs Based on Human Motion Detection and Task Petri Net Model, in: Volume 2: Control, Monitoring, and Energy Harvesting of Vibratory Systems; Cooperative and Networked Control; Delay Systems; Dynamical Modeling and Diagnostics in Biomedical Systems; Estimation and Id of Energy Systems; Fault Detection; Flow and Thermal Systems; Haptics and Hand Motion; Human Assistive Systems and Wearable Robots; Instrumentation and Characterization in Bio-Systems; Intelligent Transportation Systems; Linear Systems and Robust Control; Marine Vehicles; Nonholonomic Systems, American Society of Mechanical Engineers, Palo Alto, California, USA, 2013: p. V002T27A006. https:\/\/doi.org\/10.1115\/DSCC2013-4083.","DOI":"10.1115\/DSCC2013-4083"},{"key":"10.1016\/j.aei.2026.104643_b0090","doi-asserted-by":"crossref","unstructured":"V.K. Narayanan, A. Spalanzani, M. Babel, A semi-autonomous framework for human-aware and user intention driven wheelchair mobility assistance, in: 2016 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS), 2016: pp. 4700\u20134707. https:\/\/doi.org\/10.1109\/IROS.2016.7759691.","DOI":"10.1109\/IROS.2016.7759691"},{"key":"10.1016\/j.aei.2026.104643_b0095","series-title":"2014 IEEE\/RSJ International Conference on Intelligent Robots and Systems","first-page":"3299","article-title":"Using social cues to estimate possible destinations when driving a robotic wheelchair","author":"Escobedo","year":"2014"},{"key":"10.1016\/j.aei.2026.104643_b0100","doi-asserted-by":"crossref","first-page":"102024","DOI":"10.1016\/j.aei.2023.102024","article-title":"Explainable artificial intelligence (XAI): Precepts, models, and opportunities for research in construction","volume":"57","author":"Love","year":"2023","journal-title":"Advanced Engineering Informatics"},{"key":"10.1016\/j.aei.2026.104643_b0105","doi-asserted-by":"crossref","first-page":"118","DOI":"10.1016\/j.autcon.2017.11.002","article-title":"A deep hybrid learning model to detect unsafe behavior: Integrating convolution neural networks and long short-term memory","volume":"86","author":"Ding","year":"2018","journal-title":"Autom. Constr."},{"key":"10.1016\/j.aei.2026.104643_b0110","doi-asserted-by":"crossref","first-page":"368","DOI":"10.1111\/j.1467-8667.2010.00690.x","article-title":"Automated object identification using optical video cameras on construction sites","volume":"26","author":"Chi","year":"2011","journal-title":"Comput. Aided Civ. Inf. Eng."},{"key":"10.1016\/j.aei.2026.104643_b0115","doi-asserted-by":"crossref","unstructured":"M. Memarzadeh, A. Heydarian, M. Golparvar-Fard, J.C. Niebles, Real-Time and Automated Recognition and 2D Tracking of Construction Workers and Equipment from Site Video Streams, (2012) 429\u2013436. https:\/\/doi.org\/10.1061\/9780784412343.0054.","DOI":"10.1061\/9780784412343.0054"},{"key":"10.1016\/j.aei.2026.104643_b0120","doi-asserted-by":"crossref","first-page":"267","DOI":"10.1016\/j.compind.2018.03.037","article-title":"An intelligent vision-based approach for helmet identification for work safety","volume":"100","author":"Wu","year":"2018","journal-title":"Comput. Ind."},{"key":"10.1016\/j.aei.2026.104643_b0125","doi-asserted-by":"crossref","first-page":"10700","DOI":"10.3390\/app131910700","article-title":"Faster R-CNN-LSTM Construction Site Unsafe Behavior Recognition Model","volume":"13","author":"Li","year":"2023","journal-title":"Appl. Sci."},{"key":"10.1016\/j.aei.2026.104643_b0130","doi-asserted-by":"crossref","DOI":"10.1016\/j.autcon.2022.104703","article-title":"Transformer-based deep learning model and video dataset for unsafe action identification in construction projects","volume":"146","author":"Yang","year":"2023","journal-title":"Autom. Constr."},{"key":"10.1016\/j.aei.2026.104643_b0135","doi-asserted-by":"crossref","DOI":"10.1016\/j.aei.2025.103232","article-title":"Scaffolding worker IMU time-series dataset for deep learning-based construction site behavior recognition","volume":"65","author":"Park","year":"2025","journal-title":"Adv. Eng. Inf."},{"key":"10.1016\/j.aei.2026.104643_b0140","doi-asserted-by":"crossref","DOI":"10.1016\/j.ress.2025.111491","article-title":"Mitigating adversarial attacks and building robust deep learning models for assessing risks in tunnel construction","volume":"265","author":"Lu","year":"2026","journal-title":"Reliab. Eng. Syst. Saf."},{"key":"10.1016\/j.aei.2026.104643_b0145","author":"Vaswani","year":"2017","journal-title":"Attention Is All You Need"},{"key":"10.1016\/j.aei.2026.104643_b0150","unstructured":"W.X. Zhao, K. Zhou, J. Li, T. Tang, X. Wang, Y. Hou, Y. Min, B. Zhang, J. Zhang, Z. Dong, Y. Du, C. Yang, Y. Chen, Z. Chen, J. Jiang, R. Ren, Y. Li, X. Tang, Z. Liu, P. Liu, J.-Y. Nie, J.-R. Wen, A Survey of Large Language Models, 2025. https:\/\/doi.org\/10.48550\/arXiv.2303.18223."},{"key":"10.1016\/j.aei.2026.104643_b0155","doi-asserted-by":"crossref","first-page":"2280","DOI":"10.1016\/j.ifacol.2025.09.383","article-title":"Large Language Model-powered Operator Intention Recognition for Human-Robot Collaboration","volume":"59","author":"Ding","year":"2025","journal-title":"IFAC-PapersOnLine"},{"key":"10.1016\/j.aei.2026.104643_b0160","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.109771","article-title":"Integrating Belief-Desire-Intention agents with large language models for reliable human\u2013robot interaction and explainable Artificial Intelligence","volume":"141","author":"Frering","year":"2025","journal-title":"Eng. Appl. Artif. Intel."},{"key":"10.1016\/j.aei.2026.104643_b0165","doi-asserted-by":"crossref","unstructured":"Z. Zhang, B. Yang, X. Chen, W. Shi, H. Wang, W. Luo, J. Huang, MindEye-OmniAssist: A Gaze-Driven LLM-Enhanced Assistive Robot System for Implicit Intention Recognition and Task Execution, 2025. https:\/\/doi.org\/10.48550\/arXiv.2503.13250.","DOI":"10.1109\/CBS65871.2025.11267731"},{"key":"10.1016\/j.aei.2026.104643_b0170","doi-asserted-by":"crossref","unstructured":"H. Ali, P. Allgeuer, S. Wermter, Comparing Apples to Oranges: LLM-powered Multimodal intent Prediction in an Object Categorization Task, 2025, pp. 292\u2013306. https:\/\/doi.org\/10.1007\/978-981-96-3525-2_25.","DOI":"10.1007\/978-981-96-3525-2_25"},{"key":"10.1016\/j.aei.2026.104643_b0175","unstructured":"Z. Huang, J. Pohovey, A. Yammanuru, K. Driggs-Campbell, LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application, (2024). https:\/\/doi.org\/10.48550\/arXiv.2406.13787."},{"key":"10.1016\/j.aei.2026.104643_b0180","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2025.129688","article-title":"FMVP: Fine-grained Meta Visual Prompt enabled domain-specific few-shot classification","volume":"633","author":"Li","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.aei.2026.104643_b0185","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.119773","article-title":"Evolution of visual data captioning Methods, Datasets, and evaluation Metrics: a comprehensive survey","volume":"221","author":"Sharma","year":"2023","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.aei.2026.104643_b0190","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2025.114645","article-title":"Knowledge-driven deep learning approaches for computer vision tasks: a survey","volume":"330","author":"Ezzahra Benkirane","year":"2025","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.aei.2026.104643_b0195","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.102969","article-title":"RK-VQA: Rational knowledge-aware fusion-in-decoder for knowledge-based visual question answering","volume":"118","author":"Chen","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.aei.2026.104643_b0200","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.127612","article-title":"Fact retrieval from knowledge graphs through semantic and contextual attention","volume":"282","author":"Chaudhary","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.aei.2026.104643_b0205","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2025.131927","article-title":"Improving monte carlo dropout uncertainty estimation with stable output layers","volume":"661","author":"Son","year":"2026","journal-title":"Neurocomputing"},{"key":"10.1016\/j.aei.2026.104643_b0210","doi-asserted-by":"crossref","DOI":"10.1016\/j.buildenv.2025.113855","article-title":"BuildingGPT: Query building semantic data using large language models and vector-graph retrieval-augmented generation","volume":"287","author":"Li","year":"2026","journal-title":"Build. Environ."},{"key":"10.1016\/j.aei.2026.104643_b0215","doi-asserted-by":"crossref","DOI":"10.1016\/j.aei.2025.103642","article-title":"A novel uncertainty-aware point cloud approach for geometric quality monitoring in construction","volume":"68","author":"Luo","year":"2025","journal-title":"Adv. Eng. Inf."},{"key":"10.1016\/j.aei.2026.104643_b0220","doi-asserted-by":"crossref","first-page":"250","DOI":"10.1016\/j.ssci.2014.04.012","article-title":"Why are occupational health and safety training approaches not effective? Understanding Young Worker Learning Processes Using an Ergonomic Lens","volume":"68","author":"Laberge","year":"2014","journal-title":"Safety Science"}],"container-title":["Advanced Engineering Informatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1474034626003356?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1474034626003356?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T02:03:23Z","timestamp":1776132203000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1474034626003356"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":44,"alternative-id":["S1474034626003356"],"URL":"https:\/\/doi.org\/10.1016\/j.aei.2026.104643","relation":{},"ISSN":["1474-0346"],"issn-type":[{"value":"1474-0346","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Worker intent recognition for human-crane collaboration: an uncertainty-aware and interpretable multimodal large language model","name":"articletitle","label":"Article Title"},{"value":"Advanced Engineering Informatics","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.aei.2026.104643","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"104643"}}