{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T03:04:26Z","timestamp":1763348666553,"version":"3.37.3"},"reference-count":33,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/access.2024.3425662","type":"journal-article","created":{"date-parts":[[2024,7,9]],"date-time":"2024-07-09T18:48:56Z","timestamp":1720550936000},"page":"94436-94451","source":"Crossref","is-referenced-by-count":1,"title":["GalaxyGPT: A Hybrid Framework for Large Language Model Safety"],"prefix":"10.1109","volume":"12","author":[{"given":"Hange","family":"Zhou","sequence":"first","affiliation":[{"name":"Geely Automobile Research Institute (Ningbo) Company Ltd., Ningbo, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-1388-7524","authenticated-orcid":false,"given":"Jiabin","family":"Zheng","sequence":"additional","affiliation":[{"name":"School of Aeronautics and Astronautics, Zhejiang University, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Longtu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Geely Automobile Research Institute (Ningbo) Company Ltd., Ningbo, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/SP40001.2021.00075"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-emnlp.210"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.301"},{"key":"ref4","article-title":"LLM censorship: A machine learning challenge or a computer security problem?","author":"Glukhov","year":"2023","journal-title":"arXiv:2307.10719"},{"key":"ref5","article-title":"XSTest: A test suite for identifying exaggerated safety behaviours in large language models","author":"R\u00f6ttger","year":"2023","journal-title":"arXiv:2308.01263"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/spw63631.2024.00018"},{"key":"ref7","article-title":"Jailbroken: How does LLM safety training fail?","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Wei"},{"key":"ref8","first-page":"2633","article-title":"Extracting training data from large language models","volume-title":"Proc. 30th USENIX Secur. Symp.","author":"Carlini"},{"key":"ref9","article-title":"BeaverTails: Towards improved safety alignment of LLM via a human-preference dataset","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Ji"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/SocialCom-PASSAT.2012.55"},{"key":"ref11","article-title":"Ethical and social risks of harm from language models","author":"Weidinger","year":"2021","journal-title":"arXiv:2112.04359"},{"key":"ref12","article-title":"Explainable artificial intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI","author":"Arrieta","year":"2019","journal-title":"arXiv:1910.10045"},{"key":"ref13","article-title":"Training language models to follow instructions with human feedback","author":"Ouyang","year":"2022","journal-title":"arXiv:2203.02155"},{"key":"ref14","article-title":"Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned","author":"Ganguli","year":"2022","journal-title":"arXiv:2209.07858"},{"key":"ref15","article-title":"Training a helpful and harmless assistant with reinforcement learning from human feedback","author":"Bai","year":"2022","journal-title":"arXiv:2204.05862"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-022-03944-z"},{"volume-title":"Content Review Content Safety Intelligent Review Baidu AI Open Platform","key":"ref17"},{"volume-title":"GitHub\u2014Volcengine\/Volc-SDK-Python","key":"ref18"},{"volume-title":"NetEase Yidun-One-Stop Security Solution","key":"ref19"},{"volume-title":"OpenAI Platform","key":"ref20"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.329"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.88"},{"key":"ref23","article-title":"GPT-4 is too smart to be safe: Stealthy chat with LLMs via cipher","author":"Yuan","year":"2023","journal-title":"arXiv:2308.06463"},{"key":"ref24","article-title":"Low-resource languages jailbreak GPT-4","author":"Yong","year":"2023","journal-title":"arXiv:2310.02446"},{"key":"ref25","article-title":"A general language assistant as a laboratory for alignment","author":"Askell","year":"2021","journal-title":"arXiv:2112.00861"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.234"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.565"},{"key":"ref28","article-title":"GLM: General language model pretraining with autoregressive blank infilling","author":"Du","year":"2021","journal-title":"arXiv:2103.10360"},{"key":"ref29","article-title":"Qwen technical report","volume-title":"arXiv:2309.16609","author":"Bai","year":"2023"},{"volume-title":"InternLM: A Multilingual Language Model With Progressively Enhanced Capabilities","year":"2023","key":"ref30"},{"key":"ref31","article-title":"Baichuan 2: Open large-scale language models","author":"Yang","year":"2023","journal-title":"arXiv:2309.10305"},{"key":"ref32","article-title":"Safety assessment of Chinese large language models","author":"Sun","year":"2023","journal-title":"arXiv:2304.10436"},{"volume-title":"PaddleNLP\/Model_Zoo at Develop PaddlePaddle\/PaddleNLP","key":"ref33"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10380310\/10589654.pdf?arnumber=10589654","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,7,19]],"date-time":"2024-07-19T05:15:47Z","timestamp":1721366147000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10589654\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":33,"URL":"https:\/\/doi.org\/10.1109\/access.2024.3425662","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2024]]}}}