{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T07:41:57Z","timestamp":1777880517861,"version":"3.51.4"},"reference-count":43,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100006469","name":"Fund for the Development of Science and Technology","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100006469","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.1016\/j.knosys.2026.115593","type":"journal-article","created":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T08:11:22Z","timestamp":1772093482000},"page":"115593","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["SSEditor: Controllable mask-to-scene generation with diffusion model"],"prefix":"10.1016","volume":"339","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-4802-0396","authenticated-orcid":false,"given":"Haowen","family":"Zheng","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-4625-2257","authenticated-orcid":false,"given":"Jiahao","family":"Pang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4841-4048","authenticated-orcid":false,"given":"Zhiqiang","family":"Pu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5780-8540","authenticated-orcid":false,"given":"Yanyan","family":"Liang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.knosys.2026.115593_bib0001","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"20507","article-title":"Diffuscene: denoising diffusion models for generative indoor scene synthesis","author":"Tang","year":"2024"},{"key":"10.1016\/j.knosys.2026.115593_bib0002","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"4526","article-title":"DiffinDScene: diffusion-based high-quality 3D indoor scene generation","author":"Ju","year":"2024"},{"key":"10.1016\/j.knosys.2026.115593_bib0003","article-title":"Commonscenes: generating commonsense 3D indoor scenes with scene graphs","volume":"36","author":"Zhai","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0004","doi-asserted-by":"crossref","unstructured":"Y. Liu, X. Li, X. Li, L. Qi, C. Li, M.-H. Yang, Pyramid diffusion for fine 3D large scene generation, arXiv: 2311.12085(2023).","DOI":"10.1007\/978-3-031-72890-7_5"},{"key":"10.1016\/j.knosys.2026.115593_bib0005","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"4209","article-title":"Xcube: large-scale 3D generative modeling using sparse voxel hierarchies","author":"Ren","year":"2024"},{"key":"10.1016\/j.knosys.2026.115593_bib0006","unstructured":"L. Wang, W. Zheng, Y. Ren, H. Jiang, Z. Cui, H. Yu, J. Lu, OccSora: 4D occupancy generation models as world simulators for autonomous driving, arXiv: 2405.20337(2024)."},{"key":"10.1016\/j.knosys.2026.115593_bib0007","unstructured":"J. Lee, W. Im, S. Lee, S.-E. Yoon, Diffusion probabilistic models for scene-scale 3D categorical data, arXiv: 2301.00527(2023)."},{"key":"10.1016\/j.knosys.2026.115593_bib0008","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"28337","article-title":"Semcity: semantic scene generation with triplane diffusion","author":"Lee","year":"2024"},{"key":"10.1016\/j.knosys.2026.115593_bib0009","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"5826","article-title":"3D shape generation and completion through point-voxel diffusion","author":"Zhou","year":"2021"},{"key":"10.1016\/j.knosys.2026.115593_bib0010","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"20875","article-title":"3D neural field generation using triplane diffusion","author":"Shue","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0011","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"18423","article-title":"Holodiffusion: training a 3D diffusion model using 2D images","author":"Karnewar","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0012","unstructured":"J. Zhang, Q. Zhang, L. Zhang, R.R. Kompella, G. Liu, B. Zhou, Urban scene diffusion through semantic occupancy map, arXiv: 2403.11697(2024)."},{"key":"10.1016\/j.knosys.2026.115593_bib0013","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"16123","article-title":"Efficient geometry-aware 3D generative adversarial networks","author":"Chan","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0014","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"9297","article-title":"Semantickitti: a dataset for semantic scene understanding of lidar sequences","author":"Behley","year":"2019"},{"key":"10.1016\/j.knosys.2026.115593_bib0015","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"11461","article-title":"Repaint: inpainting using denoising diffusion probabilistic models","author":"Lugmayr","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0016","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10684","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0017","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0018","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"18208","article-title":"Blended diffusion for text-driven editing of natural images","author":"Avrahami","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0019","unstructured":"A. Nichol, P. Dhariwal, A. Ramesh, P. Shyam, P. Mishkin, B. McGrew, I. Sutskever, M. Chen, Glide: towards photorealistic image generation and editing with text-guided diffusion models, arXiv: 2112.10741(2021)."},{"key":"10.1016\/j.knosys.2026.115593_bib0020","unstructured":"A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, M. Chen, Hierarchical text-conditional image generation with clip latents, arXiv: 2204.06125 1 (2) (2022) 3."},{"key":"10.1016\/j.knosys.2026.115593_bib0021","series-title":"ACM SIGGRAPH 2022 Conference Proceedings","first-page":"1","article-title":"Palette: image-to-image diffusion models","author":"Saharia","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0022","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"22490","article-title":"Layoutdiffusion: controllable diffusion model for layout-to-image generation","author":"Zheng","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0023","unstructured":"T. Wang, T. Zhang, B. Zhang, H. Ouyang, D. Chen, Q. Chen, F. Wen, Pretraining is all you need for image-to-image translation, arXiv: 2205.12952(2022)."},{"key":"10.1016\/j.knosys.2026.115593_bib0024","series-title":"European Conference on Computer Vision","first-page":"89","article-title":"Make-a-scene: scene-based text-to-image generation with human priors","author":"Gafni","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0025","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"3836","article-title":"Adding conditional control to text-to-image diffusion models","author":"Zhang","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0026","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11-14, 2016, Proceedings, Part VIII 14","first-page":"628","article-title":"3D-r2n2: a unified approach for single and multi-view 3D object reconstruction","author":"Choy","year":"2016"},{"key":"10.1016\/j.knosys.2026.115593_bib0027","article-title":"Disn: deep implicit surface network for high-quality single-view 3d reconstruction","volume":"32","author":"Xu","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0028","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"12642","article-title":"Diffusion-sdf: text-to-shape via voxelized diffusion","author":"Li","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0029","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"13492","article-title":"Text2mesh: text-driven neural stylization for meshes","author":"Michel","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0030","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"14257","article-title":"Difffacto: controllable part-based 3D point cloud generation with cross diffusion","author":"Nakayama","year":"2023"},{"key":"10.1016\/j.knosys.2026.115593_bib0031","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"306","article-title":"Autosdf: shape priors for 3D completion, reconstruction, and generation","author":"Mittal","year":"2022"},{"key":"10.1016\/j.knosys.2026.115593_bib0032","first-page":"10021","article-title":"Lion: latent point diffusion models for 3D shape generation","volume":"35","author":"Vahdat","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0033","unstructured":"C. Lin, Y. Mu, Instructscene: instruction-driven 3D indoor scene synthesis with semantic graph prior, arXiv: 2402.04717(2024)."},{"key":"10.1016\/j.knosys.2026.115593_bib0034","unstructured":"A. Eldesokey, P. Wonka, Build-A-Scene: interactive 3D layout control for diffusion-based image generation, arXiv: 2408.14819(2024)."},{"key":"10.1016\/j.knosys.2026.115593_bib0035","series-title":"2020 International Conference on 3D Vision (3DV)","first-page":"111","article-title":"lmscnet: lightweight multiscale 3d semantic completion","author":"Roldao","year":"2020"},{"key":"10.1016\/j.knosys.2026.115593_bib0036","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"4413","article-title":"The lov\u00e1sz-softmax loss: a tractable surrogate for the optimization of the intersection-over-union measure in neural networks","author":"Berman","year":"2018"},{"key":"10.1016\/j.knosys.2026.115593_bib0037","unstructured":"J. Ho, T. Salimans, Classifier-free diffusion guidance, arXiv: 2207.12598(2022)."},{"key":"10.1016\/j.knosys.2026.115593_bib0038","unstructured":"V. Zyrianov, H. Che, Z. Liu, S. Wang, Lidardm: generative lidar simulation in a generated world, arXiv: 2404.02903(2024)."},{"key":"10.1016\/j.knosys.2026.115593_bib0039","article-title":"Occ3d: a large-scale 3D occupancy prediction benchmark for autonomous driving","volume":"36","author":"Tian","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"3","key":"10.1016\/j.knosys.2026.115593_bib0040","doi-asserted-by":"crossref","first-page":"8439","DOI":"10.1109\/LRA.2022.3188435","article-title":"MotionSC: data set and network for real-time semantic mapping in dynamic environments","volume":"7","author":"Wilson","year":"2022","journal-title":"IEEE Rob. Autom. Lett."},{"key":"10.1016\/j.knosys.2026.115593_bib0041","article-title":"Gans trained by a two time-scale update rule converge to a local Nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0042","article-title":"Improved techniques for training gans","volume":"29","author":"Salimans","year":"2016","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115593_bib0043","unstructured":"M. Bi\u0144kowski, D.J. Sutherland, M. Arbel, A. Gretton, Demystifying mmd gans, arXiv: 1801.01401(2018)."}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003333?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003333?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:13:59Z","timestamp":1777594439000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0950705126003333"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4]]},"references-count":43,"alternative-id":["S0950705126003333"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115593","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,4]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"SSEditor: Controllable mask-to-scene generation with diffusion model","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115593","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"115593"}}