{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T15:50:45Z","timestamp":1743090645818,"version":"3.40.3"},"publisher-location":"Cham","reference-count":47,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031730153"},{"type":"electronic","value":"9783031730160"}],"license":[{"start":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T00:00:00Z","timestamp":1729900800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T00:00:00Z","timestamp":1729900800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-73016-0_3","type":"book-chapter","created":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T19:02:40Z","timestamp":1729882960000},"page":"35-51","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["TreeSBA: Tree-Transformer for\u00a0Self-supervised Sequential Brick Assembly"],"prefix":"10.1007","author":[{"given":"Mengqi","family":"Guo","sequence":"first","affiliation":[]},{"given":"Chen","family":"Li","sequence":"additional","affiliation":[]},{"given":"Yuyang","family":"Zhao","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1583-0475","authenticated-orcid":false,"given":"Gim Hee","family":"Lee","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,10,26]]},"reference":[{"doi-asserted-by":"crossref","unstructured":"Arsalan\u00a0Soltani, A., Huang, H., Wu, J., Kulkarni, T.D., Tenenbaum, J.B.: Synthesizing 3D shapes via modeling multi-view depth maps and silhouettes with deep generative networks. In: CVPR (2017)","key":"3_CR1","DOI":"10.1109\/CVPR.2017.269"},{"unstructured":"Brochu, E., Cora, V.M., De\u00a0Freitas, N.: A tutorial on Bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. In: arXiv preprint arXiv:1012.2599 (2010)","key":"3_CR2"},{"unstructured":"Chang, A.X., et\u00a0al.: Shapenet: an information-rich 3D model repository. In: arXiv preprint arXiv:1512.03012 (2015)","key":"3_CR3"},{"doi-asserted-by":"crossref","unstructured":"Chen, Y.C., Li, H., Turpin, D., Jacobson, A., Garg, A.: Neural shape mating: Self-supervised object assembly with adversarial shape priors. In: CVPR (2022)","key":"3_CR4","DOI":"10.1109\/CVPR52688.2022.01239"},{"doi-asserted-by":"crossref","unstructured":"Choy, C.B., Xu, D., Gwak, J., Chen, K., Savarese, S.: 3d-r2n2: a unified approach for single and multi-view 3D object reconstruction. In: ECCV (2016)","key":"3_CR5","DOI":"10.1007\/978-3-319-46484-8_38"},{"unstructured":"Chung, H., et al.: Brick-by-brick: combinatorial construction with deep reinforcement learning. In: NeurIPS (2021)","key":"3_CR6"},{"doi-asserted-by":"crossref","unstructured":"Curless, B., Levoy, M.: A volumetric method for building complex models from range images. In: SIGGRAPH (1996)","key":"3_CR7","DOI":"10.1145\/237170.237269"},{"doi-asserted-by":"crossref","unstructured":"Debevec, P.E., Taylor, C.J., Malik, J.: Modeling and rendering architecture from photographs: a hybrid geometry-and image-based approach. In: SIGGRAPH (1996)","key":"3_CR8","DOI":"10.1145\/237170.237191"},{"unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. ICLR (2021)","key":"3_CR9"},{"unstructured":"Eilers, S.: The lego counting problem. The American Mathematical Monthly (2016)","key":"3_CR10"},{"doi-asserted-by":"crossref","unstructured":"Fan, H., Su, H., Guibas, L.J.: A point set generation network for 3D object reconstruction from a single image. In: CVPR (2017)","key":"3_CR11","DOI":"10.1109\/CVPR.2017.264"},{"doi-asserted-by":"crossref","unstructured":"Gadelha, M., et al.: Learning generative models of shape handles. In: CVPR (2020)","key":"3_CR12","DOI":"10.1109\/CVPR42600.2020.00048"},{"unstructured":"Gower, R., Heydtmann, A., Petersen, H.: Lego: Automated model construction (1998)","key":"3_CR13"},{"doi-asserted-by":"crossref","unstructured":"Jiang, L., Shi, S., Qi, X., Jia, J.: Gal: geometric adversarial loss for single-view 3d-object reconstruction. In: ECCV (2018)","key":"3_CR14","DOI":"10.1007\/978-3-030-01237-3_49"},{"unstructured":"Kar, A., H\u00e4ne, C., Malik, J.: Learning a multi-view stereo machine. In: NeurIPS (2017)","key":"3_CR15"},{"unstructured":"Kim, J., Chung, H., Lee, J., Cho, M., Park, J.: Combinatorial 3D shape generation via sequential assembly. In: NeurIPS Workshop (2020)","key":"3_CR16"},{"doi-asserted-by":"crossref","unstructured":"Lee, S., Kim, J., Kim, J.W., Moon, B.R.: Finding an optimal lego\u00ae brick layout of voxelized 3D object using a genetic algorithm. In: The Genetic and Evolutionary Computation Conference (GECCO) (2015)","key":"3_CR17","DOI":"10.1145\/2739480.2754667"},{"unstructured":"Lennon, K., et al.: Image2lego: Customized lego set generation from images. arXiv preprint arXiv:2108.08477 (2021)","key":"3_CR18"},{"doi-asserted-by":"crossref","unstructured":"Li, Y., Mo, K., Shao, L., Sung, M., Guibas, L.: Learning 3D part assembly from a single image. In: ECCV (2020)","key":"3_CR19","DOI":"10.1007\/978-3-030-58539-6_40"},{"unstructured":"Li, Y., Vinyals, O., Dyer, C., Pascanu, R., Battaglia, P.: Learning deep generative models of graphs. arXiv preprint arXiv:1803.03324 (2018)","key":"3_CR20"},{"doi-asserted-by":"crossref","unstructured":"Mandikal, P., Navaneet, K., Agarwal, M., Babu, R.V.: 3d-lmnet: latent embedding matching for accurate and diverse 3D point cloud reconstruction from a single image. In: BMVC (2018)","key":"3_CR21","DOI":"10.1007\/978-3-030-11015-4_50"},{"doi-asserted-by":"crossref","unstructured":"Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R.: Nerf: representing scenes as neural radiance fields for view synthesis. In: ECCV (2020)","key":"3_CR22","DOI":"10.1007\/978-3-030-58452-8_24"},{"doi-asserted-by":"crossref","unstructured":"Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: Deepsdf: learning continuous signed distance functions for shape representation. In: CVPR (2019)","key":"3_CR23","DOI":"10.1109\/CVPR.2019.00025"},{"doi-asserted-by":"crossref","unstructured":"Paschalidou, D., Ulusoy, A.O., Geiger, A.: Superquadrics revisited: learning 3D shape parsing beyond cuboids. In: CVPR (2019)","key":"3_CR24","DOI":"10.1109\/CVPR.2019.01059"},{"doi-asserted-by":"crossref","unstructured":"Riegler, G., Osman\u00a0Ulusoy, A., Geiger, A.: Octnet: learning deep 3D representations at high resolutions. In: CVPR (2017)","key":"3_CR25","DOI":"10.1109\/CVPR.2017.701"},{"unstructured":"Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O.: Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347 (2017)","key":"3_CR26"},{"unstructured":"Shi, Z., Meng, Z., Xing, Y., Ma, Y., Wattenhofer, R.: 3d-retr: end-to-end single and multi-view 3D reconstruction with transformers. In: BMVC (2021)","key":"3_CR27"},{"doi-asserted-by":"crossref","unstructured":"Snavely, N., Seitz, S.M., Szeliski, R.: Photo tourism: exploring photo collections in 3D. In: SIGGRAPH (2006)","key":"3_CR28","DOI":"10.1145\/1141911.1141964"},{"doi-asserted-by":"crossref","unstructured":"Sun, X., et al.: Pix3d: dataset and methods for single-image 3D shape modeling. In: CVPR (2018)","key":"3_CR29","DOI":"10.1109\/CVPR.2018.00314"},{"doi-asserted-by":"crossref","unstructured":"Tatarchenko, M., Dosovitskiy, A., Brox, T.: Octree generating networks: efficient convolutional architectures for high-resolution 3D outputs. In: ICCV (2017)","key":"3_CR30","DOI":"10.1109\/ICCV.2017.230"},{"unstructured":"Thompson, R., Ghalebi, E., DeVries, T., Taylor, G.W.: Building lego using deep generative models of graphs. In: NeurIPS Workshop (2020)","key":"3_CR31"},{"doi-asserted-by":"crossref","unstructured":"Tulsiani, S., Efros, A.A., Malik, J.: Multi-view consistency as supervisory signal for learning shape and pose prediction. In: CVPR (2018)","key":"3_CR32","DOI":"10.1109\/CVPR.2018.00306"},{"doi-asserted-by":"crossref","unstructured":"Tulsiani, S., Gupta, S., Fouhey, D.F., Efros, A.A., Malik, J.: Factoring shape, pose, and layout from the 2D image of a 3D scene. In: CVPR (2018)","key":"3_CR33","DOI":"10.1109\/CVPR.2018.00039"},{"doi-asserted-by":"crossref","unstructured":"Tulsiani, S., Su, H., Guibas, L.J., Efros, A.A., Malik, J.: Learning shape abstractions by assembling volumetric primitives. In: CVPR (2017)","key":"3_CR34","DOI":"10.1109\/CVPR.2017.160"},{"unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS (2017)","key":"3_CR35"},{"doi-asserted-by":"crossref","unstructured":"Walsman, A., Zhang, M., Kotar, K., Desingh, K., Farhadi, A., Fox, D.: Break and make: interactive structural understanding using lego bricks. In: ECCV (2022)","key":"3_CR36","DOI":"10.1007\/978-3-031-19815-1_6"},{"doi-asserted-by":"crossref","unstructured":"Wang, R., Zhang, Y., Mao, J., Cheng, C.Y., Wu, J.: Translating a visual lego manual to a machine-executable plan. In: ECCV (2022)","key":"3_CR37","DOI":"10.1007\/978-3-031-19836-6_38"},{"unstructured":"Wu, J., Wang, Y., Xue, T., Sun, X., Freeman, B., Tenenbaum, J.: Marrnet: 3d shape reconstruction via 2.5 d sketches. In: NeurIPS (2017)","key":"3_CR38"},{"unstructured":"Wu, J., Zhang, C., Xue, T., Freeman, B., Tenenbaum, J.: Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. In: NeurIPS (2016)","key":"3_CR39"},{"doi-asserted-by":"crossref","unstructured":"Wu, R., Tie, C., Du, Y., Zhao, Y., Dong, H.: Leveraging se (3) equivariance for learning 3d geometric shape assembly. In: ICCV (2023)","key":"3_CR40","DOI":"10.1109\/ICCV51070.2023.01316"},{"doi-asserted-by":"crossref","unstructured":"Wu, R., Zhuang, Y., Xu, K., Zhang, H., Chen, B.: Pq-net: a generative part seq2seq network for 3D shapes. In: CVPR (2020)","key":"3_CR41","DOI":"10.1109\/CVPR42600.2020.00091"},{"unstructured":"Wu, Z., et al.: 3D shapenets: a deep representation for volumetric shapes. In: CVPR (2015)","key":"3_CR42"},{"doi-asserted-by":"crossref","unstructured":"Xie, H., Yao, H., Sun, X., Zhou, S., Zhang, S.: Pix2vox: context-aware 3D reconstruction from single and multi-view images. In: ICCV (2019)","key":"3_CR43","DOI":"10.1109\/ICCV.2019.00278"},{"doi-asserted-by":"crossref","unstructured":"Xu, X., Guerrero, P., Fisher, M., Chaudhuri, S., Ritchie, D.: Unsupervised 3d shape reconstruction by part retrieval and assembly. In: CVPR (2023)","key":"3_CR44","DOI":"10.1109\/CVPR52729.2023.00827"},{"doi-asserted-by":"crossref","unstructured":"Zakka, K., Zeng, A., Lee, J., Song, S.: Form2fit: learning shape priors for generalizable assembly from disassembly. In: ICRA (2020)","key":"3_CR45","DOI":"10.1109\/ICRA40945.2020.9196733"},{"unstructured":"Zhan, G., et\u00a0al.: Generative 3d part assembly via dynamic graph learning. In: NeurIPS (2020)","key":"3_CR46"},{"doi-asserted-by":"crossref","unstructured":"Zou, C., Yumer, E., Yang, J., Ceylan, D., Hoiem, D.: 3d-prnn: generating shape primitives with recurrent neural networks. In: ICCV (2017)","key":"3_CR47","DOI":"10.1109\/ICCV.2017.103"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-73016-0_3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,25]],"date-time":"2024-10-25T19:03:22Z","timestamp":1729883002000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-73016-0_3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,26]]},"ISBN":["9783031730153","9783031730160"],"references-count":47,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-73016-0_3","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,10,26]]},"assertion":[{"value":"26 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}