{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,27]],"date-time":"2026-02-27T15:23:35Z","timestamp":1772205815766,"version":"3.50.1"},"reference-count":67,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T00:00:00Z","timestamp":1740096000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T00:00:00Z","timestamp":1740096000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2025,7]]},"DOI":"10.1007\/s11263-024-02341-y","type":"journal-article","created":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T12:43:41Z","timestamp":1740141821000},"page":"4091-4111","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Image Matting and 3D Reconstruction in One Loop"],"prefix":"10.1007","volume":"133","author":[{"given":"Xinshuang","family":"Liu","sequence":"first","affiliation":[]},{"given":"Siqi","family":"Li","sequence":"additional","affiliation":[]},{"given":"Yue","family":"Gao","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,2,21]]},"reference":[{"key":"2341_CR1","doi-asserted-by":"crossref","unstructured":"Barron, J. T., Mildenhall, B., Verbin, D., Srinivasan, P. P., & Hedman, P. (2022). Mip-nerf 360: Unbounded anti-aliased neural radiance fields. In CVPR.","DOI":"10.1109\/CVPR52688.2022.00539"},{"key":"2341_CR2","doi-asserted-by":"crossref","unstructured":"Cai, S., Zhang, X., Fan, H., Huang, H., Liu, J., Liu, J., Liu, J., Wang, J., & Sun, J. (2019). Disentangled image matting. In ICCV.","DOI":"10.1109\/ICCV.2019.00891"},{"key":"2341_CR3","doi-asserted-by":"crossref","unstructured":"Chen, Q., Ge, T., Xu, Y., Zhang, Z., Yang, X., & Gai, K. (2018). Semantic human matting. In ACM MM.","DOI":"10.1145\/3240508.3240610"},{"key":"2341_CR4","doi-asserted-by":"crossref","unstructured":"Chen, X., Wang, B., & Shum, H.-Y. (2023). Hand avatar: Free-pose hand animation and rendering from monocular video. In CVPR.","DOI":"10.1109\/CVPR52729.2023.00839"},{"key":"2341_CR5","doi-asserted-by":"crossref","unstructured":"Cheng, H. K., Chung, J., Tai, Y.-W., & Tang, C.-K. (2020). Cascadepsp: Toward class-agnostic and very high-resolution segmentation via global and local refinement. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00891"},{"key":"2341_CR6","doi-asserted-by":"crossref","unstructured":"Fan, H., Su, H., & Guibas, L. J. (2017). A point set generation network for 3D object reconstruction from a single image. In CVPR.","DOI":"10.1109\/CVPR.2017.264"},{"key":"2341_CR7","doi-asserted-by":"crossref","unstructured":"Guo, Z., Zhou, W., Wang, M., Li, L., & Li, H. (2023). Handnerf: Neural radiance fields for animatable interacting hands. In CVPR.","DOI":"10.1109\/CVPR52729.2023.02019"},{"key":"2341_CR8","doi-asserted-by":"crossref","unstructured":"H\u00e4ne, C., Tulsiani, S., & Malik, J. (2017). Hierarchical surface prediction for 3D object reconstruction. In 3DV IEEE.","DOI":"10.1109\/3DV.2017.00054"},{"key":"2341_CR9","doi-asserted-by":"crossref","unstructured":"Henderson, P., Tsiminaki, V., & Lampert, C. H. (2020). Leveraging 2D data to learn textured 3D mesh generation. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00752"},{"key":"2341_CR10","doi-asserted-by":"crossref","unstructured":"Hou, Q., & Liu, F. (2019). Context-aware image matting for simultaneous foreground and alpha estimation. In ICCV.","DOI":"10.1109\/ICCV.2019.00423"},{"key":"2341_CR11","doi-asserted-by":"crossref","unstructured":"Huang, B., Yu, Z., Chen, A., Geiger, A., & Gao, S. (2024). 2D Gaussian splatting for geometrically accurate radiance fields. In ACM SIGGRAPH.","DOI":"10.1145\/3641519.3657428"},{"key":"2341_CR12","doi-asserted-by":"crossref","unstructured":"Jensen, R. R., Dahl, A. L., Vogiatzis, G., Tola, E., & Aan\u00e6s, H. (2014). Large scale multi-view stereopsis evaluation. In CVPR.","DOI":"10.1109\/CVPR.2014.59"},{"key":"2341_CR13","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Ji, D., Han, Z., & Zwicker, M. (2020). Sdfdiff: Differentiable rendering of signed distance fields for 3D shape optimization. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00133"},{"key":"2341_CR14","doi-asserted-by":"crossref","unstructured":"Ke, Z., Sun, J., Li, K., Yan, Q., & Lau, R. W. H. (2022). Modnet: Real-time trimap-free portrait matting via objective decomposition. In AAAI.","DOI":"10.1609\/aaai.v36i1.19999"},{"key":"2341_CR15","doi-asserted-by":"crossref","unstructured":"Kellnhofer, P., Jebe, L. C., Jones, A., Spicer, R., Pulli, K., & Wetzstein, G. (2021). Neural lumigraph rendering. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00427"},{"key":"2341_CR16","doi-asserted-by":"crossref","unstructured":"Kerbl, B., Kopanas, G., Leimk\u00fchler, T., & Drettakis, G. (2023). 3D Gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics, 42(4), 139, 1\u201314.","DOI":"10.1145\/3592433"},{"key":"2341_CR17","unstructured":"Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. In ICLR."},{"key":"2341_CR18","doi-asserted-by":"crossref","unstructured":"Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W., Doll\u00e1r, P., & Girshick, R. B. (2023). Segment anything. In ICCV.","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"2341_CR19","unstructured":"L\u00a0Navaneet, K., Mandikal, P., Jampani, V., & Babu, V. (2019). Differ: Moving beyond 3D reconstruction with differentiable feature rendering. In CVPR workshops."},{"key":"2341_CR20","doi-asserted-by":"crossref","unstructured":"Li, Y., & Lu, H. (2020) Natural image matting via guided contextual attention. In AAAI.","DOI":"10.1609\/aaai.v34i07.6809"},{"key":"2341_CR21","unstructured":"Lin, C.-H., Wang, C., & Lucey, S. (2020). Sdf-srn: Learning signed distance 3D object reconstruction from static images. In NeurIPS."},{"key":"2341_CR22","doi-asserted-by":"crossref","unstructured":"Lin, S., Ryabtsev, A., Sengupta, S., Curless, B., Seitz, S., & Kemelmacher-Shlizerman, I. (2021). Real-time high-resolution background matting. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00865"},{"key":"2341_CR23","doi-asserted-by":"crossref","unstructured":"Liu, J., Yao, Y., Hou, W., Cui, M., Xie, X., Zhang, C., & Hua, X.-S. (2020). Boosting semantic human matting with coarse annotations. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00859"},{"key":"2341_CR24","doi-asserted-by":"crossref","unstructured":"Liu, Y., Hu, B., Huang, J., Tai, Y.-W., & Tang, C.-K. (2023). Instance neural radiance field. In ICCV.","DOI":"10.1109\/ICCV51070.2023.00079"},{"issue":"6","key":"2341_CR25","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2816795.2818013","volume":"34","author":"M Loper","year":"2015","unstructured":"Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., & Black, M. J. (2015). Smpl: A skinned multi-person linear model. TOG, 34(6), 1\u201316.","journal-title":"TOG"},{"key":"2341_CR26","doi-asserted-by":"crossref","unstructured":"Lorensen, W. E., & Cline, H. E. (1987). Marching cubes: A high resolution 3D surface construction algorithm. In SIGGRAPH.","DOI":"10.1145\/37401.37422"},{"key":"2341_CR27","unstructured":"Loshchilov, I., & Hutter, F. (2017). Sgdr: Stochastic gradient descent with warm restarts. In ICLR."},{"key":"2341_CR28","doi-asserted-by":"crossref","unstructured":"Lu, H., Dai, Y., Shen, C., & Xu, S. (2019). Indices matter: Learning to index for deep image matting. In ICCV.","DOI":"10.1109\/ICCV.2019.00336"},{"key":"2341_CR29","doi-asserted-by":"crossref","unstructured":"Maninis, K., Caelles, S., Pont-Tuset, J., & Gool, L. V. (2018). Deep extreme cut: From extreme points to object segmentation. In CVPR.","DOI":"10.1109\/CVPR.2018.00071"},{"key":"2341_CR30","first-page":"1026","volume":"32","author":"M Ma","year":"2023","unstructured":"Ma, M., Xia, C., Xie, C., Chen, X., & Li, J. (2023). Boosting broader receptive fields for salient object detection. TIP, 32, 1026\u20131038.","journal-title":"TIP"},{"issue":"12","key":"2341_CR31","first-page":"4823","volume":"30","author":"F Meng","year":"2020","unstructured":"Meng, F., Luo, K., Li, H., Wu, Q., & Xu, X. (2020). Weakly supervised semantic segmentation by a class-level multiple group cosegmentation and foreground fusion strategy. TCSVT, 30(12), 4823\u20134836.","journal-title":"TCSVT"},{"key":"2341_CR32","doi-asserted-by":"crossref","unstructured":"Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV.","DOI":"10.1007\/978-3-030-58452-8_24"},{"key":"2341_CR33","unstructured":"Miyato, T., Kataoka, T., Koyama, M., & Yoshida, Y. (2018). Spectral normalization for generative adversarial networks. In ICLR."},{"key":"2341_CR34","doi-asserted-by":"crossref","unstructured":"Moon, G., Yu, S.-I., Wen, H., Shiratori, T., & Lee, K. M. (2020). Interhand2.6M: A dataset and baseline for 3D interacting hand pose estimation from a single RGB image. In ECCV.","DOI":"10.1007\/978-3-030-58565-5_33"},{"key":"2341_CR35","doi-asserted-by":"crossref","unstructured":"Navaneet, K., Mathew, A., Kashyap, S., Hung, W.-C., Jampani, V., & Babu, R. V. (2020). From image collections to point clouds with self-supervised shape and pose networks. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00121"},{"key":"2341_CR36","doi-asserted-by":"crossref","unstructured":"Oechsle, M., Peng, S., & Geiger, A. (2021). Unisurf: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction. In ICCV.","DOI":"10.1109\/ICCV48922.2021.00554"},{"key":"2341_CR37","doi-asserted-by":"crossref","unstructured":"Park, G., Son, S., Yoo, J., Kim, S., & Kwak, N. (2022). Matteformer: Transformer-based image matting via prior-tokens. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01140"},{"key":"2341_CR38","doi-asserted-by":"crossref","unstructured":"Park, K., Sinha, U., Barron, J. T., Bouaziz, S., Goldman, D. B., Seitz, S. M., & Martin-Brualla, R. (2021). Nerfies: Deformable neural radiance fields. In ICCV.","DOI":"10.1109\/ICCV48922.2021.00581"},{"issue":"60","key":"2341_CR39","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3478513.3480487","volume":"40","author":"K Park","year":"2021","unstructured":"Park, K., Sinha, U., Hedman, P., Barron, J. T., Bouaziz, S., Goldman, D. B., Martin-Brualla, R., & Seitz, S. M. (2021). Hypernerf: A higher-dimensional representation for topologically varying neural radiance fields. TOG, 40(60), 1\u201312.","journal-title":"TOG"},{"key":"2341_CR40","doi-asserted-by":"crossref","unstructured":"Peng, S., Zhang, Y., Xu, Y., Wang, Q., Shuai, Q., Bao, H., & Zhou, X. (2021). Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00894"},{"key":"2341_CR41","doi-asserted-by":"crossref","unstructured":"Pumarola, A., Corona, E., Pons-Moll, G., & Moreno-Noguer, F. (2021). D-nerf: Neural radiance fields for dynamic scenes. In CVPR.","DOI":"10.1109\/CVPR46437.2021.01018"},{"key":"2341_CR42","doi-asserted-by":"crossref","unstructured":"Qiao, Y., Liu, Y., Yang, X., Zhou, D., Xu, M., Zhang, Q., & Wei, X. (2020) Attention-guided hierarchical structure aggregation for image matting. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01369"},{"key":"2341_CR43","first-page":"107404","volume":"106","author":"X Qin","year":"2020","unstructured":"Qin, X., Zhang, Z., Huang, C., Dehghan, M., Za\u00efane, O. R., & J\u00e4gersand, M. (2020). U$$^\\text{2 }$$-net: Going deeper with nested u-structure for salient object detection. PR, 106, 107404.","journal-title":"PR"},{"key":"2341_CR44","doi-asserted-by":"crossref","unstructured":"Romero, J., Tzionas, D., & Black, M. J. (2017). Embodied hands: Modeling and capturing hands and bodies together. TOG, 36(6), 245, 1\u201317.","DOI":"10.1145\/3130800.3130883"},{"key":"2341_CR45","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. In MICCAI.","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"2341_CR46","doi-asserted-by":"crossref","unstructured":"Saito, S., Huang, Z., Natsume, R., Morishima, S., Kanazawa, A., & Li, H. (2019). Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization. In ICCV.","DOI":"10.1109\/ICCV.2019.00239"},{"key":"2341_CR47","doi-asserted-by":"crossref","unstructured":"Saito, S., Huang, Z., Natsume, R., Morishima, S., Li, H., & Kanazawa, A. (2019). Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization. In ICCV.","DOI":"10.1109\/ICCV.2019.00239"},{"key":"2341_CR48","doi-asserted-by":"crossref","unstructured":"Sengupta, S., Jayaram, V., Curless, B., Seitz, S.M., & Kemelmacher-Shlizerman, I. (2020). Background matting: The world is your green screen. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00236"},{"key":"2341_CR49","doi-asserted-by":"crossref","unstructured":"Shen, T., Zhang, Y., Qi, L., Kuen, J., Xie, X., Wu, J., Lin, Z., & Jia, J. (2022). High quality segmentation for ultra high-resolution images. In CVPR.","DOI":"10.1109\/CVPR52688.2022.00137"},{"key":"2341_CR50","doi-asserted-by":"crossref","unstructured":"Tretschk, E., Tewari, A., Golyanik, V., Zollh\u00f6fer, M., Lassner, C., & Theobalt, C. (2021). Non-rigid neural radiance fields: Reconstruction and novel view synthesis of a dynamic scene from monocular video. In ICCV.","DOI":"10.1109\/ICCV48922.2021.01272"},{"key":"2341_CR51","unstructured":"Tulsiani, S., Kulkarni, N., & Gupta, A. (2020). Implicit mesh reconstruction from unannotated image collections. arXiv preprint arXiv:2007.08504."},{"issue":"10","key":"2341_CR52","doi-asserted-by":"publisher","first-page":"3600","DOI":"10.1109\/TPAMI.2020.2984232","volume":"43","author":"N Wang","year":"2020","unstructured":"Wang, N., Zhang, Y., Li, Z., Fu, Y., Yu, H., Liu, W., Xue, X., & Jiang, Y.-G. (2020). Pixel2mesh: 3D mesh model generation via image guided deformation. TPAMI, 43(10), 3600\u20133613.","journal-title":"TPAMI"},{"key":"2341_CR53","unstructured":"Wang, P., Liu, L., Liu, Y., Theobalt, C., Komura, T., & Wang, W. (2021). Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. In NeurIPS."},{"key":"2341_CR54","doi-asserted-by":"crossref","unstructured":"Wang, Y., He, X., Peng, S., Lin, H., Bao, H., & Zhou, X. (2023). Autorecon: Automated 3d object discovery and reconstruction. In CVPR.","DOI":"10.1109\/CVPR52729.2023.02048"},{"key":"2341_CR55","doi-asserted-by":"crossref","unstructured":"Wei, T., Chen, D., Zhou, W., Liao, J., Zhao, H., Zhang, W., & Yu, N. (2021). Improved image matting via real-time user clicks and uncertainty estimation. In CVPR.","DOI":"10.1109\/CVPR46437.2021.01512"},{"key":"2341_CR56","doi-asserted-by":"crossref","unstructured":"Wen, C., Zhang, Y., Li, Z., & Fu, Y. (2019). Pixel2mesh++: Multi-view 3D mesh generation via deformation. In ICCV.","DOI":"10.1109\/ICCV.2019.00113"},{"key":"2341_CR57","doi-asserted-by":"crossref","unstructured":"Xie, H., Yao, H., Sun, X., Zhou, S., & Zhang, S. (2019). Pix2vox: Context-aware 3D reconstruction from single and multi-view images. In ICCV.","DOI":"10.1109\/ICCV.2019.00278"},{"issue":"12","key":"2341_CR58","doi-asserted-by":"publisher","first-page":"2919","DOI":"10.1007\/s11263-020-01347-6","volume":"128","author":"H Xie","year":"2020","unstructured":"Xie, H., Yao, H., Zhang, S., Zhou, S., & Sun, W. (2020). Pix2vox++: Multi-scale context-aware 3D object reconstruction from single and multiple images. IJCV, 128(12), 2919\u20132935.","journal-title":"IJCV"},{"key":"2341_CR59","doi-asserted-by":"crossref","unstructured":"Xu, N., Price, B., Cohen, S., & Huang, T. (2017). Deep image matting. In CVPR.","DOI":"10.1109\/CVPR.2017.41"},{"key":"2341_CR60","doi-asserted-by":"crossref","unstructured":"Yang, X., Qiao, Y., Chen, S., He, S., Yin, B., Zhang, Q., Wei, X., & Lau, R. W. H. (2021). Smart scribbles for image matting. TOMM, 16(4), 121, 1\u201321.","DOI":"10.1145\/3408323"},{"key":"2341_CR61","unstructured":"Yariv, L., Kasten, Y., Moran, D., Galun, M., Atzmon, M., Basri, R., & Lipman, Y. (2020). Multiview neural surface reconstruction by disentangling geometry and appearance. In NeurIPS."},{"key":"2341_CR62","doi-asserted-by":"crossref","unstructured":"Yu, Q., Zhang, J., Zhang, H., Wang, Y., Lin, Z., Xu, N., Bai, Y., & Yuille, A. L. (2021). Mask guided matting via progressive refinement network. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00121"},{"key":"2341_CR63","doi-asserted-by":"crossref","unstructured":"Yuan, Y., Iqbal, U., Molchanov, P., Kitani, K., & Kautz, J. (2022). Glamr: Global occlusion-aware human mesh recovery with dynamic cameras. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01076"},{"key":"2341_CR64","doi-asserted-by":"crossref","unstructured":"Zhang, J., Fan, D., Dai, Y., Yu, X., Zhong, Y., Barnes, N., & Shao, L. (2021). RGB-D saliency detection via cascaded mutual information minimization. In ICCV.","DOI":"10.1109\/ICCV48922.2021.00430"},{"key":"2341_CR65","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Gong, L., Fan, L., Ren, P., Huang, Q., Bao, H., & Xu, W. (2019). A late fusion CNN for digital matting. In CVPR.","DOI":"10.1109\/CVPR.2019.00765"},{"key":"2341_CR66","doi-asserted-by":"crossref","unstructured":"Zhao, F., Yang, W., Zhang, J., Lin, P., Zhang, Y., Yu, J., & Xu, L. (2022). Humannerf: Efficiently generated human radiance field from sparse inputs. In CVPR.","DOI":"10.1109\/CVPR52688.2022.00759"},{"key":"2341_CR67","doi-asserted-by":"crossref","unstructured":"Zhi, S., Laidlow, T., Leutenegger, S., & Davison, A. J. (2021). In-place scene labelling and understanding with implicit scene representation. In ICCV.","DOI":"10.1109\/ICCV48922.2021.01554"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02341-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-024-02341-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02341-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,7]],"date-time":"2025-06-07T06:04:09Z","timestamp":1749276249000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-024-02341-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2,21]]},"references-count":67,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2025,7]]}},"alternative-id":["2341"],"URL":"https:\/\/doi.org\/10.1007\/s11263-024-02341-y","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2,21]]},"assertion":[{"value":"18 June 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 December 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 February 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}