{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,3]],"date-time":"2025-07-03T15:14:33Z","timestamp":1751555673871,"version":"3.28.0"},"reference-count":120,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,6]]},"DOI":"10.1109\/cvpr52688.2022.00373","type":"proceedings-article","created":{"date-parts":[[2022,9,27]],"date-time":"2022-09-27T15:56:41Z","timestamp":1664294201000},"page":"3739-3751","source":"Crossref","is-referenced-by-count":123,"title":["Kubric: A scalable dataset generator"],"prefix":"10.1109","author":[{"given":"Klaus","family":"Greff","sequence":"first","affiliation":[{"name":"Google"}]},{"given":"Francois","family":"Belletti","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Lucas","family":"Beyer","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Carl","family":"Doersch","sequence":"additional","affiliation":[{"name":"DeepMind"}]},{"given":"Yilun","family":"Du","sequence":"additional","affiliation":[{"name":"MIT"}]},{"given":"Daniel","family":"Duckworth","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"David J","family":"Fleet","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Dan","family":"Gnanapragasam","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Florian","family":"Golemo","sequence":"additional","affiliation":[{"name":"Mila"}]},{"given":"Charles","family":"Herrmann","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Thomas","family":"Kipf","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Abhijit","family":"Kundu","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Dmitry","family":"Lagun","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Issam","family":"Laradji","sequence":"additional","affiliation":[{"name":"McGill University"}]},{"given":"Hsueh-Ti","family":"Liu","sequence":"additional","affiliation":[{"name":"University of Toronto"}]},{"given":"Henning","family":"Meyer","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Yishu","family":"Miao","sequence":"additional","affiliation":[{"name":"Haiper"}]},{"given":"Derek","family":"Nowrouzezahrai","sequence":"additional","affiliation":[{"name":"McGill University"}]},{"given":"Cengiz","family":"Oztireli","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Etienne","family":"Pot","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Noha","family":"Radwan","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Daniel","family":"Rebain","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Sara","family":"Sabour","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Mehdi S. M.","family":"Sajjadi","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Matan","family":"Sela","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Vincent","family":"Sitzmann","sequence":"additional","affiliation":[{"name":"MIT"}]},{"given":"Austin","family":"Stone","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Deqing","family":"Sun","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Suhani","family":"Vora","sequence":"additional","affiliation":[{"name":"Google"}]},{"given":"Ziyu","family":"Wang","sequence":"additional","affiliation":[{"name":"Haiper"}]},{"given":"Tianhao","family":"Wu","sequence":"additional","affiliation":[{"name":"University of Cambridge"}]},{"given":"Kwang Moo","family":"Yi","sequence":"additional","affiliation":[{"name":"UBC"}]},{"given":"Fangcheng","family":"Zhong","sequence":"additional","affiliation":[{"name":"University of Cambridge"}]},{"given":"Andrea","family":"Tagliasacchi","sequence":"additional","affiliation":[{"name":"Google"}]}],"member":"263","reference":[{"key":"ref39","first-page":"4182","article-title":"Data-efficient image recognition with contrastive predictive coding","author":"h\u00e9naff","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref33","article-title":"Virtual worlds as proxy for multi-object tracking analysis","author":"gaidon","year":"2016","journal-title":"CVPR"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI.2018.8363576"},{"journal-title":"Blender 2 93 6 release candidate python api documentation","year":"2021","author":"foundation","key":"ref31"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00285"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.254"},{"key":"ref36","first-page":"2424","article-title":"Multi-object representation learning with iterative variational inference","author":"greff","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref35","article-title":"Submanifold sparse convolutional networks","author":"graham","year":"2017","journal-title":"ar Xiv preprint"},{"key":"ref34","article-title":"ThreeDWorld: A platform for interactive Multi-Modal physical simulation","author":"gan","year":"2020","journal-title":"ArXiv"},{"key":"ref28","article-title":"GENESIS: Generative scene inference and sampling with object-centric latent representations","author":"engelcke","year":"0","journal-title":"International Conference on Learning Representations"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01061"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.487"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.1996.546886"},{"journal-title":"Trimesh2","year":"0","author":"dawson-haggerty","key":"ref22"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.261"},{"key":"ref24","first-page":"12949","article-title":"Sim2real transfer learning for 3d pose estimation: motion to the rescue","author":"doersch","year":"2019","journal-title":"NeurIPS"},{"key":"ref23","article-title":"Blenderproc","author":"denninger","year":"2019","journal-title":"ArXiv"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00267"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.316"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2013.10.013"},{"key":"ref25","article-title":"An image is worth 16&#x00D7;16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"2021","journal-title":"9th International Conference on Learning Representations ICLR 2021 Virtual Event"},{"key":"ref50","article-title":"Conditional Object-Centric Learning from Video","author":"kipf","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00983"},{"key":"ref59","article-title":"Object-centric learning with slot attention","author":"locatello","year":"0","journal-title":"Advances in neural information processing systems"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00780"},{"key":"ref57","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"0","journal-title":"European Conference on Computer Vision"},{"key":"ref56","article-title":"Openrooms: An end-to-end open framework for photorealistic indoor scene datasets","volume":"abs 2007 12868","author":"li","year":"2020","journal-title":"CoRR"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00277"},{"journal-title":"Ai2-thor An interactive 3d environment for visual ai","year":"2019","author":"kolve","key":"ref53"},{"key":"ref52","doi-asserted-by":"crossref","first-page":"491","DOI":"10.1007\/978-3-030-58558-7_29","article-title":"Big transfer (bit): General visual representation learning","author":"kolesnikov","year":"2020","journal-title":"Computer Vision-ECCV 2020-16th European Conference"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00340"},{"key":"ref4","article-title":"Pass: An imagenet replacement for self-supervised pretraining without humans","author":"asano","year":"2021","journal-title":"NeurIPS Track on Datasets and Benchmarks"},{"key":"ref3","article-title":"TAP-Net: Tracking any point in a video","author":"authors","year":"0","journal-title":"Submission"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-010-0390-2"},{"journal-title":"Why do deep convolutional networks generalize so poorly to small image transformations?","year":"2029","author":"azulay","key":"ref5"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00158"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/BF01420984"},{"journal-title":"Animeceleb Largescale animation celebfaces dataset via controllable 3d synthetic models","year":"2021","author":"kim","key":"ref49"},{"journal-title":"Blender - a 3D modelling and rendering package","year":"2021","key":"ref9"},{"journal-title":"QT-Opt Scalable deep reinforcement learning for vision-based robotic manipulation","year":"2018","author":"kalashnikov","key":"ref46"},{"key":"ref45","article-title":"SIMONe: View-invariant, temporally-abstracted object representations via unsupervised video decomposition","author":"kabra","year":"2021","journal-title":"ar Xiv preprint"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00411"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/BF00133570"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/BF01908075"},{"key":"ref41","article-title":"Man-ifoldplus: A robust and scalable watertight manifold surface generation method for triangle soups","author":"huang","year":"2020","journal-title":"ar Xiv preprint"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.215"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01291"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107404"},{"key":"ref72","article-title":"Bylabel: A boundary based semiautomatic image annotation tool","author":"qin","year":"0","journal-title":"2018 IEEE Winter Conference on Applications of Computer Vision (WACV)"},{"journal-title":"Demystifying contrastive self-supervised learning Invariances augmentations and dataset biases","year":"2020","author":"purushwalkam","key":"ref71"},{"key":"ref70","article-title":"The 2017 davis challenge on video object segmentation","author":"pont-tuset","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2014.131"},{"journal-title":"Scanned objects dataset of common household objects","year":"2021","author":"research","key":"ref77"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00766"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-49409-8_75"},{"key":"ref78","article-title":"Playing for data: Ground truth from computer games","author":"richter","year":"0","journal-title":"ECCV"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1201\/b16721-28"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01375-2"},{"key":"ref62","first-page":"141","article-title":"Volumetric hierarchical approximate convex decomposition","volume":"3","author":"mamou","year":"2016","journal-title":"Game Engine Gems"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/2601097.2601152"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00713"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.438"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.292"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref67","article-title":"Indoor segmentation and support inference from rgbd images","author":"silberman","year":"0","journal-title":"ECCV"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00356"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.471"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1016\/0021-9991(88)90002-2"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206596"},{"key":"ref109","article-title":"Perspective transformer nets: Learning single-view 3d object reconstruction without 3d supervision","author":"yan","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995347"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00992"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24947-6_42"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00945"},{"journal-title":"NDDS NVIDIA heep learning dataset synthesizer","year":"2018","author":"to","key":"ref93"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2965078"},{"key":"ref92","article-title":"RAFT: Recurrent all-pairs field transforms for optical flow","author":"teed","year":"0","journal-title":"ECCV"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00403"},{"key":"ref91","article-title":"Habitat 2. 0: Training home assistants to rearrange their habitat","author":"szot","year":"2021","journal-title":"NeurIPS"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/34.244673"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00931"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00366"},{"key":"ref102","article-title":"Deep leaf segmentation using synthetic data","author":"ward","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01572"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1145\/3351095.3375709"},{"key":"ref110","first-page":"794","article-title":"Volumetric correspondence networks for optical flow","author":"yang","year":"0","journal-title":"Advances in neural information processing systems"},{"journal-title":"Next-generation pose detection with MoveNet and TensorFlow js","year":"2021","author":"votel","key":"ref98"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2019.00046"},{"journal-title":"A perceptually in-spired generative model of rigid-body contact sounds","year":"0","author":"traer","key":"ref96"},{"key":"ref97","article-title":"Nesf: Neural semantic fields for generalizable semantic segmentation of 3d scenes","author":"vora","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2015.2487833"},{"journal-title":"Unity perception Generate synthetic data for computer vision","year":"2021","author":"borkman","key":"ref11"},{"key":"ref12","article-title":"MONet: Unsupervised scene decomposition and representation","author":"burgess","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref13","first-page":"611","article-title":"A naturalistic open source movie for optical flow evaluation","volume":"part iv","author":"butler","year":"2012","journal-title":"European Conf Computer Vision (ECCV)"},{"journal-title":"ShapeNet An Information-Rich 3D Model Repository","year":"2015","author":"chang","key":"ref14"},{"key":"ref15","doi-asserted-by":"crossref","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","article-title":"Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs","volume":"40","author":"chen","year":"2017","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01554"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00194"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00613"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00887"},{"journal-title":"ABO Dataset and benchmarks for Real-World 3D object understanding","year":"2021","author":"collins","key":"ref17"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-007-0090-8"},{"journal-title":"Pybullet a python module for physics simulation for games robotics and machine learning","year":"2016","author":"coumans","key":"ref18"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197309"},{"key":"ref119","article-title":"Objects as points","author":"zhou","year":"2019","journal-title":"ArXiv Preprint"},{"journal-title":"Pybullet a python module for physics simulation for games robotics and machine learning","year":"2016","author":"coumans","key":"ref19"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00943"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00455"},{"key":"ref113","article-title":"Volume rendering of neural implicit surfaces","author":"yariv","year":"2021","journal-title":"ar Xiv preprint"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01001"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.352"},{"journal-title":"Polyhaven a curated public asset library for visual effects artists and game designers","year":"2021","author":"zaal","key":"ref115"},{"key":"ref120","first-page":"225","article-title":"Simpose: Effectively learning densepose and surface normals of people from simulated data","author":"zhu","year":"0","journal-title":"European Conference on Computer Vision"},{"key":"ref89","article-title":"Autoflow: Learning a bet @ articieMayer20 16-xo, title = &#x201C;A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation&#x201D;, author =&#x201C;Mayer, N and Ilg, E and Hausser, P and Fischer, P and others&#x201C;, journal = &#x201C;Proceedings of the&#x201D;, publisher = &#x201C;openaccess. thecvf. com&#x201D;, year = 2016 ter training set for optical flow","author":"sun","year":"0","journal-title":"CVPR"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995316"},{"key":"ref86","article-title":"Light field networks: Neural scene representations with single-evaluation rendering","author":"sitzmann","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref87","article-title":"Scene representation networks: Continuous 3d-structure-aware neural scene representations","author":"sitzmann","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref88","article-title":"TF-RAFT: A tensorflow implementation of raft","author":"sun","year":"0","journal-title":"ECCV Robust Vision Challenge Workshop"}],"event":{"name":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","start":{"date-parts":[[2022,6,18]]},"location":"New Orleans, LA, USA","end":{"date-parts":[[2022,6,24]]}},"container-title":["2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9878378\/9878366\/09880070.pdf?arnumber=9880070","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,14]],"date-time":"2022-10-14T16:56:41Z","timestamp":1665766601000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9880070\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6]]},"references-count":120,"URL":"https:\/\/doi.org\/10.1109\/cvpr52688.2022.00373","relation":{},"subject":[],"published":{"date-parts":[[2022,6]]}}}