{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,15]],"date-time":"2025-10-15T00:40:22Z","timestamp":1760488822184,"version":"3.37.3"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2018,6,21]],"date-time":"2018-06-21T00:00:00Z","timestamp":1529539200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2018,9]]},"DOI":"10.1007\/s11263-018-1102-6","type":"journal-article","created":{"date-parts":[[2018,6,21]],"date-time":"2018-06-21T09:25:26Z","timestamp":1529573126000},"page":"1045-1060","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["Virtual Training for a Real Application: Accurate Object-Robot Relative Localization Without Calibration"],"prefix":"10.1007","volume":"126","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4802-8208","authenticated-orcid":false,"given":"Vianney","family":"Loing","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Renaud","family":"Marlet","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mathieu","family":"Aubry","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,6,21]]},"reference":[{"key":"1102_CR1","doi-asserted-by":"crossref","unstructured":"Aubry, M., Maturana, D., Efros, A. A., Russell, B. C., & Sivic, J. (2014). Seeing 3D chairs: exemplar part-based 2D-3D alignment using a large dataset of CAD models. In Conference on computer vision and pattern recognition (CVPR) (pp. 3762\u20133769). IEEE.","DOI":"10.1109\/CVPR.2014.487"},{"key":"1102_CR2","doi-asserted-by":"crossref","unstructured":"Chen, W., Wang, H., Li, Y., Su, H., Wang, Z., Tu, C., Lischinski, D., Cohen-Or, D., & Chen, B. (2016). Synthesizing training images for boosting human 3D pose estimation. In 4th international conference on 3D vision (3DV) (pp. 479\u2013488). IEEE.","DOI":"10.1109\/3DV.2016.58"},{"key":"1102_CR3","doi-asserted-by":"crossref","unstructured":"Collet, A., & Srinivasa, S. S. (2010). Efficient multi-view object recognition and full pose estimation. In International conference on robotics and automation (ICRA) (pp. 2050\u20132055). IEEE.","DOI":"10.1109\/ROBOT.2010.5509615"},{"issue":"10","key":"1102_CR4","doi-asserted-by":"publisher","first-page":"1284","DOI":"10.1177\/0278364911401765","volume":"30","author":"A Collet","year":"2011","unstructured":"Collet, A., Martinez, M., & Srinivasa, S. S. (2011). The MOPED framework: Object recognition and pose estimation for manipulation. The International Journal of Robotics Research (IJRR), 30(10), 1284\u20131306.","journal-title":"The International Journal of Robotics Research (IJRR)"},{"key":"1102_CR5","doi-asserted-by":"crossref","unstructured":"Dalal, N., & Triggs, B. (2005). Histograms of oriented gradients for human detection. In International conference on computer vision and pattern recognition (CVPR) (Vol.\u00a01, pp. 886\u2013893). IEEE.","DOI":"10.1109\/CVPR.2005.177"},{"key":"1102_CR6","doi-asserted-by":"crossref","unstructured":"Dosovitskiy, A., Fischer, P., Ilg, E., Hausser, P., Hazirbas, C., Golkov, V., van\u00a0der Smagt, P., Cremers, D., & Brox, T. (2015). Flownet: Learning optical flow with convolutional networks. In International conference on computer vision (ICCV) (pp. 2758\u20132766). IEEE.","DOI":"10.1109\/ICCV.2015.316"},{"issue":"9","key":"1102_CR7","doi-asserted-by":"publisher","first-page":"1627","DOI":"10.1109\/TPAMI.2009.167","volume":"32","author":"PF Felzenszwalb","year":"2010","unstructured":"Felzenszwalb, P. F., Girshick, R. B., McAllester, D., & Ramanan, D. (2010). Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 32(9), 1627\u20131645.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)"},{"key":"1102_CR8","doi-asserted-by":"crossref","unstructured":"Feng, C., Xiao, Y., Willette, A., Mcgee, W. & Kamat, V. R. (2014). Towards autonomous robotic in-situ assembly on unstructured construction sites using monocular vision. In International symposium on automation and robotics in construction and mining (ISARC)","DOI":"10.22260\/ISARC2014\/0022"},{"key":"1102_CR9","unstructured":"Fidler, S., Dickinson, S. & Urtasun, R. (2012). 3D object detection and viewpoint estimation with a deformable 3D cuboid model. In Advances in Neural Information Processing Systems (NIPS) (pp. 611\u2013619)."},{"issue":"6","key":"1102_CR10","doi-asserted-by":"publisher","first-page":"2280","DOI":"10.1016\/j.patcog.2014.01.005","volume":"47","author":"S Garrido-Jurado","year":"2014","unstructured":"Garrido-Jurado, S., Muoz-Salinas, R., Madrid-Cuevas, F., & Marn-Jimnez, M. (2014). Automatic generation and detection of highly reliable fiducial markers under occlusion. Pattern Recognition, 47(6), 2280\u20132292.","journal-title":"Pattern Recognition"},{"key":"1102_CR11","doi-asserted-by":"publisher","first-page":"481","DOI":"10.1016\/j.patcog.2015.09.023","volume":"51","author":"S Garrido-Jurado","year":"2016","unstructured":"Garrido-Jurado, S., Muoz-Salinas, R., Madrid-Cuevas, F., & Medina-Carnicer, R. (2016). Generation of fiducial marker dictionaries using mixed integer linear programming. Pattern Recognition, 51, 481\u2013491.","journal-title":"Pattern Recognition"},{"key":"1102_CR12","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T. & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In International conference on computer vision and pattern recognition (CVPR) (pp. 580\u2013587). IEEE.","DOI":"10.1109\/CVPR.2014.81"},{"key":"1102_CR13","doi-asserted-by":"crossref","unstructured":"Glasner, D., Galun, M., Alpert, S., Basri, R., & Shakhnarovich, G. (2011). Viewpoint-aware object detection and pose estimation. In International conference on computer vision (ICCV) (pp. 1275\u20131282). IEEE.","DOI":"10.1109\/ICCV.2011.6126379"},{"key":"1102_CR14","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., & Girshick, R. (2017). Mask R-CNN. arXiv preprint \n                    arXiv:1703.06870\n                    \n                  ."},{"key":"1102_CR15","unstructured":"Hejrati, M., & Ramanan, D. (2012). Analyzing 3D objects in cluttered images. In Advances in neural information processing systems (NIPS), (pp. 593\u2013601)."},{"key":"1102_CR16","unstructured":"Hoda\u0148, T., Matas, J., & Obdr\u017e\u00e1lek, \u0160. (2016). On evaluation of 6D object pose estimation. In European conference on computer vision workshops (ECCVw) (pp. 606\u2013619). New York: Springer."},{"issue":"2","key":"1102_CR17","doi-asserted-by":"publisher","first-page":"195","DOI":"10.1007\/BF00054921","volume":"5","author":"DP Huttenlocher","year":"1990","unstructured":"Huttenlocher, D. P., & Ullman, S. (1990). Recognizing solid objects by alignment with an image. International Journal of Computer Vision (IJCV), 5(2), 195\u2013212.","journal-title":"International Journal of Computer Vision (IJCV)"},{"issue":"4","key":"1102_CR18","doi-asserted-by":"publisher","first-page":"541","DOI":"10.1162\/neco.1989.1.4.541","volume":"1","author":"Y LeCun","year":"1989","unstructured":"LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., et al. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4), 541\u2013551.","journal-title":"Neural Computation"},{"issue":"39","key":"1102_CR19","first-page":"1","volume":"17","author":"S Levine","year":"2016","unstructured":"Levine, S., Finn, C., Darrell, T., & Abbeel, P. (2016). End-to-end training of deep visuomotor policies. Journal of Machine Learning Research (JMLR), 17(39), 1\u201340.","journal-title":"Journal of Machine Learning Research (JMLR)"},{"issue":"4\u20135","key":"1102_CR20","doi-asserted-by":"publisher","first-page":"421","DOI":"10.1177\/0278364917710318","volume":"37","author":"S Levine","year":"2018","unstructured":"Levine, S., Pastor, P., Krizhevsky, A., & Quillen, D. (2018). Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International Journal of Robotics Research (ISER), 37(4\u20135), 421\u2013436.","journal-title":"The International Journal of Robotics Research (ISER)"},{"issue":"3","key":"1102_CR21","doi-asserted-by":"publisher","first-page":"355","DOI":"10.1016\/0004-3702(87)90070-1","volume":"31","author":"DG Lowe","year":"1987","unstructured":"Lowe, D. G. (1987). Three-dimensional object recognition from single two-dimensional images. Artificial Intelligence, 31(3), 355\u2013395.","journal-title":"Artificial Intelligence"},{"key":"1102_CR22","doi-asserted-by":"crossref","unstructured":"Lowe, D. G. (1999). Object recognition from local scale-invariant features. In The proceedings of the seventh IEEE international conference on computer vision (Vol. 2, pp. 1150\u20131157). IEEE.","DOI":"10.1109\/ICCV.1999.790410"},{"key":"1102_CR23","doi-asserted-by":"crossref","unstructured":"Massa, F., Marlet, R. & Aubry, M. (2016a). Crafting a multi-task CNN for viewpoint estimation. In 27th British machine vision conference (BMVC)","DOI":"10.5244\/C.30.91"},{"key":"1102_CR24","doi-asserted-by":"crossref","unstructured":"Massa, F., Russell, B. C., & Aubry, M. (2016b). Deep exemplar 2D\u20133D detection by adapting from real to rendered views. In International conference on computer vision and pattern recognition (CVPR) (pp. 6024\u20136033). IEEE.","DOI":"10.1109\/CVPR.2016.648"},{"key":"1102_CR25","unstructured":"Mundy, J. L. (2006). Object recognition in the geometric era: A retrospective. In Toward category-level object recognition (pp. 3\u201328). New York: Springer."},{"key":"1102_CR26","unstructured":"Peng, X., & Saenko, K. (2017). Synthetic to real adaptation with deep generative correlation alignment networks. arXiv preprint \n                           \n                    arXiv:170105524"},{"key":"1102_CR27","doi-asserted-by":"crossref","unstructured":"Peng, X., Sun, B., Ali, K., & Saenko, K. (2015). Learning deep object detectors from 3D models. In International conference on computer vision (ICCV) (pp. 1278\u20131286). IEEE.","DOI":"10.1109\/ICCV.2015.151"},{"key":"1102_CR28","doi-asserted-by":"crossref","unstructured":"Pepik, B., Stark, M., Gehler, P., & Schiele, B. (2012). Teaching 3D geometry to deformable part models. In International conference on computer vision and pattern recognition (CVPR) (pp. 3362\u20133369). IEEE.","DOI":"10.1109\/CVPR.2012.6248075"},{"key":"1102_CR29","unstructured":"Pepik, B., Benenson, R., Ritschel, T., & Schiele, B. (2015). What is holding back convnets for detection? In 37th German conference on pattern recognition (GCPR) 9358 in LNCS (pp. 517\u2013528). New York: Springer."},{"key":"1102_CR30","unstructured":"Pinto, L., & Gupta, A. (2016). Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours. International conference on robotics and automation (ICRA) (pp. 3406\u20133413). Stockholm, Sweden: IEEE."},{"key":"1102_CR31","unstructured":"Richter, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for data: Ground truth from computer games. In European conference on computer vision (ECCV) (pp. 102\u2013118). New York: Springer."},{"key":"1102_CR32","unstructured":"Roberts, L. G. (1963). Machine perception of three-dimensional solids. In PhD thesis Massachusetts Institute of Technology (MIT)"},{"key":"1102_CR33","doi-asserted-by":"crossref","unstructured":"Ros, G., Sellart, L., Materzynska, J., Vazquez, D., & Lopez, A. M. (2016). The SYNTHIA dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In Internatgional conference on computer vision and pattern recognition (CVPR) (pp. 3234\u20133243). IEEE.","DOI":"10.1109\/CVPR.2016.352"},{"key":"1102_CR34","unstructured":"Sadeghi, F., & Levine, S. (2018). (CAD)2RL: Real single-image flight without a single real image. In Robotics: Science and systems (RSS) conference."},{"key":"1102_CR35","unstructured":"Schulman, J., Levine, S., Abbeel, P., Jordan, M., & Moritz, P. (2015) Trust region policy optimization. In 32nd international conference on machine learning (ICML) (pp. 1889\u20131897)."},{"key":"1102_CR36","unstructured":"Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2014). Overfeat: Integrated recognition, localization and detection using convolutional networks. In International conference on learning representations (ICLR)"},{"key":"1102_CR37","doi-asserted-by":"crossref","unstructured":"Shafaei, A., Little, J. J., & Schmidt, M. (2016). Play and learn: Using video games to train computer vision models. In 27th British machine vision conference (BMVC).","DOI":"10.5244\/C.30.26"},{"key":"1102_CR38","doi-asserted-by":"crossref","unstructured":"Su, H., Qi, CR., Li, Y., & Guibas, L. J. (2015). Render for CNN: Viewpoint estimation in images using CNNs trained with rendered 3D model views. In International conference on computer vision (ICCV) (pp. 2686\u20132694). IEEE.","DOI":"10.1109\/ICCV.2015.308"},{"key":"1102_CR39","doi-asserted-by":"crossref","unstructured":"Sun, B., & Saenko, K. (2014). From virtual to reality: Fast adaptation of virtual object detectors to real domains. In 25th British machine vision conference (BMVC).","DOI":"10.5244\/C.28.82"},{"key":"1102_CR40","doi-asserted-by":"crossref","unstructured":"Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain randomization for transferring deep neural networks from simulation to the real world. In 30th international conference on intelligent robots and systems (IROS), IEEE\/RSJ.","DOI":"10.1109\/IROS.2017.8202133"},{"key":"1102_CR41","doi-asserted-by":"crossref","unstructured":"Tulsiani, S., & Malik, J. (2015). Viewpoints and keypoints. In International conference on computer vision and pattern recognition (CVPR) (pp. 1510\u20131519). IEEE.","DOI":"10.1109\/CVPR.2015.7298758"},{"issue":"4","key":"1102_CR42","doi-asserted-by":"publisher","first-page":"797","DOI":"10.1109\/TPAMI.2013.163","volume":"36","author":"D Vazquez","year":"2014","unstructured":"Vazquez, D., Lopez, A. M., Marin, J., Ponsa, D., & Geronimo, D. (2014). Virtual and real world adaptation for pedestrian detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 36(4), 797\u2013809.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)"},{"key":"1102_CR43","unstructured":"Wu, J., Xue, T., Lim, J. J., Tian, Y., Tenenbaum, J. B., Torralba, A., & Freeman, W. T. (2016). Single image 3D interpreter network. In European conference on computer vision (ECCV) (pp. 365\u2013382). New York: Springer."},{"key":"1102_CR44","unstructured":"Xiao, J., Russell, B., & Torralba, A. (2012). Localizing 3D cuboids in single-view images. In Advances in neural information processing systems (NIPS), (pp. 746\u2013754). Curran Associates, Inc."}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-018-1102-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-018-1102-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-018-1102-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,6,20]],"date-time":"2019-06-20T19:18:42Z","timestamp":1561058322000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-018-1102-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,6,21]]},"references-count":44,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2018,9]]}},"alternative-id":["1102"],"URL":"https:\/\/doi.org\/10.1007\/s11263-018-1102-6","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"type":"print","value":"0920-5691"},{"type":"electronic","value":"1573-1405"}],"subject":[],"published":{"date-parts":[[2018,6,21]]},"assertion":[{"value":"17 July 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 June 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 June 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}