{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T22:10:01Z","timestamp":1751148601640,"version":"3.41.0"},"reference-count":39,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2017,12,1]],"date-time":"2017-12-01T00:00:00Z","timestamp":1512086400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2017,12,15]],"date-time":"2017-12-15T00:00:00Z","timestamp":1513296000000},"content-version":"vor","delay-in-days":14,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["IIS-1349074"],"award-info":[{"award-number":["IIS-1349074"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["CNS-1405847"],"award-info":[{"award-number":["CNS-1405847"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["IPSJ T Comput Vis Appl"],"published-print":{"date-parts":[[2017,12]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Recent years have witnessed the dramatic evolution in visual data volume and processing capabilities. For example, technical advances have enabled 3D modeling from large-scale crowdsourced photo collections. Compared to static image datasets, exploration and exploitation of Internet video collections are still largely unsolved. To address this challenge, we first propose to represent video contents using a histogram representation of iconic imagery attained from relevant visual datasets. We then develop a data-driven framework for a fully unsupervised extraction of such representations. Our novel<jats:italic>Bag-of-Iconics<\/jats:italic>(BoI) representation efficiently analyzes individual videos within a large-scale video collection. We demonstrate our proposed BoI representation with two novel applications: (1) finding video sequences connecting adjacent landmarks and aligning reconstructed 3D models and (2) retrieving geometrically relevant clips from video collections. Results on crowdsourced datasets illustrate the efficiency and effectiveness of our proposed Bag-of-Iconics representation.<\/jats:p>","DOI":"10.1186\/s41074-017-0034-3","type":"journal-article","created":{"date-parts":[[2017,12,15]],"date-time":"2017-12-15T13:41:05Z","timestamp":1513345265000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Efficient video collection association using geometry-aware Bag-of-Iconics representations"],"prefix":"10.1186","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8272-455X","authenticated-orcid":false,"given":"Ke","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Enrique","family":"Dunn","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mikel","family":"Rodriguez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jan-Michael","family":"Frahm","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,12,15]]},"reference":[{"issue":"6","key":"34_CR1","doi-asserted-by":"publisher","first-page":"198","DOI":"10.1145\/2980179.2980257","volume":"35","author":"R Anderson","year":"2016","unstructured":"Anderson R, Gallup D, Barron JT, Kontkanen J, Snavely N, Hern\u00e1ndez C, Agarwal S, Seitz SM (2016) Jump: virtual reality video. ACM Trans Graphics (TOG) 35(6):198.","journal-title":"ACM Trans Graphics (TOG)"},{"key":"34_CR2","unstructured":"(2017) 160 Amazing YouTube Statistics. http:\/\/expandedramblings.com\/index.php\/youtube-statistics\/. Accessed May 2017."},{"issue":"3","key":"34_CR3","doi-asserted-by":"publisher","first-page":"835","DOI":"10.1145\/1141911.1141964","volume":"25","author":"N Snavely","year":"2006","unstructured":"Snavely N, Seitz SM, Szeliski R (2006) Photo tourism: exploring photo collections in 3D. ACM Trans. Graph. 25(3):835\u2013846. doi:10.1145\/1141911.1141964. http:\/\/doi.acm.org\/10.1145\/1141911.1141964.","journal-title":"ACM Trans. Graph."},{"issue":"2","key":"34_CR4","doi-asserted-by":"publisher","first-page":"189","DOI":"10.1007\/s11263-007-0107-3","volume":"80","author":"N Snavely","year":"2008","unstructured":"Snavely N, Seitz SM, Szeliski R (2008) Modeling the world from internet photo collections. IJCV 80(2):189\u2013210.","journal-title":"IJCV"},{"issue":"10","key":"34_CR5","doi-asserted-by":"publisher","first-page":"105","DOI":"10.1145\/2001269.2001293","volume":"54","author":"S Agarwal","year":"2011","unstructured":"Agarwal S, Furukawa Y, Snavely N, Simon I, Curless B, Seitz SM, Szeliski R (2011) Building rome in a day. Commun ACM 54(10):105\u2013112.","journal-title":"Commun ACM"},{"key":"34_CR6","doi-asserted-by":"publisher","first-page":"368","DOI":"10.1007\/978-3-642-15561-1_27","volume-title":"Computer Vision \u2013 ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV","author":"JM Frahm","year":"2010","unstructured":"Frahm JM, Fite-Georgel P, Gallup D, Johnson T, Raguram R, Wu C, Jen Y-H, Dunn E, Clipp B, Lazebnik S, Pollefeys Marc (2010) Building Rome on a cloudless day. In: Daniilidis K, Maragos P, Paragios N (eds) Computer Vision \u2013 ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV, 368\u2013381. Springer Berlin Heidelberg, Berlin. doi:10.1007\/978-3-642-15561-1_27. https:\/\/doi.org\/10.1007\/978-3-642-15561-1_27."},{"key":"34_CR7","doi-asserted-by":"crossref","unstructured":"Heinly J, Sch\u00f6nberger JL, Dunn E, Frahm JM (2015) Reconstructing the world* in six days In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3287\u20133295. doi:10.1109\/CVPR.2015.7298949.","DOI":"10.1109\/CVPR.2015.7298949"},{"issue":"3","key":"34_CR8","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M, Berg AC, Fei-Fei L (2015) ImageNet large scale visual recognition challenge. Int J Comput Vis (IJCV) 115(3):211\u2013252. doi:10.1007\/s11263-015-0816-y.","journal-title":"Int J Comput Vis (IJCV)"},{"key":"34_CR9","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In: Pereira F, Burges CJC, Bottou L, Weinberger KQ (eds) Advances in Neural Information Processing Systems 25. Curran Associates, Inc. pp 1097\u20131105 http:\/\/papers.nips.cc\/paper\/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf."},{"key":"34_CR10","doi-asserted-by":"crossref","unstructured":"Girshick R, Donahue J, Darrell T, Malik J (2014) Rich feature hierarchies for accurate object detection and semantic segmentation In: 2014 IEEE Conference on Computer Vision and Pattern Recognition, 580\u2013587. doi:10.1109\/CVPR.2014.81.","DOI":"10.1109\/CVPR.2014.81"},{"issue":"4","key":"34_CR11","doi-asserted-by":"publisher","first-page":"640","DOI":"10.1109\/TPAMI.2016.2572683","volume":"39","author":"E Shelhamer","year":"2017","unstructured":"Shelhamer E, Long J, Darrell T (2017) Fully convolutional networks for semantic segmentation. IEEE Trans Pattern Anal Mach Intell 39(4):640\u2013651. doi:10.1109\/TPAMI.2016.2572683.","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"34_CR12","doi-asserted-by":"crossref","unstructured":"Zhao B, Xing EP (2014) Quasi real-time summarization for consumer videos In: 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2513\u20132520. doi:10.1109\/CVPR.2014.322.","DOI":"10.1109\/CVPR.2014.322"},{"key":"34_CR13","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: Ghahramani Z, Welling M, Cortes C, Lawrence ND, Weinberger KQ (eds) Advances in Neural Information Processing Systems 27. Curran Associates, Inc. pp 568\u2013576 http:\/\/papers.nips.cc\/paper\/5353-two-stream-convolutional-networks-for-action-recognition-in-videos.pdf."},{"key":"34_CR14","unstructured":"Wang K, Dunn E, Rodriguez M, Frahm JM (2017) Computer Vision \u2013 ACCV 2016: 13th Asian Conference on Computer Vision, Taipei, Taiwan, November 20-24, 2016, Revised Selected Papers, Part IV. In: Lai S-H, Lepetit V, Nishino K, Sato Y (eds), 408\u201323. Springer, Cham."},{"issue":"3","key":"34_CR15","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1007\/s11263-011-0445-z","volume":"95","author":"R Raguram","year":"2011","unstructured":"Raguram R, Wu C, Frahm J-M, Lazebnik S (2011) Modeling and recognition of landmark image collections using iconic scene graphs. Int J Comput Vis 95(3):213\u2013239. doi:10.1007\/s11263-011-0445-z. https:\/\/doi.org\/10.1007\/s11263-011-0445-z.","journal-title":"Int J Comput Vis"},{"issue":"4","key":"34_CR16","doi-asserted-by":"publisher","first-page":"68:1","DOI":"10.1145\/2185520.2185564","volume":"31","author":"J Tompkin","year":"2012","unstructured":"Tompkin J, Kim KI, Kautz J, Theobalt C (2012) Videoscapes: exploring sparse, unstructured video collections. ACM Trans Graph 31(4):68:1\u201368:12. doi:10.1145\/2185520.2185564. http:\/\/doi.acm.org\/10.1145\/2185520.2185564.","journal-title":"ACM Trans Graph"},{"key":"34_CR17","doi-asserted-by":"crossref","unstructured":"Wolf W (1996) Key frame selection by motion analysis In: Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference On, vol. 2, 1228\u201331. IEEE.","DOI":"10.1109\/ICASSP.1996.543588"},{"key":"34_CR18","doi-asserted-by":"crossref","unstructured":"Ahmed MT, Dailey MN, Landabaso JL, Herrero N (2010) Robust key frame extraction for 3D reconstruction from video streams In: VISAPP (1), 231\u2013236.","DOI":"10.5220\/0002836902310236"},{"key":"34_CR19","first-page":"1","volume-title":"Computer Vision and Graphics: International Conference, ICCVG 2012, Warsaw, Poland, September 24-26, 2012. Proceedings","author":"M Ajmal","year":"2012","unstructured":"Ajmal M, Ashraf MH, Shakir M, Abbas Y, Shah FA (2012) Video summarization: techniques and classification. In: Bolc L, Tadeusiewicz R, Chmielewski LJ, Wojciechowski K (eds) Computer Vision and Graphics: International Conference, ICCVG 2012, Warsaw, Poland, September 24-26, 2012. Proceedings, 1\u201313. Springer Berlin Heidelberg, Berlin. doi:10.1007\/978-3-642-33564-8_1. https:\/\/doi.org\/10.1007\/978-3-642-33564-8_1."},{"issue":"6","key":"34_CR20","doi-asserted-by":"publisher","first-page":"797","DOI":"10.1109\/TSMCC.2011.2109710","volume":"41","author":"W Hu","year":"2011","unstructured":"Hu W, Xie N, Li L, Zeng X, Maybank S (2011) A survey on visual content-based video indexing and retrieval. IEEE Trans Syst Man Cybernet Part C Appl Rev 41(6):797\u2013819. doi:10.1109\/TSMCC.2011.2109710.","journal-title":"IEEE Trans Syst Man Cybernet Part C Appl Rev"},{"issue":"12","key":"34_CR21","doi-asserted-by":"publisher","first-page":"2916","DOI":"10.1109\/TPAMI.2012.193","volume":"35","author":"Y Gong","year":"2013","unstructured":"Gong Y, Lazebnik S, Gordo A, Perronnin F (2013) Iterative quantization: a procrustean approach to learning binary codes for large-scale image retrieval. TPAMI 35(12):2916\u20132929.","journal-title":"TPAMI"},{"key":"34_CR22","doi-asserted-by":"crossref","unstructured":"Norouzi M, Punjani A, Fleet DJ (2012) Fast search in hamming space with multi-index hashing In: 2012 IEEE Conference on Computer Vision and Pattern Recognition, 3108\u20133115. doi:10.1109\/CVPR.2012.6248043.","DOI":"10.1109\/CVPR.2012.6248043"},{"issue":"4","key":"34_CR23","doi-asserted-by":"publisher","first-page":"80","DOI":"10.1109\/MRA.2011.943233","volume":"18","author":"D Scaramuzza","year":"2011","unstructured":"Scaramuzza D, Fraundorfer F (2011) Visual odometry [tutorial]. IEEE Robot Automation Mag 18(4):80\u201392. doi:10.1109\/MRA.2011.943233.","journal-title":"IEEE Robot Automation Mag"},{"key":"34_CR24","first-page":"599","volume-title":"Computer Vision \u2013 ECCV 2014. Lecture Notes in Computer Science, vol. 8695","author":"E Zheng","year":"2014","unstructured":"Zheng E, Wang K, Dunn E, Frahm JM (2014) Joint object class sequencing and trajectory triangulation (jost). In: Fleet D, Pajdla T, Schiele B, Tuytelaars T (eds) Computer Vision \u2013 ECCV 2014. Lecture Notes in Computer Science, vol. 8695, 599\u2013614. Springer, New York."},{"key":"34_CR25","doi-asserted-by":"crossref","unstructured":"Zach C, Gallup D, Frahm JM (2008) Fast gain-adaptive KLT tracking on the GPU In: 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 1\u20137. doi:10.1109\/CVPRW.2008.4563089.","DOI":"10.1109\/CVPRW.2008.4563089"},{"key":"34_CR26","doi-asserted-by":"crossref","unstructured":"Shi J, Tomasi C (1994) Good features to track In: 1994 Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 593\u2013600. doi:10.1109\/CVPR.1994.323794.","DOI":"10.1109\/CVPR.1994.323794"},{"key":"34_CR27","doi-asserted-by":"crossref","unstructured":"Kim SJ, Frahm JM, Pollefeys M (2007) Joint feature tracking and radiometric calibration from auto-exposure video In: 2007 IEEE 11th International Conference on Computer Vision, 1\u20138. IEEE. doi:10.1109\/ICCV.2007.4408945.","DOI":"10.1109\/ICCV.2007.4408945"},{"key":"34_CR28","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511811685","volume-title":"Multiple view geometry in computer vision, 2nd edn","author":"RI Hartley","year":"2004","unstructured":"Hartley RI, Zisserman A (2004) Multiple view geometry in computer vision, 2nd edn. Cambridge University Press, Cambridge."},{"issue":"2","key":"34_CR29","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. IJCV 60(2):91\u2013110.","journal-title":"IJCV"},{"key":"34_CR30","doi-asserted-by":"crossref","unstructured":"Nist\u00e9r D, Stewenius H (2006) Scalable recognition with a vocabulary tree In: 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR\u201906), vol. 2, 2161\u20132168. doi:10.1109\/CVPR.2006.264.","DOI":"10.1109\/CVPR.2006.264"},{"key":"34_CR31","doi-asserted-by":"publisher","first-page":"45","DOI":"10.1007\/978-3-642-33709-3_4","volume-title":"Computer Vision \u2013 ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part II","author":"Y Lou","year":"2012","unstructured":"Lou Y, Snavely N, Gehrke J (2012) MatchMiner: efficient spanning structure mining in large image collections. In: Fitzgibbon A, Lazebnik S, Perona P, Sato Y, Schmid C (eds) Computer Vision \u2013 ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part II, 45\u201358. Springer Berlin Heidelberg, Berlin. doi:10.1007\/978-3-642-33709-3_4. https:\/\/doi.org\/10.1007\/978-3-642-33709-3_4."},{"issue":"5","key":"34_CR32","doi-asserted-by":"publisher","first-page":"603","DOI":"10.1109\/34.1000236","volume":"24","author":"D Comaniciu","year":"2002","unstructured":"Comaniciu D, Meer P (2002) Mean shift: a robust approach toward feature space analysis. IEEE Trans Pattern Anal Mach Intell 24(5):603\u2013619. doi:10.1109\/34.1000236.","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"34_CR33","doi-asserted-by":"crossref","unstructured":"Schonberger JL, Frahm JM (2016) Structure-from-motion revisited In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4104\u20134113. doi:10.1109\/CVPR.2016.445.","DOI":"10.1109\/CVPR.2016.445"},{"key":"34_CR34","unstructured":"Agarwal S, Mierle KOthers: ceres solver. http:\/\/ceres-solver.org. Accessed 02 Dec 2017."},{"key":"34_CR35","doi-asserted-by":"crossref","unstructured":"Klingner B, Martin D, Roseborough J (2013) Street view motion-from-structure-from-motion In: 2013 IEEE International Conference on Computer Vision, 953\u2013960. doi:10.1109\/ICCV.2013.122.","DOI":"10.1109\/ICCV.2013.122"},{"issue":"11","key":"34_CR36","doi-asserted-by":"publisher","first-page":"2227","DOI":"10.1109\/TPAMI.2014.2321376","volume":"36","author":"M Muja","year":"2014","unstructured":"Muja M, Lowe DG (2014) Scalable nearest neighbor algorithms for high dimensional data. IEEE Trans Pattern Anal Mach Intell 36(11):2227\u20132240. doi:10.1109\/TPAMI.2014.2321376.","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"34_CR37","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770\u2013778. doi:10.1109\/CVPR.2016.90.","DOI":"10.1109\/CVPR.2016.90"},{"key":"34_CR38","doi-asserted-by":"crossref","first-page":"46","DOI":"10.1007\/978-3-319-10578-9_4","volume-title":"Computer Vision \u2013 ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part III","author":"M Havlena","year":"2014","unstructured":"Havlena M, Schindler K (2014) Vocmatch: efficient multiview correspondence for structure from motion. In: Fleet D, Pajdla T, Schiele B, Tuytelaars T (eds) Computer Vision \u2013 ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part III, 46\u201360.. Springer International Publishing, Cham. doi:10.1007\/978-3-319-10578-9_4. https:\/\/doi.org\/10.1007\/978-3-319-10578-9_4."},{"key":"34_CR39","doi-asserted-by":"crossref","unstructured":"Sch\u00f6nberger JL, Berg AC, Frahm JM (2015) Paige: pairwise image geometry encoding for improved efficiency in structure-from-motion In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1009\u20131018. doi:10.1109\/CVPR.2015.7298703.","DOI":"10.1109\/CVPR.2015.7298703"}],"container-title":["IPSJ Transactions on Computer Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s41074-017-0034-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s41074-017-0034-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s41074-017-0034-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T21:33:29Z","timestamp":1751146409000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1186\/s41074-017-0034-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,12]]},"references-count":39,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2017,12]]}},"alternative-id":["34"],"URL":"https:\/\/doi.org\/10.1186\/s41074-017-0034-3","relation":{},"ISSN":["1882-6695"],"issn-type":[{"type":"electronic","value":"1882-6695"}],"subject":[],"published":{"date-parts":[[2017,12]]},"assertion":[{"value":"31 May 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 November 2017","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 December 2017","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The authors declare that they have no competing interests.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}},{"value":"Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Publisher\u2019s Note"}}],"article-number":"23"}}