{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T04:07:12Z","timestamp":1750133232373,"version":"3.41.0"},"publisher-location":"Cham","reference-count":31,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319541891"},{"type":"electronic","value":"9783319541907"}],"license":[{"start":{"date-parts":[[2017,1,1]],"date-time":"2017-01-01T00:00:00Z","timestamp":1483228800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017]]},"DOI":"10.1007\/978-3-319-54190-7_6","type":"book-chapter","created":{"date-parts":[[2017,3,11]],"date-time":"2017-03-11T05:44:09Z","timestamp":1489211049000},"page":"87-103","source":"Crossref","is-referenced-by-count":0,"title":["Auto-Illustrating Poems and Songs with Style"],"prefix":"10.1007","author":[{"given":"Katharina","family":"Schwarz","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tamara L.","family":"Berg","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hendrik P. A.","family":"Lensch","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,3,12]]},"reference":[{"key":"6_CR1","unstructured":"Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J.: Distributed representations of words and phrases and their compositionality. In: NIPS, pp. 3111\u20133119 (2013)"},{"key":"6_CR2","doi-asserted-by":"crossref","unstructured":"Karayev, S., Trentacoste, M., Han, H., Agarwala, A., Darrell, T., Hertzmann, A., Winnemoeller, H.: Recognizing image style. In: BMVC (2014)","DOI":"10.5244\/C.28.122"},{"key":"6_CR3","unstructured":"Snavely, K.N.: Scene reconstruction and visualization from internet photo collections. PhD thesis, University of Washington (2009)"},{"key":"6_CR4","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"368","DOI":"10.1007\/978-3-642-15561-1_27","volume-title":"Computer Vision \u2013 ECCV 2010","author":"J-M Frahm","year":"2010","unstructured":"Frahm, J.-M., et al.: Building Rome on a cloudless day. In: Daniilidis, K., Maragos, P., Paragios, N. (eds.) ECCV 2010. LNCS, vol. 6314, pp. 368\u2013381. Springer, Heidelberg (2010). doi: 10.1007\/978-3-642-15561-1_27"},{"key":"6_CR5","doi-asserted-by":"crossref","unstructured":"Hays, J., Efros, A.A.: Scene completion using millions of photographs. In: ACM SIGGRAPH (2007)","DOI":"10.1145\/1275808.1276382"},{"issue":"2","key":"6_CR6","doi-asserted-by":"crossref","first-page":"131","DOI":"10.1111\/cgf.12547","volume":"34","author":"H Averbuch-Elor","year":"2015","unstructured":"Averbuch-Elor, H., Wang, Y., Qian, Y., Gong, M., Kopf, J., Zhang, H., Cohen-Or, D.: Distilled collections from textual image queries. Comput. Graph. Forum 34(2), 131\u2013142 (2015)","journal-title":"Comput. Graph. Forum"},{"key":"6_CR7","doi-asserted-by":"crossref","unstructured":"Kim, G., Xing, E.P.: Reconstructing storyline graphs for image recommendation from web community photos. In: CVPR, pp. 3882\u20133889 (2014)","DOI":"10.1109\/CVPR.2014.496"},{"key":"6_CR8","doi-asserted-by":"crossref","unstructured":"Kim, G., Sigal, L., Xing, E.P.: Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In: CVPR, pp. 4225\u20134232 (2014)","DOI":"10.1109\/CVPR.2014.538"},{"key":"6_CR9","doi-asserted-by":"crossref","unstructured":"Kulkarni, G., Premraj, V., Dhar, S., Li, S., Choi, Y., Berg, A.C., Berg, T.L.: Baby talk: understanding and generating image descriptions. In: CVPR, pp. 1601\u20131608 (2011)","DOI":"10.1109\/CVPR.2011.5995466"},{"key":"6_CR10","unstructured":"Ordonez, V., Kulkarni, G., Berg, T.L.: Im2Text: describing images using 1 million captioned photographs. In: NIPS, pp. 1143\u20131151 (2011)"},{"key":"6_CR11","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Li, F.F.: Deep visual-semantic alignments for generating image descriptions. In: CVPR, pp. 3128\u20133137 (2015)","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"6_CR12","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. In: CVPR, pp. 3156\u20133164 (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"6_CR13","doi-asserted-by":"crossref","unstructured":"Devlin, J., Cheng, H., Fang, H., Gupta, S., Deng, L., He, X., Zweig, G., Mitchell, M.: Language models for image captioning: the quirks and what works. In: ACL, pp. 100\u2013105 (2015)","DOI":"10.3115\/v1\/P15-2017"},{"key":"6_CR14","doi-asserted-by":"crossref","unstructured":"Fang, H., Gupta, S., Iandola, F., Srivastava, R.K., Deng, L., Dollar, P., Gao, J., He, X., Mitchell, M., Platt, J.C., Zitnick, C.L., Zweig, G.: From captions to visual concepts and back. In: CVPR, pp. 1473\u20131482 (2015)","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"6_CR15","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A.C., Salakhutdinov, R., Zemel, R.S., Bengio, Y.: Show, attend and tell: neural image caption generation with visual attention. In: ICML, pp. 2048\u20132057 (2015)"},{"key":"6_CR16","doi-asserted-by":"crossref","unstructured":"Coyne, B., Sproat, R.: WordsEye: an automatic text-to-scene conversion system. In: SIGGRAPH, pp. 487\u2013496. ACM (2001)","DOI":"10.1145\/383259.383316"},{"key":"6_CR17","unstructured":"Spika, C., Schwarz, K., Dammertz, H., Lensch, H.P.A.: AVDT - automatic visualization of descriptive texts. In: VMV, pp. 129\u2013136 (2011)"},{"key":"6_CR18","doi-asserted-by":"crossref","unstructured":"Zitnick, C.L., Parikh, D.: Bringing semantics into focus using visual abstraction. In: CVPR, pp. 3009\u20133016 (2013)","DOI":"10.1109\/CVPR.2013.387"},{"key":"6_CR19","doi-asserted-by":"crossref","unstructured":"Zitnick, C.L., Parikh, D., Vanderwende, L.: Learning the visual interpretation of sentences. In: ICCV, pp. 1681\u20131688 (2013)","DOI":"10.1109\/ICCV.2013.211"},{"key":"6_CR20","doi-asserted-by":"crossref","unstructured":"Kong, C., Lin, D., Bansal, M., Urtasun, R., Fidler, S.: What are you talking about? Text-to-image coreference. In: CVPR, pp. 3558\u20133565 (2014)","DOI":"10.1109\/CVPR.2014.455"},{"issue":"1","key":"6_CR21","doi-asserted-by":"crossref","first-page":"68","DOI":"10.1145\/1126004.1126008","volume":"2","author":"D Joshi","year":"2006","unstructured":"Joshi, D., Wang, J.Z., Li, J.: The story picturing engine\u2013a system for automatic text illustration. TOMCCAP 2(1), 68\u201389 (2006)","journal-title":"TOMCCAP"},{"key":"6_CR22","series-title":"Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence)","doi-asserted-by":"publisher","first-page":"402","DOI":"10.1007\/978-3-642-15384-6_43","volume-title":"Knowledge-Based and Intelligent Information and Engineering Systems","author":"K Schwarz","year":"2010","unstructured":"Schwarz, K., Rojtberg, P., Caspar, J., Gurevych, I., Goesele, M., Lensch, H.P.A.: Text-to-video: story illustration from online photo collections. In: Setchi, R., Jordanov, I., Howlett, R.J., Jain, L.C. (eds.) KES 2010. LNCS (LNAI), vol. 6279, pp. 402\u2013409. Springer, Heidelberg (2010). doi: 10.1007\/978-3-642-15384-6_43"},{"key":"6_CR23","doi-asserted-by":"crossref","unstructured":"Kim, G., Moon, S., Sigal, L.: Ranking and retrieval of image sequences from multiple paragraph queries. In: CVPR, pp. 1993\u20132001 (2015)","DOI":"10.1109\/CVPR.2015.7298810"},{"key":"6_CR24","volume-title":"Natural Language Processing with Python","author":"S Bird","year":"2009","unstructured":"Bird, S., Klein, E., Loper, E.: Natural Language Processing with Python, 1st edn. O\u2019Reilly Media, Inc., Sebastopol (2009)","edition":"1"},{"volume-title":"WordNet: An Electronic Lexical Database","year":"1998","key":"6_CR25","unstructured":"Fellbaum, C. (ed.): WordNet: An Electronic Lexical Database. MIT Press, Cambridge (1998)"},{"key":"6_CR26","unstructured":"Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient Estimation of Word Representations in Vector Space. CoRR (2013)"},{"key":"6_CR27","unstructured":"Simonyan, K., Zisserman, A.: Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR (2014)"},{"key":"6_CR28","unstructured":"Thomee, B.: Yahoo! Webscope dataset YFCC-100M (2014). http:\/\/labs.yahoo.com\/Academic_Relations"},{"key":"6_CR29","unstructured":"Thomee, B., Shamma, D.A., Friedland, G., Elizalde, B., Ni, K., Poland, D., Borth, D., Li, L.: The New Data and New Challenges in Multimedia Research. CoRR (2015)"},{"issue":"10","key":"6_CR30","doi-asserted-by":"crossref","first-page":"1568","DOI":"10.1109\/TPAMI.2006.200","volume":"28","author":"V Kolmogorov","year":"2006","unstructured":"Kolmogorov, V.: Convergent tree-reweighted message passing for energy minimization. IEEE Trans. Pattern Anal. Mach. Intell. 28(10), 1568\u20131583 (2006)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"6_CR31","unstructured":"Shiang-shiang, K.D.: Information about LRC (2012). http:\/\/www.mobile-mir.com\/en\/HowToLRC.php"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2016"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-54190-7_6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,16]],"date-time":"2025-06-16T18:11:36Z","timestamp":1750097496000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-54190-7_6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"ISBN":["9783319541891","9783319541907"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-54190-7_6","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2017]]}}}