{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T10:20:56Z","timestamp":1760955656741,"version":"3.40.3"},"publisher-location":"Cham","reference-count":33,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319466033"},{"type":"electronic","value":"9783319466040"}],"license":[{"start":{"date-parts":[[2016,1,1]],"date-time":"2016-01-01T00:00:00Z","timestamp":1451606400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2016,1,1]],"date-time":"2016-01-01T00:00:00Z","timestamp":1451606400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016]]},"DOI":"10.1007\/978-3-319-46604-0_33","type":"book-chapter","created":{"date-parts":[[2016,9,17]],"date-time":"2016-09-17T03:31:55Z","timestamp":1474083115000},"page":"459-473","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["DeepDiary: Automatically Captioning Lifelogging Image Streams"],"prefix":"10.1007","author":[{"given":"Chenyou","family":"Fan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"David J.","family":"Crandall","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2016,9,18]]},"reference":[{"issue":"6","key":"33_CR1","doi-asserted-by":"publisher","first-page":"34","DOI":"10.1109\/38.963459","volume":"21","author":"R Azuma","year":"2001","unstructured":"Azuma, R., Baillot, Y., Behringer, R., Feiner, S., Julier, S., MacIntyre, B.: Recent advances in augmented reality. IEEE Comput. Graph. Appl. 21(6), 34\u201347 (2001)","journal-title":"IEEE Comput. Graph. Appl."},{"key":"33_CR2","unstructured":"Banerjee, S., Lavie, A.: METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization, pp. 65\u201372 (2005)"},{"key":"33_CR3","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/978-3-642-33715-4_1","volume-title":"Computer Vision \u2013 ECCV 2012","author":"D Batra","year":"2012","unstructured":"Batra, D., Yadollahpour, P., Guzman-Rivera, A., Shakhnarovich, G.: Diverse M-best solutions in markov random fields. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7576, pp. 1\u201316. Springer, Heidelberg (2012). doi:\n                      10.1007\/978-3-642-33715-4_1"},{"key":"33_CR4","doi-asserted-by":"crossref","unstructured":"Castro, D., Hickson, S., Bettadapura, V., Thomaz, E., Abowd, G., Christensen, H., Essa, I.: Predicting daily activities from egocentric images using deep learning. In: International Symposium on Wearable Computers (2015)","DOI":"10.1145\/2802083.2808398"},{"issue":"2","key":"33_CR5","doi-asserted-by":"publisher","first-page":"179","DOI":"10.1207\/s15516709cog1402_1","volume":"14","author":"JL Elman","year":"1990","unstructured":"Elman, J.L.: Finding structure in time. Cogn. Sci. 14(2), 179\u2013211 (1990)","journal-title":"Cogn. Sci."},{"key":"33_CR6","doi-asserted-by":"crossref","unstructured":"Erhan, D., Szegedy, C., Toshev, A., Anguelov, D.: Scalable object detection using deep neural networks. In: IEEE Conference on Computer Vision and Pattern Recognition. pp. 2155\u20132162 (2014)","DOI":"10.1109\/CVPR.2014.276"},{"key":"33_CR7","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"314","DOI":"10.1007\/978-3-642-33718-5_23","volume-title":"Computer Vision \u2013 ECCV 2012","author":"A Fathi","year":"2012","unstructured":"Fathi, A., Li, Y., Rehg, J.M.: Learning to recognize daily actions using gaze. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012. LNCS, vol. 7572, pp. 314\u2013327. Springer, Heidelberg (2012). doi:\n                      10.1007\/978-3-642-33718-5_23"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"Fathi, A., Ren, X., Rehg, J.M.: Learning to recognize objects in egocentric activities. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 3281\u20133288 (2011)","DOI":"10.1109\/CVPR.2011.5995444"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Furnari, A., Farinella, G., Battiano, S.: Recognizing personal contexts from egocentric images. In: ICCV Workshops (2015)","DOI":"10.1109\/ICCVW.2015.59"},{"key":"33_CR10","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition. pp. 580\u2013587 (2014)","DOI":"10.1109\/CVPR.2014.81"},{"key":"33_CR11","unstructured":"Graves, A.: Generating sequences with recurrent neural networks (2013). \n                      arXiv:1308.0850"},{"key":"33_CR12","first-page":"177","volume-title":"Lecture Notes in Computer Science","author":"Steve Hodges","year":"2006","unstructured":"Hodges, S., Williams, L., Berry, E., Izadi, S., Srinivasan, J., Butler, A., Smyth, G., Kapur, N., Wood, K.: Sensecam: a retrospective memory aid. In: ACM Conference on Ubiquitous Computing, pp. 177\u2013193 (2006)"},{"key":"33_CR13","unstructured":"Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: convolutional architecture for fast feature embedding (2014). \n                      arXiv:1408.5093"},{"key":"33_CR14","unstructured":"Karpathy, A., Fei-Fei, L.: Deep visual-semantic alignments for generating image descriptions (2014). \n                      arXiv:1412.2306"},{"key":"33_CR15","unstructured":"Karpathy, A., Johnson, J., Fei-Fei, L.: Visualizing and understanding recurrent networks (2015). \n                      arXiv:1506.02078"},{"key":"33_CR16","unstructured":"Karpathy, A., Joulin, A., Fei-Fei, L.: Deep fragment embeddings for bidirectional image sentence mapping. In: Advances in neural information processing systems, pp. 1889\u20131897 (2014)"},{"key":"33_CR17","volume-title":"Probabilistic Graphical Models Principles and Techniques","author":"D Koller","year":"2009","unstructured":"Koller, D., Friedman, N.: Probabilistic Graphical Models Principles and Techniques. MIT Press, Cambridge (2009)"},{"key":"33_CR18","doi-asserted-by":"crossref","unstructured":"Korayem, M., Templeman, R., Chen, D., Crandall, D., Kapadia, A.: Enhancing lifelogging privacy by detecting screens. In: ACM CHI Conference on Human Factors in Computing Systems (2016)","DOI":"10.1145\/2858036.2858417"},{"key":"33_CR19","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.: Imagenet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems, pp. 1097\u20131105 (2012)"},{"key":"33_CR20","unstructured":"Lin, C.Y.: Rouge: a package for automatic evaluation of summaries. In: Workshop On Text Summarization Branches Out (2004)"},{"key":"33_CR21","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., Zitnick, C.L.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Heidelberg (2014). doi:\n                      10.1007\/978-3-319-10602-1_48"},{"issue":"3","key":"33_CR22","doi-asserted-by":"crossref","first-page":"331","DOI":"10.24908\/ss.v1i3.3344","volume":"1","author":"S Mann","year":"2002","unstructured":"Mann, S., Nolan, J., Wellman, B.: Sousveillance: inventing and using wearable computing devices for data collection in surveillance environments. Surveill. Soc. 1(3), 331\u2013355 (2002)","journal-title":"Surveill. Soc."},{"key":"33_CR23","unstructured":"Mao, J., Xu, W., Yang, Y., Wang, J., Yuille, A.L.: Explain images with multimodal recurrent neural networks (2014). \n                      arXiv:1410.1090"},{"key":"33_CR24","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. In: Annual Meeting of the Association for Computational Linguistics, pp. 311\u2013318 (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"33_CR25","doi-asserted-by":"crossref","unstructured":"Ryoo, M., Matthies, L.: First-person activity recognition: what are they doing to me? In: IEEE Conference on Computer Vision and Pattern Recognition pp. 2730\u20132737 (2013)","DOI":"10.1109\/CVPR.2013.352"},{"key":"33_CR26","doi-asserted-by":"crossref","unstructured":"Ryoo, M., Fuchs, T.J., Xia, L., Aggarwal, J.K., Matthies, L.: Robot-centric activity prediction from first-person videos: what will they do to me. In: ACM\/IEEE International Conference on Human-Robot Interaction, pp. 295\u2013302 (2015)","DOI":"10.1145\/2696454.2696462"},{"key":"33_CR27","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2014). \n                      arXiv:1409.1556"},{"key":"33_CR28","unstructured":"Szegedy, C., Toshev, A., Erhan, D.: Deep neural networks for object detection. In: Advances in Neural Information Processing Systems, pp. 2553\u20132561 (2013)"},{"key":"33_CR29","doi-asserted-by":"crossref","unstructured":"Templeman, R., Korayem, M., Crandall, D.J., Kapadia, A.: Placeavoider: steering first-person cameras away from sensitive spaces. In: Network and Distributed Systems Security Symposium (2014)","DOI":"10.14722\/ndss.2014.23014"},{"key":"33_CR30","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C., Parikh, D.: Cider: Consensus-based image description evaluation. In: IEEE Conference on Computer Vision and Pattern Recognition, pp. 4566\u20134575 (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"33_CR31","unstructured":"Venugopalan, S., Rohrbach, M., Donahue, J., Mooney, R., Darrell, T., Saenko, K.: Sequence to sequence-video to text (2015). \n                      arXiv:1505.00487"},{"key":"33_CR32","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator (2014). \n                      arXiv:1411.4555"},{"key":"33_CR33","unstructured":"Zhu, Y., Kiros, R., Zemel, R., Salakhutdinov, R., Urtasun, R., Torralba, A., Fidler, S.: Aligning books and movies: Towards story-like visual explanations by watching movies and reading book (2015). \n                      arXiv:1506.06724"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2016 Workshops"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-46604-0_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,10,10]],"date-time":"2020-10-10T00:44:55Z","timestamp":1602290695000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-46604-0_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016]]},"ISBN":["9783319466033","9783319466040"],"references-count":33,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-46604-0_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2016]]},"assertion":[{"value":"18 September 2016","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Amsterdam","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"The Netherlands","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2016","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 October 2016","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 October 2016","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2016","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/www.eccv2016.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}