{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T11:56:36Z","timestamp":1775303796791,"version":"3.50.1"},"publisher-location":"Cham","reference-count":26,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030057152","type":"print"},{"value":"9783030057169","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,12,11]],"date-time":"2018-12-11T00:00:00Z","timestamp":1544486400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019]]},"DOI":"10.1007\/978-3-030-05716-9_32","type":"book-chapter","created":{"date-parts":[[2018,12,10]],"date-time":"2018-12-10T14:17:32Z","timestamp":1544451452000},"page":"390-401","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":6,"title":["Spatio-Temporal Attention Model Based on Multi-view for Social Relation Understanding"],"prefix":"10.1007","author":[{"given":"Jinna","family":"Lv","sequence":"first","affiliation":[]},{"given":"Bin","family":"Wu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,12,11]]},"reference":[{"key":"32_CR1","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"515","DOI":"10.1007\/978-3-319-51811-4_42","volume-title":"MultiMedia Modeling","author":"L Xiang","year":"2017","unstructured":"Xiang, L., Sang, J., Xu, C.: Demographic attribute inference from social multimedia behaviors: a cross-OSN approach. In: Amsaleg, L., Gu\u00f0mundsson, G.\u00de., Gurrin, C., J\u00f3nsson, B.\u00de., Satoh, S. (eds.) MMM 2017. LNCS, vol. 10132, pp. 515\u2013526. Springer, Cham (2017). https:\/\/doi.org\/10.1007\/978-3-319-51811-4_42"},{"issue":"12","key":"32_CR2","doi-asserted-by":"publisher","first-page":"4082","DOI":"10.1016\/j.patcog.2015.06.006","volume":"48","author":"S Alletto","year":"2015","unstructured":"Alletto, S., Serra, G., Calderara, S.: Understanding social relationships in egocentric vision. Pattern Recognit. 48(12), 4082\u20134096 (2015)","journal-title":"Pattern Recognit."},{"issue":"6","key":"32_CR3","first-page":"796","volume":"21","author":"QD Tran","year":"2015","unstructured":"Tran, Q.D., Jung, J.E.: Cocharnet: extracting social networks using character co-occurrence in movies. J. Univers. Comput. 21(6), 796\u2013815 (2015)","journal-title":"J. Univers. Comput."},{"issue":"2","key":"32_CR4","doi-asserted-by":"publisher","first-page":"256","DOI":"10.1109\/TMM.2008.2009684","volume":"11","author":"CY Weng","year":"2009","unstructured":"Weng, C.Y., Chu, W.T., Wu, J.L.: RoleNet: movie analysis from the perspective of social networks. IEEE Trans. Multimed. 11(2), 256\u2013271 (2009)","journal-title":"IEEE Trans. Multimed."},{"key":"32_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"806","DOI":"10.1007\/978-3-319-27671-7_67","volume-title":"MultiMedia Modeling","author":"T Hirai","year":"2016","unstructured":"Hirai, T., Morishima, S.: Frame-wise continuity-based video summarization and stretching. In: Tian, Q., Sebe, N., Qi, G.-J., Huet, B., Hong, R., Liu, X. (eds.) MMM 2016. LNCS, vol. 9516, pp. 806\u2013817. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-27671-7_67"},{"key":"32_CR6","doi-asserted-by":"crossref","unstructured":"Mahasseni, B., Lam, M., Todorovic, S.: Unsupervised video summarization with adversarial LSTM networks. In: CVPR, pp. 2982\u20132991 (2017)","DOI":"10.1109\/CVPR.2017.318"},{"key":"32_CR7","doi-asserted-by":"crossref","unstructured":"Sun, Q., Schiele, B., Fritz, M.: A domain based approach to social relation recognition. In: CVPR, pp. 435\u2013444 (2017)","DOI":"10.1109\/CVPR.2017.54"},{"key":"32_CR8","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Luo, P., Loy, C.C., Tang, X.: Learning social relation traits from face images. In: ICCV, pp. 3631\u20133639 (2015)","DOI":"10.1109\/ICCV.2015.414"},{"key":"32_CR9","doi-asserted-by":"crossref","unstructured":"Bojanowski, P., Bach, F., Laptev, I., Ponce, J., Schmid, C., Sivic, J., Finding actors and actions in movies. In: ICCV, pp. 2280\u20132287 (2013)","DOI":"10.1109\/ICCV.2013.283"},{"key":"32_CR10","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"355","DOI":"10.1007\/978-3-319-73603-7_29","volume-title":"MultiMedia Modeling","author":"J Lv","year":"2018","unstructured":"Lv, J., Liu, W., Zhou, L., Wu, B., Ma, H.: Multi-stream fusion model for social relation recognition from videos. In: Schoeffmann, K., et al. (eds.) MMM 2018. LNCS, vol. 10704, pp. 355\u2013368. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-319-73603-7_29"},{"key":"32_CR11","doi-asserted-by":"crossref","unstructured":"Zhu, F., Li, H., Ouyang, W., Yu, N., Wang, X.: Learning spatial regularization with image-level supervisions for multi-label image classification. In: CVPR, pp. 2027\u20132036 (2017)","DOI":"10.1109\/CVPR.2017.219"},{"key":"32_CR12","doi-asserted-by":"crossref","unstructured":"You, Q., Jin, H., Wang, Z., Fang, C., Luo, J.: Image captioning with semantic attention. In: CVPR, pp. 4651\u20134659 (2016)","DOI":"10.1109\/CVPR.2016.503"},{"key":"32_CR13","doi-asserted-by":"crossref","unstructured":"Pan, Y., Yao, T., Li, H., Mei, T.: Video captioning with transferred semantic attributes. In: CVPR, pp. 984\u2013992 (2017)","DOI":"10.1109\/CVPR.2017.111"},{"key":"32_CR14","doi-asserted-by":"crossref","unstructured":"Yu, H., Gui, L., Madaio, M., Ogan, A., Cassell, J., Morency, L.P.: Temporally selective attention model for social and affective state recognition in multimedia content. In: MM, pp. 1743\u20131751 (2017)","DOI":"10.1145\/3123266.3123413"},{"key":"32_CR15","doi-asserted-by":"crossref","unstructured":"Yang, Y., et al.: Mining competitive relationships by learning across heterogeneous networks. In: CIKM, pp. 1432\u20131441 (2012)","DOI":"10.1145\/2396761.2398449"},{"key":"32_CR16","doi-asserted-by":"crossref","unstructured":"Luong, T., Pham, H., Manning, C.D.: Effective approaches to attention-based neural machine translation. In: EMNLP, pp. 1412\u20131421 (2015)","DOI":"10.18653\/v1\/D15-1166"},{"key":"32_CR17","doi-asserted-by":"crossref","unstructured":"Long, X., Gan, C., de Melo, G., Wu, J., Liu, X., Wen, S.: Attention clusters: Purely attention based local feature integration for video classification. CoRR, abs\/1711.09550 (2017)","DOI":"10.1109\/CVPR.2018.00817"},{"key":"32_CR18","doi-asserted-by":"crossref","unstructured":"Zadeh, A., Liang, P.P., Poria, S., Vij, P., Cambria, E., Morency, L.: Multi-attention recurrent network for human communication comprehension. arXiv:1802.00923 (2018)","DOI":"10.1609\/aaai.v32i1.12024"},{"key":"32_CR19","doi-asserted-by":"crossref","unstructured":"Pei, W., Baltrusaitis, T., Tax, D.M.J., Morency, L.: Temporal attention-gated model for robust sequence classification. In: CVPR, pp. 820\u2013829 (2017)","DOI":"10.1109\/CVPR.2017.94"},{"key":"32_CR20","unstructured":"Xu, C., Tao, D., Xu, C.: A survey on multi-view learning. CoRR, abs\/1304.5634 (2013)"},{"key":"32_CR21","doi-asserted-by":"crossref","unstructured":"Poria, S., Chaturvedi, I., Cambria, E., Hussain, A.: Convolutional MKL based multimodal emotion recognition and sentiment analysis. In: ICDM, pp. 439\u2013448 (2016)","DOI":"10.1109\/ICDM.2016.0055"},{"key":"32_CR22","doi-asserted-by":"crossref","unstructured":"Nojavanasghari, B., Gopinath, D., Koushik, J., Baltrusaitis, T., Morency, L.: Deep multimodal fusion for persuasiveness prediction. In: ICMI, pp. 284\u2013288 (2016)","DOI":"10.1145\/2993148.2993176"},{"key":"32_CR23","doi-asserted-by":"crossref","unstructured":"Du, T., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3D convolutional networks. In: CVPR, pp. 4489\u20134497 (2015)","DOI":"10.1109\/ICCV.2015.510"},{"issue":"5","key":"32_CR24","doi-asserted-by":"publisher","first-page":"191","DOI":"10.1016\/0020-0190(72)90037-3","volume":"1","author":"NV Findler","year":"1972","unstructured":"Findler, N.V.: Short note on a heuristic search strategy in long-term memory networks. Inf. Process. Lett. 1(5), 191\u2013196 (1972)","journal-title":"Inf. Process. Lett."},{"key":"32_CR25","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"L Wang","year":"2016","unstructured":"Wang, L., et al.: Temporal segment networks: towards good practices for deep action recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9912, pp. 20\u201336. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46484-8_2"},{"key":"32_CR26","doi-asserted-by":"crossref","unstructured":"Sun, Y., Wang, X., Tang, X.: Deep learning face representation from predicting 10,000 classes. In: CVPR, pp. 1891\u20131898 (2014)","DOI":"10.1109\/CVPR.2014.244"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-05716-9_32","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T11:02:24Z","timestamp":1775300544000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-030-05716-9_32"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,12,11]]},"ISBN":["9783030057152","9783030057169"],"references-count":26,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-05716-9_32","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,12,11]]},"assertion":[{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Thessaloniki","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Greece","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2019","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 January 2019","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 January 2019","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2019","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/mmm2019.iti.gr\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double blind for full papers and workshop papers, single blind for other paper types","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"EasyChair","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"204","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"96","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"47% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"2.67","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"3","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}},{"value":"6 demonstration papers, 5 industry papers, 6 workshop papers, and 6 Video Browser Showdown papers were also accepted.","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information"}}]}}