{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T18:26:11Z","timestamp":1776191171216,"version":"3.50.1"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"15","license":[{"start":{"date-parts":[[2020,1,7]],"date-time":"2020-01-07T00:00:00Z","timestamp":1578355200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2020,1,7]],"date-time":"2020-01-07T00:00:00Z","timestamp":1578355200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2021,6]]},"DOI":"10.1007\/s11042-019-08312-7","type":"journal-article","created":{"date-parts":[[2020,1,7]],"date-time":"2020-01-07T15:03:33Z","timestamp":1578409413000},"page":"22323-22346","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":25,"title":["Exploiting objective text description of images for visual sentiment analysis"],"prefix":"10.1007","volume":"80","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3461-4679","authenticated-orcid":false,"given":"Alessandro","family":"Ortis","sequence":"first","affiliation":[]},{"given":"Giovanni Maria","family":"Farinella","sequence":"additional","affiliation":[]},{"given":"Giovanni","family":"Torrisi","sequence":"additional","affiliation":[]},{"given":"Sebastiano","family":"Battiato","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2020,1,7]]},"reference":[{"issue":"2","key":"8312_CR1","first-page":"51","volume":"14","author":"K Ahmad","year":"2018","unstructured":"Ahmad K, Mekhalfi ML, Conci N, Melgani F, Natale FD (2018) Ensemble of deep models for event recognition. ACM Transactions on Multimedia Computing Communications, and Applications (TOMM) 14(2):51","journal-title":"ACM Transactions on Multimedia Computing Communications, and Applications (TOMM)"},{"issue":"5","key":"8312_CR2","doi-asserted-by":"publisher","first-page":"2507","DOI":"10.1007\/s11042-015-2646-x","volume":"75","author":"C Baecchi","year":"2016","unstructured":"Baecchi C, Uricchio T, Bertini M, Del Bimbo A (2016) A multimodal feature learning approach for sentiment analysis of social network multimedia. Multimed Tools Appl 75(5):2507\u20132525","journal-title":"Multimed Tools Appl"},{"key":"8312_CR3","doi-asserted-by":"crossref","unstructured":"Battiato S, Farinella GM, Milotta FL, Ortis A, Addesso L, Casella A, D\u2019Amico V, Torrisi G (2016) The social picture. In: Proceedings of the 2016 ACM on international conference on multimedia retrieval, pp 397\u2013400. ACM","DOI":"10.1145\/2911996.2912024"},{"key":"8312_CR4","doi-asserted-by":"crossref","unstructured":"Battiato S, Moltisanti M, Rav\u00ec F, Bruna AR, Naccari F (2013) Aesthetic scoring of digital portraits for consumer applications. In: IS&T\/SPIE electronic imaging, pp 866008\u2013866008. International Society for Optics and Photonics","DOI":"10.1117\/12.2005211"},{"key":"8312_CR5","doi-asserted-by":"crossref","unstructured":"Borth D, Ji R, Chen T, Breuel T, Chang SF (2013) Large-scale visual sentiment ontology and detectors using adjective noun pairs. In: Proceedings of the 21st ACM international conference on multimedia, pp 223\u2013232. ACM","DOI":"10.1145\/2502081.2502282"},{"key":"8312_CR6","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1016\/j.imavis.2017.01.011","volume":"65","author":"V Campos","year":"2017","unstructured":"Campos V, Jou B, i Nieto XG (2017) From pixels to sentiment: Fine-tuning cnns for visual sentiment prediction. Image and Vision Computing 65:15\u201322. https:\/\/doi.org\/10.1016\/j.imavis.2017.01.011. http:\/\/www.sciencedirect.com\/science\/article\/pii\/S0262885617300355. Multimodal Sentiment Analysis and Mining in the Wild Image and Vision Computing","journal-title":"Image and Vision Computing"},{"key":"8312_CR7","doi-asserted-by":"publisher","unstructured":"Campos V, Salvador A, Gir\u00f3-i Nieto X, Jou B (2015) Diving deep into sentiment: Understanding fine-tuned cnns for visual sentiment prediction. In: Proceedings of the 1st international workshop on affect & sentiment in multimedia, ASM \u201915. https:\/\/doi.org\/10.1145\/2813524.2813530. ACM, New York, pp 57\u201362","DOI":"10.1145\/2813524.2813530"},{"key":"8312_CR8","unstructured":"Chen T, Borth D, Darrell T, Chang SF (2014) Deepsentibank:, Visual sentiment concept classification with deep convolutional neural networks. arXiv:1410.8586"},{"key":"8312_CR9","doi-asserted-by":"crossref","unstructured":"Cui P, Liu S, Zhu W (2017) General knowledge embedded image representation learning. IEEE Transactions on Multimedia","DOI":"10.1109\/TMM.2017.2724843"},{"key":"8312_CR10","doi-asserted-by":"crossref","unstructured":"Datta R, Joshi D, Li J, Wang JZ (2006) Studying aesthetics in photographic images using a computational approach. In: European conference on computer vision, pp 288\u2013301. Springer","DOI":"10.1007\/11744078_23"},{"key":"8312_CR11","unstructured":"Esuli A, Sebastiani F (2006) Sentiwordnet: A publicly available lexical resource for opinion mining. In: Proceedings of The European language resources association, vol 6, pp 417\u2013422. Citeseer"},{"key":"8312_CR12","doi-asserted-by":"crossref","unstructured":"Fu Y, Hospedales TM, Xiang T, Fu Z, Gong S (2014) Transductive multi-view embedding for zero-shot recognition and annotation. In: Proceedings of the European conference on computer vision, pp 584\u2013599. Springer","DOI":"10.1007\/978-3-319-10605-2_38"},{"issue":"2","key":"8312_CR13","doi-asserted-by":"publisher","first-page":"210","DOI":"10.1007\/s11263-013-0658-4","volume":"106","author":"Y Gong","year":"2014","unstructured":"Gong Y, Ke Q, Isard M, Lazebnik S (2014) A multi-view embedding space for modeling internet images, tags, and their semantics. Int J Comput Vis 106 (2):210\u2013233","journal-title":"Int J Comput Vis"},{"key":"8312_CR14","doi-asserted-by":"crossref","unstructured":"Gong Y, Wang L, Hodosh M, Hockenmaier J, Lazebnik S (2014) Improving image-sentence embeddings using large weakly annotated photo collections. In: Proceedings of the European conference on computer vision, pp 529\u2013545. Springer","DOI":"10.1007\/978-3-319-10593-2_35"},{"key":"8312_CR15","doi-asserted-by":"crossref","unstructured":"Guillaumin M, Verbeek J, Schmid C (2010) Multimodal semi-supervised learning for image classification. In: IEEE conference on computer vision and pattern recognition (CVPR), pp 902\u2013909. IEEE","DOI":"10.1109\/CVPR.2010.5540120"},{"issue":"12","key":"8312_CR16","doi-asserted-by":"publisher","first-page":"2639","DOI":"10.1162\/0899766042321814","volume":"16","author":"DR Hardoon","year":"2004","unstructured":"Hardoon DR, Szedmak S, Shawe-Taylor J (2004) Canonical correlation analysis: An overview with application to learning methods. Neural Comput 16(12):2639\u20132664","journal-title":"Neural Comput"},{"key":"8312_CR17","doi-asserted-by":"publisher","first-page":"26","DOI":"10.1016\/j.knosys.2019.01.019","volume":"167","author":"F Huang","year":"2019","unstructured":"Huang F, Zhang X, Zhao Z, Xu J, Li Z (2019) Image\u2013text sentiment analysis via deep multimodal attentive fusion. Knowl-Based Syst 167:26\u201337","journal-title":"Knowl-Based Syst"},{"issue":"2","key":"8312_CR18","doi-asserted-by":"publisher","first-page":"47","DOI":"10.1109\/MIS.2013.1","volume":"28","author":"C Hung","year":"2013","unstructured":"Hung C, Lin HK (2013) Using objective words in sentiwordnet to improve sentiment classification for word of mouth. IEEE Intell Syst 28(2):47\u201354","journal-title":"IEEE Intell Syst"},{"key":"8312_CR19","doi-asserted-by":"crossref","unstructured":"Hwang SJ, Grauman K (2010) Accounting for the relative importance of objects in image retrieval. In: Proceedings of British machine vision conference, vol 1, 2","DOI":"10.5244\/C.24.58"},{"issue":"2","key":"8312_CR20","doi-asserted-by":"publisher","first-page":"134","DOI":"10.1007\/s11263-011-0494-3","volume":"100","author":"SJ Hwang","year":"2012","unstructured":"Hwang SJ, Grauman K (2012) Learning the relative importance of objects from tagged images for retrieval and cross-modal search. Int J Comput Vis 100(2):134\u2013153","journal-title":"Int J Comput Vis"},{"key":"8312_CR21","unstructured":"Itten J (1962) The art of color; the subjective experience and objective rationale of colour"},{"key":"8312_CR22","doi-asserted-by":"crossref","unstructured":"Johnson J, Ballan L, Fei-Fei L (2015) Love thy neighbors: Image annotation by exploiting image metadata. In: Proceedings of the IEEE international conference on computer vision, pp 4624\u20134632","DOI":"10.1109\/ICCV.2015.525"},{"key":"8312_CR23","doi-asserted-by":"crossref","unstructured":"Jou B, Chen T, Pappas N, Redi M, Topkara M, Chang SF (2015) Visual affect around the world: A large-scale multilingual visual sentiment ontology. In: Proceedings of the 23rd ACM international conference on multimedia, pp 159\u2013168. ACM","DOI":"10.1145\/2733373.2806246"},{"key":"8312_CR24","doi-asserted-by":"crossref","unstructured":"Karpathy A, Fei-Fei L (2015) Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3128\u20133137","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"8312_CR25","doi-asserted-by":"crossref","unstructured":"Katsurai M, Satoh S (2016) Image sentiment analysis using latent correlations among visual, textual, and sentiment views. In: Inproceedings of the IEEE international conference on acoustics, speech and signal processing, pp 2837\u20132841. IEEE","DOI":"10.1109\/ICASSP.2016.7472195"},{"issue":"9","key":"8312_CR26","doi-asserted-by":"publisher","first-page":"1910","DOI":"10.1109\/TMM.2016.2575738","volume":"18","author":"X Lei","year":"2016","unstructured":"Lei X, Qian X, Zhao G (2016) Rating prediction based on social sentiment from textual reviews. IEEE Trans Multimed 18(9):1910\u20131921","journal-title":"IEEE Trans Multimed"},{"issue":"1","key":"8312_CR27","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1145\/2906152","volume":"49","author":"X Li","year":"2016","unstructured":"Li X, Uricchio T, Ballan L, Bertini M, Snoek CG, Bimbo AD (2016) Socializing the semantic gap: A comparative survey on image tag assignment, refinement, and retrieval. ACM Comput Surveys (CSUR) 49(1):14","journal-title":"ACM Comput Surveys (CSUR)"},{"key":"8312_CR28","doi-asserted-by":"crossref","unstructured":"Machajdik J, Hanbury A (2010) Affective image classification using features inspired by psychology and art theory. In: Proceedings of the 18th ACM international conference on multimedia, pp 83\u201392. ACM","DOI":"10.1145\/1873951.1873965"},{"issue":"12","key":"8312_CR29","first-page":"2544","volume":"61","author":"T Mike","year":"2010","unstructured":"Mike T, Kevan B, Georgios P, Di C, Arvid K (2010) Sentiment in short strength detection informal text. Journal of the Association for Information Science and Technology 61(12):2544\u20132558","journal-title":"Journal of the Association for Information Science and Technology"},{"key":"8312_CR30","doi-asserted-by":"crossref","unstructured":"Miller GA (1995) Wordnet: a lexical database for english. In: Communications of the ACM, vol 38, pp 39\u201341. ACM","DOI":"10.1145\/219717.219748"},{"key":"8312_CR31","doi-asserted-by":"crossref","unstructured":"Ortis A, Farinella GM, Torrisi G, Battiato S (2018) Visual sentiment analysis based on on objective text description of images. In: 2018 International conference on content-based multimedia indexing (CBMI), pp 1\u20136. IEEE","DOI":"10.1109\/CBMI.2018.8516481"},{"issue":"11","key":"8312_CR32","doi-asserted-by":"publisher","first-page":"2008","DOI":"10.1109\/TMM.2015.2482228","volume":"17","author":"L Pang","year":"2015","unstructured":"Pang L, Zhu S, Ngo CW (2015) Deep multimodal learning for affective analysis and retrieval. IEEE Trans Multimed 17(11):2008\u20132020","journal-title":"IEEE Trans Multimed"},{"key":"8312_CR33","doi-asserted-by":"crossref","unstructured":"Perronnin F, S\u00e9nchez J, Xerox YL (2010) Large-scale image categorization with explicit data embedding. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2297\u20132304","DOI":"10.1109\/CVPR.2010.5539914"},{"issue":"2","key":"8312_CR34","doi-asserted-by":"publisher","first-page":"233","DOI":"10.1109\/TMM.2015.2510329","volume":"18","author":"S Qian","year":"2016","unstructured":"Qian S, Zhang T, Xu C, Shao J (2016) Multi-modal event topic model for social event analysis. IEEE Trans Multimed 18(2):233\u2013246","journal-title":"IEEE Trans Multimed"},{"key":"8312_CR35","unstructured":"Rahimi A, Recht B, et al. (2007) Random features for large-scale kernel machines. In: Inproceedings of the neural information processing systems, vol 3, pp 5"},{"key":"8312_CR36","doi-asserted-by":"crossref","unstructured":"Rasiwasia N, Costa Pereira J, Coviello E, Doyle G, Lanckriet GR, Levy R, Vasconcelos N (2010) A new approach to cross-modal multimedia retrieval. In: Proceedings of the 18th ACM international conference on multimedia, pp 251\u2013260. ACM","DOI":"10.1145\/1873951.1873987"},{"issue":"6","key":"8312_CR37","doi-asserted-by":"publisher","first-page":"1231","DOI":"10.1109\/TMM.2013.2261481","volume":"15","author":"S Rudinac","year":"2013","unstructured":"Rudinac S, Larson M, Hanjalic A (2013) Learning crowdsourced user preferences for visual summarization of image collections. IEEE Trans Multimed 15(6):1231\u20131243","journal-title":"IEEE Trans Multimed"},{"key":"8312_CR38","doi-asserted-by":"crossref","unstructured":"Siersdorfer S, Minack E, Deng F, Hare J (2010) Analyzing and predicting sentiment of images on the social web. In: Proceedings of the 18th ACM international conference on multimedia, pp 715\u2013718. ACM","DOI":"10.1145\/1873951.1874060"},{"key":"8312_CR39","doi-asserted-by":"crossref","unstructured":"Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A (2015) Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"8312_CR40","doi-asserted-by":"crossref","unstructured":"Valdez P, Mehrabian A (1994) Effects of color on emotions. In: Journal of experimental psychology: General, vol. 123, p. 394. American Psychological Association","DOI":"10.1037\/0096-3445.123.4.394"},{"key":"8312_CR41","doi-asserted-by":"crossref","unstructured":"Wang G, Hoiem D, Forsyth D (2009) Building text features for object image classification. In: Inproceedings of the IEEE conference on computer vision and pattern recognition, pp 1367\u20131374","DOI":"10.1109\/CVPR.2009.5206816"},{"key":"8312_CR42","doi-asserted-by":"crossref","unstructured":"Wang Y, Wang S, Tang J, Liu H, Li B (2015) Unsupervised sentiment analysis for social media images. In: Proceedings of the 24th international joint conference on artificial intelligence, Buenos Aires, Argentina, pp 2378\u20132379","DOI":"10.1109\/ICDMW.2015.142"},{"key":"8312_CR43","unstructured":"Xu C, Cetintas S, Lee K, Li L (2014) Visual sentiment prediction with deep convolutional neural networks. arXiv:1411.5731"},{"issue":"1","key":"8312_CR44","doi-asserted-by":"publisher","first-page":"64","DOI":"10.1109\/TMM.2014.2375793","volume":"17","author":"X Yang","year":"2015","unstructured":"Yang X, Zhang T, Xu C (2015) Cross-domain feature learning in multimedia. IEEE Trans Multimed 17(1):64\u201378","journal-title":"IEEE Trans Multimed"},{"issue":"12","key":"8312_CR45","doi-asserted-by":"publisher","first-page":"2271","DOI":"10.1109\/TMM.2015.2487863","volume":"17","author":"Q You","year":"2015","unstructured":"You Q, Cao L, Cong Y, Zhang X, Luo J (2015) A multifaceted approach to social multimedia-based prediction of elections. IEEE Trans Multimed 17 (12):2271\u20132280","journal-title":"IEEE Trans Multimed"},{"key":"8312_CR46","doi-asserted-by":"crossref","unstructured":"You Q, Luo J, Jin H, Yang J (2015) Robust image sentiment analysis using progressively trained and domain transferred deep networks. In: 29th AAAI conference on artificial intelligence","DOI":"10.1609\/aaai.v29i1.9179"},{"key":"8312_CR47","doi-asserted-by":"crossref","unstructured":"Yu FX, Cao L, Feris RS, Smith JR, Chang SF (2013) Designing category-level attributes for discriminative visual recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 771\u2013778","DOI":"10.1109\/CVPR.2013.105"},{"key":"8312_CR48","doi-asserted-by":"crossref","unstructured":"Yuan J, Mcdonough S, You Q, Luo J (2013) Sentribute: image sentiment analysis from a mid-level perspective. In: Proceedings of the 2nd international workshop on issues of sentiment discovery and opinion mining. ACM","DOI":"10.1145\/2502069.2502079"},{"key":"8312_CR49","unstructured":"Yuan Z, Sang J, Xu C (2013) Tag-aware image classification via nested deep belief nets. In: 2013 IEEE international conference on multimedia and expo (ICME), pp 1\u20136. IEEE"},{"issue":"6","key":"8312_CR50","doi-asserted-by":"publisher","first-page":"1624","DOI":"10.1109\/TMM.2014.2322338","volume":"16","author":"Z Yuan","year":"2014","unstructured":"Yuan Z, Sang J, Xu C, Liu Y (2014) A unified framework of latent feature learning in social media. IEEE Trans Multimed 16(6):1624\u20131635","journal-title":"IEEE Trans Multimed"},{"key":"8312_CR51","unstructured":"Zhou B, Lapedriza A, Xiao J, Torralba A, Oliva A (2014) Learning deep features for scene recognition using places database. In: Advances in neural information processing systems, pp 487\u2013495"},{"key":"8312_CR52","doi-asserted-by":"crossref","unstructured":"Zhu X, Cao B, Xu S, Liu B, Cao J (2019) Joint visual-textual sentiment analysis based on cross-modality attention mechanism. In: International conference on multimedia modeling, pp 264\u2013276. Springer","DOI":"10.1007\/978-3-030-05710-7_22"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08312-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-019-08312-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08312-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T05:47:30Z","timestamp":1665380850000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-019-08312-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,1,7]]},"references-count":52,"journal-issue":{"issue":"15","published-print":{"date-parts":[[2021,6]]}},"alternative-id":["8312"],"URL":"https:\/\/doi.org\/10.1007\/s11042-019-08312-7","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,1,7]]},"assertion":[{"value":"23 July 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 July 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 October 2019","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 January 2020","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}