{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T22:14:48Z","timestamp":1780438488546,"version":"3.54.1"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2015,8,21]],"date-time":"2015-08-21T00:00:00Z","timestamp":1440115200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Multimodal User Interfaces"],"published-print":{"date-parts":[[2016,6]]},"DOI":"10.1007\/s12193-015-0195-2","type":"journal-article","created":{"date-parts":[[2015,8,20]],"date-time":"2015-08-20T06:53:07Z","timestamp":1440053587000},"page":"99-111","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":285,"title":["EmoNets: Multimodal deep learning approaches for emotion recognition in video"],"prefix":"10.1007","volume":"10","author":[{"given":"Samira Ebrahimi","family":"Kahou","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xavier","family":"Bouthillier","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Pascal","family":"Lamblin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Caglar","family":"Gulcehre","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Vincent","family":"Michalski","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kishore","family":"Konda","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"S\u00e9bastien","family":"Jean","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Pierre","family":"Froumenty","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yann","family":"Dauphin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nicolas","family":"Boulanger-Lewandowski","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Raul","family":"Chandias Ferrari","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mehdi","family":"Mirza","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"David","family":"Warde-Farley","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Aaron","family":"Courville","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Pascal","family":"Vincent","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Roland","family":"Memisevic","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Christopher","family":"Pal","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yoshua","family":"Bengio","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2015,8,21]]},"reference":[{"issue":"2","key":"195_CR1","doi-asserted-by":"crossref","first-page":"284","DOI":"10.1364\/JOSAA.2.000284","volume":"2","author":"EH Adelson","year":"1985","unstructured":"Adelson EH, Bergen JR (1985) Spatiotemporal energy models for the perception of motion. JOSA A 2(2):284\u2013299","journal-title":"JOSA A"},{"key":"195_CR2","unstructured":"Bastien F, Lamblin P, Pascanu R, Bergstra J, Goodfellow I, Bergeron A, Bouchard N, Warde-Farley D, Bengio Y (2012) Theano: new features and speed improvements. arXiv:1211.5590"},{"key":"195_CR3","doi-asserted-by":"crossref","unstructured":"Bergstra J, Breuleux O, Bastien F, Lamblin P, Pascanu R, Desjardins G, Turian J, Warde-Farley D, Bengio Y (2010) Theano: a CPU and GPU math Expression compiler. In: Proceedings of the Python for scientific Computing conference (SciPy), vol 4. Austin","DOI":"10.25080\/Majora-92bf1922-003"},{"key":"195_CR4","first-page":"281","volume":"13","author":"J Bergstra","year":"2012","unstructured":"Bergstra J, Bengio Y (2012) Random search for hyper-parameter optimization. JMLR 13:281\u2013305","journal-title":"JMLR"},{"key":"195_CR5","unstructured":"Carrier PL, Courville A, Goodfellow IJ, Mirza M, Bengio Y (2013) FER-2013 face database. Tech rep, 1365 (Universit\u00e9 de Montr\u00e9al)"},{"key":"195_CR6","doi-asserted-by":"crossref","first-page":"27:1","DOI":"10.1145\/1961189.1961199","volume":"2","author":"CC Chang","year":"2011","unstructured":"Chang CC, Lin CJ (2011) LIBSVM: a library for support vector machines. ACM Trans Intel Syst Technol 2:27:1\u201327:27","journal-title":"ACM Trans Intel Syst Technol"},{"key":"195_CR7","doi-asserted-by":"crossref","unstructured":"Chen J, Chen Z, Chi Z, Fu H (2014) Emotion recognition in the wild with feature fusion and multiple kernel learning. In: Proceedings of the 16th International Conference on Multimodal Interaction, pp. 508\u2013513. ACM","DOI":"10.1145\/2663204.2666277"},{"key":"195_CR8","unstructured":"Coates A, Lee H, Ng AY (2011) An analysis of single-layer networks in unsupervised feature learning. In: AISTATS"},{"key":"195_CR9","doi-asserted-by":"crossref","unstructured":"Dahl GE, Sainath TN, Hinton GE (2013) Improving deep neural networks for lvcsr using rectified linear units and dropout. In: Proc. ICASSP","DOI":"10.1109\/ICASSP.2013.6639346"},{"key":"195_CR10","doi-asserted-by":"crossref","unstructured":"Dhall A, Goecke R, Joshi J, Sikka K, Gedeon T (2014) Emotion recognition in the wild challenge 2014: Baseline, data and protocol. In: Proceedings of the 16th International Conference on Multimodal Interaction, pp. 461\u2013466. ACM","DOI":"10.1145\/2663204.2666275"},{"key":"195_CR11","doi-asserted-by":"crossref","unstructured":"Dhall A, Goecke R, Joshi J, Wagner M, Gedeon T (2013) Emotion recognition in the wild challenge 2013. In: ACM ICMI","DOI":"10.1145\/2522848.2531739"},{"key":"195_CR12","doi-asserted-by":"crossref","first-page":"34","DOI":"10.1109\/MMUL.2012.26","volume":"3","author":"A Dhall","year":"2012","unstructured":"Dhall A, Goecke R, Lucey S, Gedeon T (2012) Collecting large, richly annotated facial-expression databases from movies. IEEE Multi Media 3:34\u201341","journal-title":"IEEE Multi Media"},{"key":"195_CR13","doi-asserted-by":"crossref","unstructured":"Gehrig T, Ekenel HK (2013) Why is facial expression analysis in the wild challenging? In: Proceedings of the 2013 on Emotion recognition in the wild challenge and workshop, pp. 9\u201316. ACM","DOI":"10.1145\/2531923.2531924"},{"key":"195_CR14","unstructured":"Google: The Google picasa face detector (2013). http:\/\/picasa.google.com . Accessed 1-Aug-2013"},{"key":"195_CR15","doi-asserted-by":"crossref","unstructured":"Graves A, Mohamed AR, Hinton G (2013) Speech recognition with deep recurrent neural networks. In: Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp. 6645\u20136649. IEEE","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"195_CR16","unstructured":"Hamel P, Lemieux S, Bengio Y, Eck D (2011) Temporal pooling and multiscale learning for automatic annotation and ranking of music audio. In: ISMIR, pp. 729\u2013734"},{"key":"195_CR17","unstructured":"Heusch G, Cardinaux F, Marcel S (2005) Lighting normalization algorithms for face verification. IDIAP Communication Com05-03"},{"issue":"6","key":"195_CR18","doi-asserted-by":"crossref","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"Hinton G, Deng L, Yu D, Dahl GE, Mohamed AR, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath TN et al (2012) Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Sig Proc Magazine 29(6):82\u201397","journal-title":"IEEE Sig Proc Magazine"},{"issue":"7","key":"195_CR19","doi-asserted-by":"crossref","first-page":"1527","DOI":"10.1162\/neco.2006.18.7.1527","volume":"18","author":"G Hinton","year":"2006","unstructured":"Hinton G, Osindero S, Teh YW (2006) A fast learning algorithm for deep belief nets. Neural Comp 18(7):1527\u20131554","journal-title":"Neural Comp"},{"key":"195_CR20","unstructured":"Hinton GE, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R (2012) Improving neural networks by preventing co-adaptation of feature detectors. arXiv:1207.0580"},{"key":"195_CR21","doi-asserted-by":"crossref","unstructured":"Kahou SE, Froumenty P, Pal C (2015) Facial expression analysis based on high dimensional binary features. In: L Agapito, MM Bronstein, C Rother (eds) Computer vision - ECCV 2014 Workshops, Lecture Notes in Computer Science, vol. 8926","DOI":"10.1007\/978-3-319-16181-5_10"},{"key":"195_CR22","doi-asserted-by":"crossref","unstructured":"Kahou SE, Pal C, Bouthillier X, Froumenty P, Gulcehre C, Memisevic R, Vincent P, Courville A, Bengio Y, Ferrari RC, Mirza M, Jean S, Carrier PL, Dauphin Y, Boulanger-Lewandowski N, Aggarwal A, Zumer J, Lamblin P, Raymond JP, Desjardins G, Pascanu R, Warde-Farley D, Torabi A, Sharma A, Bengio E, C\u00f4t\u00e9 M, Konda KR, Wu Z (2013) Combining modality specific deep neural networks for emotion recognition in video. In: Proceedings of the 15th ACM on International Conference on Multimodal Interaction, ICMI \u201913","DOI":"10.1145\/2522848.2531745"},{"key":"195_CR23","doi-asserted-by":"crossref","unstructured":"Kalchbrenner N, Grefenstette E, Blunsom P (2014) A convolutional neural network for modelling sentences. arXiv:1404.2188","DOI":"10.3115\/v1\/P14-1062"},{"key":"195_CR24","unstructured":"Konda KR, Memisevic R, Michalski V (2014) The role of spatio-temporal synchrony in the encoding of motion. In: ICLR"},{"key":"195_CR25","unstructured":"Krizhevsky A (2009) Learning multiple layers of features from tiny images. Tech rep"},{"key":"195_CR26","unstructured":"Krizhevsky A (2012) Cuda-convnet Google code home page. https:\/\/code.google.com\/p\/cuda-convnet\/"},{"key":"195_CR27","unstructured":"Krizhevsky A, Sutskever I, Hinton G (2012) Imagenet classification with deep convolutional neural networks. In: NIPS, pp. 1106\u20131114"},{"key":"195_CR28","doi-asserted-by":"crossref","unstructured":"Le Q, Zou W, Yeung S, Ng A (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: CVPR","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"195_CR29","doi-asserted-by":"crossref","unstructured":"Liu M, Wang R, Huang Z, Shan S, Chen X (2013) Partial least squares regression on grassmannian manifold for emotion recognition. In: Proceedings of the 15th ACM on International conference on multimodal interaction, pp. 525\u2013530. ACM","DOI":"10.1145\/2522848.2531738"},{"key":"195_CR30","doi-asserted-by":"crossref","unstructured":"Liu M, Wang R, Li S, Shan S, Huang Z, Chen X (2014) Combining multiple kernel methods on riemannian manifold for emotion recognition in the wild. In: Proceedings of the 16th International Conference on Multimodal Interaction, pp. 494\u2013501. ACM","DOI":"10.1145\/2663204.2666274"},{"key":"195_CR31","unstructured":"Neverova N, Wolf C, Taylor GW, Nebout F (2014) Moddrop: adaptive multi-modal gesture recognition. arXiv:1501.00102"},{"key":"195_CR32","doi-asserted-by":"crossref","unstructured":"Sikka K, Dykstra K, Sathyanarayana S, Littlewort G, Bartlett M (2013) Multiple kernel learning for emotion recognition in the wild. In: Proceedings of the 15th ACM on International conference on multimodal interaction, pp. 517\u2013524. ACM","DOI":"10.1145\/2522848.2531741"},{"issue":"1","key":"195_CR33","doi-asserted-by":"crossref","first-page":"115","DOI":"10.15388\/Informatica.2009.240","volume":"20","author":"V \u0160truc","year":"2009","unstructured":"\u0160truc V, Pave\u0161i\u0107 N (2009) Gabor-based kernel partial-least-squares discrimination features for face recognition. Informatica 20(1):115\u2013138","journal-title":"Informatica"},{"key":"195_CR34","doi-asserted-by":"crossref","unstructured":"Sun B, Li L, Zuo T, Chen Y, Zhou G, Wu X (2014) Combining multimodal features with hierarchical classifier fusion for emotion recognition in the wild. In: Proceedings of the 16th International Conference on Multimodal Interaction, pp. 481\u2013486. ACM","DOI":"10.1145\/2663204.2666272"},{"key":"195_CR35","unstructured":"Susskind J, Anderson A, Hinton G (2010) The toronto face database. Tech Rep, UTML TR 2010-001, University of Toronto"},{"key":"195_CR36","unstructured":"Sutskever I, Martens J, Dahl G, Hinton G (2013) On the importance of initialization and momentum in deep learning. In: ICML 2013"},{"key":"195_CR37","doi-asserted-by":"crossref","unstructured":"Taylor GW, Fergus R, LeCun Y, Bregler C (2010) Convolutional learning of spatio-temporal features. In: Proceedings of the 11th European conference on Computer vision: Part VI, ECCV\u201910","DOI":"10.1007\/978-3-642-15567-3_11"},{"key":"195_CR38","doi-asserted-by":"crossref","unstructured":"Viola P, Jones M (2001) Rapid object detection using a boosted cascade of simple features. In: CVPR","DOI":"10.1109\/CVPR.2001.990517"},{"key":"195_CR39","doi-asserted-by":"crossref","unstructured":"\u0160truc V, Pave\u0161i\u0107 N (2011) Photometric normalization techniques for illumination invariance, pp. 279\u2013300. IGI-Global","DOI":"10.4018\/978-1-61520-991-0.ch015"},{"key":"195_CR40","doi-asserted-by":"crossref","unstructured":"Wang H, Ullah MM, Kl\u00e4ser A, Laptev I, Schmid C (2009) Evaluation of local spatio-temporal features for action recognition. In: BMVC","DOI":"10.5244\/C.23.124"},{"key":"195_CR41","unstructured":"Zhu X, Ramanan D (2012) Face Detection, Pose Estimation, and Landmark Localization in the Wild. In: CVPR"}],"container-title":["Journal on Multimodal User Interfaces"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s12193-015-0195-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s12193-015-0195-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s12193-015-0195-2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,13]],"date-time":"2023-08-13T08:26:53Z","timestamp":1691915213000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s12193-015-0195-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,8,21]]},"references-count":41,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2016,6]]}},"alternative-id":["195"],"URL":"https:\/\/doi.org\/10.1007\/s12193-015-0195-2","relation":{},"ISSN":["1783-7677","1783-8738"],"issn-type":[{"value":"1783-7677","type":"print"},{"value":"1783-8738","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,8,21]]}}}