{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,7]],"date-time":"2025-11-07T09:37:58Z","timestamp":1762508278541,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":25,"publisher":"ACM","license":[{"start":{"date-parts":[[2020,10,15]],"date-time":"2020-10-15T00:00:00Z","timestamp":1602720000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"JST ERATO","award":["JPMJER1401"],"award-info":[{"award-number":["JPMJER1401"]}]},{"name":"Grant-in-Aid for Scientific Research on Innovative Areas","award":["JP20H05576"],"award-info":[{"award-number":["JP20H05576"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2020,10,16]]},"DOI":"10.1145\/3423327.3423669","type":"proceedings-article","created":{"date-parts":[[2020,10,15]],"date-time":"2020-10-15T23:26:39Z","timestamp":1602804399000},"page":"45-51","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":10,"title":["AAEC"],"prefix":"10.1145","author":[{"given":"Changzeng","family":"Fu","sequence":"first","affiliation":[{"name":"Osaka University &amp; Advanced Telecommunications Research Institute International, Osaka, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiaqi","family":"Shi","sequence":"additional","affiliation":[{"name":"Osaka University &amp; Advanced Telecommunications Research Institute International, Osaka, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chaoran","family":"Liu","sequence":"additional","affiliation":[{"name":"Advanced Telecommunications Research Institute International, Kyoto, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Carlos Toshinori","family":"Ishi","sequence":"additional","affiliation":[{"name":"Advanced Telecommunications Research Institute International &amp; RIKEN, Kyoto, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hiroshi","family":"Ishiguro","sequence":"additional","affiliation":[{"name":"Osaka University &amp; Advanced Telecommunications Research Institute International, Osaka, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2020,10,15]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Data augmentation generative adversarial networks. arXiv preprint arXiv:1711.04340","author":"Antoniou Antreas","year":"2017","unstructured":"Antreas Antoniou , Amos Storkey , and Harrison Edwards . 2017. Data augmentation generative adversarial networks. arXiv preprint arXiv:1711.04340 ( 2017 ). Antreas Antoniou, Amos Storkey, and Harrison Edwards. 2017. Data augmentation generative adversarial networks. arXiv preprint arXiv:1711.04340 (2017)."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Aggelina Chatziagapi Georgios Paraskevopoulos Dimitris Sgouropoulos Georgios Pantazopoulos Malvina Nikandrou Theodoros Giannakopoulos Athanasios Katsamanis Alexandros Potamianos and Shrikanth Narayanan. 2019. Data Augmentation Using GANs for Speech Emotion Recognition.. In INTERSPEECH. 171--175.  Aggelina Chatziagapi Georgios Paraskevopoulos Dimitris Sgouropoulos Georgios Pantazopoulos Malvina Nikandrou Theodoros Giannakopoulos Athanasios Katsamanis Alexandros Potamianos and Shrikanth Narayanan. 2019. Data Augmentation Using GANs for Speech Emotion Recognition.. In INTERSPEECH. 171--175.","DOI":"10.21437\/Interspeech.2019-2561"},{"key":"e_1_3_2_1_3_1","volume-title":"Deep neural networks for emotion recognition combining audio and transcripts. arXiv preprint arXiv:1911.00432","author":"Cho Jaejin","year":"2019","unstructured":"Jaejin Cho , Raghavendra Pappagari , Purva Kulkarni , Jes\u00fas Villalba , Yishay Carmiel , and Najim Dehak . 2019. Deep neural networks for emotion recognition combining audio and transcripts. arXiv preprint arXiv:1911.00432 ( 2019 ). Jaejin Cho, Raghavendra Pappagari, Purva Kulkarni, Jes\u00fas Villalba, Yishay Carmiel, and Najim Dehak. 2019. Deep neural networks for emotion recognition combining audio and transcripts. arXiv preprint arXiv:1911.00432 (2019)."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683765"},{"key":"e_1_3_2_1_5_1","volume-title":"Synthesizing audio with generative adversarial networks. arXiv preprint arXiv:1802.04208 1","author":"Donahue Chris","year":"2018","unstructured":"Chris Donahue , Julian McAuley , and Miller Puckette . 2018. Synthesizing audio with generative adversarial networks. arXiv preprint arXiv:1802.04208 1 ( 2018 ). Chris Donahue, Julian McAuley, and Miller Puckette. 2018. Synthesizing audio with generative adversarial networks. arXiv preprint arXiv:1802.04208 1 (2018)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICSC.2020.00076"},{"key":"e_1_3_2_1_7_1","volume-title":"Direct modelling of speech emotion from raw speech. arXiv preprint arXiv:1904.03833","author":"Latif Siddique","year":"2019","unstructured":"Siddique Latif , Rajib Rana , Sara Khalifa , Raja Jurdak , and Julien Epps . 2019. Direct modelling of speech emotion from raw speech. arXiv preprint arXiv:1904.03833 ( 2019 ). Siddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, and Julien Epps. 2019. Direct modelling of speech emotion from raw speech. arXiv preprint arXiv:1904.03833 (2019)."},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682154"},{"key":"e_1_3_2_1_9_1","volume-title":"Data Augmentation Using Generative Adversarial Network for Environmental Sound Classification. In 2019 27th European Signal Processing Conference (EUSIPCO). IEEE, 1--5.","author":"Madhu Aswathy","year":"2019","unstructured":"Aswathy Madhu and Suresh Kumaraswamy . 2019 . Data Augmentation Using Generative Adversarial Network for Environmental Sound Classification. In 2019 27th European Signal Processing Conference (EUSIPCO). IEEE, 1--5. Aswathy Madhu and Suresh Kumaraswamy. 2019. Data Augmentation Using Generative Adversarial Network for Environmental Sound Classification. In 2019 27th European Signal Processing Conference (EUSIPCO). IEEE, 1--5."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33016818"},{"key":"e_1_3_2_1_11_1","volume-title":"Adversarial autoencoders. arXiv preprint arXiv:1511.05644","author":"Makhzani Alireza","year":"2015","unstructured":"Alireza Makhzani , Jonathon Shlens , Navdeep Jaitly , Ian Goodfellow , and Brendan Frey . 2015. Adversarial autoencoders. arXiv preprint arXiv:1511.05644 ( 2015 ). Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, and Brendan Frey. 2015. Adversarial autoencoders. arXiv preprint arXiv:1511.05644 (2015)."},{"key":"e_1_3_2_1_12_1","volume-title":"Bagan: Data augmentation with balancing gan. arXiv preprint arXiv:1803.09655","author":"Mariani Giovanni","year":"2018","unstructured":"Giovanni Mariani , Florian Scheidegger , Roxana Istrate , Costas Bekas , and Cristiano Malossi . 2018 . Bagan: Data augmentation with balancing gan. arXiv preprint arXiv:1803.09655 (2018). Giovanni Mariani, Florian Scheidegger, Roxana Istrate, Costas Bekas, and Cristiano Malossi. 2018. Bagan: Data augmentation with balancing gan. arXiv preprint arXiv:1803.09655 (2018)."},{"key":"e_1_3_2_1_13_1","volume-title":"Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784","author":"Mirza Mehdi","year":"2014","unstructured":"Mehdi Mirza and Simon Osindero . 2014. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784 ( 2014 ). Mehdi Mirza and Simon Osindero. 2014. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784 (2014)."},{"key":"e_1_3_2_1_14_1","volume-title":"International conference on machine learning. 2642--2651","author":"Odena Augustus","year":"2017","unstructured":"Augustus Odena , Christopher Olah , and Jonathon Shlens . 2017 . Conditional image synthesis with auxiliary classifier gans . In International conference on machine learning. 2642--2651 . Augustus Odena, Christopher Olah, and Jonathon Shlens. 2017. Conditional image synthesis with auxiliary classifier gans. In International conference on machine learning. 2642--2651."},{"key":"e_1_3_2_1_15_1","volume-title":"MELD: A multimodal multi-party dataset for emotion recognition in conversations. arXiv preprint arXiv:1810.02508","author":"Poria Soujanya","year":"2018","unstructured":"Soujanya Poria , Devamanyu Hazarika , Navonil Majumder , Gautam Naik , Erik Cambria , and Rada Mihalcea . 2018 . MELD: A multimodal multi-party dataset for emotion recognition in conversations. arXiv preprint arXiv:1810.02508 (2018). Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, and Rada Mihalcea. 2018. MELD: A multimodal multi-party dataset for emotion recognition in conversations. arXiv preprint arXiv:1810.02508 (2018)."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2019.08.006"},{"key":"e_1_3_2_1_17_1","volume-title":"Margaret Li, and Y-Lan Boureau.","author":"Rashkin Hannah","year":"2018","unstructured":"Hannah Rashkin , Eric Michael Smith , Margaret Li, and Y-Lan Boureau. 2018 . I know the feeling: Learning to converse with empathy. (2018). Hannah Rashkin, Eric Michael Smith, Margaret Li, and Y-Lan Boureau. 2018. I know the feeling: Learning to converse with empathy. (2018)."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2017.2657381"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"crossref","unstructured":"Lukas Stappen Alice Baird Georgios Rizos Panagiotis Tzirakis Xinchen Du Felix Hafner Lea Schumann Adria Mallol-Ragolta Bj\u00f6rn W Schuller Iulia Lefter Erik Cambria and Ioannis Kompatsiaris. 2020. MuSe 2020 Challenge and Workshop: Multimodal Sentiment Analysis Emotion-target Engagement and Trustworthiness Detection in Real-life Media. In 1st International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop co-located with the 28th ACM International Conference on Multimedia (ACM MM). ACM.  Lukas Stappen Alice Baird Georgios Rizos Panagiotis Tzirakis Xinchen Du Felix Hafner Lea Schumann Adria Mallol-Ragolta Bj\u00f6rn W Schuller Iulia Lefter Erik Cambria and Ioannis Kompatsiaris. 2020. MuSe 2020 Challenge and Workshop: Multimodal Sentiment Analysis Emotion-target Engagement and Trustworthiness Detection in Real-life Media. In 1st International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop co-located with the 28th ACM International Conference on Multimedia (ACM MM). ACM.","DOI":"10.1145\/3423327.3423673"},{"key":"e_1_3_2_1_20_1","volume-title":"Killian Mc- Cabe, and Naomi Harte","author":"Torre Ilaria","year":"2019","unstructured":"Ilaria Torre , Emma Carrigan , Rachel McDonnell , Katarina Domijan , Killian Mc- Cabe, and Naomi Harte . 2019 . The Effect of Multimodal Emotional Expression and Agent Appearance on Trust in Human-Agent Interaction. In Motion, Interaction and Games . 1--6. Ilaria Torre, Emma Carrigan, Rachel McDonnell, Katarina Domijan, Killian Mc- Cabe, and Naomi Harte. 2019. The Effect of Multimodal Emotional Expression and Agent Appearance on Trust in Human-Agent Interaction. In Motion, Interaction and Games. 1--6."},{"key":"e_1_3_2_1_21_1","volume-title":"Speech Emotion Recognition with Dual-Sequence LSTM Architecture. In ICASSP 2020--2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 6474--6478","author":"Wang Jianyou","year":"2020","unstructured":"Jianyou Wang , Michael Xue , Ryan Culhane , Enmao Diao , Jie Ding , and Vahid Tarokh . 2020 . Speech Emotion Recognition with Dual-Sequence LSTM Architecture. In ICASSP 2020--2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 6474--6478 . Jianyou Wang, Michael Xue, Ryan Culhane, Enmao Diao, Jie Ding, and Vahid Tarokh. 2020. Speech Emotion Recognition with Dual-Sequence LSTM Architecture. In ICASSP 2020--2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 6474--6478."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2019.2925934"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2018.08.035"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2928625"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11325"}],"event":{"name":"MM '20: The 28th ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Seattle WA USA","acronym":"MM '20"},"container-title":["Proceedings of the 1st International on Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3423327.3423669","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3423327.3423669","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T21:24:57Z","timestamp":1750195497000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3423327.3423669"}},"subtitle":["An Adversarial Autoencoder-based Classifier for Audio Emotion Recognition"],"short-title":[],"issued":{"date-parts":[[2020,10,15]]},"references-count":25,"alternative-id":["10.1145\/3423327.3423669","10.1145\/3423327"],"URL":"https:\/\/doi.org\/10.1145\/3423327.3423669","relation":{},"subject":[],"published":{"date-parts":[[2020,10,15]]},"assertion":[{"value":"2020-10-15","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}