{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,4]],"date-time":"2025-09-04T13:51:36Z","timestamp":1756993896913,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":39,"publisher":"ACM","license":[{"start":{"date-parts":[[2020,6,2]],"date-time":"2020-06-02T00:00:00Z","timestamp":1591056000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2020,6,2]]},"DOI":"10.1145\/3379156.3391337","type":"proceedings-article","created":{"date-parts":[[2020,6,4]],"date-time":"2020-06-04T06:33:57Z","timestamp":1591252437000},"page":"1-5","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":11,"title":["Deep Audio-Visual Saliency: Baseline Model and Data"],"prefix":"10.1145","author":[{"given":"Hamed Rezazadegan","family":"Tavakoli","sequence":"first","affiliation":[{"name":"Nokia Technologies, Finland"}]},{"given":"Ali","family":"Borji","sequence":"additional","affiliation":[{"name":"Individual Researcher"}]},{"given":"Juho","family":"Kannala","sequence":"additional","affiliation":[{"name":"Aalto University"}]},{"given":"Esa","family":"Rahtu","sequence":"additional","affiliation":[{"name":"Tampere University"}]}],"member":"320","published-online":{"date-parts":[[2020,6,2]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1080\/00221300309601162"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CBMI.2012.6269804"},{"key":"e_1_3_2_1_3_1","volume-title":"European Conference on Computer Vision Workshops.","author":"Boccignone Giuseppe","year":"2018","unstructured":"Giuseppe Boccignone , Vittorio Cuculo , Alessandro D\u2019Amelio , Giuliano Grossi , and Raffaella Lanzarotti . 2018 . Give Ear to My Face: Modelling Multimodal Attention to Social Interactions . In European Conference on Computer Vision Workshops. Giuseppe Boccignone, Vittorio Cuculo, Alessandro D\u2019Amelio, Giuliano Grossi, and Raffaella Lanzarotti. 2018. Give Ear to My Face: Modelling Multimodal Attention to Social Interactions. In European Conference on Computer Vision Workshops."},{"key":"e_1_3_2_1_4_1","unstructured":"Ali Borji. 2018. Saliency Prediction in the Deep Learning Era: An Empirical Investigation. CoRR abs\/1810.03716(2018).  Ali Borji. 2018. Saliency Prediction in the Deep Learning Era: An Empirical Investigation. CoRR abs\/1810.03716(2018)."},{"key":"e_1_3_2_1_5_1","unstructured":"Zoya Bylinskii Tilke Judd Aude Oliva Antonio Torralba and Fr\u00e9do Durand. 2016. What do different evaluation metrics tell us about saliency models?arXiv preprint arXiv:1604.03605(2016).  Zoya Bylinskii Tilke Judd Aude Oliva Antonio Torralba and Fr\u00e9do Durand. 2016. What do different evaluation metrics tell us about saliency models?arXiv preprint arXiv:1604.03605(2016)."},{"key":"e_1_3_2_1_6_1","volume-title":"Visual attention: the past 25 years. Vision research 41, 13","author":"Carrasco Marisa","year":"2011","unstructured":"Marisa Carrasco . 2011. Visual attention: the past 25 years. Vision research 41, 13 ( 2011 ), 1484\u20131525. Marisa Carrasco. 2011. Visual attention: the past 25 years. Vision research 41, 13 (2011), 1484\u20131525."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1121\/1.1907229"},{"volume-title":"Workshop on Multi-view Lip-reading, ACCV.","author":"Chung S.","key":"e_1_3_2_1_8_1","unstructured":"J.\u00a0 S. Chung and A. Zisserman . 2016. Out of time: automated lip sync in the wild . In Workshop on Multi-view Lip-reading, ACCV. J.\u00a0S. Chung and A. Zisserman. 2016. Out of time: automated lip sync in the wild. In Workshop on Multi-view Lip-reading, ACCV."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2016.7900174"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2851672"},{"volume-title":"IEEE International Conference on Image Processing (ICIP).","author":"Coutrot A.","key":"e_1_3_2_1_11_1","unstructured":"A. Coutrot and N. Guyader . 2014a. An audiovisual attention model for natural conversation scenes . In IEEE International Conference on Image Processing (ICIP). A. Coutrot and N. Guyader. 2014a. An audiovisual attention model for natural conversation scenes. In IEEE International Conference on Image Processing (ICIP)."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1167\/14.8.5"},{"key":"e_1_3_2_1_13_1","volume-title":"European Signal Processing Conference (EUSIPCO). https:\/\/doi.org\/10","author":"Coutrot A.","year":"2015","unstructured":"A. Coutrot and N. Guyader . 2015. An efficient audiovisual saliency model to predict eye positions when looking at conversations . In European Signal Processing Conference (EUSIPCO). https:\/\/doi.org\/10 .1109\/EUSIPCO. 2015 .7362640 10.1109\/EUSIPCO.2015.7362640 A. Coutrot and N. Guyader. 2015. An efficient audiovisual saliency model to predict eye positions when looking at conversations. In European Signal Processing Conference (EUSIPCO). https:\/\/doi.org\/10.1109\/EUSIPCO.2015.7362640"},{"volume-title":"From Human Attention to Computational Attention: A Multidisciplinary Approach","author":"Coutrot Antoine","key":"e_1_3_2_1_14_1","unstructured":"Antoine Coutrot and Nathalie Guyader . 2016. Multimodal Saliency Models for Videos . In From Human Attention to Computational Attention: A Multidisciplinary Approach . Springer New York , New York, NY , 291\u2013304. https:\/\/doi.org\/10.1007\/978-1-4939-3435-5_16 10.1007\/978-1-4939-3435-5_16 Antoine Coutrot and Nathalie Guyader. 2016. Multimodal Saliency Models for Videos. In From Human Attention to Computational Attention: A Multidisciplinary Approach. Springer New York, New York, NY, 291\u2013304. https:\/\/doi.org\/10.1007\/978-1-4939-3435-5_16"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2013.2282897"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00685"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.38"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1016\/S0042-6989(99)00163-7"},{"key":"e_1_3_2_1_19_1","unstructured":"Sen Jia. 2018. EML-NET: An Expandable Multi-Layer NETwork for Saliency Prediction. CoRR abs\/1805.01047(2018).  Sen Jia. 2018. EML-NET: An Expandable Multi-Layer NETwork for Saliency Prediction. CoRR abs\/1805.01047(2018)."},{"key":"e_1_3_2_1_20_1","volume-title":"DeepVS: A Deep Learning Based Video Saliency Prediction Approach. In European Conference on Computer Vision (ECCV).","author":"Jiang Lai","year":"2018","unstructured":"Lai Jiang , Mai Xu , Tie Liu , Minglang Qiao , and Zulin Wang . 2018 . DeepVS: A Deep Learning Based Video Saliency Prediction Approach. In European Conference on Computer Vision (ECCV). Lai Jiang, Mai Xu, Tie Liu, Minglang Qiao, and Zulin Wang. 2018. DeepVS: A Deep Learning Based Video Saliency Prediction Approach. In European Conference on Computer Vision (ECCV)."},{"volume-title":"Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop.","author":"Kummerer M.","key":"e_1_3_2_1_22_1","unstructured":"M. Kummerer , L. Theis , and M. Bethge . 2015 . Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop. M. Kummerer, L. Theis, and M. Bethge. 2015. Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2567391"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1037\/0012-1649.24.2.172"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1016\/0022-0965(66)90086-5"},{"volume-title":"European Signal Processing Conference.","author":"Marat S.","key":"e_1_3_2_1_26_1","unstructured":"S. Marat , M. Guironnet , and D. Pellerin . 2007. Video summarization using a visual attention model . In European Signal Processing Conference. S. Marat, M. Guironnet, and D. Pellerin. 2007. Video summarization using a visual attention model. In European Signal Processing Conference."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"crossref","unstructured":"N. Mesgarani and EF. Chang. 2012. Selective cortical representation of attended speaker in multi-talker speech perception. Nature 485 7397 (2012) 233\u2013242.  N. Mesgarani and EF. Chang. 2012. Selective cortical representation of attended speaker in multi-talker speech perception. Nature 485 7397 (2012) 233\u2013242.","DOI":"10.1038\/nature11020"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1007\/s12559-010-9074-z"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Hamed Rezazadegan\u00a0Tavakoli Esa Rahtu and Janne Heikkil\u00e4. 2013. Spherical Center-Surround for Video Saliency Detection Using Sparse Sampling. In Advanced Concepts for Intelligent Vision Systems.  Hamed Rezazadegan\u00a0Tavakoli Esa Rahtu and Janne Heikkil\u00e4. 2013. Spherical Center-Surround for Video Saliency Detection Using Sparse Sampling. In Advanced Concepts for Intelligent Vision Systems.","DOI":"10.1007\/978-3-319-02895-8_62"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1111\/1469-8986.3710065"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISMAR.2010.5643547"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1167\/9.12.15"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1016\/0010-0285(80)90005-5"},{"volume-title":"A Computational Perspective on Visual Attention","author":"Tsotsos K.","key":"e_1_3_2_1_35_1","unstructured":"John\u00a0 K. Tsotsos . 2011. A Computational Perspective on Visual Attention . The MIT Press . John\u00a0K. Tsotsos. 2011. A Computational Perspective on Visual Attention. The MIT Press."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1167\/8.5.2"},{"key":"e_1_3_2_1_37_1","volume-title":"Fixation Prediction in Videos Using Unsupervised Hierarchical Features. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops.","author":"Wang Julius","year":"2017","unstructured":"Julius Wang , Hamed\u00a0 R. Tavakoli , and Jorma Laaksonen . 2017 . Fixation Prediction in Videos Using Unsupervised Hierarchical Features. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. Julius Wang, Hamed\u00a0R. Tavakoli, and Jorma Laaksonen. 2017. Fixation Prediction in Videos Using Unsupervised Hierarchical Features. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00514"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1167\/8.7.32"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01234-2_30"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1167\/11.3.9"}],"event":{"name":"ETRA '20: 2020 Symposium on Eye Tracking Research and Applications","sponsor":["SIGGRAPH ACM Special Interest Group on Computer Graphics and Interactive Techniques","SIGCHI ACM Special Interest Group on Computer-Human Interaction"],"location":"Stuttgart Germany","acronym":"ETRA '20"},"container-title":["ACM Symposium on Eye Tracking Research and Applications"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3379156.3391337","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3379156.3391337","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T23:44:48Z","timestamp":1750203888000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3379156.3391337"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,6,2]]},"references-count":39,"alternative-id":["10.1145\/3379156.3391337","10.1145\/3379156"],"URL":"https:\/\/doi.org\/10.1145\/3379156.3391337","relation":{},"subject":[],"published":{"date-parts":[[2020,6,2]]},"assertion":[{"value":"2020-06-02","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}