{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T14:03:30Z","timestamp":1730297010974,"version":"3.28.0"},"reference-count":45,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016,12]]},"DOI":"10.1109\/slt.2016.7846321","type":"proceedings-article","created":{"date-parts":[[2017,2,10]],"date-time":"2017-02-10T15:58:30Z","timestamp":1486742310000},"page":"579-584","source":"Crossref","is-referenced-by-count":8,"title":["Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal view"],"prefix":"10.1109","author":[{"given":"Spyridon","family":"Thermos","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gerasimos","family":"Potamianos","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Audio-visual speech recognition incorporating facial depth information captured by the Kinect","author":"galatas","year":"2012","journal-title":"Proc EUSIPCO"},{"key":"ref38","article-title":"Robust multimodal human machine interaction using the Kinect sensor","author":"zeiler","year":"2014","journal-title":"Proc ITG Symposium Speech Communication"},{"journal-title":"Nimble UX - A powerful gesture middleware solution","year":"0","key":"ref33"},{"journal-title":"Intel Intel RealSense SDK","year":"0","key":"ref32"},{"journal-title":"Microsoft Meet Kinect for Windows","year":"0","key":"ref31"},{"journal-title":"Microsoft Kinect for XBOX 360","year":"0","key":"ref30"},{"key":"ref37","article-title":"Real-time semi-blind speech extraction with speaker direction tracking on Kinect","author":"onuma","year":"2012","journal-title":"Proc ASPIPA-ASC"},{"key":"ref36","article-title":"Real-time RGB-D based people detection and tracking for mobile robots and head-worn cameras","author":"hosseini","year":"2014","journal-title":"Proc ICRA"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/2522848.2532597"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2013.2266959"},{"key":"ref10","article-title":"Audio-visual speaker diarization for unsupervised speaker and face model creation","volume":"lncs 8655","author":"campr","year":"2014","journal-title":"Proc TSD"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1155\/2015\/489089"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-014-2274-x"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2007.906583"},{"key":"ref13","first-page":"1189","article-title":"Moving-talker speaker-independent feature study and baseline results using the CUAVE multimodal speech corpus","volume":"2002","author":"patterson","year":"2002","journal-title":"EURASIP J Appl Signal Process"},{"key":"ref14","article-title":"The AMI meeting corpus: a pre-announcement","volume":"lncs 3869","author":"carletta","year":"2006","journal-title":"Proc MLMI"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2014.2305632"},{"key":"ref16","article-title":"Audiovisual speaker di-arization of TV series","author":"bost","year":"2015","journal-title":"Proc ICASSP"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.679695"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206150"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2409785"},{"key":"ref28","article-title":"WAPUSK20 - a database for robust audiovisual speech recognition","author":"vorwerk","year":"2010","journal-title":"Proc LREC"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2125954"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1049\/iet-spr.2011.0124"},{"key":"ref3","article-title":"RT-09 speaker diarization results","author":"ajot","year":"2009","journal-title":"Proc Rich Transcr Meeting Recogn Eval Works"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2011.07.011"},{"key":"ref29","article-title":"A 3D audio-visual corpus for speech recognition","author":"sui","year":"2012","journal-title":"Proc SSST"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511843891.011"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s12193-015-0187-2"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2405481"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1186\/s13634-015-0277-z"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-012-1080-6"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2052803"},{"key":"ref20","article-title":"A unified approach to multi-pose audio-visual ASR","author":"lucey","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1117\/12.525369"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2009.2030637"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366941"},{"journal-title":"Learning OpenCV Computer Vision With the OpenCV Library","year":"2008","author":"bradski","key":"ref42"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178347"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/1961189.1961199"},{"key":"ref23","article-title":"Lipreading using convolutional neural network","author":"noda","year":"2014","journal-title":"Proc INTERSPEECH"},{"journal-title":"Primesense (From Wikipedia)","year":"0","key":"ref44"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1121\/1.1358887"},{"key":"ref43","article-title":"Scat-tering vs. discrete cosine transform features in visual speech processing","author":"marcheret","year":"2015","journal-title":"Proc FAAVSP"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2006.886017"}],"event":{"name":"2016 IEEE Spoken Language Technology Workshop (SLT)","start":{"date-parts":[[2016,12,13]]},"location":"San Diego, CA","end":{"date-parts":[[2016,12,16]]}},"container-title":["2016 IEEE Spoken Language Technology Workshop (SLT)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7836849\/7846230\/07846321.pdf?arnumber=7846321","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,10,3]],"date-time":"2017-10-03T02:19:55Z","timestamp":1506997195000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7846321\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,12]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/slt.2016.7846321","relation":{},"subject":[],"published":{"date-parts":[[2016,12]]}}}