{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,17]],"date-time":"2026-04-17T16:36:54Z","timestamp":1776443814388,"version":"3.51.2"},"reference-count":47,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2024,9,21]],"date-time":"2024-09-21T00:00:00Z","timestamp":1726876800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,21]],"date-time":"2024-09-21T00:00:00Z","timestamp":1726876800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Machine Vision and Applications"],"published-print":{"date-parts":[[2024,11]]},"DOI":"10.1007\/s00138-024-01609-0","type":"journal-article","created":{"date-parts":[[2024,9,21]],"date-time":"2024-09-21T13:01:47Z","timestamp":1726923707000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Transgaze: exploring plain vision transformers for gaze estimation"],"prefix":"10.1007","volume":"35","author":[{"given":"Lang","family":"Ye","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinggang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingfeng","family":"Yao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenyu","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,21]]},"reference":[{"issue":"2","key":"1609_CR1","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1001\/archpsyc.1974.01760140005001","volume":"31","author":"PS Holzman","year":"1974","unstructured":"Holzman, P.S., Proctor, L.R., Levy, D.L., Yasillo, N.J., Meltzer, H.Y., Hurt, S.W.: Eye-tracking dysfunctions in schizophrenic patients and their relatives. Arch. Gen. Psychiatry 31(2), 143\u2013151 (1974)","journal-title":"Arch. Gen. Psychiatry"},{"issue":"3","key":"1609_CR2","doi-asserted-by":"publisher","first-page":"372","DOI":"10.1037\/0033-2909.124.3.372","volume":"124","author":"K Rayner","year":"1998","unstructured":"Rayner, K.: Eye movements in reading and information processing: 20 years of research. Psychol. Bull. 124(3), 372 (1998)","journal-title":"Psychol. Bull."},{"issue":"5","key":"1609_CR3","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1006\/rtim.2002.0279","volume":"8","author":"Q Ji","year":"2002","unstructured":"Ji, Q., Yang, X.: Real-time eye, gaze, and face pose tracking for monitoring driver vigilance. Real-time Imaging 8(5), 357\u2013377 (2002)","journal-title":"Real-time Imaging"},{"key":"1609_CR4","doi-asserted-by":"crossref","unstructured":"Zhang, X., Sugano, Y., Bulling, A.: Everyday eye contact detection using unsupervised gaze target discovery. In: Proceedings of the 30th Annual ACM Symposium on User Interface Software and Technology, pp. 193\u2013203 (2017)","DOI":"10.1145\/3126594.3126614"},{"key":"1609_CR5","doi-asserted-by":"crossref","unstructured":"Piumsomboon, T., Lee, G., Lindeman, R.W., Billinghurst, M.: Exploring natural eye-gaze-based interaction for immersive virtual reality. In: 2017 IEEE Symposium on 3D User Interfaces (3DUI), pp. 36\u201339. IEEE (2017)","DOI":"10.1109\/3DUI.2017.7893315"},{"key":"1609_CR6","doi-asserted-by":"crossref","unstructured":"Xu, Y., Dong, Y., Wu, J., Sun, Z., Shi, Z., Yu, J., Gao, S.: Gaze prediction in dynamic 360 immersive videos. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5333\u20135342 (2018)","DOI":"10.1109\/CVPR.2018.00559"},{"key":"1609_CR7","doi-asserted-by":"crossref","unstructured":"Krafka, K., Khosla, A., Kellnhofer, P., Kannan, H., Bhandarkar, S., Matusik, W., Torralba, A.: Eye tracking for everyone. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2176\u20132184 (2016)","DOI":"10.1109\/CVPR.2016.239"},{"key":"1609_CR8","doi-asserted-by":"crossref","unstructured":"He, J., Pham, K., Valliappan, N., Xu, P., Roberts, C., Lagun, D., Navalpakkam, V.: On-device few-shot personalization for real-time gaze estimation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision Workshops (2019)","DOI":"10.1109\/ICCVW.2019.00146"},{"key":"1609_CR9","doi-asserted-by":"crossref","unstructured":"Guo, T., Liu, Y., Zhang, H., Liu, X., Kwak, Y., In\u00a0Yoo, B., Han, J.-J., Choi, C.: A generalized and robust method towards practical gaze estimation on smart phone. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision Workshops (2019)","DOI":"10.1109\/ICCVW.2019.00144"},{"key":"1609_CR10","doi-asserted-by":"crossref","unstructured":"Bao, Y., Cheng, Y., Liu, Y., Lu, F.: Adaptive feature fusion network for gaze tracking in mobile tablets. In: 2020 25th International Conference on Pattern Recognition (ICPR), pp. 9936\u20139943. IEEE (2021)","DOI":"10.1109\/ICPR48806.2021.9412205"},{"key":"1609_CR11","doi-asserted-by":"crossref","unstructured":"Zhang, X., Sugano, Y., Fritz, M., Bulling, A.: It\u2019s written all over your face: Full-face appearance-based gaze estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 51\u201360 (2017)","DOI":"10.1109\/CVPRW.2017.284"},{"key":"1609_CR12","doi-asserted-by":"crossref","unstructured":"Fischer, T., Chang, H.J., Demiris, Y.: Rt-gene: real-time eye gaze estimation in natural environments. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 334\u2013352 (2018)","DOI":"10.1007\/978-3-030-01249-6_21"},{"key":"1609_CR13","doi-asserted-by":"crossref","unstructured":"Cheng, Y., Lu, F.: Gaze estimation using transformer. In: 2022 26th International Conference on Pattern Recognition (ICPR), pp. 3341\u20133347. IEEE (2022)","DOI":"10.1109\/ICPR56361.2022.9956687"},{"key":"1609_CR14","doi-asserted-by":"crossref","unstructured":"Nagpure, V., Okuma, K.: Searching efficient neural architecture with multi-resolution fusion transformer for appearance-based gaze estimation. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 890\u2013899 (2023)","DOI":"10.1109\/WACV56688.2023.00095"},{"key":"1609_CR15","doi-asserted-by":"crossref","unstructured":"Zhang, X., Sugano, Y., Fritz, M., Bulling, A.: Appearance-based gaze estimation in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4511\u20134520 (2015)","DOI":"10.1109\/CVPR.2015.7299081"},{"key":"1609_CR16","first-page":"26183","volume":"34","author":"Y Fang","year":"2021","unstructured":"Fang, Y., Liao, B., Wang, X., Fang, J., Qi, J., Wu, R., Niu, J., Liu, W.: You only look at one sequence: rethinking transformer in vision through object detection. Adv. Neural. Inf. Process. Syst. 34, 26183\u201326197 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"1609_CR17","unstructured":"Song, H., Sun, D., Chun, S., Jampani, V., Han, D., Heo, B., Kim, W., Yang, M.-H.: An extendable, efficient and effective transformer-based object detector. arXiv preprint arXiv:2204.07962 (2022)"},{"key":"1609_CR18","doi-asserted-by":"crossref","unstructured":"Chen, Z., Shi, B.E.: Appearance-based gaze estimation using dilated-convolutions. In: Asian Conference on Computer Vision, pp. 309\u2013324. Springer (2018)","DOI":"10.1007\/978-3-030-20876-9_20"},{"issue":"1","key":"1609_CR19","doi-asserted-by":"publisher","first-page":"162","DOI":"10.1109\/TPAMI.2017.2778103","volume":"41","author":"X Zhang","year":"2017","unstructured":"Zhang, X., Sugano, Y., Fritz, M., Bulling, A.: Mpiigaze: real-world dataset and deep appearance-based gaze estimation. IEEE Trans. Pattern Anal. Mach. Intell. 41(1), 162\u2013175 (2017)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1609_CR20","doi-asserted-by":"crossref","unstructured":"Li, Y., Mao, H., Girshick, R., He, K.: Exploring plain vision transformer backbones for object detection. In: European Conference on Computer Vision, pp. 280\u2013296. Springer (2022)","DOI":"10.1007\/978-3-031-20077-9_17"},{"key":"1609_CR21","first-page":"38571","volume":"35","author":"Y Xu","year":"2022","unstructured":"Xu, Y., Zhang, J., Zhang, Q., Tao, D.: Vitpose: simple vision transformer baselines for human pose estimation. Adv. Neural. Inf. Process. Syst. 35, 38571\u201338584 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"1609_CR22","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.102091","volume":"103","author":"J Yao","year":"2023","unstructured":"Yao, J., Wang, X., Yang, S., Wang, B.: Vitmatte: boosting image matting with pre-trained plain vision transformers. Inf. Fus. 103, 102091 (2023)","journal-title":"Inf. Fus."},{"key":"1609_CR23","doi-asserted-by":"publisher","unstructured":"Wang, K., Ji, Q.: Real time eye gaze tracking with 3d deformable eye-face model. In: 2017 IEEE International Conference on Computer Vision (ICCV). https:\/\/doi.org\/10.1109\/iccv.2017.114 (2017)","DOI":"10.1109\/iccv.2017.114"},{"key":"1609_CR24","doi-asserted-by":"publisher","first-page":"1772","DOI":"10.1109\/tmm.2016.2576284","volume":"18","author":"F Lu","year":"2016","unstructured":"Lu, F., Gao, Y., Chen, X.: Estimating 3d gaze directions using unlabeled eye images via synthetic iris appearance fitting. IEEE Trans. Multimed. 18, 1772\u20131782 (2016). https:\/\/doi.org\/10.1109\/tmm.2016.2576284","journal-title":"IEEE Trans. Multimed."},{"key":"1609_CR25","doi-asserted-by":"publisher","first-page":"346","DOI":"10.1016\/j.ins.2015.02.004","volume":"320","author":"L Sun","year":"2015","unstructured":"Sun, L., Liu, Z., Sun, M.-T.: Real time gaze estimation with a consumer depth camera. Inf. Sci. 320, 346\u2013360 (2015). https:\/\/doi.org\/10.1016\/j.ins.2015.02.004","journal-title":"Inf. Sci."},{"key":"1609_CR26","doi-asserted-by":"publisher","unstructured":"Nakazawa, A., Nitschke, C.: Point of gaze estimation through corneal surface reflection in an active illumination environment. In: Proceedings, Part II, Computer Vision\u2013ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7\u201313 2012, pp. 159\u2013172 (2012). https:\/\/doi.org\/10.1007\/978-3-642-33709-3_12","DOI":"10.1007\/978-3-642-33709-3_12"},{"key":"1609_CR27","doi-asserted-by":"publisher","unstructured":"Funes\u00a0Mora, K.A., Odobez, J.-M.: Geometric generative gaze estimation (g3e) for remote rgb-d cameras. In: 2014 IEEE Conference on Computer Vision and Pattern Recognition (2014). https:\/\/doi.org\/10.1109\/cvpr.2014.229","DOI":"10.1109\/cvpr.2014.229"},{"key":"1609_CR28","doi-asserted-by":"publisher","first-page":"802","DOI":"10.1109\/tip.2011.2162740","volume":"21","author":"R Valenti","year":"2012","unstructured":"Valenti, R., Sebe, N., Gevers, T.: Combining head pose and eye location information for gaze estimation. IEEE Trans. Image Process. 21, 802\u2013815 (2012). https:\/\/doi.org\/10.1109\/tip.2011.2162740","journal-title":"IEEE Trans. Image Process."},{"key":"1609_CR29","doi-asserted-by":"publisher","unstructured":"Xiong, X., Liu, Z., Cai, Q., Zhang, Z.: Eye gaze tracking using an rgbd camera: a comparison with a rgb solution. In: Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct Publication (2014). https:\/\/doi.org\/10.1145\/2638728.2641694","DOI":"10.1145\/2638728.2641694"},{"issue":"12","key":"1609_CR30","doi-asserted-by":"publisher","first-page":"2246","DOI":"10.1109\/tbme.2007.895750","volume":"54","author":"Z Zhu","year":"2007","unstructured":"Zhu, Z., Ji, Q.: Novel eye gaze tracking techniques under natural head movement. IEEE Trans. Biomed. Eng. 54(12), 2246\u20132260 (2007). https:\/\/doi.org\/10.1109\/tbme.2007.895750","journal-title":"IEEE Trans. Biomed. Eng."},{"issue":"2","key":"1609_CR31","doi-asserted-by":"publisher","first-page":"475","DOI":"10.1111\/cgf.13945","volume":"39","author":"Q Wen","year":"2020","unstructured":"Wen, Q., Bradley, D., Beeler, T., Park, S., Hilliges, O., Yong, J., Xu, F.: Accurate real-time 3d gaze tracking using a lightweight eyeball calibration. Comput. Graphics Forum 39(2), 475\u2013485 (2020). https:\/\/doi.org\/10.1111\/cgf.13945","journal-title":"Comput. Graphics Forum"},{"key":"1609_CR32","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"1609_CR33","doi-asserted-by":"publisher","first-page":"445","DOI":"10.1007\/s00138-017-0852-4","volume":"28","author":"Q Huang","year":"2017","unstructured":"Huang, Q., Veeraraghavan, A., Sabharwal, A.: Tabletgaze: dataset and analysis for unconstrained appearance-based gaze estimation in mobile tablets. Mach. Vis. Appl. 28, 445\u2013461 (2017)","journal-title":"Mach. Vis. Appl."},{"key":"1609_CR34","doi-asserted-by":"crossref","unstructured":"Kellnhofer, P., Recasens, A., Stent, S., Matusik, W., Torralba, A.: Gaze360: physically unconstrained gaze estimation in the wild. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6912\u20136921 (2019)","DOI":"10.1109\/ICCV.2019.00701"},{"key":"1609_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, X., Park, S., Beeler, T., Bradley, D., Tang, S., Hilliges, O.: Eth-xgaze: A large scale dataset for gaze estimation under extreme head pose and gaze variation. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part V 16, pp. 365\u2013381. Springer (2020)","DOI":"10.1007\/978-3-030-58558-7_22"},{"key":"1609_CR36","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141., Polosukhin, I.: Attention is all you need. Adv. Neural Inf. Process. Syst. 30 (2017)"},{"key":"1609_CR37","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"1609_CR38","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., Fei-Fei, L.: Imagenet: a large-scale hierarchical image database. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248\u2013255. IEEE (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1609_CR39","unstructured":"Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018)"},{"issue":"8","key":"1609_CR40","first-page":"9","volume":"1","author":"A Radford","year":"2019","unstructured":"Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I.: Language models are unsupervised multitask learners. OpenAI Blog 1(8), 9 (2019)","journal-title":"OpenAI Blog"},{"key":"1609_CR41","first-page":"1877","volume":"33","author":"T Brown","year":"2020","unstructured":"Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A.: Language models are few-shot learners. Adv. Neural Inf. Process. Syst. 33, 1877\u20131901 (2020)","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"1609_CR42","unstructured":"Zhou, J., Wei, C., Wang, H., Shen, W., Xie, C., Yuille, A., Kong, T.: ibot: image bert pre-training with online tokenizer. arXiv preprint arXiv:2111.07832 (2021)"},{"key":"1609_CR43","doi-asserted-by":"crossref","unstructured":"Caron, M., Touvron, H., Misra, I., J\u00e9gou, H., Mairal, J., Bojanowski, P., Joulin, A.: Emerging properties in self-supervised vision transformers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 9650\u20139660 (2021)","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"1609_CR44","unstructured":"Oquab, M., Darcet, T., Moutakanni, T., Vo, H.V., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., Howes, R., Huang, P.-Y., Xu, H., Sharma, V., Li, S.-W., Galuba, W., Rabbat, M., Assran, M., Ballas, N., Synnaeve, G., Misra, I., Jegou, H., Mairal, J., Labatut, P., Joulin, A., Bojanowski, P.: DINOv2: learning robust visual features without supervision (2023). arXiv:2304.07193"},{"key":"1609_CR45","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., Girshick, R.: Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16000\u201316009 (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"1609_CR46","doi-asserted-by":"crossref","unstructured":"Fang, Y., Wang, W., Xie, B., Sun, Q., Wu, L., Wang, X., Huang, T., Wang, X., Cao, Y.: Eva: exploring the limits of masked visual representation learning at scale. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19358\u201319369 (2023)","DOI":"10.1109\/CVPR52729.2023.01855"},{"key":"1609_CR47","doi-asserted-by":"crossref","unstructured":"Fang, Y., Sun, Q., Wang, X., Huang, T., Wang, X., Cao, Y.: Eva-02: a visual representation for neon genesis. arXiv preprint arXiv:2303.11331 (2023)","DOI":"10.2139\/ssrn.4813567"}],"container-title":["Machine Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-024-01609-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00138-024-01609-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-024-01609-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,8]],"date-time":"2024-11-08T03:04:39Z","timestamp":1731035079000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00138-024-01609-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,21]]},"references-count":47,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2024,11]]}},"alternative-id":["1609"],"URL":"https:\/\/doi.org\/10.1007\/s00138-024-01609-0","relation":{},"ISSN":["0932-8092","1432-1769"],"issn-type":[{"value":"0932-8092","type":"print"},{"value":"1432-1769","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,9,21]]},"assertion":[{"value":"12 March 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 August 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 August 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 September 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"128"}}