{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:19:44Z","timestamp":1767313184113,"version":"3.48.0"},"publisher-location":"Cham","reference-count":49,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032073426","type":"print"},{"value":"9783032073433","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-07343-3_31","type":"book-chapter","created":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:15:14Z","timestamp":1767312914000},"page":"389-400","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["UNETRSal: Saliency Prediction with\u00a0Hybrid Transformer-Based Architecture"],"prefix":"10.1007","author":[{"given":"Azamat","family":"Kaibaldiyev","sequence":"first","affiliation":[]},{"given":"J\u00e9r\u00e9mie","family":"Pantin","sequence":"additional","affiliation":[]},{"given":"Alexis","family":"Lechervy","sequence":"additional","affiliation":[]},{"given":"Fabrice","family":"Maurel","sequence":"additional","affiliation":[]},{"given":"Youssef","family":"Chahir","sequence":"additional","affiliation":[]},{"given":"Ga\u00ebl","family":"Dias","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,1,2]]},"reference":[{"key":"31_CR1","doi-asserted-by":"crossref","unstructured":"Aydemir, B., Hoffstetter, L., Zhang, T., Salzmann, M., S\u00fcsstrunk, S.: Tempsal-uncovering temporal information for deep saliency prediction. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6461\u20136470 (2023)","DOI":"10.1109\/CVPR52729.2023.00625"},{"key":"31_CR2","unstructured":"Bjorck, N., Gomes, C.P., Selman, B., Weinberger, K.Q.: Understanding batch normalization. In: Advances in Neural Information Processing Systems (NeurIPS), vol. 31 (2018)"},{"issue":"2","key":"31_CR3","doi-asserted-by":"publisher","first-page":"679","DOI":"10.1109\/TPAMI.2019.2935715","volume":"43","author":"A Borji","year":"2019","unstructured":"Borji, A.: Saliency prediction in the deep learning era: successes and limitations. IEEE Trans. Pattern Anal. Mach. Intell. 43(2), 679\u2013700 (2019)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"12","key":"31_CR4","doi-asserted-by":"publisher","first-page":"5706","DOI":"10.1109\/TIP.2015.2487833","volume":"24","author":"A Borji","year":"2015","unstructured":"Borji, A., Cheng, M.M., Jiang, H., Li, J.: Salient object detection: a benchmark. IEEE Trans. Image Process. 24(12), 5706\u20135722 (2015). https:\/\/doi.org\/10.1109\/TIP.2015.2487833","journal-title":"IEEE Trans. Image Process."},{"key":"31_CR5","unstructured":"Borji, A., Itti, L.: Cat2000: a large scale fixation dataset for boosting saliency research. arXiv preprint: arXiv:1505.03581 (2015)"},{"key":"31_CR6","doi-asserted-by":"publisher","first-page":"2287","DOI":"10.1109\/TIP.2019.2945857","volume":"29","author":"Z Che","year":"2019","unstructured":"Che, Z., Borji, A., Zhai, G., Min, X., Guo, G., Le Callet, P.: How is gaze influenced by image transformations? Dataset and model. IEEE Trans. Image Process. 29, 2287\u20132300 (2019)","journal-title":"IEEE Trans. Image Process."},{"key":"31_CR7","doi-asserted-by":"crossref","unstructured":"Cornia, M., Baraldi, L., Serra, G., Cucchiara, R.: A deep multi-level network for saliency prediction. In: 23rd International Conference on Pattern Recognition (ICPR), pp. 3488\u20133493. IEEE (2016)","DOI":"10.1109\/ICPR.2016.7900174"},{"issue":"10","key":"31_CR8","doi-asserted-by":"publisher","first-page":"5142","DOI":"10.1109\/TIP.2018.2851672","volume":"27","author":"M Cornia","year":"2018","unstructured":"Cornia, M., Baraldi, L., Serra, G., Cucchiara, R.: Predicting human eye fixations via an LSTM-based saliency attentive model. IEEE Trans. Image Process. 27(10), 5142\u20135154 (2018)","journal-title":"IEEE Trans. Image Process."},{"key":"31_CR9","doi-asserted-by":"publisher","first-page":"104395","DOI":"10.1016\/j.imavis.2022.104395","volume":"120","author":"G Ding","year":"2022","unstructured":"Ding, G., \u0130mamo\u011flu, N., Caglayan, A., Murakawa, M., Nakamura, R.: SalFBNet: learning pseudo-saliency distribution via feedback convolutional networks. Image Vis. Comput. 120, 104395 (2022)","journal-title":"Image Vis. Comput."},{"key":"31_CR10","unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint: arXiv:2010.11929 (2020)"},{"key":"31_CR11","doi-asserted-by":"crossref","unstructured":"Droste, R., Jiao, J., Noble, J.A.: Unified image and video saliency modeling. In: 16th European Conference on Computer Vision (ECCV), pp. 419\u2013435. Springer (2020)","DOI":"10.1007\/978-3-030-58558-7_25"},{"key":"31_CR12","doi-asserted-by":"crossref","unstructured":"Eglin, V., Bres, S.: Document page similarity based on layout visual saliency: application to query by example and document classification. In: 7th International Conference on Document Analysis and Recognition (ICDAR), pp. 1208\u20131212. Citeseer (2003)","DOI":"10.1109\/ICDAR.2003.1227849"},{"key":"31_CR13","doi-asserted-by":"crossref","unstructured":"Fan, S., et al.: Emotional attention: a study of image sentiment and visual attention. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7521\u20137531 (2018)","DOI":"10.1109\/CVPR.2018.00785"},{"key":"31_CR14","doi-asserted-by":"crossref","unstructured":"Fosco, C., et al.: How much time do you have? Modeling multi-duration saliency. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4473\u20134482 (2020)","DOI":"10.1109\/CVPR42600.2020.00453"},{"issue":"3","key":"31_CR15","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3617592","volume":"56","author":"T Ghandi","year":"2023","unstructured":"Ghandi, T., Pourreza, H., Mahyar, H.: Deep learning approaches on image captioning: a review. ACM Comput. Surv. 56(3), 1\u201339 (2023)","journal-title":"ACM Comput. Surv."},{"key":"31_CR16","doi-asserted-by":"crossref","unstructured":"Harel, J., Koch, C., Perona, P.: Graph-based visual saliency. In: Advances in Neural Information Processing Systems, vol. 19 (2006)","DOI":"10.7551\/mitpress\/7503.003.0073"},{"key":"31_CR17","doi-asserted-by":"crossref","unstructured":"Hatamizadeh, A., et al.: UNETR: transformers for 3D medical image segmentation. In: IEEE\/CVF Winter Conference on Applications of Computer Vision (ICCV), pp. 574\u2013584 (2022)","DOI":"10.1109\/WACV51458.2022.00181"},{"key":"31_CR18","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"31_CR19","doi-asserted-by":"crossref","unstructured":"Huang, X., Shen, C., Boix, X., Zhao, Q.: SALICON: reducing the semantic gap in saliency prediction by adapting deep neural networks. In: IEEE International Conference On Computer Vision (ICCV), pp. 262\u2013270 (2015)","DOI":"10.1109\/ICCV.2015.38"},{"issue":"11","key":"31_CR20","doi-asserted-by":"publisher","first-page":"1254","DOI":"10.1109\/34.730558","volume":"20","author":"L Itti","year":"2002","unstructured":"Itti, L., Koch, C., Niebur, E.: A model of saliency-based visual attention for rapid scene analysis. IEEE Trans. Pattern Anal. Mach. Intell. 20(11), 1254\u20131259 (2002)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"31_CR21","unstructured":"Jetley, S., Lord, N.A., Lee, N., Torr, P.H.: Learn to pay attention. arXiv preprint: arXiv:1804.02391 (2018)"},{"key":"31_CR22","doi-asserted-by":"publisher","first-page":"103887","DOI":"10.1016\/j.imavis.2020.103887","volume":"95","author":"S Jia","year":"2020","unstructured":"Jia, S., Bruce, N.D.: EML-NET: an expandable multi-layer network for saliency prediction. Image Vis. Comput. 95, 103887 (2020)","journal-title":"Image Vis. Comput."},{"key":"31_CR23","doi-asserted-by":"crossref","unstructured":"Jiang, M., Huang, S., Duan, J., Zhao, Q.: SALICON: saliency in context. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1072\u20131080 (2015)","DOI":"10.1109\/CVPR.2015.7298710"},{"key":"31_CR24","doi-asserted-by":"crossref","unstructured":"Koch, C., Ullman, S.: Shifts in selective visual attention: towards the underlying neural circuitry. In: Matters of Intelligence: Conceptual Structures in Cognitive Neuroscience, pp. 115\u2013141. Springer (1987)","DOI":"10.1007\/978-94-009-3833-5_5"},{"key":"31_CR25","doi-asserted-by":"publisher","first-page":"261","DOI":"10.1016\/j.neunet.2020.05.004","volume":"129","author":"A Kroner","year":"2020","unstructured":"Kroner, A., Senden, M., Driessens, K., Goebel, R.: Contextual encoder-decoder network for visual saliency prediction. Neural Netw. 129, 261\u2013270 (2020)","journal-title":"Neural Netw."},{"key":"31_CR26","doi-asserted-by":"crossref","unstructured":"K\u00fcmmerer, M., Wallis, T.S., Bethge, M.: DeepGaze II: reading fixations from deep features trained on object recognition. arXiv preprint: arXiv:1610.01563 (2016)","DOI":"10.1167\/17.10.1147"},{"key":"31_CR27","doi-asserted-by":"crossref","unstructured":"Li, J., Xia, C., Song, Y., Fang, S., Chen, X.: A data-driven metric for comprehensive evaluation of saliency models. In: IEEE International Conference on Computer Vision (ICCV), pp. 190\u2013198 (2015)","DOI":"10.1109\/ICCV.2015.30"},{"key":"31_CR28","doi-asserted-by":"crossref","unstructured":"Linardos, A., K\u00fcmmerer, M., Press, O., Bethge, M.: DeepGaze IIE: calibrated prediction in and out-of-domain for state-of-the-art saliency modeling. In: IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 12919\u201312928 (2021)","DOI":"10.1109\/ICCV48922.2021.01268"},{"key":"31_CR29","doi-asserted-by":"crossref","unstructured":"Liu, N., Zhang, N., Wan, K., Shao, L., Han, J.: Visual saliency transformer. In: IEEE\/CVF International Conference On Computer Vision (ICCV), pp. 4722\u20134732 (2021)","DOI":"10.1109\/ICCV48922.2021.00468"},{"key":"31_CR30","unstructured":"Liu, Y., et al.: A survey of visual transformers. IEEE Trans Neural Netw. Learn. Syst. (2023)"},{"issue":"7","key":"31_CR31","doi-asserted-by":"publisher","first-page":"4486","DOI":"10.1109\/TCSVT.2021.3127149","volume":"32","author":"Z Liu","year":"2021","unstructured":"Liu, Z., Tan, Y., He, Q., Xiao, Y.: SwinNet: Swin transformer drives edge-aware RGB-D and RGB-T salient object detection. IEEE Trans. Circuits Syst. Video Technol. 32(7), 4486\u20134497 (2021)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"31_CR32","doi-asserted-by":"publisher","first-page":"455","DOI":"10.1016\/j.neucom.2022.04.080","volume":"494","author":"J Lou","year":"2022","unstructured":"Lou, J., Lin, H., Marshall, D., Saupe, D., Liu, H.: TranSalNet: towards perceptually relevant visual saliency prediction. Neurocomputing 494, 455\u2013467 (2022)","journal-title":"Neurocomputing"},{"key":"31_CR33","unstructured":"Pan, J., et al.: SalGAN: visual saliency prediction with generative adversarial networks. arXiv preprint: arXiv:1701.01081 (2017)"},{"key":"31_CR34","doi-asserted-by":"crossref","unstructured":"Reddy, N., Jain, S., Yarlagadda, P., Gandhi, V.: Tidying deep saliency prediction architectures. In: IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 10241\u201310247. IEEE (2020)","DOI":"10.1109\/IROS45743.2020.9341574"},{"key":"31_CR35","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-Net: convolutional networks for biomedical image segmentation. In: 18th International Conference on Medical Image Computing and Computer-assisted Intervention (MICCAI), pp. 234\u2013241. Springer (2015)","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"31_CR36","unstructured":"Santurkar, S., Tsipras, D., Ilyas, A., Madry, A.: How does batch normalization help optimization? In: Advances in Neural Information Processing Systems (NeurIPS), vol. 31 (2018)"},{"key":"31_CR37","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint: arXiv:1409.1556 (2014)"},{"key":"31_CR38","doi-asserted-by":"crossref","unstructured":"Sun, K., Xiao, B., Liu, D., Wang, J.: Deep high-resolution representation learning for human pose estimation. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5693\u20135703 (2019)","DOI":"10.1109\/CVPR.2019.00584"},{"issue":"1","key":"31_CR39","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1007\/s00530-021-00796-4","volume":"28","author":"Y Sun","year":"2022","unstructured":"Sun, Y., Zhao, M., Hu, K., Fan, S.: Visual saliency prediction using multi-scale attention gated network. Multimedia Syst. 28(1), 131\u2013139 (2022)","journal-title":"Multimedia Syst."},{"key":"31_CR40","doi-asserted-by":"publisher","first-page":"20701","DOI":"10.1109\/ACCESS.2022.3152189","volume":"10","author":"M Tliba","year":"2022","unstructured":"Tliba, M., et al.: SATSal: a multi-level self-attention based architecture for visual saliency prediction. IEEE Access 10, 20701\u201320713 (2022)","journal-title":"IEEE Access"},{"key":"31_CR41","doi-asserted-by":"crossref","unstructured":"Vig, E., Dorr, M., Cox, D.: Large-scale optimization of hierarchical features for saliency prediction in natural images. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2798\u20132805 (2014)","DOI":"10.1109\/CVPR.2014.358"},{"key":"31_CR42","unstructured":"Wang, H., Zhang, A., Zheng, S., Shi, X., Li, M., Wang, Z.: Removing batch normalization boosts adversarial training. In: International Conference on Machine Learning (ICML), pp. 23433\u201323445. PMLR (2022)"},{"issue":"6","key":"31_CR43","doi-asserted-by":"publisher","first-page":"3239","DOI":"10.1109\/TPAMI.2021.3051099","volume":"44","author":"W Wang","year":"2021","unstructured":"Wang, W., Lai, Q., Fu, H., Shen, J., Ling, H., Yang, R.: Salient object detection in the deep learning era: an in-depth survey. IEEE Trans. Pattern Anal. Mach. Intell. 44(6), 3239\u20133259 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"31_CR44","doi-asserted-by":"crossref","unstructured":"Wu, H., et al.: CVT: introducing convolutions to vision transformers. In: IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 22\u201331 (2021)","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"31_CR45","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TIM.2021.3126366","volume":"70","author":"X Yang","year":"2021","unstructured":"Yang, X., Li, F., Liu, H.: A measurement for distortion induced saliency variation in natural images. IEEE Trans. Instrum. Meas. 70, 1\u201314 (2021)","journal-title":"IEEE Trans. Instrum. Meas."},{"key":"31_CR46","doi-asserted-by":"crossref","unstructured":"Yuan, L., et al.: Tokens-to-token ViT: training vision transformers from scratch on ImageNet. In: IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 558\u2013567 (2021)","DOI":"10.1109\/ICCV48922.2021.00060"},{"key":"31_CR47","doi-asserted-by":"publisher","first-page":"103514","DOI":"10.1016\/j.dsp.2022.103514","volume":"126","author":"SSA Zaidi","year":"2022","unstructured":"Zaidi, S.S.A., Ansari, M.S., Aslam, A., Kanwal, N., Asghar, M., Lee, B.: A survey of modern deep learning based object detection models. Digit. Signal Process. 126, 103514 (2022)","journal-title":"Digit. Signal Process."},{"key":"31_CR48","doi-asserted-by":"crossref","unstructured":"Zhang, J., Sclaroff, S.: Saliency detection: a Boolean map approach. In: IEEE International Conference on Computer Vision (ICCV), pp. 153\u2013160 (2013)","DOI":"10.1109\/ICCV.2013.26"},{"key":"31_CR49","doi-asserted-by":"crossref","unstructured":"Zhang, J., Yu, X., Li, A., Song, P., Liu, B., Dai, Y.: Weakly-supervised salient object detection via scribble annotations. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12546\u201312555 (2020)","DOI":"10.1109\/CVPR42600.2020.01256"}],"container-title":["Lecture Notes in Computer Science","Advanced Concepts for Intelligent Vision Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-07343-3_31","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T00:15:18Z","timestamp":1767312918000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-07343-3_31"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9783032073426","9783032073433"],"references-count":49,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-07343-3_31","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"2 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACIVS","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Advanced Concepts for Intelligent Vision Systems","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tokyo","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28 July 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 July 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"acivs2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.acivs2025.com","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}