{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T16:25:57Z","timestamp":1743006357004,"version":"3.40.3"},"publisher-location":"Cham","reference-count":37,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783031301100"},{"type":"electronic","value":"9783031301117"}],"license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023]]},"DOI":"10.1007\/978-3-031-30111-7_9","type":"book-chapter","created":{"date-parts":[[2023,4,12]],"date-time":"2023-04-12T05:02:51Z","timestamp":1681275771000},"page":"97-109","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Spatial and\u00a0Temporal Guidance for\u00a0Semi-supervised Video Object Segmentation"],"prefix":"10.1007","author":[{"given":"Guoqiang","family":"Li","sequence":"first","affiliation":[]},{"given":"Shengrong","family":"Gong","sequence":"additional","affiliation":[]},{"given":"Shan","family":"Zhong","sequence":"additional","affiliation":[]},{"given":"Lifan","family":"Zhou","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,4,13]]},"reference":[{"key":"9_CR1","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"777","DOI":"10.1007\/978-3-030-58536-5_46","volume-title":"Computer Vision \u2013 ECCV 2020","author":"G Bhat","year":"2020","unstructured":"Bhat, G., et al.: Learning what to learn for video object segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12347, pp. 777\u2013794. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58536-5_46"},{"key":"9_CR2","doi-asserted-by":"crossref","unstructured":"Caelles, S., Maninis, K.K., Pont-Tuset, J., Leal-Taix\u00e9, L., Cremers, D., Van Gool, L.: One-shot video object segmentation. In: CVPR, pp. 221\u2013230 (2017)","DOI":"10.1109\/CVPR.2017.565"},{"key":"9_CR3","doi-asserted-by":"crossref","unstructured":"Chen, X., Li, Z., Yuan, Y., Yu, G., Shen, J., Qi, D.: State-aware tracker for real-time video object segmentation. In: CVPR, pp. 9384\u20139393 (2020)","DOI":"10.1109\/CVPR42600.2020.00940"},{"key":"9_CR4","doi-asserted-by":"crossref","unstructured":"Cheng, H.K., Chung, J., Tai, Y.W., Tang, C.K.: CascadePSP: toward class-agnostic and very high-resolution segmentation via global and local refinement. In: CVPR, pp. 8890\u20138899 (2020)","DOI":"10.1109\/CVPR42600.2020.00891"},{"key":"9_CR5","doi-asserted-by":"crossref","unstructured":"Cheng, H.K., Tai, Y.W., Tang, C.K.: Modular interactive video object segmentation: Interaction-to-mask, propagation and difference-aware fusion. In: CVPR, pp. 5559\u20135568 (2021)","DOI":"10.1109\/CVPR46437.2021.00551"},{"key":"9_CR6","unstructured":"Cheng, H.K., Tai, Y.W., Tang, C.K.: Rethinking space-time networks with improved memory coverage for efficient video object segmentation. In: NIPS (2021)"},{"key":"9_CR7","doi-asserted-by":"crossref","unstructured":"Duke, B., Ahmed, A., Wolf, C., et al.: SSTVOS: sparse spatiotemporal transformers for video object segmentation. In: CVPR, pp. 5912\u20135921 (2021)","DOI":"10.1109\/CVPR46437.2021.00585"},{"key":"9_CR8","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"9_CR9","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: CVPR, pp. 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"9_CR10","doi-asserted-by":"crossref","unstructured":"Hu, L., Zhang, P., Zhang, B., et al.: Learning position and target consistency for memory-based video object segmentation. In: CVPR, pp. 4144\u20134154 (2021)","DOI":"10.1109\/CVPR46437.2021.00413"},{"key":"9_CR11","doi-asserted-by":"crossref","unstructured":"Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., Liu, W.: CCNet: Criss-Cross attention for semantic segmentation. In: ICCV, pp. 603\u2013612 (2019)","DOI":"10.1109\/ICCV.2019.00069"},{"key":"9_CR12","doi-asserted-by":"crossref","unstructured":"Li, X., Wei, T., Chen, Y.P., Tai, Y.W., Tang, C.K.: FSS-1000: A 1000-class dataset for few-shot segmentation. In: CVPR, pp. 2869\u20132878 (2020)","DOI":"10.1109\/CVPR42600.2020.00294"},{"key":"9_CR13","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"735","DOI":"10.1007\/978-3-030-58607-2_43","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Yu Li","year":"2020","unstructured":"Li, Yu., Shen, Z., Shan, Y.: Fast video object segmentation using the global context module. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12355, pp. 735\u2013750. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58607-2_43"},{"key":"9_CR14","unstructured":"Liang, Y., Li, X., Jafari, N., Chen, J.: Video object segmentation with adaptive feature bank and uncertain-region refinement. In: NIPS, vol. 33, pp. 3430\u20133441 (2020)"},{"key":"9_CR15","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"661","DOI":"10.1007\/978-3-030-58580-8_39","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Lu","year":"2020","unstructured":"Lu, X., Wang, W., Danelljan, M., Zhou, T., Shen, J., Van Gool, L.: Video object segmentation with episodic graph memory networks. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12348, pp. 661\u2013679. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58580-8_39"},{"key":"9_CR16","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"565","DOI":"10.1007\/978-3-030-20870-7_35","volume-title":"Computer Vision \u2013 ACCV 2018","author":"J Luiten","year":"2019","unstructured":"Luiten, J., Voigtlaender, P., Leibe, B.: PReMVOS: proposal-generation, refinement and merging for video object segmentation. In: Jawahar, C.V., Li, H., Mori, G., Schindler, K. (eds.) ACCV 2018. LNCS, vol. 11364, pp. 565\u2013580. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-20870-7_35"},{"issue":"6","key":"9_CR17","doi-asserted-by":"publisher","first-page":"1515","DOI":"10.1109\/TPAMI.2018.2838670","volume":"41","author":"KK Maninis","year":"2018","unstructured":"Maninis, K.K.: Video object segmentation without temporal information. TPAMI 41(6), 1515\u20131530 (2018)","journal-title":"TPAMI"},{"key":"9_CR18","doi-asserted-by":"crossref","unstructured":"Oh, S.W., Lee, J.Y., Sunkavalli, K., Kim, S.J.: Fast video object segmentation by reference-guided mask propagation. In: CVPR, pp. 7376\u20137385 (2018)","DOI":"10.1109\/CVPR.2018.00770"},{"key":"9_CR19","doi-asserted-by":"crossref","unstructured":"Oh, S.W., Lee, J.Y., Xu, N., Kim, S.J.: Video object segmentation using space-time memory networks. In: ICCV, pp. 9226\u20139235 (2019)","DOI":"10.1109\/ICCV.2019.00932"},{"key":"9_CR20","doi-asserted-by":"crossref","unstructured":"Perazzi, F., Khoreva, A., Benenson, R., Schiele, B., Sorkine-Hornung, A.: Learning video object segmentation from static images. In: CVPR, pp. 2663\u20132672 (2017)","DOI":"10.1109\/CVPR.2017.372"},{"key":"9_CR21","doi-asserted-by":"crossref","unstructured":"Perazzi, F., Pont-Tuset, J., McWilliams, B., Van Gool, L., Gross, M., Sorkine-Hornung, A.: A benchmark dataset and evaluation methodology for video object segmentation. In: CVPR, pp. 724\u2013732 (2016)","DOI":"10.1109\/CVPR.2016.85"},{"key":"9_CR22","unstructured":"Pont-Tuset, J., Perazzi, F., Caelles, S., Arbel\u00e1ez, P., Sorkine-Hornung, A., Van Gool, L.: The 2017 DAVIS challenge on video object segmentation. arXiv preprint arXiv:1704.00675 (2017)"},{"key":"9_CR23","doi-asserted-by":"crossref","unstructured":"Robinson, A., Lawin, F.J., Danelljan, M., et al.: Learning fast and robust target models for video object segmentation. In: CVPR, pp. 7406\u20137415 (2020)","DOI":"10.1109\/CVPR42600.2020.00743"},{"key":"9_CR24","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"629","DOI":"10.1007\/978-3-030-58542-6_38","volume-title":"Computer Vision \u2013 ECCV 2020","author":"H Seong","year":"2020","unstructured":"Seong, H., Hyun, J., Kim, E.: Kernelized memory network for video object segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12367, pp. 629\u2013645. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58542-6_38"},{"issue":"4","key":"9_CR25","doi-asserted-by":"publisher","first-page":"717","DOI":"10.1109\/TPAMI.2015.2465960","volume":"38","author":"J Shi","year":"2015","unstructured":"Shi, J., Yan, Q., Xu, L., Jia, J.: Hierarchical image saliency detection on extended CSSD. TPAMI 38(4), 717\u2013729 (2015)","journal-title":"TPAMI"},{"key":"9_CR26","doi-asserted-by":"crossref","unstructured":"Ventura, C., Bellver, M., Girbau, A., Salvador, A., Marques, F., Giro-i Nieto, X.: RVOS: end-to-end recurrent network for video object segmentation. In: CVPR, pp. 5277\u20135286 (2019)","DOI":"10.1109\/CVPR.2019.00542"},{"key":"9_CR27","doi-asserted-by":"crossref","unstructured":"Voigtlaender, P., Chai, Y., Schroff, F., Adam, H., Leibe, B., Chen, L.C.: FEELVOS: fast end-to-end embedding learning for video object segmentation. In: CVPR, pp. 9481\u20139490 (2019)","DOI":"10.1109\/CVPR.2019.00971"},{"key":"9_CR28","doi-asserted-by":"crossref","unstructured":"Wang, H., Jiang, X., Ren, H., Hu, Y., Bai, S.: SwiftNet: real-time video object segmentation. In: CVPR, pp. 1296\u20131305 (2021)","DOI":"10.1109\/CVPR46437.2021.00135"},{"key":"9_CR29","doi-asserted-by":"crossref","unstructured":"Wang, L., Lu, H., Wang, Y., Feng, M., Wang, D., et al.: Learning to detect salient objects with image-level supervision. In: CVPR, pp. 136\u2013145 (2017)","DOI":"10.1109\/CVPR.2017.404"},{"key":"9_CR30","doi-asserted-by":"crossref","unstructured":"Xie, H., Yao, H., Zhou, S., Zhang, S., Sun, W.: Efficient regional memory network for video object segmentation. In: CVPR, pp. 1286\u20131295 (2021)","DOI":"10.1109\/CVPR46437.2021.00134"},{"key":"9_CR31","doi-asserted-by":"crossref","unstructured":"Xu, N., et al.: YouTube-VOS: sequence-to-sequence video object segmentation. In: ECCV, pp. 585\u2013601 (2018)","DOI":"10.1007\/978-3-030-01228-1_36"},{"key":"9_CR32","doi-asserted-by":"crossref","unstructured":"Xu, N., Yang, L., Fan, Y., Yue, D., Liang, Y., et al.: YouTube-VOS: a large-scale video object segmentation benchmark. In: ECCV, pp. 585\u2013601 (2018)","DOI":"10.1007\/978-3-030-01228-1_36"},{"key":"9_CR33","doi-asserted-by":"crossref","unstructured":"Yang, L., Wang, Y., Xiong, X., Yang, J., Katsaggelos, A.K.: Efficient video object segmentation via network modulation. In: CVPR, pp. 6499\u20136507 (2018)","DOI":"10.1109\/CVPR.2018.00680"},{"key":"9_CR34","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"332","DOI":"10.1007\/978-3-030-58558-7_20","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Z Yang","year":"2020","unstructured":"Yang, Z., Wei, Y., Yang, Y.: Collaborative video object segmentation by foreground-background integration. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12350, pp. 332\u2013348. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58558-7_20"},{"key":"9_CR35","first-page":"4701","volume":"49","author":"Z Yang","year":"2021","unstructured":"Yang, Z., Wei, Y., Yang, Y.: Collaborative video object segmentation by multi-scale foreground-background integration. TPAMI 49, 4701\u20134712 (2021)","journal-title":"TPAMI"},{"key":"9_CR36","doi-asserted-by":"crossref","unstructured":"Zeng, Y., Zhang, P., Zhang, J., Lin, Z., Lu, H.: Towards high-resolution salient object detection. In: ICCV, pp. 7234\u20137243 (2019)","DOI":"10.1109\/ICCV.2019.00733"},{"key":"9_CR37","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Wu, Z., Peng, H., Lin, S.: A transductive approach for video object segmentation. In: CVPR, pp. 6949\u20136958 (2020)","DOI":"10.1109\/CVPR42600.2020.00698"}],"container-title":["Lecture Notes in Computer Science","Neural Information Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-30111-7_9","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,4,12]],"date-time":"2023-04-12T05:05:30Z","timestamp":1681275930000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-30111-7_9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"ISBN":["9783031301100","9783031301117"],"references-count":37,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-30111-7_9","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2023]]},"assertion":[{"value":"13 April 2023","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICONIP","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Neural Information Processing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"New Delhi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"India","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22 November 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"26 November 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iconip2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iconip2022.apnns.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Single-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Easy Chair","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"810","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"359","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"44% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"2.65","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"ICONIP 2022 consists of a two-volume set, LNCS & CCIS, which includes 146 and 213 papers","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}