{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T05:41:57Z","timestamp":1743054117378,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":21,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819628841"},{"type":"electronic","value":"9789819628858"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2885-8_14","type":"book-chapter","created":{"date-parts":[[2025,3,10]],"date-time":"2025-03-10T05:58:52Z","timestamp":1741586332000},"page":"138-147","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Learning Supportive Two-Stream Network for Audio-Visual Segmentation"],"prefix":"10.1007","author":[{"given":"Hongfan","family":"Jiang","sequence":"first","affiliation":[]},{"given":"Tianyang","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Xuefeng","family":"Zhu","sequence":"additional","affiliation":[]},{"given":"Xiaojun","family":"Wu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,3,11]]},"reference":[{"key":"14_CR1","doi-asserted-by":"crossref","unstructured":"Darrell, T., Fisher\u00a0Iii, J.W., Viola, P.: Audio-visual segmentation and the cocktail party effect. In: Advances in Multimodal Interfaces-ICMI 2000: Third International Conference Beijing, China, 14\u201316 October 2000, Proceedings, pp. 32\u201340. Springer (2001)","DOI":"10.1007\/3-540-40063-X_5"},{"key":"14_CR2","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2009","unstructured":"Everingham, M., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.: The pascal visual object classes (voc) challenge. Int. J. Comput. Vis. 88, 303\u2013308 (2009)","journal-title":"Int. J. Comput. Vis."},{"key":"14_CR3","doi-asserted-by":"crossref","unstructured":"Gemmeke, J.F., et al.: Audio set: an ontology and human-labeled dataset for audio events. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 776\u2013780. IEEE (2017)","DOI":"10.1109\/ICASSP.2017.7952261"},{"issue":"11","key":"14_CR4","doi-asserted-by":"publisher","first-page":"2910","DOI":"10.1109\/TIT.2003.819324","volume":"49","author":"TT Georgiou","year":"2003","unstructured":"Georgiou, T.T., Lindquist, A.: Kullback-leibler approximation of spectral density functions. IEEE Trans. Inf. Theory 49(11), 2910\u20132917 (2003)","journal-title":"IEEE Trans. Inf. Theory"},{"key":"14_CR5","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1007\/s13735-017-0141-z","volume":"7","author":"Y Guo","year":"2018","unstructured":"Guo, Y., Liu, Y., Georgiou, T., Lew, M.S.: A review of semantic segmentation using deep neural networks. Int. J. Multimed. Inf. Retr. 7, 87\u201393 (2018)","journal-title":"Int. J. Multimed. Inf. Retr."},{"key":"14_CR6","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1016\/j.neucom.2019.11.118","volume":"406","author":"S Hao","year":"2020","unstructured":"Hao, S., Zhou, Y., Guo, Y.: A brief survey on semantic segmentation with deep learning. Neurocomputing 406, 302\u2013321 (2020)","journal-title":"Neurocomputing"},{"key":"14_CR7","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"14_CR8","doi-asserted-by":"crossref","unstructured":"Jadon, S.: A survey of loss functions for semantic segmentation. In: 2020 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB), pp.\u00a01\u20137. IEEE (2020)","DOI":"10.1109\/CIBCB48159.2020.9277638"},{"key":"14_CR9","doi-asserted-by":"crossref","unstructured":"Kirillov, A., Girshick, R., He, K., Doll\u00e1r, P.: Panoptic feature pyramid networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6399\u20136408 (2019)","DOI":"10.1109\/CVPR.2019.00656"},{"key":"14_CR10","unstructured":"Mahadevan, S., Athar, A., O\u0161ep, A., Hennen, S., Leal-Taix\u00e9, L., Leibe, B.: Making a case for 3d convolutions for object segmentation in videos. arXiv preprint arXiv:2008.11516 (2020)"},{"key":"14_CR11","unstructured":"Mao, Y., et al.: Transformer transforms salient object detection and camouflaged object detection. arXiv preprint arXiv:2104.10127 (2021)"},{"key":"14_CR12","doi-asserted-by":"crossref","unstructured":"Owens, A., Efros, A.A.: Audio-visual scene analysis with self-supervised multisensory features. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 631\u2013648 (2018)","DOI":"10.1007\/978-3-030-01231-1_39"},{"key":"14_CR13","doi-asserted-by":"crossref","unstructured":"Qian, R., Hu, D., Dinkel, H., Wu, M., Xu, N., Lin, W.: Multiple sound sources localization from coarse to fine. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, 23\u201328 August 2020, Proceedings, Part XX 16, pp. 292\u2013308. Springer (2020)","DOI":"10.1007\/978-3-030-58565-5_18"},{"key":"14_CR14","doi-asserted-by":"crossref","unstructured":"Rouditchenko, A., Zhao, H., Gan, C., McDermott, J., Torralba, A.: Self-supervised audio-visual co-segmentation. In: ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2357\u20132361. IEEE (2019)","DOI":"10.1109\/ICASSP.2019.8682467"},{"issue":"8","key":"14_CR15","doi-asserted-by":"publisher","first-page":"1163","DOI":"10.1109\/TCSVT.2011.2138830","volume":"21","author":"P Sidiropoulos","year":"2011","unstructured":"Sidiropoulos, P., Mezaris, V., Kompatsiaris, I., Meinedo, H., Bugalho, M., Trancoso, I.: Temporal video segmentation to scenes using high-level audiovisual features. IEEE Trans. Circuits Syst. Video Technol. 21(8), 1163\u20131177 (2011)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"14_CR16","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)"},{"key":"14_CR17","doi-asserted-by":"crossref","unstructured":"Strudel, R., Garcia, R., Laptev, I., Schmid, C.: Segmenter: transformer for semantic segmentation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7262\u20137272 (2021)","DOI":"10.1109\/ICCV48922.2021.00717"},{"key":"14_CR18","unstructured":"Thoma, M.: A survey of semantic segmentation. arXiv preprint arXiv:1602.06541 (2016)"},{"key":"14_CR19","doi-asserted-by":"crossref","unstructured":"Tian, Y., Shi, J., Li, B., Duan, Z., Xu, C.: Audio-visual event localization in unconstrained videos. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 247\u2013263 (2018)","DOI":"10.1007\/978-3-030-01216-8_16"},{"issue":"4","key":"14_CR20","doi-asserted-by":"publisher","first-page":"441","DOI":"10.1109\/89.917689","volume":"9","author":"T Zhang","year":"2001","unstructured":"Zhang, T., Kuo, C.C.J.: Audio content analysis for online audiovisual data segmentation and classification. IEEE Trans. Speech Audio Process. 9(4), 441\u2013457 (2001)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"14_CR21","doi-asserted-by":"crossref","unstructured":"Zhou, J., et al.: Audio\u2013visual segmentation. In: Computer Vision\u2013ECCV 2022: 17th European Conference, Tel Aviv, Israel, 23\u201327 October 2022, Proceedings, Part XXXVII, pp. 386\u2013403. Springer (2022)","DOI":"10.1007\/978-3-031-19836-6_22"}],"container-title":["Lecture Notes in Computer Science","Advances in Brain Inspired Cognitive Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2885-8_14","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,10]],"date-time":"2025-03-10T05:58:59Z","timestamp":1741586339000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2885-8_14"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9789819628841","9789819628858"],"references-count":21,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2885-8_14","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"11 March 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"BICS","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Brain Inspired Cognitive Systems","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Hefei","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"bics2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/bics2024.dobell.me\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}