{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T08:16:43Z","timestamp":1772093803939,"version":"3.50.1"},"publisher-location":"Singapore","reference-count":20,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819549719","type":"print"},{"value":"9789819549726","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T00:00:00Z","timestamp":1764201600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T00:00:00Z","timestamp":1764201600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-4972-6_15","type":"book-chapter","created":{"date-parts":[[2025,11,26]],"date-time":"2025-11-26T08:08:00Z","timestamp":1764144480000},"page":"187-199","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Depth-Aware Audio Visual Segmentation with\u00a0Geometry-Heuristic Cross Attention"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9672-1643","authenticated-orcid":false,"given":"Hadha","family":"Afrisal","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8404-0290","authenticated-orcid":false,"given":"Shadi","family":"Abpeikar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1131-3382","authenticated-orcid":false,"given":"Francisco","family":"Cruz","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,11,27]]},"reference":[{"key":"15_CR1","doi-asserted-by":"crossref","unstructured":"Chen, Y., et al.: Unraveling instance associations: a closer look for audio-visual segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 26497\u201326507 (2024)","DOI":"10.1109\/CVPR52733.2024.02502"},{"key":"15_CR2","doi-asserted-by":"crossref","unstructured":"Cheng, B., Misra, I., Schwing, A.G., Kirillov, A., Girdhar, R.: Masked-attention mask transformer for universal image segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1290\u20131299 (2022)","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"15_CR3","doi-asserted-by":"crossref","unstructured":"Du, S., Wang, W., Guo, R., Wang, R., Tang, S.: Asymformer: asymmetrical cross-modal representation learning for mobile platform real-time rgb-d semantic segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7608\u20137615 (2024)","DOI":"10.1109\/CVPRW63382.2024.00756"},{"key":"15_CR4","doi-asserted-by":"crossref","unstructured":"Duke, B., Ahmed, A., Wolf, C., Aarabi, P., Taylor, G.W.: Sstvos: sparse spatiotemporal transformers for video object segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5912\u20135921 (2021)","DOI":"10.1109\/CVPR46437.2021.00585"},{"key":"15_CR5","doi-asserted-by":"crossref","unstructured":"Gao, S., Chen, Z., Chen, G., Wang, W., Lu, T.: Avsegformer: audio-visual segmentation with transformer. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a038, pp. 12155\u201312163 (2024)","DOI":"10.1609\/aaai.v38i11.29104"},{"key":"15_CR6","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2025.3542995","author":"S Gong","year":"2025","unstructured":"Gong, S., et al.: Avs-mamba: exploring temporal and multi-modal mamba for audio-visual segmentation. IEEE Trans. Multimedia (2025). https:\/\/doi.org\/10.1109\/TMM.2025.3542995","journal-title":"IEEE Trans. Multimedia"},{"key":"15_CR7","doi-asserted-by":"publisher","unstructured":"Hershey, S., et al.: Cnn architectures for large-scale audio classification. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 131\u2013135 (2017). https:\/\/doi.org\/10.1109\/ICASSP.2017.7952132","DOI":"10.1109\/ICASSP.2017.7952132"},{"key":"15_CR8","doi-asserted-by":"crossref","unstructured":"Li, X., et al.: Qdformer: towards robust audiovisual segmentation in complex environments with quantization-based semantic decomposition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3402\u20133413 (2024)","DOI":"10.1109\/CVPR52733.2024.00327"},{"key":"15_CR9","doi-asserted-by":"crossref","unstructured":"Liu, C., Li, P., Yang, L., Wang, D., Li, L., Yu, X.: Robust audio-visual segmentation via audio-guided visual convergent alignment. In: Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 28922\u201328931 (2025)","DOI":"10.1109\/CVPR52734.2025.02693"},{"key":"15_CR10","doi-asserted-by":"publisher","first-page":"10015","DOI":"10.1109\/TMM.2024.3405622","volume":"26","author":"C Liu","year":"2024","unstructured":"Liu, C., et al.: Bavs: bootstrapping audio-visual segmentation by integrating foundation knowledge. IEEE Trans. Multimedia 26, 10015\u201310028 (2024)","journal-title":"IEEE Trans. Multimedia"},{"key":"15_CR11","doi-asserted-by":"crossref","unstructured":"Liu, C., Yang, L., Li, P., Wang, D., Li, L., Yu, X.: Dynamic derivation and elimination: audio visual segmentation with enhanced audio semantics. In: Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 3131\u20133141 (2025)","DOI":"10.1109\/CVPR52734.2025.00298"},{"key":"15_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"292","DOI":"10.1007\/978-3-030-58565-5_18","volume-title":"Computer Vision \u2013 ECCV 2020","author":"R Qian","year":"2020","unstructured":"Qian, R., Hu, D., Dinkel, H., Wu, M., Xu, N., Lin, W.: Multiple sound sources localization from coarse to fine. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12365, pp. 292\u2013308. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58565-5_18"},{"key":"15_CR13","doi-asserted-by":"publisher","unstructured":"Wang, H., Xu, L., Yu, Y., Ding, W., Xu, Y.: Manhattan self-attention diffusion residual networks with dynamic bias rectification for bci-based few-shot learning. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a039, pp. 14423\u201314431 (2025). https:\/\/doi.org\/10.1609\/aaai.v39i13.33580","DOI":"10.1609\/aaai.v39i13.33580"},{"key":"15_CR14","doi-asserted-by":"publisher","unstructured":"Wang, W., et al.: PVT v2: improved baselines with pyramid vision transformer. In: Computational Visual Media, pp. 1\u201310 (2022). https:\/\/doi.org\/10.1007\/s41095-022-0274-8","DOI":"10.1007\/s41095-022-0274-8"},{"key":"15_CR15","first-page":"12077","volume":"34","author":"E Xie","year":"2021","unstructured":"Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: Segformer: simple and efficient design for semantic segmentation with transformers. Adv. Neural. Inf. Process. Syst. 34, 12077\u201312090 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"15_CR16","first-page":"21875","volume":"37","author":"L Yang","year":"2024","unstructured":"Yang, L., et al.: Depth anything v2. Adv. Neural. Inf. Process. Syst. 37, 21875\u201321911 (2024)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"15_CR17","doi-asserted-by":"crossref","unstructured":"Yin, B.W., Cao, J.L., Cheng, M.M., Hou, Q.: Dformerv2: geometry self-attention for rgbd semantic segmentation. In: Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 19345\u201319355 (2025)","DOI":"10.1109\/CVPR52734.2025.01802"},{"key":"15_CR18","first-page":"15448","volume":"34","author":"J Zhang","year":"2021","unstructured":"Zhang, J., Xie, J., Barnes, N., Li, P.: Learning generative vision transformer with energy-based latent space for saliency prediction. Adv. Neural. Inf. Process. Syst. 34, 15448\u201315463 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"15_CR19","unstructured":"Zhou, J., et\u00a0al.: Audio-visual segmentation with semantics. Int. J. Comput. Vision 1\u201321 (2024)"},{"key":"15_CR20","doi-asserted-by":"publisher","unstructured":"Zhou, J., et al.: Audio\u2013visual segmentation. In: European Conference on Computer Vision, pp. 386\u2013403. Springer, Heidelberg (2022). https:\/\/doi.org\/10.1007\/978-3-031-19836-6_22","DOI":"10.1007\/978-3-031-19836-6_22"}],"container-title":["Lecture Notes in Computer Science","AI 2025: Advances in Artificial Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-4972-6_15","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T07:23:24Z","timestamp":1772090604000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-4972-6_15"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,27]]},"ISBN":["9789819549719","9789819549726"],"references-count":20,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-4972-6_15","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,27]]},"assertion":[{"value":"27 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no conflict of interest to declare.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"AI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Australasian Joint Conference on Artificial Intelligence","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Canberra, ACT","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Australia","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"1 December 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 December 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"38","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ausai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/ajcai2025.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}