{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T13:53:17Z","timestamp":1742997197623,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":43,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819620630"},{"type":"electronic","value":"9789819620647"}],"license":[{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2064-7_11","type":"book-chapter","created":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T19:24:42Z","timestamp":1735327482000},"page":"142-156","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Open-Vocabulary Scene Graph Generation via\u00a0Synonym-Based Predicate Descriptor"],"prefix":"10.1007","author":[{"given":"Yuta","family":"Goto","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Satoshi","family":"Yamazaki","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Takashi","family":"Shibata","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianquan","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,28]]},"reference":[{"key":"11_CR1","unstructured":"Achiam, J., et\u00a0al.: GPT-4 technical report. arXiv preprint arXiv:2303.08774 (2023)"},{"issue":"1","key":"11_CR2","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TPAMI.2021.3137605","volume":"45","author":"X Chang","year":"2021","unstructured":"Chang, X., Ren, P., Xu, P., Li, Z., Chen, X., Hauptmann, A.: A comprehensive survey of scene graphs: generation and application. TPAMI 45(1), 1\u201326 (2021)","journal-title":"TPAMI"},{"key":"11_CR3","doi-asserted-by":"crossref","unstructured":"Chen, S., Jin, Q., Wang, P., Wu, Q.: Say as you wish: fine-grained control of image caption generation with abstract scene graphs. In: CVPR, pp. 9962\u20139971 (2020)","DOI":"10.1109\/CVPR42600.2020.00998"},{"key":"11_CR4","doi-asserted-by":"crossref","unstructured":"Chen, T., Yu, W., Chen, R., Lin, L.: Knowledge-embedded routing network for scene graph generation. In: CVPR, pp. 6163\u20136171 (2019)","DOI":"10.1109\/CVPR.2019.00632"},{"key":"11_CR5","doi-asserted-by":"crossref","unstructured":"Chen, Z., Wu, J., Lei, Z., Zhang, Z., Chen, C.: Expanding scene graph boundaries: fully open-vocabulary scene graph generation via visual-concept alignment and retention. arXiv preprint arXiv:2311.10988 (2023)","DOI":"10.1007\/978-3-031-72848-8_7"},{"key":"11_CR6","doi-asserted-by":"crossref","unstructured":"Cui, Y., Jia, M., Lin, T.Y., Song, Y., Belongie, S.: Class-balanced loss based on effective number of samples. In: CVPR, pp. 9268\u20139277 (2019)","DOI":"10.1109\/CVPR.2019.00949"},{"key":"11_CR7","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: a large-scale hierarchical image database. In: CVPR, pp. 248\u2013255 (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"11_CR8","doi-asserted-by":"crossref","unstructured":"Gupta, A., Dollar, P., Girshick, R.: Lvis: a dataset for large vocabulary instance segmentation. In: CVPR, pp. 5356\u20135364 (2019)","DOI":"10.1109\/CVPR.2019.00550"},{"key":"11_CR9","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: ICCV, pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"11_CR10","doi-asserted-by":"crossref","unstructured":"He, T., Gao, L., Song, J., Li, Y.F.: Towards open-vocabulary scene graph generation with prompt-based finetuning. In: ECCV, pp. 56\u201373 (2022)","DOI":"10.1007\/978-3-031-19815-1_4"},{"issue":"8","key":"11_CR11","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural Comput. 9(8), 1735\u20131780 (1997)","journal-title":"Neural Comput."},{"key":"11_CR12","doi-asserted-by":"crossref","unstructured":"Jiang, X., et al.: Dualvd: an adaptive dual encoding model for deep visual understanding in visual dialogue. In: AAAI, vol.\u00a034, pp. 11125\u201311132 (2020)","DOI":"10.1609\/aaai.v34i07.6769"},{"key":"11_CR13","doi-asserted-by":"crossref","unstructured":"Jiao, Z., Niu, Y., Zhang, Z., Zhu, S.C., Zhu, Y., Liu, H.: Sequential manipulation planning on scene graph. In: IROS, pp. 8203\u20138210 (2022)","DOI":"10.1109\/IROS47612.2022.9981735"},{"key":"11_CR14","doi-asserted-by":"crossref","unstructured":"Johnson, J., et al.: Image retrieval using scene graphs. In: CVPR, pp. 3668\u20133678 (2015)","DOI":"10.1109\/CVPR.2015.7298990"},{"key":"11_CR15","doi-asserted-by":"crossref","unstructured":"Krishna, R., et al.: Visual genome: connecting language and vision using crowdsourced dense image annotations. In: IJCV, vol.\u00a0123, pp. 32\u201373 (2017)","DOI":"10.1007\/s11263-016-0981-7"},{"key":"11_CR16","doi-asserted-by":"crossref","unstructured":"Li, L., Chen, L., Huang, Y., Zhang, Z., Zhang, S., Xiao, J.: The devil is in the labels: noisy label correction for robust scene graph generation. In: CVPR, pp. 18869\u201318878 (2022)","DOI":"10.1109\/CVPR52688.2022.01830"},{"key":"11_CR17","doi-asserted-by":"crossref","unstructured":"Li, R., Zhang, S., Wan, B., He, X.: Bipartite graph network with adaptive message passing for unbiased scene graph generation. In: CVPR, pp. 11109\u201311119 (2021)","DOI":"10.1109\/CVPR46437.2021.01096"},{"key":"11_CR18","unstructured":"Li, Y., Ma, T., Bai, Y., Duan, N., Wei, S., Wang, X.: Pastegan: a semi-parametric method to generate image from scene graph. Adv. Neural Inform. Process. Syst. 32 (2019)"},{"key":"11_CR19","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., et al.: Microsoft coco: common objects in context. In: ECCV, pp. 740\u2013755 (2014)","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"11_CR20","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. In: ICCV, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"11_CR21","doi-asserted-by":"crossref","unstructured":"Lu, C., Krishna, R., Bernstein, M., Fei-Fei, L.: Visual relationship detection with language priors. In: ECCV, pp. 852\u2013869 (2016)","DOI":"10.1007\/978-3-319-46448-0_51"},{"key":"11_CR22","unstructured":"Menon, S., Vondrick, C.: Visual classification via description from large language models. In: ICLR (2023)"},{"key":"11_CR23","doi-asserted-by":"crossref","unstructured":"Peyre, J., Sivic, J., Laptev, I., Schmid, C.: Weakly-supervised learning of visual relations. In: ICCV, pp. 5179\u20135188 (2017)","DOI":"10.1109\/ICCV.2017.554"},{"key":"11_CR24","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In: ICML, pp. 8748\u20138763. PMLR (2021)"},{"key":"11_CR25","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. Adv. Neural Inform. Process. Syst. 28 (2015)"},{"issue":"12\u201314","key":"11_CR26","doi-asserted-by":"publisher","first-page":"1510","DOI":"10.1177\/02783649211056674","volume":"40","author":"A Rosinol","year":"2021","unstructured":"Rosinol, A., et al.: Kimera: from slam to spatial perception with 3D dynamic scene graphs. Int. J. Robot. Res. 40(12\u201314), 1510\u20131546 (2021)","journal-title":"Int. J. Robot. Res."},{"key":"11_CR27","doi-asserted-by":"crossref","unstructured":"Tang, K., Niu, Y., Huang, J., Shi, J., Zhang, H.: Unbiased scene graph generation from biased training. In: CVPR, pp. 3716\u20133725 (2020)","DOI":"10.1109\/CVPR42600.2020.00377"},{"key":"11_CR28","doi-asserted-by":"crossref","unstructured":"Tang, K., Zhang, H., Wu, B., Luo, W., Liu, W.: Learning to compose dynamic tree structures for visual contexts. In: CVPR, pp. 6619\u20136628 (2019)","DOI":"10.1109\/CVPR.2019.00678"},{"key":"11_CR29","doi-asserted-by":"crossref","unstructured":"Wang, S., Wang, R., Yao, Z., Shan, S., Chen, X.: Cross-modal scene graph matching for relationship-aware image-text retrieval. In: WACV, pp. 1508\u20131517 (2020)","DOI":"10.1109\/WACV45572.2020.9093614"},{"key":"11_CR30","doi-asserted-by":"crossref","unstructured":"Xu, D., Zhu, Y., Choy, C.B., Fei-Fei, L.: Scene graph generation by iterative message passing. In: CVPR, pp. 5410\u20135419 (2017)","DOI":"10.1109\/CVPR.2017.330"},{"key":"11_CR31","doi-asserted-by":"crossref","unstructured":"Ye, K., Kovashka, A.: Linguistic structures as weak supervision for visual scene graph generation. In: CVPR, pp. 8289\u20138299 (2021)","DOI":"10.1109\/CVPR46437.2021.00819"},{"key":"11_CR32","doi-asserted-by":"crossref","unstructured":"Yu, J., Chai, Y., Wang, Y., Hu, Y., Wu, Q.: Cogtree: cognition tree loss for unbiased scene graph generation. In: IJCAI, pp. 1274\u20131280 (2021)","DOI":"10.24963\/ijcai.2021\/176"},{"key":"11_CR33","doi-asserted-by":"crossref","unstructured":"Yu, Q., Li, J., Wu, Y., Tang, S., Ji, W., Zhuang, Y.: Visually-prompted language model for fine-grained scene graph generation in an open world. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01971"},{"key":"11_CR34","doi-asserted-by":"crossref","unstructured":"Zellers, R., Yatskar, M., Thomson, S., Choi, Y.: Neural motifs: scene graph parsing with global context. In: CVPR, pp. 5831\u20135840 (2018)","DOI":"10.1109\/CVPR.2018.00611"},{"key":"11_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, A., et al.: Fine-grained scene graph generation with data transfer. In: ECCV, pp. 409\u2013424. Springer, Cham (2022)","DOI":"10.1007\/978-3-031-19812-0_24"},{"key":"11_CR36","doi-asserted-by":"crossref","unstructured":"Zhang, H., Kyaw, Z., Yu, J., Chang, S.F.: PPR-FCN: weakly supervised visual relation detection via parallel pairwise R-FCN. In: ICCV, pp. 4233\u20134241 (2017)","DOI":"10.1109\/ICCV.2017.454"},{"key":"11_CR37","doi-asserted-by":"crossref","unstructured":"Zhang, J., Shih, K.J., Elgammal, A., Tao, A., Catanzaro, B.: Graphical contrastive losses for scene graph parsing. In: CVPR, pp. 11535\u201311543 (2019)","DOI":"10.1109\/CVPR.2019.01180"},{"key":"11_CR38","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Pan, Y., Yao, T., Huang, R., Mei, T., Chen, C.W.: Learning to generate language-supervised and open-vocabulary scene graph using pre-trained visual-semantic space. In: CVPR, pp. 2915\u20132924 (2023)","DOI":"10.1109\/CVPR52729.2023.00285"},{"key":"11_CR39","doi-asserted-by":"crossref","unstructured":"Zhao, X., Schulter, S., Sharma, G., Tsai, Y.H., Chandraker, M., Wu, Y.: Object detection with a unified label space from multiple datasets. In: ECCV, pp. 178\u2013193 (2020)","DOI":"10.1007\/978-3-030-58568-6_11"},{"key":"11_CR40","doi-asserted-by":"crossref","unstructured":"Zheng, C., Lyu, X., Gao, L., Dai, B., Song, J.: Prototype-based embedding network for scene graph generation. In: CVPR, pp. 22783\u201322792 (2023)","DOI":"10.1109\/CVPR52729.2023.02182"},{"key":"11_CR41","doi-asserted-by":"crossref","unstructured":"Zhou, X., Girdhar, R., Joulin, A., Kr\u00e4henb\u00fchl, P., Misra, I.: Detecting twenty-thousand classes using image-level supervision. In: ECCV, pp. 350\u2013368 (2022)","DOI":"10.1007\/978-3-031-20077-9_21"},{"key":"11_CR42","unstructured":"Zhou, X., Koltun, V., Kr\u00e4henb\u00fchl, P.: Probabilistic two-stage detection. arXiv preprint arXiv:2103.07461 (2021)"},{"key":"11_CR43","unstructured":"Zhu, G., et al.: Scene graph generation: a comprehensive survey. arXiv preprint arXiv:2201.00443 (2022)"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2064-7_11","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T20:03:21Z","timestamp":1735329801000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2064-7_11"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,28]]},"ISBN":["9789819620630","9789819620647"],"references-count":43,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2064-7_11","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,28]]},"assertion":[{"value":"28 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Nara","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 January 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 January 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/mmm2025.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}