{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T20:49:06Z","timestamp":1743022146827,"version":"3.40.3"},"publisher-location":"Cham","reference-count":41,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783030695408"},{"type":"electronic","value":"9783030695415"}],"license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021]]},"DOI":"10.1007\/978-3-030-69541-5_33","type":"book-chapter","created":{"date-parts":[[2021,2,25]],"date-time":"2021-02-25T11:03:47Z","timestamp":1614251027000},"page":"547-561","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Discovering Multi-label Actor-Action Association in a Weakly Supervised Setting"],"prefix":"10.1007","author":[{"given":"Sovan","family":"Biswas","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Juergen","family":"Gall","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,2,26]]},"reference":[{"key":"33_CR1","doi-asserted-by":"crossref","unstructured":"Gkioxari, G., Malik, J.: Finding action tubes. In: CVPR, pp. 759\u2013768 (2015)","DOI":"10.1109\/CVPR.2015.7298676"},{"key":"33_CR2","doi-asserted-by":"crossref","unstructured":"Hou, R., Chen, C., Shah, M.: Tube convolutional neural network (T-CNN) for action detection in videos. In: ICCV, pp. 5822\u20135831 (2017)","DOI":"10.1109\/ICCV.2017.620"},{"key":"33_CR3","doi-asserted-by":"crossref","unstructured":"Kalogeiton, V., Weinzaepfel, P., Ferrari, V., Schmid, C.: Action tubelet detector for spatio-temporal action localization. In: ICCV, pp. 4415\u20134423 (2017)","DOI":"10.1109\/ICCV.2017.472"},{"key":"33_CR4","doi-asserted-by":"crossref","unstructured":"Singh, G., Saha, S., Sapienza, M., Torr, P., Cuzzolin, F.: Online real-time multiple spatiotemporal action localisation and prediction. In: ICCV, pp. 3657\u20133666 (2017)","DOI":"10.1109\/ICCV.2017.393"},{"key":"33_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/978-3-030-01252-6_20","volume-title":"Computer Vision \u2013 ECCV 2018","author":"C Sun","year":"2018","unstructured":"Sun, C., Shrivastava, A., Vondrick, C., Murphy, K., Sukthankar, R., Schmid, C.: Actor-centric relation network. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11215, pp. 335\u2013351. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01252-6_20"},{"key":"33_CR6","doi-asserted-by":"crossref","unstructured":"Sun, C., Shrivastava, A., Vondrick, C., Sukthankar, R., Murphy, K., Schmid, C.: Relational action forecasting. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00036"},{"key":"33_CR7","doi-asserted-by":"crossref","unstructured":"Biswas, S., Souri, Y., Gall, J.: Hierarchical graph-RNNs for action detection of multiple activities. In: ICIP (2019)","DOI":"10.1109\/ICIP.2019.8803650"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"Girdhar, R., Carreira, J., Doersch, C., Zisserman, A.: Video action transformer network. In: CVPR, pp. 244\u2013253 (2019)","DOI":"10.1109\/CVPR.2019.00033"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Wu, C.Y., Feichtenhofer, C., Fan, H., He, K., Krahenbuhl, P., Girshick, R.: Long-term feature banks for detailed video understanding. In: CVPR, pp. 284\u2013293 (2019)","DOI":"10.1109\/CVPR.2019.00037"},{"key":"33_CR10","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Fan, H., Malik, J., He, K.: SlowFast networks for video recognition. In: ICCV, pp. 6202\u20136211 (2019)","DOI":"10.1109\/ICCV.2019.00630"},{"key":"33_CR11","doi-asserted-by":"crossref","unstructured":"Mettes, P., Snoek, C.G., Chang, S.F.: Localizing actions from video labels and pseudo-annotations. In: BMVC (2017)","DOI":"10.5244\/C.31.22"},{"key":"33_CR12","doi-asserted-by":"crossref","unstructured":"Soomro, K., Shah, M.: Unsupervised action discovery and localization in videos. In: ICCV, pp. 696\u2013705 (2017)","DOI":"10.1109\/ICCV.2017.82"},{"key":"33_CR13","unstructured":"Ch\u00e9ron, G., Alayrac, J.B., Laptev, I., Schmid, C.: A flexible model for training action localization with varying levels of supervision. In: NIPS, pp. 942\u2013953 (2018)"},{"key":"33_CR14","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: UCF101: a dataset of 101 human actions classes from videos in the wild (2012)"},{"key":"33_CR15","doi-asserted-by":"crossref","unstructured":"Jhuang, H., Gall, J., Zuffi, S., Schmid, C., Black, M.J.: Towards understanding action recognition. In: ICCV, pp. 3192\u20133199 (2013)","DOI":"10.1109\/ICCV.2013.396"},{"key":"33_CR16","doi-asserted-by":"crossref","unstructured":"Zhou, Z.H., Zhang, M.L.: Multi-instance multi-label learning with application to scene classification. In: NIPS, pp. 1609\u20131616 (2006)","DOI":"10.7551\/mitpress\/7503.003.0206"},{"key":"33_CR17","doi-asserted-by":"publisher","first-page":"2291","DOI":"10.1016\/j.artint.2011.10.002","volume":"176","author":"ZH Zhou","year":"2012","unstructured":"Zhou, Z.H., Zhang, M.L., Huang, S.J., Li, Y.F.: Multi-instance multi-label learning. Artif. Intell. 176, 2291\u20132320 (2012)","journal-title":"Artif. Intell."},{"key":"33_CR18","doi-asserted-by":"crossref","unstructured":"Yang, H., Tianyi Zhou, J., Cai, J., Soon Ong, Y.: MIML-FCN+: multi-instance multi-label learning via fully convolutional networks with privileged information. In: CVPR, pp. 1577\u20131585 (2017)","DOI":"10.1109\/CVPR.2017.635"},{"key":"33_CR19","doi-asserted-by":"crossref","unstructured":"Gu, C., et al.: AVA: a video dataset of spatio-temporally localized atomic visual actions. In: CVPR, pp. 6047\u20136056 (2018)","DOI":"10.1109\/CVPR.2018.00633"},{"key":"33_CR20","doi-asserted-by":"crossref","unstructured":"Song, L., Zhang, S., Yu, G., Sun, H.: TACNet: transition-aware context network for spatio-temporal action detection. In: CVPR, pp. 11987\u201311995 (2019)","DOI":"10.1109\/CVPR.2019.01226"},{"key":"33_CR21","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C.: X3D: expanding architectures for efficient video recognition. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"33_CR22","doi-asserted-by":"crossref","unstructured":"Ji, J., Krishna, R., Fei-Fei, L., Niebles, J.C.: Action genome: actions as compositions of spatio-temporal scene graphs. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01025"},{"key":"33_CR23","unstructured":"Weinzaepfel, P., Martin, X., Schmid, C.: Towards weakly-supervised action localization. arXiv preprint arXiv:1605.05197 (2016)"},{"key":"33_CR24","doi-asserted-by":"crossref","unstructured":"Siva, P., Xiang, T.: Weakly supervised action detection. In: BMVC, p. 6 (2011)","DOI":"10.5244\/C.25.65"},{"key":"33_CR25","unstructured":"Mettes, P., Snoek, C.G.: Spatio-temporal instance learning: action tubes from class supervision. arXiv preprint arXiv:1807.02800 (2018)"},{"key":"33_CR26","doi-asserted-by":"crossref","unstructured":"Ghadiyaram, D., Tran, D., Mahajan, D.: Large-scale weakly-supervised pre-training for video action recognition. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.01232"},{"key":"33_CR27","doi-asserted-by":"crossref","unstructured":"Bojanowski, P., Bach, F., Laptev, I., Ponce, J., Schmid, C., Sivic, J.: Finding actors and actions in movies. In: ICCV, pp. 2280\u20132287 (2013)","DOI":"10.1109\/ICCV.2013.283"},{"key":"33_CR28","doi-asserted-by":"crossref","unstructured":"Laptev, I., Marszalek, M., Schmid, C., Rozenfeld, B.: Learning realistic human actions from movies. In: CVPR, pp. 1\u20138 (2008)","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"33_CR29","doi-asserted-by":"publisher","first-page":"765","DOI":"10.1109\/TPAMI.2018.2884469","volume":"42","author":"H Kuehne","year":"2018","unstructured":"Kuehne, H., Richard, A., Gall, J.: A hybrid RNN-HMM approach for weakly supervised temporal action segmentation. PAMI 42, 765\u2013779 (2018)","journal-title":"PAMI"},{"key":"33_CR30","doi-asserted-by":"crossref","unstructured":"Richard, A., Kuehne, H., Gall, J.: Action sets: weakly supervised action segmentation without ordering constraints. In: CVPR, pp. 5987\u20135996 (2018)","DOI":"10.1109\/CVPR.2018.00627"},{"key":"33_CR31","doi-asserted-by":"crossref","unstructured":"Ramanathan, V., Huang, J., Abu-El-Haija, S., Gorban, A., Murphy, K., Fei-Fei, L.: Detecting events and key actors in multi-person videos. In: CVPR, pp. 3043\u20133053 (2016)","DOI":"10.1109\/CVPR.2016.332"},{"key":"33_CR32","doi-asserted-by":"crossref","unstructured":"Li, J., Liu, J., Yongkang, W., Nishimura, S., Kankanhalli, M.: Weakly-supervised multi-person action recognition in 360$$^{\\circ }$$ videos. In: WACV (2020)","DOI":"10.1109\/WACV45572.2020.9093283"},{"key":"33_CR33","unstructured":"Nguyen, C.T., Zhan, D.C., Zhou, Z.H.: Multi-modal image annotation with multi-instance multi-label LDA. In: IJCAI (2013)"},{"key":"33_CR34","doi-asserted-by":"crossref","unstructured":"Nguyen, N.: A new SVM approach to multi-instance multi-label learning. In: ICDM, pp. 384\u2013392 (2010)","DOI":"10.1109\/ICDM.2010.109"},{"key":"33_CR35","doi-asserted-by":"crossref","unstructured":"Briggs, F., Fern, X.Z., Raich, R.: Rank-loss support instance machines for MIML instance annotation. In: SIGKDD, pp. 534\u2013542 (2012)","DOI":"10.1145\/2339530.2339616"},{"key":"33_CR36","unstructured":"Zha, Z.J., Hua, X.S., Mei, T., Wang, J., Qi, G.J., Wang, Z.: Joint multi-label multi-instance learning for image classification. In: CVPR, pp. 1\u20138 (2008)"},{"key":"33_CR37","doi-asserted-by":"crossref","unstructured":"Zhang, X.Y., Shi, H., Li, C., Li, P.: Multi-instance multi-label action recognition and localization based on spatio-temporal pre-trimming for untrimmed videos. In: AAAI, pp. 12886\u201312893 (2020)","DOI":"10.1609\/aaai.v34i07.6986"},{"key":"33_CR38","doi-asserted-by":"crossref","unstructured":"Xie, S., Girshick, R., Doll\u00e1r, P., Tu, Z., He, K.: Aggregated residual transformations for deep neural networks. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.634"},{"key":"33_CR39","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo Vadis, action recognition? A new model and the kinetics dataset. In: CVPR, pp. 4724\u20134733 (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"33_CR40","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"48","DOI":"10.1007\/978-3-319-10590-1_4","volume-title":"Computer Vision \u2013 ECCV 2014","author":"J Deng","year":"2014","unstructured":"Deng, J., et al.: Large-scale object classification using label relation graphs. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8689, pp. 48\u201364. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10590-1_4"},{"key":"33_CR41","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. In: NIPS, pp. 91\u201399 (2015)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2020"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-69541-5_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,10,21]],"date-time":"2023-10-21T23:23:27Z","timestamp":1697930607000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-030-69541-5_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"ISBN":["9783030695408","9783030695415"],"references-count":41,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-69541-5_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2021]]},"assertion":[{"value":"26 February 2021","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asian Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Kyoto","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2020","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 November 2020","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 December 2020","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"accv2020","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/accv2020.kyoto\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Microsoft CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"768","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"254","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"33% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"The conference was held virtually.","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}