{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,7,25]],"date-time":"2024-07-25T21:12:40Z","timestamp":1721941960516},"reference-count":101,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2019,10,28]],"date-time":"2019-10-28T00:00:00Z","timestamp":1572220800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,10,28]],"date-time":"2019-10-28T00:00:00Z","timestamp":1572220800000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2020,5]]},"DOI":"10.1007\/s11263-019-01244-7","type":"journal-article","created":{"date-parts":[[2019,10,28]],"date-time":"2019-10-28T03:04:21Z","timestamp":1572231861000},"page":"1414-1432","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["A Weakly Supervised Multi-task Ranking Framework for Actor\u2013Action Semantic Segmentation"],"prefix":"10.1007","volume":"128","author":[{"given":"Yan","family":"Yan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chenliang","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dawen","family":"Cai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jason J.","family":"Corso","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2019,10,28]]},"reference":[{"key":"1244_CR1","unstructured":"Abu-El-Haija, S., Kothari, N., Lee, J., Natsev, P., Toderici, G., Varadarajan, B., & Vijayanarasimhan, S. (2016). Youtube-8m: A large-scale video classification benchmark. Technical report. Preprint arXiv:1609.08675 ."},{"key":"1244_CR2","doi-asserted-by":"crossref","unstructured":"Amini, M. R., Truong, T. V., & Goutte, C. (2008). A boosting algorithm for learning bipartite ranking functions with partially labeled data. In SIGIR.","DOI":"10.1145\/1390334.1390354"},{"key":"1244_CR3","doi-asserted-by":"crossref","unstructured":"Argyriou, A., Evgeniou, T., & Pontil, M. (2007). Multi-task feature learning. In NIPS.","DOI":"10.7551\/mitpress\/7503.003.0010"},{"key":"1244_CR4","doi-asserted-by":"crossref","unstructured":"Bojanowski, P., Lajugie, R., Bach, F., Laptev, I., Ponce, J., Schmid, C., & Sivic, J. (2014). Weakly supervised action labeling in videos under ordering constraints. In ECCV.","DOI":"10.1007\/978-3-319-10602-1_41"},{"key":"1244_CR5","doi-asserted-by":"crossref","unstructured":"Brendel, W., & Todorovic, S. (2009). Video object segmentation by tracking regions. In ICCV.","DOI":"10.1109\/ICCV.2009.5459242"},{"key":"1244_CR6","doi-asserted-by":"crossref","unstructured":"Brox, T., & Malik, J. (2010). Object segmentation by long term analysis of point trajectories. In ECCV.","DOI":"10.1007\/978-3-642-15555-0_21"},{"key":"1244_CR7","doi-asserted-by":"crossref","unstructured":"Caba Heilbron, F., Escorcia, V., Ghanem, B., & Carlos\u00a0Niebles, J. (2015). Activitynet: A large-scale video benchmark for human activity understanding. In CVPR.","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"1244_CR8","doi-asserted-by":"crossref","unstructured":"Cao, Y., Xu, J., Liu, T. Y., Li, H., Huang, Y., & Hon, H. W. (2006). Adapting ranking SVM to document retrieval. In SIGIR.","DOI":"10.1145\/1148170.1148205"},{"key":"1244_CR9","doi-asserted-by":"crossref","unstructured":"Chao, Y. W., Wang, Z., Mihalcea, R., & Deng, J. (2015). Mining semantic affordances of visual object categories. In CVPR.","DOI":"10.1109\/CVPR.2015.7299054"},{"key":"1244_CR10","doi-asserted-by":"crossref","unstructured":"Chen, J., Zhou, J., & Ye, J. (2011). Integrating low-rank and group-sparse structures for robust multi-task learning. In ACM SIGKDD conferences on knowledge discovery and data mining.","DOI":"10.1145\/2020408.2020423"},{"key":"1244_CR11","doi-asserted-by":"crossref","unstructured":"Chen, W., & Corso, J. J. (2015). Action detection by implicit intentional motion clustering. In ICCV.","DOI":"10.1109\/ICCV.2015.377"},{"key":"1244_CR12","doi-asserted-by":"crossref","unstructured":"Chiu, W. C., & Fritz, M. (2013). Multi-class video co-segmentation with a generative multi-video model. In CVPR.","DOI":"10.1109\/CVPR.2013.48"},{"key":"1244_CR13","doi-asserted-by":"publisher","first-page":"629","DOI":"10.1109\/TMI.2007.912817","volume":"27","author":"JJ Corso","year":"2008","unstructured":"Corso, J. J., Sharon, E., Dube, S., El-Saden, S., Sinha, U., & Yuille, A. (2008). Efficient multilevel brain tumor segmentation with integrated Bayesian model classification. IEEE Transactions on Medical Imaging, 27, 629\u2013640.","journal-title":"IEEE Transactions on Medical Imaging"},{"key":"1244_CR14","unstructured":"Dang, K., Zhou, C., Tu, Z., Hoy, M., Dauwels, J., & Yuan, J. (2018). Actor action semantic segmentation with region masks. In BMVC."},{"issue":"1","key":"1244_CR15","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s11263-011-0437-z","volume":"96","author":"A Delong","year":"2012","unstructured":"Delong, A., Osokin, A., Isack, H. N., & Boykov, Y. (2012). Fast approximate energy minimization with label costs. International Journal of Computer Vision, 96(1), 1\u201327.","journal-title":"International Journal of Computer Vision"},{"issue":"3","key":"1244_CR16","doi-asserted-by":"publisher","first-page":"275","DOI":"10.1007\/s11263-012-0538-3","volume":"100","author":"T Deselaers","year":"2012","unstructured":"Deselaers, T., Alexe, B., & Ferrari, V. (2012). Weakly supervised localization and learning with generic knowledge. International Journal of Computer Vision, 100(3), 275\u2013293.","journal-title":"International Journal of Computer Vision"},{"key":"1244_CR17","volume-title":"Constrained optimization and lagrange multiplier methods","author":"B Dp","year":"1996","unstructured":"Dp, B. (1996). Constrained optimization and lagrange multiplier methods. Belmont: Athena Scientific."},{"key":"1244_CR18","doi-asserted-by":"crossref","unstructured":"Evgeniou, T., & Pontil, M. (2004). Regularized multi-task learning. In KDD.","DOI":"10.1145\/1014052.1014067"},{"issue":"2","key":"1244_CR19","doi-asserted-by":"publisher","first-page":"167","DOI":"10.1023\/B:VISI.0000022288.19776.77","volume":"59","author":"PF Felzenszwalb","year":"2004","unstructured":"Felzenszwalb, P. F., & Huttenlocher, D. P. (2004). Efficient graph-based image segmentation. International Journal of Computer Vision, 59(2), 167\u2013181.","journal-title":"International Journal of Computer Vision"},{"key":"1244_CR20","doi-asserted-by":"crossref","unstructured":"Fu, H., Xu, D., Zhang, B., & Lin, S. (2014). Object-based multiple foreground video co-segmentation. In CVPR.","DOI":"10.1109\/CVPR.2014.405"},{"key":"1244_CR21","doi-asserted-by":"crossref","unstructured":"Fulkerson, B., Vedaldi, A., & Soatto, S. (2009). Class segmentation and object localization with superpixel neighborhoods. In ICCV.","DOI":"10.1109\/ICCV.2009.5459175"},{"issue":"1","key":"1244_CR22","doi-asserted-by":"publisher","first-page":"17","DOI":"10.1016\/0898-1221(76)90003-1","volume":"2","author":"D Gabay","year":"1976","unstructured":"Gabay, D., & Mercier, B. (1976). A dual algorithm for the solution of nonlinear variational problems via finite element approximation. Computers and Mathematics with Applications, 2(1), 17\u201340.","journal-title":"Computers and Mathematics with Applications"},{"key":"1244_CR23","unstructured":"Galasso, F., Cipolla, R., & Schiele, B. (2012). Video segmentation with superpixels. In Asian conference on computer vision."},{"key":"1244_CR24","doi-asserted-by":"crossref","unstructured":"Gavrilyuk, K., Ghodrati, A., Li, Z., & Snoek, C. G. (2018). Actor and action video segmentation from a sentence. In CVPR.","DOI":"10.1109\/CVPR.2018.00624"},{"key":"1244_CR25","doi-asserted-by":"crossref","unstructured":"Geest, R. D., Gavves, E., Ghodrati, A., Li, Z., Snoek, C., & Tuytelaars, T. (2016). Online action detection. In ECCV.","DOI":"10.1007\/978-3-319-46454-1_17"},{"issue":"1","key":"1244_CR26","doi-asserted-by":"publisher","first-page":"142","DOI":"10.1109\/TPAMI.2015.2437384","volume":"38","author":"R Girshick","year":"2016","unstructured":"Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2016). Region-based convolutional networks for accurate object detection and segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(1), 142\u2013158.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1244_CR27","doi-asserted-by":"crossref","unstructured":"Grundmann, M., Kwatra, V., Han, M., & Essa, I. (2010). Efficient hierarchical graph-based video segmentation. In CVPR.","DOI":"10.1109\/CVPR.2010.5539893"},{"key":"1244_CR28","doi-asserted-by":"crossref","unstructured":"Guo, J., Li, Z., Cheong, L. F., & Zhou, S. Z. (2013). Video co-segmentation for meaningful action extraction. In ICCV.","DOI":"10.1109\/ICCV.2013.278"},{"issue":"10","key":"1244_CR29","doi-asserted-by":"publisher","first-page":"1775","DOI":"10.1109\/TPAMI.2009.83","volume":"31","author":"A Gupta","year":"2009","unstructured":"Gupta, A., Kembhavi, A., & Davis, L. S. (2009). Observing human\u2013object interactions: Using spatial and functional compatibility for recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(10), 1775\u20131789.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1244_CR30","unstructured":"Hartmann, G., Grundmann, M., Hoffman, J., Tsai, D., Kwatra, V., Madani, O., et al. (2012). Weakly supervised learning of object segmentations from web-scale video. In ECCV workshops (pp. 198\u2013208). Berlin: Springer."},{"key":"1244_CR31","doi-asserted-by":"crossref","unstructured":"Iwashita, Y., Takamine, A., Kurazume, R., & Ryoo, M. S. (2014). First-person animal activity recognition from egocentric videos. In IEEE international conference on pattern recognition.","DOI":"10.1109\/ICPR.2014.739"},{"key":"1244_CR32","unstructured":"Jacob, L., Bach, F., & Vert, J. (2008). Clustered multi-task learning: A convex formulation. In NIPS."},{"key":"1244_CR33","doi-asserted-by":"crossref","unstructured":"Jain, M., Van\u00a0Gemert, J., J\u00e9gou, H., Bouthemy, P., & Snoek, C., et\u00a0al. (2014). Action localization with tubelets from motion. In CVPR.","DOI":"10.1109\/CVPR.2014.100"},{"key":"1244_CR34","doi-asserted-by":"crossref","unstructured":"Jain, S., & Grauman, K. (2014). Supervoxel-consistent foreground propagation in video. In ECCV.","DOI":"10.1007\/978-3-319-10593-2_43"},{"key":"1244_CR35","unstructured":"Jalali, A., Ravikumar, P., Sanghavi, S., & Ruan, C. (2010). A dirty model for multi-task learning. In NIPS."},{"key":"1244_CR36","doi-asserted-by":"crossref","unstructured":"Ji, J., Buch, S., Soto, A., & Niebles, J. C. (2018). End-to-end joint semantic segmentation of actors and actions in video. In ECCV.","DOI":"10.1007\/978-3-030-01225-0_43"},{"key":"1244_CR37","doi-asserted-by":"crossref","unstructured":"Joachims, T. (2006). Training linear SVMs in linear time. In ACM SIGKDD conferences on knowledge discovery and data mining.","DOI":"10.1145\/1150402.1150429"},{"key":"1244_CR38","doi-asserted-by":"crossref","unstructured":"Joulin, A., Tang, K., & Fei-Fei, L. (2014). Efficient image and video co-localization with Frank\u2013Wolfe algorithm. In ECCV.","DOI":"10.1007\/978-3-319-10599-4_17"},{"key":"1244_CR39","doi-asserted-by":"crossref","unstructured":"Kalogeiton, V., Weinzaepfel, P., Ferrari, V., & Schmid, C. (2017). Joint learning of object and action detectors. In ICCV.","DOI":"10.1109\/ICCV.2017.219"},{"key":"1244_CR40","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large-scale video classification with convolutional neural networks. In CVPR.","DOI":"10.1109\/CVPR.2014.223"},{"key":"1244_CR41","unstructured":"Kr\u00e4henb\u00fchl, P., & Keltun, V. (2011a). Efficient inference in fully connected CRFs with Gaussian edge potentials. In NIPS."},{"key":"1244_CR42","unstructured":"Kr\u00e4henb\u00fchl, P., & Koltun, V. (2011b). Efficient inference in fully connected CRFs with Gaussian edge potentials. In NIPS."},{"key":"1244_CR43","doi-asserted-by":"crossref","unstructured":"Kumar, M., Torr, P., & Zisserman, A. (2005). Learning layered motion segmentations of video. In ICCV.","DOI":"10.1109\/ICCV.2005.138"},{"key":"1244_CR44","doi-asserted-by":"crossref","unstructured":"Kundu, A., Vineet, V., & Koltun, V. (2016). Feature space optimization for semantic video segmentation. In CVPR.","DOI":"10.1109\/CVPR.2016.345"},{"issue":"6","key":"1244_CR45","doi-asserted-by":"publisher","first-page":"1056","DOI":"10.1109\/TPAMI.2013.165","volume":"36","author":"L Ladicky","year":"2014","unstructured":"Ladicky, L., Russell, C., Kohli, P., & Torr, P. (2014). Associative hierarchical random fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(6), 1056\u20131077.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1244_CR46","doi-asserted-by":"crossref","unstructured":"Laptev, I., Marszalek, M., Schmid, C., & Rozenfeld, B. (2008). Learning realistic human actions from movies. In CVPR.","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"1244_CR47","doi-asserted-by":"crossref","unstructured":"Lea, C., Reiter, A., Vidal, R., & Hager, G.D. (2016). Segmental spatiotemporal CNNs for fine-grained action segmentation. In ECCV.","DOI":"10.1007\/978-3-319-46487-9_3"},{"key":"1244_CR48","doi-asserted-by":"crossref","unstructured":"Lezama, J., Alahari, K., Josef, S., & Laptev, I. (2011). Track to the future: Spatio-temporal video segmentation with long-range motion cues. In CVPR.","DOI":"10.1109\/CVPR.2011.6044588"},{"key":"1244_CR49","doi-asserted-by":"crossref","unstructured":"Lin, G., Shen, C., van\u00a0den Hengel, A., & Reid, I. (2016). Efficient piecewise training of deep structured models for semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2016.348"},{"key":"1244_CR50","doi-asserted-by":"crossref","unstructured":"Liu, B., & He, X. (2015). Multiclass semantic video segmentation with object-level active inference. In CVPR.","DOI":"10.1109\/CVPR.2015.7299057"},{"issue":"3","key":"1244_CR51","doi-asserted-by":"publisher","first-page":"225","DOI":"10.1561\/1500000016","volume":"3","author":"TY Liu","year":"2009","unstructured":"Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends in Information Retrieval, 3(3), 225\u2013331.","journal-title":"Foundations and Trends in Information Retrieval"},{"key":"1244_CR52","doi-asserted-by":"crossref","unstructured":"Liu, X., Tao, D., Song, M., Ruan, Y., Chen, C., & Bu, J. (2014). Weakly supervised multiclass video segmentation. In CVPR.","DOI":"10.1109\/CVPR.2014.15"},{"key":"1244_CR53","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1244_CR54","unstructured":"Lu, J., Xu, R., & Corso, J. J. (2015). Human action segmentation with hierarchical supervoxel consistency. In CVPR."},{"issue":"2","key":"1244_CR55","first-page":"523","volume":"22","author":"Y Luo","year":"2013","unstructured":"Luo, Y., Tao, D., Geng, B., Xu, C., & Maybank, S. (2013). Manifold regularized multitask learning for semi-supervised multilabel image classification. IEEE Transactions on Transactions on Pattern Recognition and Machine Intelligence, 22(2), 523\u2013536.","journal-title":"IEEE Transactions on Transactions on Pattern Recognition and Machine Intelligence"},{"key":"1244_CR56","doi-asserted-by":"crossref","unstructured":"Mettes, P., van Gemert, J. C., & Snoek, C. G. (2016). Spot on: Action localization from pointly-supervised proposals. In ECCV.","DOI":"10.1007\/978-3-319-46454-1_27"},{"key":"1244_CR57","unstructured":"Mosabbeb, E. A., Cabral, R., De\u00a0la Torre, F., & Fathy, M. (2014). Multi-label discriminative weakly-supervised human activity recognition and localization. In Asian conference on computer vision."},{"key":"1244_CR58","doi-asserted-by":"crossref","unstructured":"Parikh, N., & Boyd, S. (2013). Proximal algorithms. Foundations and Trends $${}^{\\textregistered }$$ in Optimization, 1(3), 127\u2013239.","DOI":"10.1561\/2400000003"},{"key":"1244_CR59","doi-asserted-by":"crossref","unstructured":"Paris, S. (2008). Edge-preserving smoothing and mean-shift segmentation of video streams. In ECCV.","DOI":"10.1007\/978-3-540-88688-4_34"},{"key":"1244_CR60","doi-asserted-by":"crossref","unstructured":"Peng, X., & Schmid, C. (2016). Multi-region two-stream R-CNN for action detection. In ECCV.","DOI":"10.1007\/978-3-319-46493-0_45"},{"key":"1244_CR61","doi-asserted-by":"crossref","unstructured":"Pinto, L., Gandhi, D., Han, Y., Park, Y. L., & Gupta, A. (2016). The curious robot: Learning visual representations via physical interactions. In ECCV.","DOI":"10.1007\/978-3-319-46475-6_1"},{"key":"1244_CR62","doi-asserted-by":"crossref","unstructured":"Prest, A., Leistner, C., Civera, J., Schmid, C., & Ferrari, V. (2012). Learning object class detectors from weakly annotated video. In CVPR.","DOI":"10.1109\/CVPR.2012.6248065"},{"key":"1244_CR63","doi-asserted-by":"crossref","unstructured":"Rodriguez, M., Ahmed, J., & Shah, M. (2008). Action mach a spatio-temporal maximum average correlation height filter for action recognition. In CVPR.","DOI":"10.1109\/CVPR.2008.4587727"},{"key":"1244_CR64","doi-asserted-by":"crossref","unstructured":"Ryoo, M. S., & Aggarwal, J. K. (2009). Spatio-temporal relationship match: Video structure comparison for recognition of complex human activities. In ICCV.","DOI":"10.1109\/ICCV.2009.5459361"},{"key":"1244_CR65","doi-asserted-by":"crossref","unstructured":"Salakhutdinov, R., Torralba, A., & Tenenbaum, J. (2011). Learning to share visual appearance for multiclass object detection. In CVPR.","DOI":"10.1109\/CVPR.2011.5995720"},{"key":"1244_CR66","doi-asserted-by":"crossref","unstructured":"Schuldt, C., Laptev, I., & Caputo, B. (2004). Recognizing human actions: A local SVM approach. In IEEE international conference on pattern recognition.","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"1244_CR67","doi-asserted-by":"crossref","unstructured":"Sculley, D. (2010). Combined regression and ranking. In KDD.","DOI":"10.1145\/1835804.1835928"},{"key":"1244_CR68","doi-asserted-by":"crossref","unstructured":"Shou, Z., Wang, D., & Chang, S. F. (2016). Temporal action localization in untrimmed videos via multi-stage CNNs. In CVPR.","DOI":"10.1109\/CVPR.2016.119"},{"key":"1244_CR69","unstructured":"Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In NIPS."},{"key":"1244_CR70","unstructured":"Song, Y. C., Naim, I., Al\u00a0Mamun, A., Kulkarni, K., Singla, P., Luo, J., Gildea, D., & Kautz, H. (2016). Unsupervised alignment of actions in video with text descriptions. In International joint conference on artificial intelligence."},{"key":"1244_CR71","doi-asserted-by":"crossref","unstructured":"Soomro, K., Idrees, H., & Shah, M. (2016). Predicting the where and what of actors and actions through online action localization. In CVPR.","DOI":"10.1109\/CVPR.2016.290"},{"key":"1244_CR72","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with convolutions. In CVPR.","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"1244_CR73","doi-asserted-by":"crossref","unstructured":"Tang, K., Joulin, A., Li, L. J., & Fei-Fei, L. (2014). Co-localization in real-world images. In CVPR.","DOI":"10.1109\/CVPR.2014.190"},{"key":"1244_CR74","doi-asserted-by":"crossref","unstructured":"Tang, K., Sukthankar, R., Yagnik, J., & Fei-Fei, L. (2013). Discriminative segment annotation in weakly labeled video. In CVPR.","DOI":"10.1109\/CVPR.2013.321"},{"key":"1244_CR75","doi-asserted-by":"crossref","unstructured":"Tian, Y., Sukthankar, R., & Shah, M. (2013). Spatiotemporal deformable part models for action detection. In CVPR.","DOI":"10.1109\/CVPR.2013.341"},{"issue":"1","key":"1244_CR76","doi-asserted-by":"crossref","first-page":"267","DOI":"10.1111\/j.2517-6161.1996.tb02080.x","volume":"58","author":"R Tibshirani","year":"1996","unstructured":"Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, 58(1), 267\u2013288.","journal-title":"Journal of the Royal Statistical Society"},{"key":"1244_CR77","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning spatiotemporal features with 3D convolutional networks. In ICCV.","DOI":"10.1109\/ICCV.2015.510"},{"key":"1244_CR78","doi-asserted-by":"crossref","unstructured":"Tsai, Y. H., Zhong, G., Yang, M. H. (2016). Semantic co-segmentation in videos. In ECCV.","DOI":"10.1007\/978-3-319-46493-0_46"},{"key":"1244_CR79","doi-asserted-by":"crossref","unstructured":"Wang, H., & Schmid, C. (2013). Action recognition with improved trajectories. In ICCV.","DOI":"10.1109\/ICCV.2013.441"},{"key":"1244_CR80","doi-asserted-by":"crossref","unstructured":"Wang, L., Hua, G., Sukthankar, R., Xue, J., & Zheng, N. (2014). Video object discovery and co-segmentation with extremely weak supervision. In ECCV.","DOI":"10.1007\/978-3-319-10593-2_42"},{"key":"1244_CR81","doi-asserted-by":"crossref","unstructured":"Xiong, C., & Corso, J. J. (2012). Coaction discovery: Segmentation of common actions across multiple videos. In ACM international workshop on multimedia data mining.","DOI":"10.1145\/2343862.2343865"},{"key":"1244_CR82","unstructured":"Xu, C., & Corso, J. J. (2012). Evaluation of super-voxel methods for early video processing. In CVPR."},{"key":"1244_CR83","doi-asserted-by":"crossref","unstructured":"Xu, C., & Corso, J. J. (2016a). Actor\u2013action semantic segmentation with grouping process models. In CVPR.","DOI":"10.1109\/CVPR.2016.336"},{"issue":"3","key":"1244_CR84","doi-asserted-by":"publisher","first-page":"272","DOI":"10.1007\/s11263-016-0906-5","volume":"119","author":"C Xu","year":"2016","unstructured":"Xu, C., & Corso, J. J. (2016b). LIBSVX: A supervoxel library and benchmark for early video processing. International Journal of Computer Vision, 119(3), 272\u2013290.","journal-title":"International Journal of Computer Vision"},{"key":"1244_CR85","doi-asserted-by":"crossref","unstructured":"Xu, C., Hsieh, S. H., Xiong, C., & Corso, J. J. (2015). Can humans fly? Action understanding with multiple classes of actors. In CVPR.","DOI":"10.1109\/CVPR.2015.7298839"},{"key":"1244_CR86","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., & Rui, Y. (2016). Msr-vtt: A large video description dataset for bridging video and language. In CVPR.","DOI":"10.1109\/CVPR.2016.571"},{"key":"1244_CR87","doi-asserted-by":"crossref","unstructured":"Yan, Y., Ricci, E., Subramanian, R., Lanz, O., & Sebe, N. (2013). No matter where you are: Flexible graph-guided multi-task learning for multi-view head pose classification under target motion. In ICCV.","DOI":"10.1109\/ICCV.2013.150"},{"issue":"6","key":"1244_CR88","doi-asserted-by":"publisher","first-page":"1070","DOI":"10.1109\/TPAMI.2015.2477843","volume":"38","author":"Y Yan","year":"2016","unstructured":"Yan, Y., Ricci, E., Subramanian, R., Liu, G., Lanz, O., & Sebe, N. (2016). A multi-task learning framework for head pose estimation under target motion. IEEE Transactions on Pattern Recognition and Machine Intelligence, 38(6), 1070\u20131083.","journal-title":"IEEE Transactions on Pattern Recognition and Machine Intelligence"},{"issue":"12","key":"1244_CR89","doi-asserted-by":"publisher","first-page":"5599","DOI":"10.1109\/TIP.2014.2365699","volume":"23","author":"Y Yan","year":"2014","unstructured":"Yan, Y., Ricci, E., Subramanian, R., Liu, G., & Sebe, N. (2014). Multi-task linear discriminant analysis for multi-view action recognition. IEEE Transactions on Image Processing, 23(12), 5599\u20135611.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1244_CR90","doi-asserted-by":"crossref","unstructured":"Yan, Y., Xu, C., Cai, D., & Corso, J. J. (2017). Weakly supervised actor\u2013action segmentation via robust multi-task ranking. In CVPR.","DOI":"10.1109\/CVPR.2017.115"},{"key":"1244_CR91","doi-asserted-by":"crossref","unstructured":"Yang, Y., Li, Y., Ferm\u00fcller, C., & Aloimonos, Y. (2015). Robot learning manipulation action plans by \u201cwatching\u201d unconstrained videos from the world wide web. In AAAI conference on artificial intelligence.","DOI":"10.1609\/aaai.v29i1.9671"},{"key":"1244_CR92","doi-asserted-by":"crossref","unstructured":"Yu, S., Tresp, V., & Yu, K. (2007). Robust multi-task learning with t-processes. In ICML.","DOI":"10.1145\/1273496.1273635"},{"key":"1244_CR93","doi-asserted-by":"crossref","unstructured":"Yuan, J., Ni, B., Yang, X., & Kassim, A. A. (2016). Temporal action localization with pyramid of score distribution features. In CVPR.","DOI":"10.1109\/CVPR.2016.337"},{"key":"1244_CR94","doi-asserted-by":"crossref","unstructured":"Zhang, D., Javed, O., & Shah, M. (2014). Video object co-segmentation by regulated maximum weight cliques. In ECCV.","DOI":"10.1007\/978-3-319-10584-0_36"},{"key":"1244_CR95","doi-asserted-by":"crossref","unstructured":"Zhang, D., Yang, L., Meng, D., & Dong\u00a0Xu, J. H. (2017). Spftn: A self-paced fine-tuning network for segmenting objects in weakly labelled videos. In CVPR.","DOI":"10.1109\/CVPR.2017.567"},{"key":"1244_CR96","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Chen, X., Li, J., Wang, C., & Xia, C. (2015). Semantic object segmentation via detection in weakly labeled video. In CVPR.","DOI":"10.1109\/CVPR.2015.7298987"},{"key":"1244_CR97","unstructured":"Zhang, Y., & Yeung, D. (2010). A convex formulation for learning task relationships in multi-task learning. In Uncertainty in artificial intelligence."},{"key":"1244_CR98","doi-asserted-by":"crossref","unstructured":"Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., Huang, C., & Torr, P. (2015). Conditional random fields as recurrent neural networks. In ICCV.","DOI":"10.1109\/ICCV.2015.179"},{"key":"1244_CR99","unstructured":"Zhong, G., Tsai, Y. H., & Yang, M. H. (2016). Weakly-supervised video scene co-parsing. In ACCV."},{"key":"1244_CR100","unstructured":"Zhou, J., Chen, J., & Ye, J. (2011a). Clustered multi-task learning via alternating structure optimization. In NIPS."},{"key":"1244_CR101","unstructured":"Zhou, J., Chen, J., & Ye, J. (2011b). MALSAR: Multi-tAsk Learning via StructurAl Regularization. Arizona State University. http:\/\/www.public.asu.edu\/~jye02\/Software\/MALSAR"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01244-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-019-01244-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01244-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,7,25]],"date-time":"2024-07-25T20:50:19Z","timestamp":1721940619000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-019-01244-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,10,28]]},"references-count":101,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2020,5]]}},"alternative-id":["1244"],"URL":"https:\/\/doi.org\/10.1007\/s11263-019-01244-7","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,10,28]]},"assertion":[{"value":"27 September 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 September 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 October 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}