{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T12:49:25Z","timestamp":1780058965728,"version":"3.54.0"},"reference-count":47,"publisher":"Springer Science and Business Media LLC","issue":"1-2","license":[{"start":{"date-parts":[[2021,4,21]],"date-time":"2021-04-21T00:00:00Z","timestamp":1618963200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,4,21]],"date-time":"2021-04-21T00:00:00Z","timestamp":1618963200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["IJDAR"],"published-print":{"date-parts":[[2021,6]]},"DOI":"10.1007\/s10032-021-00366-4","type":"journal-article","created":{"date-parts":[[2021,4,21]],"date-time":"2021-04-21T23:09:04Z","timestamp":1619046544000},"page":"49-62","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":20,"title":["CNN-based segmentation of speech balloons and narrative text boxes from comic book page images"],"prefix":"10.1007","volume":"24","author":[{"given":"Arpita","family":"Dutta","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Samit","family":"Biswas","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Amit Kumar","family":"Das","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2021,4,21]]},"reference":[{"key":"366_CR1","unstructured":"BCBID: sites.google.com\/view\/banglacomicbookdataset. Accessed 8 Sept 2020"},{"key":"366_CR2","unstructured":"Christophe Rigaud|Gitlab. https:\/\/git.univ-lr.fr\/u\/crigau02. Accessed 7 Jan 2020"},{"key":"366_CR3","unstructured":"Digital Comic Museum. https:\/\/digitalcomicmuseum.com\/. Accessed 29 May 2019"},{"issue":"6","key":"366_CR4","first-page":"669","volume":"4","author":"K Arai","year":"2011","unstructured":"Arai, K., Tolle, H.: Method for real time text extraction of digital manga comic. Int. J. Image Process. IJIP 4(6), 669\u2013676 (2011)","journal-title":"Int. J. Image Process. IJIP"},{"key":"366_CR5","doi-asserted-by":"crossref","unstructured":"Augereau, O., Iwata, M., Kise, K.: An overview of comics research in computer science. In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol.\u00a03, pp. 54\u201359. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.292"},{"issue":"7","key":"366_CR6","doi-asserted-by":"publisher","first-page":"87","DOI":"10.3390\/jimaging4070087","volume":"4","author":"O Augereau","year":"2018","unstructured":"Augereau, O., Iwata, M., Kise, K.: A survey of comics research in computer science. J. Imaging 4(7), 87 (2018)","journal-title":"J. Imaging"},{"key":"366_CR7","volume-title":"Pattern Recognition and Machine Learning","author":"CM Bishop","year":"2006","unstructured":"Bishop, C.M.: Pattern Recognition and Machine Learning. Springer, New York (2006)"},{"issue":"1","key":"366_CR8","doi-asserted-by":"publisher","first-page":"160","DOI":"10.1109\/TMM.2016.2609415","volume":"19","author":"Y Cao","year":"2016","unstructured":"Cao, Y., Pang, X., Chan, A.B., Lau, R.W.: Dynamic manga: animating still manga via camera movement. IEEE Trans. Multimedia 19(1), 160\u2013172 (2016)","journal-title":"IEEE Trans. Multimedia"},{"key":"366_CR9","doi-asserted-by":"crossref","unstructured":"Chen, L.C., Zhu, Y., Papandreou, G., Schroff, F., Adam, H.: Encoder-decoder with atrous separable convolution for semantic image segmentation. In: ECCV, pp. 801\u2013818 (2018)","DOI":"10.1007\/978-3-030-01234-2_49"},{"key":"366_CR10","doi-asserted-by":"crossref","unstructured":"Dubray, D., Laubrock, J.: Deep CNN-based speech balloon detection and segmentation for comic books. arXiv preprint arXiv:1902.08137 (2019)","DOI":"10.1109\/ICDAR.2019.00200"},{"key":"366_CR11","doi-asserted-by":"crossref","unstructured":"Dubuisson, M.P., Jain, A.K.: A modified Hausdorff distance for object matching. In: Proceedings of 12th International Conference on Pattern Recognition, vol.\u00a01, pp. 566\u2013568. IEEE (1994)","DOI":"10.1109\/ICPR.1994.576361"},{"key":"366_CR12","doi-asserted-by":"publisher","DOI":"10.4324\/9781315185354","volume-title":"Empirical Comics Research: Digital, Multimodal, and Cognitive Methods","author":"A Dunst","year":"2018","unstructured":"Dunst, A., Laubrock, J., Wildfeuer, J.: Empirical Comics Research: Digital, Multimodal, and Cognitive Methods. Routledge, Milton Park (2018)"},{"key":"366_CR13","doi-asserted-by":"crossref","unstructured":"Dutta, A., Biswas, S.: CNN based extraction of panels\/characters from bengali comic book page images. In: 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), vol.\u00a01, pp. 38\u201343. IEEE (2019)","DOI":"10.1109\/ICDARW.2019.00012"},{"key":"366_CR14","unstructured":"Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F.A., Brendel, W.: Imagenet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. In: International Conference on Learning Representations (2019)"},{"key":"366_CR15","doi-asserted-by":"crossref","unstructured":"Gu\u00e9rin, C., Rigaud, C., Mercier, A., Ammar-Boudjelal, F., Bertet, K., Bouju, A., Burie, J.C., Louis, G., Ogier, J.M., Revel, A.: eBDtheque: a representative database of comics. In: ICDAR, pp. 1145\u20131149. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.232"},{"key":"366_CR16","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"366_CR17","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"366_CR18","doi-asserted-by":"crossref","unstructured":"Ho, A.K.N., Burie, J.C., Ogier, J.M.: Panel and speech balloon extraction from comic books. In: DAS, 2012, pp. 424\u2013428. IEEE (2012)","DOI":"10.1109\/DAS.2012.66"},{"issue":"9","key":"366_CR19","doi-asserted-by":"publisher","first-page":"850","DOI":"10.1109\/34.232073","volume":"15","author":"DP Huttenlocher","year":"1993","unstructured":"Huttenlocher, D.P., Klanderman, G.A., Rucklidge, W.J.: Comparing images using the Hausdorff distance. IEEE Trans. Pattern Anal. Mach. Intell. 15(9), 850\u2013863 (1993)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"4","key":"366_CR20","doi-asserted-by":"publisher","first-page":"321","DOI":"10.1007\/BF00133570","volume":"1","author":"M Kass","year":"1988","unstructured":"Kass, M., Witkin, A., Terzopoulos, D.: Snakes: active contour models. Int. J. Comput. Vis. 1(4), 321\u2013331 (1988)","journal-title":"Int. J. Comput. Vis."},{"key":"366_CR21","unstructured":"Li, L., Wang, Y., Gao, L., Tang, Z., Suen, C.Y.: Comic2cebx: a system for automatic comic content adaptation. In: IEEE\/ACM Joint Conference on Digital Libraries, pp. 299\u2013308. IEEE (2014)"},{"key":"366_CR22","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431\u20133440 (2015)","DOI":"10.1109\/CVPR.2015.7298965"},{"issue":"20","key":"366_CR23","doi-asserted-by":"publisher","first-page":"21811","DOI":"10.1007\/s11042-016-4020-z","volume":"76","author":"Y Matsui","year":"2017","unstructured":"Matsui, Y., Ito, K., Aramaki, Y., Fujimoto, A., Ogawa, T., Yamasaki, T., Aizawa, K.: Sketch-based manga retrieval using manga109 dataset. Multimedia Tools Appl. 76(20), 21811\u201321838 (2017)","journal-title":"Multimedia Tools Appl."},{"key":"366_CR24","doi-asserted-by":"crossref","unstructured":"Matsui, Y., Yamasaki, T., Aizawa, K.: Interactive manga retargeting. In: SIGGRAPH Posters, p.\u00a035 (2011)","DOI":"10.1145\/2037715.2037756"},{"issue":"7","key":"366_CR25","doi-asserted-by":"publisher","first-page":"89","DOI":"10.3390\/jimaging4070089","volume":"4","author":"NV Nguyen","year":"2018","unstructured":"Nguyen, N.V., Rigaud, C., Burie, J.C.: Digital comics image indexing based on deep learning. J. Imaging 4(7), 89 (2018)","journal-title":"J. Imaging"},{"issue":"3","key":"366_CR26","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1007\/s10032-019-00330-3","volume":"22","author":"NV Nguyen","year":"2019","unstructured":"Nguyen, N.V., Rigaud, C., Burie, J.C.: Comic MTL: optimized multi-task learning for comic book image analysis. Int. J. Doc. Anal. Recognit. IJDAR 22(3), 265\u2013284 (2019)","journal-title":"Int. J. Doc. Anal. Recognit. IJDAR"},{"key":"366_CR27","doi-asserted-by":"crossref","unstructured":"Noh, H., Hong, S., Han, B.: Learning deconvolution network for semantic segmentation. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1520\u20131528 (2015)","DOI":"10.1109\/ICCV.2015.178"},{"key":"366_CR28","unstructured":"Ogawa, T., Otsubo, A., Narita, R., Matsui, Y., Yamasaki, T., Aizawa, K.: Object detection for comics using manga109 annotations. arXiv:1803.08670 (2018)"},{"issue":"6","key":"366_CR29","doi-asserted-by":"publisher","first-page":"1182","DOI":"10.1090\/S0002-9904-1978-14553-4","volume":"84","author":"R Osserman","year":"1978","unstructured":"Osserman, R., et al.: The isoperimetric inequality. Bull. Am. Math. Soc. 84(6), 1182\u20131238 (1978)","journal-title":"Bull. Am. Math. Soc."},{"issue":"1","key":"366_CR30","first-page":"15","volume":"10","author":"JM Prewitt","year":"1970","unstructured":"Prewitt, J.M.: Object enhancement and extraction. Picture Process. Psychopictorics 10(1), 15\u201319 (1970)","journal-title":"Picture Process. Psychopictorics"},{"key":"366_CR31","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: Towards real-time object detection with region proposal networks. In: NIPS, pp. 91\u201399 (2015)"},{"key":"366_CR32","doi-asserted-by":"crossref","unstructured":"Ribera, J., Guera, D., Chen, Y., Delp, E.J.: Locating objects without bounding boxes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6479\u20136489 (2019)","DOI":"10.1109\/CVPR.2019.00664"},{"key":"366_CR33","doi-asserted-by":"crossref","unstructured":"Rigaud, C., Burie, J.C., Ogier, J.M.: Text-independent speech balloon segmentation for comics and manga. In: International Workshop on Graphics Recognition, pp. 133\u2013147. Springer (2015)","DOI":"10.1007\/978-3-319-52159-6_10"},{"key":"366_CR34","doi-asserted-by":"crossref","unstructured":"Rigaud, C., Burie, J.C., Ogier, J.M., Karatzas, D., Van\u00a0de Weijer, J.: An active contour model for speech balloon detection in comics. In: 2013 12th International Conference on Document Analysis and Recognition, pp. 1240\u20131244. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.251"},{"issue":"3","key":"366_CR35","doi-asserted-by":"publisher","first-page":"199","DOI":"10.1007\/s10032-015-0243-1","volume":"18","author":"C Rigaud","year":"2015","unstructured":"Rigaud, C., Gu\u00e9rin, C., Karatzas, D., Burie, J.C., Ogier, J.M.: Knowledge-driven understanding of images in comic books. IJDAR 18(3), 199\u2013221 (2015)","journal-title":"IJDAR"},{"key":"366_CR36","doi-asserted-by":"crossref","unstructured":"Rigaud, C., Le\u00a0Thanh, N., Burie, J.C., Ogier, J.M., Iwata, M., Imazu, E., Kise, K.: Speech balloon and speaker association for comics and manga understanding. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR), pp. 351\u2013355. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333782"},{"key":"366_CR37","unstructured":"Rigaud, C., Nguyen, V., Burie, J.C.: Confidence criterion for speech balloon segmentation. In: 13th IAPR International Workshop on Graphics Recognition (2019)"},{"key":"366_CR38","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-net: convolutional networks for biomedical image segmentation. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 234\u2013241. Springer (2015)","DOI":"10.1007\/978-3-319-24574-4_28"},{"issue":"3","key":"366_CR39","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: Imagenet large scale visual recognition challenge. IJCV 115(3), 211\u2013252 (2015)","journal-title":"IJCV"},{"key":"366_CR40","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)"},{"key":"366_CR41","doi-asserted-by":"crossref","unstructured":"Sun, W., Kise, K.: Similar manga retrieval using visual vocabulary based on regions of interest. In: 2011 International Conference on Document Analysis and Recognition, pp. 1075\u20131079. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.217"},{"key":"366_CR42","volume-title":"Pattern Recognition","author":"S Theodoridis","year":"2008","unstructured":"Theodoridis, S., Koutroumbas, K.: Pattern Recognition, 4th edn. Academic Press, Boca Raton (2008)","edition":"4"},{"key":"366_CR43","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J.Y., So\u00a0Kweon, I.: Cbam: Convolutional block attention module. In: ECCV, pp. 3\u201319 (2018)","DOI":"10.1007\/978-3-030-01234-2_1"},{"issue":"6","key":"366_CR44","first-page":"1370","volume":"87","author":"M Yamada","year":"2004","unstructured":"Yamada, M., Budiarto, R., Endo, M., Miyazaki, S.: Comic image decomposition for reading comics on cellular phones. IEICE Trans. Inf. Syst. 87(6), 1370\u20131376 (2004)","journal-title":"IEICE Trans. Inf. Syst."},{"key":"366_CR45","unstructured":"Yosinski, J., Clune, J., Bengio, Y., Lipson, H.: How transferable are features in deep neural networks? In: NIPS. Curran Associates (2014)"},{"key":"366_CR46","unstructured":"Yu, F., Koltun, V.: Multi-scale context aggregation by dilated convolutions. In: 4th International Conference on Learning Representations, ICLR 2016"},{"key":"366_CR47","doi-asserted-by":"crossref","unstructured":"Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2881\u20132890 (2017)","DOI":"10.1109\/CVPR.2017.660"}],"container-title":["International Journal on Document Analysis and Recognition (IJDAR)"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-021-00366-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10032-021-00366-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-021-00366-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,29]],"date-time":"2024-08-29T00:47:06Z","timestamp":1724892426000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10032-021-00366-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,4,21]]},"references-count":47,"journal-issue":{"issue":"1-2","published-print":{"date-parts":[[2021,6]]}},"alternative-id":["366"],"URL":"https:\/\/doi.org\/10.1007\/s10032-021-00366-4","relation":{},"ISSN":["1433-2833","1433-2825"],"issn-type":[{"value":"1433-2833","type":"print"},{"value":"1433-2825","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,4,21]]},"assertion":[{"value":"13 February 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 March 2021","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 March 2021","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 April 2021","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}