{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,18]],"date-time":"2025-11-18T09:34:33Z","timestamp":1763458473997,"version":"3.45.0"},"publisher-location":"New York, NY, USA","reference-count":47,"publisher":"ACM","license":[{"start":{"date-parts":[[2017,9,11]],"date-time":"2017-09-11T00:00:00Z","timestamp":1505088000000},"content-version":"vor","delay-in-days":365,"URL":"http:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"IBM Faculty Awards"},{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["1527535, 1423090, 1320100,1117261, 0937869, 0916384, 0845721(CAREER), 0834288, 0811611, 0720476"],"award-info":[{"award-number":["1527535, 1423090, 1320100,1117261, 0937869, 0916384, 0845721(CAREER), 0834288, 0811611, 0720476"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000028","name":"Semiconductor Research Corporation","doi-asserted-by":"publisher","award":["2008-HJ-1798, 2007-RJ-1651G"],"award-info":[{"award-number":["2008-HJ-1798, 2007-RJ-1651G"]}],"id":[{"id":"10.13039\/100000028","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61303029"],"award-info":[{"award-number":["61303029"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Microsoft Research Trustworthy Computing, Safe and Scalable Multi-core Computing Awards"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2016,9,11]]},"DOI":"10.1145\/2967938.2967944","type":"proceedings-article","created":{"date-parts":[[2016,8,31]],"date-time":"2016-08-31T08:32:08Z","timestamp":1472632328000},"page":"315-326","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":15,"title":["Bridging the Semantic Gaps of GPU Acceleration for Scale-out CNN-based Big Data Processing"],"prefix":"10.1145","author":[{"given":"Mingcong","family":"Song","sequence":"first","affiliation":[{"name":"University of Florida, Gainesville, FL, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yang","family":"Hu","sequence":"additional","affiliation":[{"name":"University of Florida, Gainesville, FL, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunlong","family":"Xu","sequence":"additional","affiliation":[{"name":"Xi'an Jiaotong University, Xi'an, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chao","family":"Li","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huixiang","family":"Chen","sequence":"additional","affiliation":[{"name":"University of Florida, Gainesville, FL, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingling","family":"Yuan","sequence":"additional","affiliation":[{"name":"Wuhan University of Technology, Wuhan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tao","family":"Li","sequence":"additional","affiliation":[{"name":"University of Florida, Gainesville, FL, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2016,9,11]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","unstructured":"Abdel-Hamid O. Mohamed A. Jiang H. Deng L. Penn G. and Yu D. 2014. Convolutional neural networks for speech recognition. IEEE\/ACM Transactions on audio speech and language processing. 22 10 (2014) 1533--1545. 10.1109\/TASLP.2014.2339736","DOI":"10.1109\/TASLP.2014.2339736"},{"key":"e_1_3_2_1_2_1","unstructured":"Amazon G2 instance: http:\/\/docs.aws.amazon.com\/AWSEC2\/latest\/UserGuide\/using_cluster_co mputing.html."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/2541940.2541967"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.58"},{"key":"e_1_3_2_1_5_1","unstructured":"Chetlur S. Woolley C. Vandermersch P. Cohen J. Tran J. Catanzaro B. and Shelhamer E. 2014. cuDNN: Efficient Primitives for Deep Learning. arXiv preprint arXiv:1410.0759. (Oct. 2014)."},{"key":"e_1_3_2_1_6_1","unstructured":"CS231n: Convolutional Neural Networks for Visual Recognition: http:\/\/cs231n.github.io\/convolutional-networks\/."},{"key":"e_1_3_2_1_7_1","unstructured":"cuBLAS: https:\/\/developer.nvidia.com\/cuBLAS."},{"key":"e_1_3_2_1_8_1","unstructured":"CUDA Profiler User's Guide: docs.nvidia.com\/cuda\/profiler-users-guide\/."},{"key":"e_1_3_2_1_9_1","unstructured":"cuDNN v2: Higher Performance for Deep Learning on GPUs: http:\/\/devblogs.nvidia.com\/parallelforall\/cudnn-v2-higher-performance-deep-learning-gpus\/."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1145\/1327452.1327492"},{"key":"e_1_3_2_1_11_1","volume-title":"Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).","author":"Deng J.","year":"2009","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K. and Fei-Fei, L. 2009. ImageNet: A large-scale hierarchical image database. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2009), 1097--1105."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750389"},{"key":"e_1_3_2_1_13_1","unstructured":"Facebook Ericsson and Qualcomm 2013. A focus on efficiency."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.81"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2749472"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1145\/2694344.2694347"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1145\/2751205.2751236"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/2925426.2926257"},{"key":"e_1_3_2_1_19_1","volume-title":"Proceedings of the 49th Annual IEEE\/ACM International Symposium on Microarchitecture","author":"Hu Y.","year":"2016","unstructured":"Hu, Y., Song, M., Chen, H. and Li, T. 2016. Towards Efficient Server Architecture for Virtualized Network Function Deployment: Implications and Implementations. Proceedings of the 49th Annual IEEE\/ACM International Symposium on Microarchitecture (2016)."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654889"},{"key":"e_1_3_2_1_21_1","volume-title":"Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).","author":"Karpathy A.","year":"2015","unstructured":"Karpathy, A. and Fei-Fei, L. 2015. Deep visual-semantic alignments for generating image descriptions. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2015), 3128--3137."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1181"},{"key":"e_1_3_2_1_24_1","unstructured":"Krizhevsky A. Sutskever I. and Hinton G.E. 2012. ImageNet Classification with Deep Convolutional Neural Networks. Advances In Neural Information Processing Systems. (2012) 1097--1105."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750381"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1145\/2540708.2540736"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/2694344.2694358"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/2370816.2370869"},{"key":"e_1_3_2_1_29_1","unstructured":"MULTI-PROCESS SERVICE: https:\/\/docs.nvidia.com\/deploy\/pdf\/CUDA_Multi_Process_Service_Overview.pdf."},{"key":"e_1_3_2_1_30_1","unstructured":"NVIDIA CUDA Programming Guide: http:\/\/docs.nvidia.com\/cuda\/pdf\/CUDA_C_Programming_Guide.pdf."},{"key":"e_1_3_2_1_31_1","unstructured":"NVIDIA Visual Profiler: https:\/\/developer.nvidia.com\/nvidia-visual-profiler."},{"key":"e_1_3_2_1_32_1","unstructured":"OpenCL: http:\/\/www.khronos.org\/opencl\/."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.465"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.16"},{"key":"e_1_3_2_1_36_1","unstructured":"Simonyan K. and Zisserman A. 2014. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR. abs\/1409.1 (2014)."},{"key":"e_1_3_2_1_37_1","unstructured":"SoftLayer offers Nvidia's most powerful GPU as-a-service: http:\/\/www.datacenterdynamics.com\/app-cloud\/softlayer-offers-nvidias-most-powerful-gpu-as-a-service\/94407.fullarticle."},{"key":"e_1_3_2_1_38_1","volume-title":"Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).","author":"Szegedy C.","year":"2015","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A. 2015. Going deeper with convolutions. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2015), 1--9."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.5555\/2285539"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1145\/2925426.2926265"},{"key":"e_1_3_2_1_41_1","volume-title":"Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR)","author":"Yang L.","year":"2015","unstructured":"Yang, L., Luo, P., Loy, C.C. and Tang, X. 2015. A Large-Scale Car Dataset for Fine-Grained Categorization and Verification. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) (2015), 3973--3981."},{"key":"e_1_3_2_1_42_1","unstructured":"Youtube press statistics: http:\/\/youtube.com\/yt\/press\/statistics.html."},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"publisher","DOI":"10.5555\/2228298.2228301"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1145\/2684746.2689060"},{"key":"e_1_3_2_1_45_1","volume-title":"Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR)","author":"Zhang J.","year":"2015","unstructured":"Zhang, J., Sameki, M., Ma, S., Price, B., Mech, R., Shen, X., Betke, M., Sclaroff, S. and Lin, Z. 2015. Salient object subitizing. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) (2015), 4045--4054."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.5555\/2968826.2968881"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1145\/2751205.2751230"}],"event":{"name":"PACT '16: International Conference on Parallel Architectures and Compilation","sponsor":["IFIP WG 10.3 IFIP WG 10.3","IEEE TCCA IEEE Computer Society Technical Committee on Computer Architecture","SIGARCH ACM Special Interest Group on Computer Architecture","IEEE CS TCPP IEEE Computer Society Technical Committee on Parallel Processing"],"location":"Haifa Israel","acronym":"PACT '16"},"container-title":["Proceedings of the 2016 International Conference on Parallel Architectures and Compilation"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/2967938.2967944","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/2967938.2967944","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/2967938.2967944","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,18]],"date-time":"2025-11-18T09:27:31Z","timestamp":1763458051000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/2967938.2967944"}},"subtitle":["Think Big, See Small"],"short-title":[],"issued":{"date-parts":[[2016,9,11]]},"references-count":47,"alternative-id":["10.1145\/2967938.2967944","10.1145\/2967938"],"URL":"https:\/\/doi.org\/10.1145\/2967938.2967944","relation":{},"subject":[],"published":{"date-parts":[[2016,9,11]]},"assertion":[{"value":"2016-09-11","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}