{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T16:08:02Z","timestamp":1759334882047,"version":"build-2065373602"},"publisher-location":"Cham","reference-count":36,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031971952"},{"type":"electronic","value":"9783031971969"}],"license":[{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-031-97196-9_1","type":"book-chapter","created":{"date-parts":[[2025,9,30]],"date-time":"2025-09-30T22:28:46Z","timestamp":1759271326000},"page":"1-17","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["A Task-Parallel Pipeline Programming Model with\u00a0Token Dependency"],"prefix":"10.1007","author":[{"given":"Cheng-Hsiang","family":"Chiu","sequence":"first","affiliation":[]},{"given":"Wan-Luan","family":"Lee","sequence":"additional","affiliation":[]},{"given":"Boyang","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Yi-Hua","family":"Chung","sequence":"additional","affiliation":[]},{"given":"Che","family":"Chang","sequence":"additional","affiliation":[]},{"given":"Tsung-Wei","family":"Huang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,10,1]]},"reference":[{"key":"1_CR1","unstructured":"C++ condition variable. https:\/\/en.cppreference.com\/w\/cpp\/thread\/condition_variable"},{"key":"1_CR2","unstructured":"Intel oneTBB. https:\/\/github.com\/oneapi-src\/oneTBB"},{"key":"1_CR3","unstructured":"OpenTimer. https:\/\/github.com\/OpenTimer\/OpenTimer"},{"key":"1_CR4","doi-asserted-by":"crossref","unstructured":"Bienia, C., Kumar, S., Singh, J.P., Li, K.: The parsec benchmark suite: characterization and architectural implications. In: International Conference on Parallel Architectures and Compilation Techniques (PACT), pp. 72\u201381 (2008)","DOI":"10.1145\/1454115.1454128"},{"key":"1_CR5","doi-asserted-by":"crossref","unstructured":"Bienia, C., Li, K.: Scaling of the parsec benchmark inputs. In: International Conference on Parallel Architectures and Compilation Techniques (PACT) (2010)","DOI":"10.1145\/1854273.1854352"},{"key":"1_CR6","doi-asserted-by":"crossref","unstructured":"Chang, C., et al.: PathGen: an efficient parallel critical path generation algorithm (2025)","DOI":"10.1145\/3658617.3697741"},{"key":"1_CR7","doi-asserted-by":"crossref","unstructured":"Chang, C.C., Zhang, B., Huang, T.W.: GSAP: a GPU-accelerated stochastic graph partitioner. In: ACM ICPP, pp. 565\u2013575 (2024)","DOI":"10.1145\/3673038.3673117"},{"key":"1_CR8","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Huang, T.W.: Efficient timing propagation with simultaneous structural and pipeline parallelisms: late breaking results. In: ACM\/IEEE DAC, p. 1388\u20131389 (2022)","DOI":"10.1145\/3489517.3530616"},{"key":"1_CR9","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Huang, T.W.: An experimental study of dynamic task graph parallelism for large-scale circuit analysis workloads (2024)","DOI":"10.1109\/ISVLSI61997.2024.00149"},{"key":"1_CR10","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Lin, D.L., Huang, T.W.: An experimental study of SYCL task graph parallelism for large-scale machine learning workloads. In: Euro-Par Workshop (2022)","DOI":"10.1007\/978-3-031-06156-1_37"},{"key":"1_CR11","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Lin, D.L., Huang, T.W.: Programming dynamic task parallelism for heterogeneous EDA algorithms. In: IEEE\/ACM ICCAD (2023)","DOI":"10.1109\/ICCAD57390.2023.10323760"},{"key":"1_CR12","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Morchdi, C., Zhou, Y., Zhang, B., Chang, C., Huang, T.W.: Reinforcement learning-generated topological order for dynamic task graph scheduling (2024)","DOI":"10.1109\/HPEC62836.2024.10938506"},{"key":"1_CR13","doi-asserted-by":"crossref","unstructured":"Chiu, C.H., Xiong, Z., Guo, Z., Huang, T.W., Lin, Y.: An efficient task-parallel pipeline programming framework. In: ACM International Conference on High-Performance Computing in Asia-Pacific Region (HPC Asia) (2024)","DOI":"10.1145\/3635035.3635037"},{"key":"1_CR14","doi-asserted-by":"crossref","unstructured":"Guo, G., Huang, T.W., Lin, C.X., Wong, M.: An efficient critical path generation algorithm considering extensive path constraints. In: ACM\/IEEE DAC, pp.\u00a01\u20136 (2020)","DOI":"10.1109\/DAC18072.2020.9218750"},{"key":"1_CR15","doi-asserted-by":"crossref","unstructured":"Guo, G., Huang, T.W., Lin, Y., Wong, M.: GPU-accelerated critical path generation with path constraints. In: IEEE\/ACM ICCAD, pp.\u00a01\u20139 (2021)","DOI":"10.1109\/ICCAD51958.2021.9643504"},{"key":"1_CR16","doi-asserted-by":"crossref","unstructured":"Guo, Z., Huang, T.W., Lin, Y.: HeteroCPPR: accelerating common path pessimism removal with heterogeneous CPU-GPU parallelism. In: IEEE\/ACM ICCAD, pp.\u00a01\u20139 (2021)","DOI":"10.1109\/ICCAD51958.2021.9643457"},{"key":"1_CR17","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Lin, C.X., Guo, G., Wong, M.D.F.: Cpp-Taskflow: fast task-based parallel programming using modern C++, pp. 974\u2013983 (2019)","DOI":"10.1109\/IPDPS.2019.00105"},{"key":"1_CR18","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Guo, G., Lin, C.X., Wong, M.: OpenTimer v2: a new parallel incremental timing analysis engine. In: IEEE TCAD, pp. 776\u2013789 (2021)","DOI":"10.1109\/TCAD.2020.3007319"},{"key":"1_CR19","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Lin, C.X., Guo, G., Wong, M.D.F.: A general-purpose distributed programming system using data-parallel streams. In: ACM MM, pp. 1360\u20131363 (2018)","DOI":"10.1145\/3240508.3243654"},{"key":"1_CR20","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Lin, C.X., Wong, M.D.F.: DtCraft: a distributed execution engine for compute-intensive applications. In: IEEE\/ACM ICCAD, pp. 757\u2013765 (2017)","DOI":"10.1109\/ICCAD.2017.8203853"},{"issue":"6","key":"1_CR21","first-page":"1070","volume":"38","author":"TW Huang","year":"2019","unstructured":"Huang, T.W., Lin, C.X., Wong, M.D.F.: DtCraft: a high-performance distributed execution engine at scale. IEEE ICAD 38(6), 1070\u20131083 (2019)","journal-title":"IEEE ICAD"},{"key":"1_CR22","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Lin, D.L., Lin, C.X., Lin, Y.: Taskflow: a lightweight parallel and heterogeneous task graph computing system. In: IEEE TPDS, pp. 1303\u20131320 (2022)","DOI":"10.1109\/TPDS.2021.3104255"},{"key":"1_CR23","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Wong, M.D.F.: OpenTimer: a high-performance timing analysis tool. In: IEEE\/ACM ICCAD, pp. 895\u2013902 (2015)","DOI":"10.1109\/ICCAD.2015.7372666"},{"key":"1_CR24","doi-asserted-by":"crossref","unstructured":"Huang, T.W., Wu, P.C., Wong, M.D.F.: Fast path-based timing analysis for CPPR. In: IEEE\/ACM ICCAD, pp. 596\u2013599 (2014)","DOI":"10.1109\/ICCAD.2014.7001413"},{"key":"1_CR25","doi-asserted-by":"crossref","unstructured":"Jiang, S., Huang, T.W., Yu, B., Ho, T.Y.: SNICIT: accelerating sparse neural network inference via compression at inference time on GPU. In: ACM ICPP (2023)","DOI":"10.1145\/3605573.3605625"},{"key":"1_CR26","doi-asserted-by":"crossref","unstructured":"Jiang, S., et al.: FlatDD: a high-performance quantum circuit simulator using decision diagram and flat array. In: ACM ICPP, pp. 388\u2013399 (2024)","DOI":"10.1145\/3673038.3673073"},{"key":"1_CR27","doi-asserted-by":"crossref","unstructured":"Lee, W.L., Lin, D.L., Chiu, C.H., Schlichtmann, U., Huang, T.W.: Hyperg: multilevel gpu-accelerated k-way hypergraph partitioner (2025)","DOI":"10.1145\/3734522"},{"key":"1_CR28","doi-asserted-by":"crossref","unstructured":"Lin, C.X., Huang, T.W., Wong, M.D.F.: An efficient work-stealing scheduler for task dependency graph. In: IEEE ICPADS, pp. 64\u201371 (2020)","DOI":"10.1109\/ICPADS51040.2020.00018"},{"key":"1_CR29","doi-asserted-by":"crossref","unstructured":"Lin, D.L., Huang, T.W.: A novel inference algorithm for large sparse neural network using task graph parallelism. In: IEEE HPEC, pp.\u00a01\u20137 (2020)","DOI":"10.1109\/HPEC43674.2020.9286218"},{"key":"1_CR30","doi-asserted-by":"crossref","unstructured":"Lin, D.L., Huang, T.W.: Efficient GPU computation using task graph parallelism. In: Euro-Par (2021)","DOI":"10.1007\/978-3-030-85665-6_27"},{"issue":"11","key":"1_CR31","first-page":"3041","volume":"33","author":"DL Lin","year":"2022","unstructured":"Lin, D.L., Huang, T.W.: Accelerating large sparse neural network inference using GPU task graph parallelism. IEEE TPDS 33(11), 3041\u20133052 (2022)","journal-title":"IEEE TPDS"},{"key":"1_CR32","unstructured":"Lin, S., Guo, G., Huang, T.W., Sheng, W., Young, E., Wong, M.: G-PASTA: GPU accelerated partitioning algorithm for static timing analysis. In: ACM\/IEEE DAC (2024)"},{"key":"1_CR33","doi-asserted-by":"crossref","unstructured":"Morchdi, C., Chiu, C.H., Zhou, Y., Huang, T.W.: A resource-efficient task scheduling system using reinforcement learning. In: IEEE\/ACM Asia and South Pacific Design Automation Conference (ASP-DAC) (2024)","DOI":"10.1109\/ASP-DAC58780.2024.10473960"},{"key":"1_CR34","doi-asserted-by":"crossref","unstructured":"Reed, E., Chen, N., Johnson, R.E.: Expressing pipeline parallelism using TBB constructs, pp. 133\u2013138 (2011)","DOI":"10.1145\/2095050.2095074"},{"key":"1_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, B., et al.: Tap: an incremental task graph partitioner for task-parallel static timing analysis (2025)","DOI":"10.1145\/3658617.3697738"},{"key":"1_CR36","doi-asserted-by":"crossref","unstructured":"Zhang, B., et al.: G-PASTA: GPU accelerated partitioning algorithm for static timing analysis. In: ACM\/IEEE DAC (2024)","DOI":"10.1145\/3649329.3656230"}],"container-title":["Lecture Notes in Computer Science","Asynchronous Many-Task Systems and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-97196-9_1","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,30]],"date-time":"2025-09-30T22:28:55Z","timestamp":1759271335000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-97196-9_1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,1]]},"ISBN":["9783031971952","9783031971969"],"references-count":36,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-97196-9_1","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,10,1]]},"assertion":[{"value":"1 October 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"WAMTA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Workshop on Asynchronous Many-Task Systems and Applications","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"St. Louis, MO","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"USA","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"19 February 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 February 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"3","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"wamta2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/wamta25.github.io\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}