{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,7]],"date-time":"2026-05-07T22:18:24Z","timestamp":1778192304313,"version":"3.51.4"},"publisher-location":"Cham","reference-count":38,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031377419","type":"print"},{"value":"9783031377426","type":"electronic"}],"license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023]]},"DOI":"10.1007\/978-3-031-37742-6_22","type":"book-chapter","created":{"date-parts":[[2023,8,1]],"date-time":"2023-08-01T06:02:51Z","timestamp":1690869771000},"page":"264-280","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Towards Unconstrained Audio Splicing Detection and\u00a0Localization with\u00a0Neural Networks"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1390-9198","authenticated-orcid":false,"given":"Denise","family":"Moussa","sequence":"first","affiliation":[]},{"given":"Germans","family":"Hirsch","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5556-5338","authenticated-orcid":false,"given":"Christian","family":"Riess","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,8,2]]},"reference":[{"key":"22_CR1","unstructured":"Audacity: Audacity \u00ae | Free, open source, cross-platform audio software for multi-track recording and editing. Accessed 12 May 2022. https:\/\/www.audacityteam.org\/"},{"key":"22_CR2","doi-asserted-by":"publisher","unstructured":"Bakhturina, E., Lavrukhin, V., Ginsburg, B., Zhang, Y.: Hi-Fi multi-speaker English TTS dataset. In: Proceedings of Interspeech, pp. 2776\u20132780 (2021). https:\/\/doi.org\/10.21437\/Interspeech.2021-1599","DOI":"10.21437\/Interspeech.2021-1599"},{"key":"22_CR3","doi-asserted-by":"crossref","unstructured":"Capoferri, D., Borrelli, C., Bestagini, P., Antonacci, F., Sarti, A., Tubaro, S.: Speech audio splicing detection and localization exploiting reverberation cues. In: 2020 IEEE International Workshop on Information Forensics and Security (WIFS), pp. 1\u20136. IEEE (2020)","DOI":"10.1109\/WIFS49906.2020.9360900"},{"key":"22_CR4","doi-asserted-by":"crossref","unstructured":"Chen, L., Maddox, R.K., Duan, Z., Xu, C.: Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7832\u20137841 (2019)","DOI":"10.1109\/CVPR.2019.00802"},{"key":"22_CR5","unstructured":"Cooper, A.J.: Detecting butt-spliced edits in forensic digital audio recordings. In: Audio Engineering Society Conference: 39th International Conference: Audio Forensics: Practices and Challenges. Audio Engineering Society (2010)"},{"key":"22_CR6","doi-asserted-by":"crossref","unstructured":"Cuccovillo, L., Mann, S., Tagliasacchi, M., Aichroth, P.: Audio tampering detection via microphone classification. In: 2013 IEEE 15th International Workshop on Multimedia Signal Processing (MMSP), pp. 177\u2013182. IEEE (2013)","DOI":"10.1109\/MMSP.2013.6659284"},{"issue":"10","key":"22_CR7","doi-asserted-by":"publisher","first-page":"1681","DOI":"10.1109\/TASLP.2016.2577502","volume":"24","author":"J Eaton","year":"2016","unstructured":"Eaton, J., Gaubitch, N.D., Moore, A.H., Naylor, P.A.: Estimation of room acoustic parameters: the ACE challenge. IEEE\/ACM Trans. Audio Speech Lang. Process. 24(10), 1681\u20131693 (2016)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"22_CR8","doi-asserted-by":"crossref","unstructured":"Esquef, P.A., Apolin\u00e1rio, J.A., Biscainho, L.W.: Improved edit detection in speech via ENF patterns. In: 2015 IEEE International Workshop on Information Forensics and Security (WIFS), pp. 1\u20136. IEEE (2015)","DOI":"10.1109\/WIFS.2015.7368585"},{"key":"22_CR9","doi-asserted-by":"crossref","unstructured":"Gao, Y., Singh, R., Raj, B.: Voice impersonation using generative adversarial networks. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2506\u20132510. IEEE (2018)","DOI":"10.1109\/ICASSP.2018.8462018"},{"key":"22_CR10","doi-asserted-by":"crossref","unstructured":"Jadhav, S., Patole, R., Rege, P.: Audio splicing detection using convolutional neural network. In: 2019 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT), pp. 1\u20135. IEEE (2019)","DOI":"10.1109\/ICCCNT45670.2019.8944345"},{"key":"22_CR11","unstructured":"Jia, Y., et al.: Transfer learning from speaker verification to multispeaker text-to-speech synthesis. Adv. Neural Inf. Process. Syst. 31 (2018)"},{"key":"22_CR12","doi-asserted-by":"crossref","unstructured":"Korshunov, P., Gon\u00e7alves, A.R., Violato, R.P., Sim\u00f5es, F.O., Marcel, S.: On the use of convolutional neural networks for speech presentation attack detection. In: 2018 IEEE 4th International Conference on Identity, Security, and Behavior Analysis (ISBA), pp. 1\u20138. IEEE (2018)","DOI":"10.1109\/ISBA.2018.8311474"},{"key":"22_CR13","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1016\/j.dsp.2016.07.015","volume":"60","author":"X Lin","year":"2017","unstructured":"Lin, X., Kang, X.: Exposing speech tampering via spectral phase analysis. Digital Signal Process. 60, 63\u201374 (2017)","journal-title":"Digital Signal Process."},{"key":"22_CR14","doi-asserted-by":"crossref","unstructured":"Lin, X., Kang, X.: Supervised audio tampering detection using an autoregressive model. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2142\u20132146. IEEE (2017)","DOI":"10.1109\/ICASSP.2017.7952535"},{"key":"22_CR15","doi-asserted-by":"crossref","unstructured":"Luo, D., Wu, H., Huang, J.: Audio recapture detection using deep learning. In: 2015 IEEE China Summit and International Conference on Signal and Information Processing (ChinaSIP), pp. 478\u2013482. IEEE (2015)","DOI":"10.1109\/ChinaSIP.2015.7230448"},{"key":"22_CR16","doi-asserted-by":"crossref","unstructured":"Luo, D., Yang, R., Huang, J.: Detecting double compressed AMR audio using deep learning. In: 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2669\u20132673. IEEE (2014)","DOI":"10.1109\/ICASSP.2014.6854084"},{"key":"22_CR17","series-title":"IFIP Advances in Information and Communication Technology","doi-asserted-by":"publisher","first-page":"253","DOI":"10.1007\/978-3-030-56223-6_14","volume-title":"Advances in Digital Forensics XVI","author":"M Mao","year":"2020","unstructured":"Mao, M., Xiao, Z., Kang, X., Li, X., Xiao, L.: Electric network frequency based audio forensics using convolutional neural networks. In: DigitalForensics 2020. IAICT, vol. 589, pp. 253\u2013270. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-56223-6_14"},{"key":"22_CR18","doi-asserted-by":"crossref","unstructured":"McKinney, M., Breebaart, J.: Features for Audio and Music Classification (2003)","DOI":"10.1007\/978-94-017-0703-9_6"},{"key":"22_CR19","doi-asserted-by":"crossref","unstructured":"Meng, X., Li, C., Tian, L.: Detecting audio splicing forgery algorithm based on local noise level estimation. In: 2018 5th International Conference on Systems and Informatics (ICSAI), pp. 861\u2013865. IEEE (2018)","DOI":"10.1109\/ICSAI.2018.8599318"},{"key":"22_CR20","unstructured":"Models, P.V.: torchvision.models - Torchvision 0.11.0 documentation. Accessed 02 Mar 2022. https:\/\/pytorch.org\/vision\/stable\/models.html"},{"key":"22_CR21","doi-asserted-by":"crossref","unstructured":"Nirkin, Y., Keller, Y., Hassner, T.: FSGAN: subject agnostic face swapping and reenactment. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7184\u20137193 (2019)","DOI":"10.1109\/ICCV.2019.00728"},{"key":"22_CR22","unstructured":"Oceanaudio: ocenaudio. Accessed 12 May 2022. https:\/\/www.ocenaudio.com\/\/"},{"issue":"2","key":"22_CR23","doi-asserted-by":"publisher","first-page":"604","DOI":"10.1109\/TNNLS.2020.2979670","volume":"32","author":"DW Otter","year":"2020","unstructured":"Otter, D.W., Medina, J.R., Kalita, J.K.: A survey of the usages of deep learning for natural language processing. IEEE Trans. Neural Netw. Learn. Syst. 32(2), 604\u2013624 (2020)","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"22_CR24","doi-asserted-by":"crossref","unstructured":"Pan, X., Zhang, X., Lyu, S.: Detecting splicing in digital audios using local noise level estimation. In: 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1841\u20131844. IEEE (2012)","DOI":"10.1109\/ICASSP.2012.6288260"},{"key":"22_CR25","doi-asserted-by":"crossref","unstructured":"Radosavovic, I., Kosaraju, R.P., Girshick, R., He, K., Doll\u00e1r, P.: Designing network design spaces. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10428\u201310436 (2020)","DOI":"10.1109\/CVPR42600.2020.01044"},{"key":"22_CR26","doi-asserted-by":"crossref","unstructured":"Rouniyar, S.K., Yingjuan, Y., Hu, Y.: Channel response based multi-feature audio splicing forgery detection and localization. In: Proceedings of the 2018 International Conference on E-Business, Information Management and Computer Science, pp. 46\u201353 (2018)","DOI":"10.1145\/3210506.3210515"},{"key":"22_CR27","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: International Conference on Learning Representations (2015)"},{"key":"22_CR28","unstructured":"Tan, M., Le, Q.: EfficientNet: rethinking model scaling for convolutional neural networks. In: International Conference on Machine Learning, pp. 6105\u20136114 (2019)"},{"key":"22_CR29","doi-asserted-by":"crossref","unstructured":"Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., Nie\u00dfner, M.: Face2Face: real-time face capture and Reenactment of RGB Videos. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2387\u20132395 (2016)","DOI":"10.1109\/CVPR.2016.262"},{"key":"22_CR30","unstructured":"Torchaudio: torchaudio.transforms - Torchaudio 0.10.0 documentation. Accessed 09 Mar 2021. https:\/\/pytorch.org\/audio\/stable\/"},{"key":"22_CR31","unstructured":"Vaswani, A., et al.: Attention is all you need. In: Advances in Neural Information Processing Systems, pp. 5998\u20136008 (2017)"},{"key":"22_CR32","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"170","DOI":"10.1007\/978-3-030-58542-6_11","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Y Viazovetskyi","year":"2020","unstructured":"Viazovetskyi, Y., Ivashkin, V., Kashin, E.: StyleGAN2 distillation for feed-forward image manipulation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12367, pp. 170\u2013186. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58542-6_11"},{"key":"22_CR33","doi-asserted-by":"crossref","unstructured":"Yan, D., Dong, M., Gao, J.: Exposing speech transsplicing forgery with noise level inconsistency. Secur. Commun. Netw. 2021, 1\u20136 (2021)","DOI":"10.1155\/2021\/6659371"},{"key":"22_CR34","doi-asserted-by":"crossref","unstructured":"Yang, R., Qu, Z., Huang, J.: Detecting digital audio forgeries by checking frame offsets. In: Proceedings of the 10th ACM Workshop on Multimedia and Security, pp. 21\u201326 (2008)","DOI":"10.1145\/1411328.1411334"},{"key":"22_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Yi, X., Zhao, X.: Fake speech detection using residual network with transformer encoder. In: Proceedings of the 2021 ACM Workshop on Information Hiding and Multimedia Security, pp. 13\u201322 (2021)","DOI":"10.1145\/3437880.3460408"},{"key":"22_CR36","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Zhao, X., Yi, X.: Aslnet: an encoder-decoder architecture for audio splicing detection and localization. Secur. Commun. Netw. 2022 (2022)","DOI":"10.1155\/2022\/8241298"},{"key":"22_CR37","doi-asserted-by":"crossref","unstructured":"Zhao, H., Chen, Y., Wang, R., Malik, H.: Audio source authentication and splicing detection using acoustic environmental signature. In: Proceedings of the 2nd ACM Workshop on Information Hiding and Multimedia Security, pp. 159\u2013164 (2014)","DOI":"10.1145\/2600918.2600933"},{"issue":"12","key":"22_CR38","doi-asserted-by":"publisher","first-page":"13897","DOI":"10.1007\/s11042-016-3758-7","volume":"76","author":"H Zhao","year":"2017","unstructured":"Zhao, H., Chen, Y., Wang, R., Malik, H.: Audio splicing detection and localization using environmental signature. Multimedia Tools Appl. 76(12), 13897\u201313927 (2017)","journal-title":"Multimedia Tools Appl."}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition, Computer Vision, and Image Processing. ICPR 2022 International Workshops and Challenges"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-37742-6_22","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,1]],"date-time":"2023-08-01T06:05:58Z","timestamp":1690869958000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-37742-6_22"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"ISBN":["9783031377419","9783031377426"],"references-count":38,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-37742-6_22","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]},"assertion":[{"value":"2 August 2023","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Montr\u00e9al, QC","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Canada","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 August 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25 August 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icpr2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icpr2022","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}