{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T21:26:02Z","timestamp":1780435562428,"version":"3.54.1"},"reference-count":47,"publisher":"Emerald","issue":"5\/6","license":[{"start":{"date-parts":[[2020,11,26]],"date-time":"2020-11-26T00:00:00Z","timestamp":1606348800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.emerald.com\/insight\/site-policies"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["EL"],"published-print":{"date-parts":[[2020,11,26]]},"abstract":"<jats:sec>\n<jats:title content-type=\"abstract-subheading\">Purpose<\/jats:title>\n<jats:p>In community question and answer (CQA) services, because of user subjectivity and the limits of knowledge, the distribution of answer quality can vary drastically \u2013 from highly related to irrelevant or even spam answers. Previous studies of CQA portals have faced two important issues: answer quality analysis and spam answer filtering. Therefore, the purposes of this study are to filter spam answers in advance using two-phase identification methods and then automatically classify the different types of question and answer (QA) pairs by deep learning. Finally, this study proposes a comprehensive study of answer quality prediction for different types of QA pairs.<\/jats:p>\n<\/jats:sec>\n<jats:sec>\n<jats:title content-type=\"abstract-subheading\">Design\/methodology\/approach<\/jats:title>\n<jats:p>This study proposes an integrated model with a two-phase identification method that filters spam answers in advance and uses a deep learning method [recurrent convolutional neural network (R-CNN)] to automatically classify various types of questions. Logistic regression (LR) is further applied to examine which answer quality features significantly indicate high-quality answers to different types of questions.<\/jats:p>\n<\/jats:sec>\n<jats:sec>\n<jats:title content-type=\"abstract-subheading\">Findings<\/jats:title>\n<jats:p>There are four prominent findings. (1) This study confirms that conducting spam filtering before an answer quality analysis can reduce the proportion of high-quality answers that are misjudged as spam answers. (2) The experimental results show that answer quality is better when question types are included. (3) The analysis results for different classifiers show that the R-CNN achieves the best macro-F1 scores (74.8%) in the question type classification module. (4) Finally, the experimental results by LR show that author ranking, answer length and common words could significantly impact answer quality for different types of questions.<\/jats:p>\n<\/jats:sec>\n<jats:sec>\n<jats:title content-type=\"abstract-subheading\">Originality\/value<\/jats:title>\n<jats:p>The proposed system is simultaneously able to detect spam answers and provide users with quick and efficient retrieval mechanisms for high-quality answers to different types of questions in CQA. Moreover, this study further validates that crucial features exist among the different types of questions that can impact answer quality. Overall, an identification system automatically summarises high-quality answers for each different type of questions from the pool of messy answers in CQA, which can be very useful in helping users make decisions.<\/jats:p>\n<\/jats:sec>","DOI":"10.1108\/el-05-2020-0120","type":"journal-article","created":{"date-parts":[[2020,11,25]],"date-time":"2020-11-25T08:52:25Z","timestamp":1606294345000},"page":"1013-1033","source":"Crossref","is-referenced-by-count":6,"title":["Spam detection and high-quality features to analyse question \u2013answer pairs"],"prefix":"10.1108","volume":"38","author":[{"given":"Hei Chia","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yu Hung","family":"Chiang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Si Ting","family":"Lin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"140","reference":[{"key":"key2020121210210692300_ref001","first-page":"183","article-title":"Finding high-quality content in social media","volume-title":"Proceedings of the International Conference on Web Search and Data Mining","year":"2008"},{"issue":"1","key":"key2020121210210692300_ref002","first-page":"245","article-title":"Post or block? Advances in automatically filtering undesired comments","volume":"80","year":"2015","journal-title":"Journal of Intelligent and Robotic Systems"},{"key":"key2020121210210692300_ref003","first-page":"1","article-title":"Spam detection in online social networks by deep learning","year":"2018"},{"key":"key2020121210210692300_ref004","first-page":"591","article-title":"Quadripartite graph-based clustering of questions","volume-title":"8th International Conference on Information Technology: New Generations","year":"2011"},{"issue":"3","key":"key2020121210210692300_ref005","doi-asserted-by":"crossref","first-page":"383","DOI":"10.1108\/14684521211241413","article-title":"Predictors of high-quality answers","volume":"36","year":"2012","journal-title":"Online Information Review"},{"issue":"4","key":"key2020121210210692300_ref006","doi-asserted-by":"crossref","first-page":"810","DOI":"10.1007\/s11390-015-1562-x","article-title":"The best answers? Think twice: identifying commercial campaigns in the CQA forums","volume":"30","year":"2015","journal-title":"Journal of Computer Science and Technology"},{"issue":"50","key":"key2020121210210692300_ref007","doi-asserted-by":"crossref","first-page":"16","DOI":"10.5120\/ijca2018917316","article-title":"Fake review detection using classification","volume":"180","year":"2018","journal-title":"International Journal of Computer Applications"},{"issue":"10","key":"key2020121210210692300_ref008","doi-asserted-by":"crossref","first-page":"2058","DOI":"10.1002\/asi.22902","article-title":"So fast so good: an analysis of answer quality and answer speed in community question\u2010answering sites","volume":"64","year":"2013","journal-title":"Journal of the American Society for Information Science and Technology"},{"key":"key2020121210210692300_ref009","first-page":"710","article-title":"Using conditional random fields to extract contexts and answers of questions from online forums","volume-title":"Proceedings of Association for Computational Linguistics: Human Language Technologies","year":"2008"},{"issue":"1","key":"key2020121210210692300_ref010","doi-asserted-by":"crossref","first-page":"21","DOI":"10.1016\/j.eij.2017.06.002","article-title":"A hybrid model to predict best answers in question answering communities","volume":"19","year":"2018","journal-title":"Egyptian Informatics Journal"},{"issue":"3","key":"key2020121210210692300_ref011","doi-asserted-by":"crossref","first-page":"346","DOI":"10.26599\/TST.2018.9010050","article-title":"Enhanced answer selection in CQA using multi-dimensional features combination","volume":"24","year":"2019","journal-title":"Tsinghua Science and Technology"},{"issue":"5","key":"key2020121210210692300_ref012","doi-asserted-by":"crossref","first-page":"476","DOI":"10.1177\/0165551511415584","article-title":"A comparative assessment of answer quality on four question answering sites","volume":"37","year":"2011","journal-title":"Journal of Information Science"},{"key":"key2020121210210692300_ref013","first-page":"25","article-title":"User profiling for answer quality assessment in Q&A communities","year":"2013"},{"key":"key2020121210210692300_ref014","first-page":"133","article-title":"Identifying authoritative and reliable contents in community question answering with domain knowledge","volume-title":"Pacific-Asia Conference on Knowledge Discovery and Data Mining","year":"2013"},{"issue":"3","key":"key2020121210210692300_ref015","first-page":"332","article-title":"Finding similar questions in collaborative question answering archives: toward bootstrapping-based equivalent pattern learning","volume":"15","year":"2012","journal-title":"Information Retrieval"},{"key":"key2020121210210692300_ref016","first-page":"245","article-title":"A new neural network based logistic regression classifier for improving mispronunciation detection of L2 language learners","volume-title":"9th International Symposium on Chinese Spoken Language Processing","year":"2014"},{"issue":"4","key":"key2020121210210692300_ref017","first-page":"100","article-title":"Online Q&A community automatically information quality evaluation with sentiment feature","volume":"59","year":"2015","journal-title":"Library and Information Service"},{"issue":"1","key":"key2020121210210692300_ref018","first-page":"66","article-title":"What makes a high-quality user-generated answer?","volume":"15","year":"2010","journal-title":"IEEE Internet Computing"},{"issue":"3","key":"key2020121210210692300_ref019","first-page":"411","article-title":"Reliability in content analysis: some common misconceptions and recommendations","volume":"30","year":"2004","journal-title":"Human Communication Research"},{"issue":"2","key":"key2020121210210692300_ref020","first-page":"266","article-title":"Question answering quality evaluation for community question answering based on similarity","volume":"30","year":"2013","journal-title":"Computer Applications and Software"},{"key":"key2020121210210692300_ref021","first-page":"1","article-title":"Neural architectures for named entity recognition","volume-title":"15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies","year":"2016"},{"key":"key2020121210210692300_ref022","doi-asserted-by":"crossref","first-page":"129","DOI":"10.1145\/2910896.2910900","article-title":"Evaluating the quality of educational answers in community question-answering","volume-title":"Proceedings of the 16th ACM\/IEEE-CS on Joint Conference on Digital Libraries","year":"2016"},{"issue":"2","key":"key2020121210210692300_ref023","doi-asserted-by":"crossref","first-page":"369","DOI":"10.1007\/s10044-014-0408-4","article-title":"Term frequency combined hybrid feature selection method for spam filtering","volume":"19","year":"2016","journal-title":"Pattern Analysis and Applications"},{"key":"key2020121210210692300_ref024","first-page":"1073","article-title":"Detecting collusive spamming activities in community question answering","volume-title":"Proceedings of the 26th International Conference on World Wide Web","year":"2017"},{"key":"key2020121210210692300_ref025","doi-asserted-by":"crossref","first-page":"29","DOI":"10.1016\/j.patrec.2015.02.015","article-title":"Predicting the quality of user-generated answers using co-training in community-based question answering portals","volume":"58","year":"2015","journal-title":"Pattern Recognition Letters"},{"key":"key2020121210210692300_ref026","first-page":"383","article-title":"Vocabulary filtering for term weighting in archived question search","year":"2010","journal-title":"14th Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNAI"},{"issue":"6","key":"key2020121210210692300_ref027","doi-asserted-by":"crossref","first-page":"825","DOI":"10.1016\/j.ipm.2010.06.002","article-title":"Linguistic kernels for answer re-ranking in question answering systems","volume":"47","year":"2011","journal-title":"Information Processing and Management"},{"issue":"3","key":"key2020121210210692300_ref028","doi-asserted-by":"crossref","first-page":"378","DOI":"10.1108\/00220410710743306","article-title":"Machine learning for Asian language text classification","volume":"63","year":"2007","journal-title":"Journal of Documentation"},{"issue":"1","key":"key2020121210210692300_ref029","doi-asserted-by":"crossref","first-page":"31","DOI":"10.1207\/S15328031US0101_04","article-title":"Logistic regression analysis and reporting: a primer","volume":"1","year":"2002","journal-title":"Understanding Statistics: Statistical Issues in Psychology, Education, and the Social Sciences"},{"issue":"1","key":"key2020121210210692300_ref030","doi-asserted-by":"crossref","first-page":"53","DOI":"10.1007\/s40171-017-0172-6","article-title":"Finding and ranking high-quality answers in community question answering sites","volume":"19","year":"2018","journal-title":"Global Journal of Flexible Systems Management"},{"key":"key2020121210210692300_ref031","first-page":"411","article-title":"Evaluating and predicting answer quality in community QA","year":"2010"},{"issue":"3","key":"key2020121210210692300_ref032","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/2934687","article-title":"A comprehensive survey and classification of approaches for community question answering","volume":"10","year":"2016","journal-title":"ACM Transactions on the Web"},{"key":"key2020121210210692300_ref033","doi-asserted-by":"crossref","first-page":"101","DOI":"10.1016\/j.ins.2013.10.030","article-title":"Discovering high-quality answers in community question answering archives using a hierarchy of classifiers","volume":"261","year":"2014","journal-title":"Information Sciences"},{"key":"key2020121210210692300_ref034","first-page":"99","article-title":"CQArank: jointly model topics and expertise in community question answering","year":"2013"},{"key":"key2020121210210692300_ref035","doi-asserted-by":"crossref","first-page":"70","DOI":"10.1016\/j.ins.2014.12.038","article-title":"Detecting high-quality posts in community question answering sites","volume":"302","year":"2015","journal-title":"Information Sciences"},{"issue":"6","key":"key2020121210210692300_ref036","first-page":"12","article-title":"Ranking answer quality of popular Q&A community","volume":"3","year":"2019","journal-title":"Data Analysis and Knowledge Discovery"},{"issue":"14","key":"key2020121210210692300_ref037","first-page":"70","article-title":"Automatic answer selection based on probabilistic latent semantic analysis model","volume":"27","year":"2011","journal-title":"Computer Engineering"},{"key":"key2020121210210692300_ref038","first-page":"1","article-title":"Chinese medical question answer selection via hybrid models based on CNN and GRU","volume":"79","year":"2019","journal-title":"Multimedia Tools and Applications"},{"key":"key2020121210210692300_ref039","doi-asserted-by":"crossref","first-page":"8","DOI":"10.1016\/j.neucom.2016.07.082","article-title":"Recurrent convolutional neural network for answer selection in community question answering","volume":"274","year":"2018","journal-title":"Neurocomputing"},{"key":"key2020121210210692300_ref040","first-page":"713","article-title":"Answer sequence learning with neural networks for answer selection in community question answering","year":"2015"},{"issue":"6","key":"key2020121210210692300_ref041","doi-asserted-by":"crossref","first-page":"1053","DOI":"10.1016\/j.ipm.2016.04.009","article-title":"Recent developments in social spam detection and combating techniques: a survey","volume":"52","year":"2016","journal-title":"Information Processing and Management"},{"key":"key2020121210210692300_ref042","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.knosys.2016.01.008","article-title":"Context-aware semantic classification of search queries for browsing community question-answering archives","volume":"96","year":"2016","journal-title":"Knowledge-Based Systems"},{"issue":"7","key":"key2020121210210692300_ref043","doi-asserted-by":"crossref","first-page":"3634","DOI":"10.1016\/j.eswa.2014.12.029","article-title":"Detection of review spam: a survey","volume":"42","year":"2015","journal-title":"Expert Systems with Applications"},{"key":"key2020121210210692300_ref044","first-page":"634","article-title":"Analyzing and detecting opinion spam on a large-scale dataset via temporal and spatial patterns","year":"2015"},{"issue":"2","key":"key2020121210210692300_ref045","doi-asserted-by":"publisher","first-page":"351","DOI":"10.1162\/COLI_a_00051","article-title":"Learning to rank answers to non-factoid questions from web collections","volume":"37","year":"2011","journal-title":"Computational Linguistics"},{"key":"key2020121210210692300_ref046","first-page":"309","article-title":"Answer quality assessment in CQA based on similar support sets","volume-title":"Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data in Guangzhou","year":"2015"},{"issue":"8","key":"key2020121210210692300_ref047","doi-asserted-by":"crossref","first-page":"1723","DOI":"10.1109\/TKDE.2017.2696535","article-title":"Scalable algorithms for CQA post voting prediction","volume":"29","year":"2017","journal-title":"IEEE Transactions on Knowledge and Data Engineering"}],"container-title":["The Electronic Library"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.emerald.com\/insight\/content\/doi\/10.1108\/EL-05-2020-0120\/full\/xml","content-type":"application\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.emerald.com\/insight\/content\/doi\/10.1108\/EL-05-2020-0120\/full\/html","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,25]],"date-time":"2025-07-25T01:07:18Z","timestamp":1753405638000},"score":1,"resource":{"primary":{"URL":"http:\/\/www.emerald.com\/el\/article\/38\/5-6\/1013-1033\/47334"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,11,26]]},"references-count":47,"journal-issue":{"issue":"5\/6","published-print":{"date-parts":[[2020,11,26]]}},"alternative-id":["10.1108\/EL-05-2020-0120"],"URL":"https:\/\/doi.org\/10.1108\/el-05-2020-0120","relation":{},"ISSN":["0264-0473","0264-0473"],"issn-type":[{"value":"0264-0473","type":"print"},{"value":"0264-0473","type":"print"}],"subject":[],"published":{"date-parts":[[2020,11,26]]}}}