Machine learning for fake news classification with optimal feature selection
Benchmark (surveying)
Sentiment Analysis
Feature (linguistics)
Univariate
Ensemble Learning
DOI:
10.1007/s00500-022-06773-x
Publication Date:
2022-01-29T09:02:52Z
AUTHORS (4)
ABSTRACT
Hoy en día, los eventos actuales relacionados con diversos campos se publican en periódicos, se comparten en las redes sociales y se transmiten por radio y televisión. El crecimiento explosivo de los contenidos de noticias en línea ha hecho que sea muy difícil discriminar entre lo real y lo falso. Como resultado, las noticias falsas se han vuelto frecuentes y muy difíciles de analizar y verificar. De hecho, es un gran desafío para el gobierno y el público debatir la situación dependiendo de cada caso. Para este propósito, se debe adoptar un mecanismo sobre los rumores y declaraciones de verificación de hechos, particularmente aquellos que obtienen miles de visitas y me gusta antes de ser desacreditados y refutados por fuentes expertas. Se han utilizado varias técnicas de aprendizaje automático para detectar y clasificar las noticias falsas. Sin embargo, estos enfoques están restringidos en términos de precisión. Este estudio ha aplicado un clasificador de bosques aleatorios (RF) para predecir noticias falsas o reales. Para este propósito, se extraen veintitrés (23) características textuales del conjunto de datos de noticias falsas ISOT. Las cuatro mejores técnicas de selección de características como chi2, univariante, ganancia de información e importancia de características se utilizan para seleccionar catorce de las mejores características de veintitrés. El modelo propuesto y otras técnicas de referencia se evalúan en un conjunto de datos de referencia utilizando las mejores características. Los hallazgos experimentales muestran que el modelo propuesto superó a las técnicas de aprendizaje automático de última generación, como GBM, XGBoost y Ada Boost Regression Model, en términos de precisión de clasificación.<br/>De nos jours, les événements d'actualité liés à divers domaines sont publiés dans les journaux, partagés sur les réseaux sociaux et diffusés à la radio et à la télévision. La croissance explosive des contenus d'actualités en ligne a rendu très difficile la distinction entre réel et faux. En conséquence, les fausses nouvelles sont devenues répandues et extrêmement difficiles à analyser et à vérifier. En effet, c'est un grand défi pour le gouvernement et le public de débattre de la situation au cas par cas. À cette fin, un mécanisme doit être mis en place pour vérifier les rumeurs et les déclarations, en particulier celles qui recueillent des milliers de vues et de mentions J'aime avant d'être démystifiées et réfutées par des sources expertes. Diverses techniques d'apprentissage automatique ont été utilisées pour détecter et classer les fausses nouvelles. Cependant, ces approches sont limitées en termes de précision. Cette étude a appliqué un classificateur de forêt aléatoire (RF) pour prédire les fausses nouvelles ou les vraies nouvelles. À cette fin, vingt-trois (23) caractéristiques textuelles sont extraites de l'ensemble de données de fausses nouvelles ISOT. Quatre meilleures techniques de sélection de caractéristiques comme le chi2, l'univarié, le gain d'information et l'importance des caractéristiques sont utilisées pour sélectionner quatorze meilleures caractéristiques sur vingt-trois. Le modèle proposé et d'autres techniques de référence sont évalués sur un ensemble de données de référence en utilisant les meilleures caractéristiques. Les résultats expérimentaux montrent que le modèle proposé a surpassé les techniques d'apprentissage automatique de pointe telles que GBM, XGBoost et Ada Boost Regression Model en termes de précision de classification.<br/>في الوقت الحاضر، يتم نشر الأحداث الجارية المتعلقة بمجالات متنوعة في الصحف، ومشاركتها على وسائل التواصل الاجتماعي وبثها على الراديو والتلفزيون. أدى النمو الهائل في محتويات الأخبار عبر الإنترنت إلى صعوبة التمييز بين الأخبار الحقيقية والمزيفة. ونتيجة لذلك، أصبحت الأخبار المزيفة سائدة وصعبة للغاية في التحليل والتحقق. في الواقع، إنه تحدٍ كبير للحكومة والجمهور لمناقشة الوضع اعتمادًا على كل حالة على حدة. لهذا الغرض، يجب اتخاذ آلية للتحقق من الشائعات والبيانات خاصة تلك التي تحصل على الآلاف من وجهات النظر والإعجابات قبل فضحها ودحضها من قبل مصادر الخبراء. تم استخدام العديد من تقنيات التعلم الآلي للكشف عن الأخبار المزيفة وتصنيفها. ومع ذلك، فإن هذه الأساليب مقيدة من حيث الدقة. طبقت هذه الدراسة مصنفًا عشوائيًا للغابات (RF) للتنبؤ بالأخبار المزيفة أو الحقيقية. لهذا الغرض، يتم استخراج ثلاثة وعشرين (23) ميزة نصية من مجموعة بيانات الأخبار المزيفة ISOT. تُستخدم أفضل أربع تقنيات لاختيار الميزات مثل chi2، و univariate، و information gain، و feature importance لاختيار أفضل أربعة عشر ميزة من أصل ثلاثة وعشرين. يتم تقييم النموذج المقترح وتقنيات المقارنات المعيارية الأخرى على مجموعة بيانات المقارنات المعيارية باستخدام أفضل الميزات. تظهر النتائج التجريبية أن النموذج المقترح تفوق على أحدث تقنيات التعلم الآلي مثل GBM و XGBoost و Ada Boost Regression Model من حيث دقة التصنيف.<br/>Nowadays, current events related to diverse fields are published in newspapers, shared on social media and broadcasted on radio and television. The explosive growth in online news contents has made it very difficult to discriminate between real and fake. As a result, fake news has become prevalent and immensely challenging to analyze and verify. Indeed, it is a big challenge to the government and public to debate the situation depending on case to case. For this purpose, a mechanism has to be taken on fact-checking rumors and statements particularly those that get thousands of views and likes before being debunked and refuted by expert sources. Various machine learning techniques have been used to detect and classify fake news. However, these approaches are restricted in terms of accuracy. This study has applied a random forest (RF) classifier to predict fake or real news. For this purpose, twenty-three (23) textual features are extracted from ISOT Fake News Dataset. Four best feature selection techniques like chi2, univariate, information gain and feature importance are used to select fourteen best features out of twenty-three. The proposed model and other benchmark techniques are evaluated on benchmark dataset using best features. Experimental findings show that the proposed model outperformed state-of-the-art machine learning techniques such as GBM, XGBoost and Ada Boost Regression Model in terms of classification accuracy.<br/>
SUPPLEMENTAL MATERIAL
Coming soon ....
REFERENCES (21)
CITATIONS (24)
EXTERNAL LINKS
PlumX Metrics
RECOMMENDATIONS
FAIR ASSESSMENT
Coming soon ....
JUPYTER LAB
Coming soon ....