Open Access Journal

International Science and Technology Journal

ISSN: 2519-9854 (Online)

ISSN: 2519-9846 (Print)

DOI: www.doi.org/10.62341/ISTJ

A peer-reviewed and open access journal concerned with publishing researches and studies in the field of applied sciences and engineering

Published by

Supervised by

دراسة أداء مُصنِّف مـقـترح لخوارزمية هجينة لإكتشاف التصيد الاحتيالي عبر البريد الإلكتروني

الملخص
يهدف هذا البحث إلى دراسة فاعلية وأداء المُصنِّف المقترح لأكتشاف رسائل البريد الإلكتروني للتصيد الاحتيالي، وذلك لأن هناك حاجة مُــلحة لتطوير أنظمة أمن معلومات قادرة بشكل دقيق واستباقي للتعرف على رسائل التصيد الاحتيالي بسبب عددها المتزايد وتنوع قدراتها الاحتيالية. نظرًا لأن هذا النوع من رسائل التصيد يتلاعب بالعواطف البشرية مما يؤدي إلى مخاوف ويخلق موقـفًا وحالة عاجلة من خلال الادعاء بأن المستلم يجب أن يتخذ إجراءً فوريًا وسريعًا، مما قد يؤدي ويتسبب في خسائر مالية أوخسائر كبيرة في تسريب البيانات. من أجل التغلب على الضعف البشري فيما يتعلق باكتشاف رسائل البريد الإلكتروني المخادعة والتعرف عليها؛ تم إجراء هذه الدراسة، لأننا بحاجة إلى تعزيز وتحسين مستمر لدقة وفاعلية طرق وأساليب خوارزميات الكشف عن التصيد الاحتيالي بشكل آلي وتلقائيً. يستخدم نموذج التصنيف المقترح خوارزمية هجينة تجمع بين خوارزميات الشبكة العصبية متعددة الطبقات (MLP) للتعلم العميق (DL) وأساليب معالجة اللغة الطبيعية (NLP) عـــبر جـسم النص الأساسي للبريد الإلكتروني المستـلم. تسلط هذه الورقة الضوء على أهمية فحص الميزات النصية لجسم رسالة البريد لاكتشاف التصيد الاحتيالي، باستخدام الشبكات العصبية متعددة الطبقات (MLP) لتــحــسين دقــة اكــتــشاف الــتــصيد من خلال نص الرسالة، ولأن ميزات النص تمثل اتجاهًا جديدًا نسبيًا للدراسة في مجال اكتشاف التصيد عبر البريد الإلكتروني. تم اختبار النموذج المقترح باستخدام مجموعة بيانات متوازنة ومُصنَّـفة تضم 8579 رسالة مختلفة، وأظهرت النتائج تحسنًا في دقة التصنيف والأداء مقارنة بأساليب التعلم العميق الأخرى. تم تقييم نموذج المُصنِّف المقترح بأستخدام المقاييس التالية :(مقياس الاسترجاع "Recall"، معدل الدقة الشاملة "Accuracy"، معدل الانضباط للدقة "Precision"، ومقياس المتوسط التوافقي "f-measure")، وتم الحصول على النتائج _ بنسبة 98.3٪، 98.2٪، 98.5٪، و98.55٪ على التوالي. كما أظهر النموذج أيضًا أداءً جيدًا واستغرق وقتًا قصيرًا للكشف؛ لإنتاج معدل دقة شامل يزيد عن 98.1٪ ومعدل إيجابي زائف منخفض (FPR) قدره 0.015 ........................ الكلمات المفتاحية: ................كـشـف رسائــل الـبريـد الإلكـتروني للتصيد الاحتيالي، الشبكة العصبية متعددة الطبقات "MLP"، التعـلم العميق "DL"، معالجة اللغة الطبيعية "NLP"، الخوارزميات، أمن المعلومات.
Abstract
This research aims to study the effectiveness and performance of the proposed classifier to detect phishing emails, because there is an urgent need to develop information security systems that are accurately and proactively able to recognize phishing messages due to their increasing number and diversity of fraudulent capabilities. Since this type of phishing message manipulates human emotions leading to fears and creates a situation of urgency by claiming that the recipient must take immediate and swift action, which may lead to financial losses or significant data leakage losses. In order to overcome the human weakness in detecting and recognizing phishing emails, this study was conducted because we need to continuously enhance and improve the accuracy and effectiveness of automated and automatic phishing detection algorithms and methods. The proposed classification model utilizes a hybrid algorithm that combines deep learning (DL) multi-layer perceptron (MLP) neural network algorithms and natural language processing (NLP) methods on the body of the received email. This paper highlights the importance of examining the textual features of the body of a mail message for phishing detection, using multi-layer perceptron (MLP) neural networks to analyze the accuracy of detecting phishing through the message text, and because text features represent a relatively new direction of study in the field of email phishing detection. The proposed model was tested on a balanced and labeled dataset of 8579 different messages, and the results showed an improvement in classification accuracy and performance compared to other deep learning methods. The proposed classifier model was evaluated using the following metrics: (Recall, Accuracy, Precision, and F-measure), and the results were obtained - 98.3%, 98.2%, 98.5%, and 98.55%, respectively. The model also showed good performance and took a short time to detect; to produce an overall accuracy rate of over 98.1% and a low false positive rate (FPR) of 0.015................. Keywords: ................Phishing Email detection, MultiLayer Perceptron (MLP) Neural Network, Deep learning (DL), Natural language processing (NLP), Algorithms, Information security.