المجلة الدولية للعلوم والتقنية

International Science and Technology Journal

ISSN: 2519-9854 (Online)

ISSN: 2519-9846 (Print)

DOI: www.doi.org/10.62341/ISTJ

مجلة علمية محكّمة تهتم بنشر البحوث والدراسات في مجال العلوم التطبيقية، تصدر دورياً تحت إشراف نخبة من الأساتذة

Adopting Arabic Taggers to Annotate a Libyan Dialect Text with a Pre-Tagging Processing and Term Substitutions

الملخص
تعرض هذه الورقة عمل بحثي في محاولة التعويض عن نقص الموارد والتي تتعلق بفهم ومعالجة اللغات الطبيعية واللهجة العربية الليبية (LAD)، ولا سيما عمليات وسم الكلام إلى أقسام الكلام. من الأهمية بمكان التعامل مع عدم وجود موارد وسم LAD (POS) .هذا النقص يستلزم استخدام موسمات اللغة العربية الفصحى الحديثة (MAS) من أجل تحسين نتائج وضع توسيم اللهجة العامية (LAD). هدفنا هو دراسة استخدام اثنين من أدوات الوسم المتاحة بشكل شائع، وهما Camel Tools و Stanford taggers في وسم اللهجة الليبي. أظهر التطبيق الأولي لأدوات التوسيم على مجموعات من البيانات العامية أداءً ضعيفًا. من خلال تطبيق المعالجة والتحسينات على الجمل قبل وضع علامات التوسيم عليها باستخدام MAS taggers كان لها تأثير إيجابي على النتائج. أعطى استخدام معجم خارجي وقواعد الاستبدال على مجموعة مختارة من كلمات اللهجة الليبية نتائج مشجعة للغاية بل وأفضل من المتوقع. تعتبر نتائج مجموعة التجارب التي اجريت حتى بمثل هذه المعالجة البدائية التي تستند إلى معجم ضحل للغاية مشجعة للغاية مع التحسن العام الذي يزيد عن 30٪ (37.43 / 26.37، بأدوات كمل و ستانفورد على التوالي). إن العمل المستقبلي الذي يأخذ في الاعتبار تحسينات مفابلة للتحديات المتعلقة بالاختلافات المعجمية والصرفية وعمليات إلغاء الغموض يضمن تحقيق نتائج أفضل بكثير.
Abstract
This paper reports on research work that attempts to compensate for the lack of resources when it comes to Natural Language Understanding for Libyan Arabic Dialect (LAD), particularly POS tagging. Of prime importance is dealing with the lack of LAD POS tagging facilities. This deficiency necessitates the use of Modern Standard Arabic (MAS) taggers in order to improve tagging results for LAD. It is our aim to investigate the use of two commonly available taggers, namely Camel Tools and Sanford taggers for LAD. Initial application of such POS tools to LAD collections showed poor performance. Through the application of processing and improvements on the sentences before tagging them using MAS taggers had a positive influence on the results. Using of an external lexicon and substitution rules base on a selected set of LAD words gave very encouraging and even better than expected. The pilot set of experiments, even with such primitive processing based on very shallow lexicon are very encouraging with overall improvement above 30% (37.43/26.37, for camel tagger and Stanford tagger respectively). Future work taking into account improvements on many LAD challenges relating to lexical, morphological variations and sense disambiguation are guaranteed to bring about much better results.