International Science and Technology Journal
Published by
Under supervision of
Open Access Journal
ISSN: 2519-9854 (Online)
ISSN: 2519-9846 (Print)
A peer-reviewed and open access journal concerned with publishing researches and studies in the field of applied sciences and engineering
Adopting Arabic Taggers to Annotate a Libyan Dialect Text with a Pre-Tagging Processing and Term Substitutions
Researcher(s): | - Mohamed Taybe Elhadi
- Ramadan Alsayed Alfared
|
Institution: | Faculty of Information Technology
University of Zawia |
Field: | علوم الحاسوب و النظم الخبيرة وتقنية المعلومات |
Published in: | Special volume - February 2022: SCITCS1 |
الملخص
تعرض هذه الورقة عمل بحثي في محاولة التعويض عن نقص الموارد والتي تتعلق بفهم ومعالجة اللغات الطبيعية واللهجة العربية الليبية (LAD)، ولا سيما عمليات وسم الكلام إلى أقسام الكلام. من الأهمية بمكان التعامل مع عدم وجود موارد وسم LAD (POS) .هذا النقص يستلزم استخدام موسمات اللغة العربية الفصحى الحديثة (MAS) من أجل تحسين نتائج وضع توسيم اللهجة العامية (LAD). هدفنا هو دراسة استخدام اثنين من أدوات الوسم المتاحة بشكل شائع، وهما Camel Tools و Stanford taggers في وسم اللهجة الليبي. أظهر التطبيق الأولي لأدوات التوسيم على مجموعات من البيانات العامية أداءً ضعيفًا. من خلال تطبيق المعالجة والتحسينات على الجمل قبل وضع علامات التوسيم عليها باستخدام MAS taggers كان لها تأثير إيجابي على النتائج. أعطى استخدام معجم خارجي وقواعد الاستبدال على مجموعة مختارة من كلمات اللهجة الليبية نتائج مشجعة للغاية بل وأفضل من المتوقع. تعتبر نتائج مجموعة التجارب التي اجريت حتى بمثل هذه المعالجة البدائية التي تستند إلى معجم ضحل للغاية مشجعة للغاية مع التحسن العام الذي يزيد عن 30٪ (37.43 / 26.37، بأدوات كمل و ستانفورد على التوالي). إن العمل المستقبلي الذي يأخذ في الاعتبار تحسينات مفابلة للتحديات المتعلقة بالاختلافات المعجمية والصرفية وعمليات إلغاء الغموض يضمن تحقيق نتائج أفضل بكثير.
Abstract
This paper reports on research work that attempts to compensate for the lack of resources when it comes to Natural Language Understanding for Libyan Arabic Dialect (LAD), particularly POS tagging. Of prime importance is dealing with the lack of LAD POS tagging facilities. This deficiency necessitates the use of Modern Standard Arabic (MAS) taggers in order to improve tagging results for LAD. It is our aim to investigate the use of two commonly available taggers, namely Camel Tools and Sanford taggers for LAD. Initial application of such POS tools to LAD collections showed poor performance. Through the application of processing and improvements on the sentences before tagging them using MAS taggers had a positive influence on the results. Using of an external lexicon and substitution rules base on a selected set of LAD words gave very encouraging and even better than expected. The pilot set of experiments, even with such primitive processing based on very shallow lexicon are very encouraging with overall improvement above 30% (37.43/26.37, for camel tagger and Stanford tagger respectively). Future work taking into account improvements on many LAD challenges relating to lexical, morphological variations and sense disambiguation are guaranteed to bring about much better results.