International Science and Technology Journal
Published by
Under supervision of
Open Access Journal
ISSN: 2519-9854 (Online)
ISSN: 2519-9846 (Print)
A peer-reviewed and open access journal concerned with publishing researches and studies in the field of applied sciences and engineering
Performance Comparison of WHT and DCT Transforms Used in Sliding Window Printed Arabic OCR
Researcher(s): | - Wajdi S. Besbas
- Anisa F. Elbokhare
- Mohamed R. Sunni
- EmadEddin A. Gamati
|
Institution: | University of Zawia University of Tripoli |
Field: | الهندسة الكهربائية و الالكترونية وهندسة الاتصالات |
Published in: | 10th volume - March 2017 |
الملخص
التمييز الضوئي للنص العربي (مطبوع أو مكتوب باليد) يحتاج لقاعدة بيانات للتعرف علي النص )سواء كانت الطريقة المتبعة تعتمد على التعرف على كلمة أو تعتمد على تقسيم النص الى حروف مفردة)، لذلك يصعب الحصول على قاعدة بيانات شاملة يمكن الاعتماد عليها ، كذلك التمييز الضوئي للنص المكتوب يحتاج لإجراء العديد من التعديلات قبل المعالجة ويحتاج لطرق لتقسيم النص إلى حروف مفردة وطرق للتعرف على هذه الحروف.
في هذه الورقة ، قمنا باقتراح طريقة أخرى للتمييز الضوئي لحروف اللغة العربية المطبوعة من دون تجزئة ودون الاعتماد على قاموس للكلمات. ولقد تم استخدام تحويلاتWalsh Hadamard وتحويلات Discrete Cosine كأدوات لاستنتاج واستخراج خصائص الحروف.
النظام يبدأ بعملية المسح الضوئي لصورة النص العربي المطبوع المراد التعرف عليه ، ثم مطابقة صور الحروف التي تم تخزينها مسبقا مع صورة النص المراد التعرف عليه ككل ، ثم يتم تحديد مواقع هذه الحروف في صورة النص.
Abstract
The Arabic text recognition (i.e.: word extraction, pattern recognition or segmentation) needs databases for training and validation (which are difficult to find such Arabic comprehensive databases), in addition to that, Arabic writing recognition involves different pre-processing, segmentation and recognition methods.
To overcome these issues, we propose a different Arabic Optical Character Recognition "AOCR" approach, that is segmentation-free character recognition independent of a lexicon of words. A system for Arabic character recognition which is implemented using either Walsh Hadamard Transform (WHT) or Discrete Cosine Transform (DCT) is analysed. The system starts by scanning the document, then matching the archive of character images with the text image, and determines the positions of these characters in the text image. Three font types (Arial, Times New Roman and Simplified Arabic), and nine font sizes (8,10,12,14,16,20,24 and 28) are used for this analysis.