Arabic Dialects Full-Form Lexicon

Covers all major Arabic dialects

Currently over 100 million entries

Ideal for NLP, including MT and speech

Overview

While Modern Standard Arabic is used as the official language of 22 Arab League nations, Arabs normally use one of the 30 or so modern dialects for communicating with family and friends. However, Arabic dialects don’t have a formal written language nor a standard orthography, resulting in a lack of applications and technologies that support them.

Our Arabic Dialects Full-Form Lexicon, or DiaLEX, has been developed to address this lack of support. DiaLEX is a comprehensive computational lexicon covering several major Arabic dialects and subdialects, including Egyptian, Kuwaiti, Qatari, Emirati, Saudi Arabian Najdi, Saudi Arabian Hejazi, and Palestinian.

Based on ArabLEX, our full-form lexicon for Modern Standard Arabic, DiaLEX will cover all inflected, declined, and cliticized wordforms. It is ideally suited for morphological analysis, machine translation, and speech technology applications.

Distinctive Features

Sample for Egyptian Arabic

* Select one of the tabs below.

ARABIC_VARABIC_ULEMMAGENNUMNPG2
بِيتْبيتبِيتْMS000
اِلْبِيتْالبيتبِيتْMS000
بِيتِيبيتيبِيتْMSS1C
بِيتَكْبيتكبِيتْMSS2M
بِيتِكْبيتكبِيتْMSS2F
بِيتُوبيتوبِيتْMSS3M
بِيتُهْبيتهبِيتْMSS3M
بِيتْهَابيتهابِيتْMSS3F
بِيتْنَابيتنابِيتْMSP1C
بِيتْكُوبيتكوبِيتْMSP2C
بِيتْكُمْبيتكمبِيتْMSP2C
بِيتْهُمْبيتهمبِيتْMSP3C
بِيتِينْبيتينبِيتْMD000
اِلْبِيتِينْالبيتينبِيتْMD000
بِيتِينِيبيتينيبِيتْMDS1C
بِيتِينَكْبيتينكبِيتْMDS2M
بِيتِينِكْبيتينكبِيتْMDS2F
بِيتِينُوبيتينوبِيتْMDS3M
بِيتِينُهْبيتينهبِيتْMDS3M
بِيتِينْهَابيتينهابِيتْMDS3F
بِيتِينَّابيتينابِيتْMDP1C
بِيتِينْكُوبيتينكوبِيتْMDP2C
بِيتِينْكُمْبيتينكمبِيتْMDP2C
بِيتِينْهُمْبيتينهمبِيتْMDP3C
بِيُوتْبيوتبِيتْMP000
بُيُوتْبيوتبِيتْMP000
اِلْبِيُوتْالبيوتبِيتْMP000
اِلْبُيُوتْالبيوتبِيتْMP000
بِيُوتِيبيوتيبِيتْMPS1C
بُيُوتِيبيوتيبِيتْMPS1C
بِيُوتَكْبيوتكبِيتْMPS2M
بُيُوتَكْبيوتكبِيتْMPS2M
بِيُوتِكْبيوتكبِيتْMPS2F
بُيُوتِكْبيوتكبِيتْMPS2F
بِيُوتُوبيوتوبِيتْMPS3M
بِيُوتُهْبيوتهبِيتْMPS3M
بُيُوتُوبيوتوبِيتْMPS3M
بُيُوتُهْبيوتهبِيتْMPS3M
بِيُوتْهَابيوتهابِيتْMPS3F
بُيُوتْهَابيوتهابِيتْMPS3F
بِيُوتْنَابيوتنابِيتْMPP1C
بُيُوتْنَابيوتنابِيتْMPP1C
بِيُوتْكُوبيوتكوبِيتْMPP2C
بِيُوتْكُمْبيوتكمبِيتْMPP2C
بُيُوتْكُوبيوتكوبِيتْMPP2C
بُيُوتْكُمْبيوتكمبِيتْMPP2C
بِيُوتْهُمْبيوتهمبِيتْMPP3C
بُيُوتْهُمْبيوتهمبِيتْMPP3C

Practical Applications

CJKI’s full-form lexicons can bring the following benefits to various NLP applications:

Machine translation

Greatly enhanced translation quality

Morphological analysis

Significantly simplified algorithms

Pedagogical applications

Automatic conjugation systems

Named-entity recognition (NER)

Dramatically improved

Related Resources

ArabLEX

Arabic Full-Form Lexicon Includes all inflected, declined, and conjugated forms

APD: Arabic Phonetic Database

Phonemic transcriptions for core Arabic vocabulary

AWL

Arabic Wordlist

General vocabulary, proper nouns and technical terms