Japanese Full-Form Lexicon

Simplifies morphological analysis

Instantly identifies inflected forms

Comprehensive coverage, especially verbs

Overview

CJKI provides a Japanese Full-Form Lexicon (JFULEX) that covers roughly 120 million entries, including canonical forms, inflected forms, and compound words. This lexicon is being used by  major IT companies like Amazon and Google to enhance their search technology.

The Japanese language is agglutinative; that is, it forms words by putting together basic elements called morphemes to form countless inflected forms, compound words, and affixed words. For example, the compound 造船所 zōsenjo ‘shipyard’ consists of the free word 造船 ‘shipbuilding’ (造 ‘make; build’ + 船 ‘ship’) followed by the suffix 所 ‘place’.

Japanese also has many derived words, (morpheme + grammatical suffix) such as combining 黒 kuro ‘black’ with the suffix い i to form the adjective 黒い kuroi ‘black’. Derivation should not be confused with inflection, which consists of adding word endings to indicate grammatical functions such as tense. For example, the last syllable of the verb 帰る kaeru ‘to return’ is inflected to yield 帰れ kaere, the imperative. Japanese verbs have thousands of inflected forms.

If proper nouns, technical terms and verb-following expressions (such as なければならない nakerebanaranai) are included, the the total can exceed 120 million.

tazuneru(たずねる) POS=V1

TenseStemKanaKanjiInflectedRoman
PastたずねS + ました-たずねましたTAZUNEmashita
PastたずねS + て い ましたS + て 居 ましたたずねて いましたTAZUNEte imashita
PastたずねS + て おり ましたS + て 居り ましたたずねて おりましたTAZUNEte orimashita
PastたずねS + やした-たずねやしたTAZUNEyashita
PastたずねS + て い やしたS + て 居 やしたたずねて いやしたTAZUNEte iyashita
PastたずねS + て おり やしたS + て 居り やしたたずねて おりやしたTAZUNEte oriyashita
Past -tara IたずねS + ましたら-たずねましたらTAZUNEmashitara
Past -tara Iたずねお + S + して おり ましたら御 + S + 為て 居り ましたらたずねして おりましたらoTAZUNE shite orimashitara
Past -tara IたずねS + やしたら-たずねやしたらTAZUNEyashitara
Past -tara Iたずねお + S + して おり やしたら御 + S + 為て 居り やしたらたずねして おりやしたらoTAZUNE shite oriyashitara
Past -tara IIたずねS + ましたらば-たずねましたらばTAZUNEmashitaraba
Past -tara IIたずねお + S + して おり ましたらば御 + S + 為て 居り ましたらばたずね して おりましたらばoTAZUNE shite orimashitaraba
Past -tara IIたずねS + やしたらば-たずねやしたらばTAZUNEyashitaraba
Past -tara IIたずねお + S + して おり やしたらば御 + S + 為て 居り やしたらばたずね して おりやしたらばoTAZUNE shite oriyashitaraba
Past causativeたずねS + させ ました-たずねさせましたTAZUNEsasemashita
Past causativeたずねS + させ やした-たずねさせやしたTAZUNEsaseyashita
Past causative honorificたずねS + させ られ ました-たずねさせられましたTAZUNEsaseraremashita
Past causative honorificたずねS + させ られ て い ましたS + させ られ て 居 ましたたずねさせられて いましたTAZUNEsaserarete imashita
Past causative honorificたずねS + させ られ やした-たずねさせられやしたTAZUNEsaserareyashita
Past causative honorificたずねS + させ られ て い やしたS + させ られ て 居 やしたたずねさせられて いやしたTAZUNEsaserarete iyashita
Past causative passiveたずねS + させ られ ました-たずねさせられましたTAZUNEsaseraremashita

Practical Applications

CJKI’s full-form lexicons can bring the following benefits to various NLP applications:

Machine translation

Greatly enhanced translation quality

Named-entity recognition (NER)

Dramatically improved

Morphological analysis

Significantly simplified algorithms

Information retrieval applications

Support for query processing

Pedagogical applications

Automatic conjugation systems

Part-of-speech (POS) analysis and tagging

Automatic conjugation systems

JFULEX Related Resources

ArabLEX

Arabic Full-Form Lexicon

Includes all inflected, declined, and conjugated forms

SFULEX

Spanish Full-Form Lexicon

Includes all inflected, declined, and conjugated forms

JWL

Comprehensive Japanese Wordlist

General vocabulary, proper nouns and technical terms