日本語語彙データベース

English


©2004-2012 The CJK Dictionary Institute
日中韓辭典研究所

電子メール: Jack Halpern,


概要及び収録範囲

当研究所の包括的な日本語語彙データ資源は2ヶ国語、3ヶ国語収録の辞書を含めて現在約300万項目を数え、一般語彙、専門用語、固有名詞、企業名・団体名、カタカナ語を網羅している。

本ページで説明する日本語語彙データベース(JLD)は詳細な文法属性を備えた包括的データベースであり、機械翻訳(MT)、情報検索(IR)、形態素解析やトークン化といったNLPアプリケーションに特化している。収録された自由形と拘束形の一般語彙は約30万項目に上る。データはあらゆるエンコード(UTF8、EUC、Shift-JIS)とファイル形式(テキスト、エクセル、html等)で提供可能。

日本語に見られる屈折形態論、派生形態論、語彙形態論を全て把握した上で屈折形、派生形両方の語彙を認識できるよう、多数の接辞、助詞、助動詞、活用形が網羅されている。IRにおいてJLDのロバスト性を高めるため、当研究所の日本語表記データベースの併用を強く推奨する。詳細は The Challenges of Intelligent Japanese Searching (「知的日本語検索の諸課題」)を参照されたい。



フィールド解説(抜粋)
1 LEXEME 標準的な漢字仮名表記による見出し語。
2 HIRAGANA 読みの平仮名表記。2種類の送り仮名を示す。
3 POS 品詞コード。各POSコードの定義は jappos.htm を参照のこと。
4 SUBPOS SUBPOSコード。各SUBPOSコードの定義は jappos.htm を参照のこと。
5 CONJUG 活用形。各CONJUGコードの定義は jappos.htm を参照の上、詳細はお問い合わせ願う。
6 TYPE 文法属性等の補足的情報、又は見出し語の意味的な特性を識別する補助分類。各TYPEコードの定義は cpostype.htm を参照のこと。
7 MORPH 見出し語の付加的な形態素特性を識別する補助分類。各MORPHコードの定義は jappos.htm を参照のこと。
8 VALENCY 語幹又は語彙素と接辞の拘束の度合いを表す。コードの定義は jappos.htm を、各形態的属性の詳細な説明は japaffix.htm を参照のこと。
9 RANKING 頻度統計による順位を示す、埋め草の0を付加した6桁の番号。
10 SCRIPT 見出し語の表記:
J 日本語(漢字、平仮名、又は漢字・平仮名・ローマ字・片仮名の併用)
K 片仮名のみ - カタカナ語データベースの見出し語は品詞コード“NC”で示す
R ローマ字のみ、又はアルファベット表記
11 BEFORE 接尾辞や接尾辞的な要素に先行する語彙素、語幹又は語根の品詞(POS)を表す連接続性。例えば、(複合語を形成する)派生接尾辞としての 員 に“NX”とある場合、研究員 の様に 員 が普通名詞又は動名詞の後に付くことを表す。接尾辞についてのみ表示。
12 AFTER 接頭辞や接頭辞的な要素の後ろに付く語彙素の品詞(POS)を表す連接続性。例えば、連体詞的接頭辞の 元 に“NC”とある場合、元総理大臣 の様に 元 が普通名詞に先行できることを表す。接頭辞についてのみ表示。
13 COMPPOS 接頭辞または接尾辞が付いて確立する、語彙素の品詞(POS)。例えば、連体詞的接頭辞の 元 に“NC”とある場合、(普通名詞に)元 を付けると普通名詞(元総理大臣)になることを表す。接辞についてのみ表示。
14 HEPBURN2 読みを改定ヘボン式ローマ字(マクロンを無くし母音を重ねる)で示す。


Sample of Japanese Lexical Database
1 2 3 4 5 6 7 8 9 10 11 12 13 14
がぶ飲み がぶのみ VN     t   0 033273 J       gabunomi
がましげ がましげ FS M       1 061089 J VC   AN gamashige
がましさ がましさ WS         1 061089 J VC   NC gamashisa
がま口 がまぐち NC         0 041445 J       gamaguchi
がらがら がらがら D         0 033273 J       garagara
がらがら がらがら VN     i   0 033273 J       garagara
がらがら蛇 がらがらへび NC         0 061089 J       garagarahebi
がらくた がらくた NC         0 017822 J       garakuta
がらっと がらっと D         0 041445 J       garatto
がらっぱち がらっぱち AN 0       0 061089 J       garappachi
がらっぱち がらっぱち NC         0 061089 J       garappachi
がらみ がらみ WS         1 061089 J NC   NC garami
がわり がわり WS         1 061089 J NC   VN gawari
がんがん がんがん D         0 033273 J       gangan
がんがん がんがん VN     i   0 033273 J       gangan
がんじがらめ がんじがらめ NC         0 013474 J       ganjigarame
がんとして がんとして D         0 028538 J       gantoshite
がん遺伝子 がんいでんし NC         0 013474 J       gan'idenshi
がん化 がんか VN         0 028538 J       ganka
がんセンター がんせんたー NC         0 025149 J       gansenta_
慣れ なれ NC         0 017822 J       nare
慣れきる な.れき-る V5   R     0 022662 J       narekiru
慣れっこ なれっこ AN 1       0 020741 J       narekko
慣れっこ なれっこ NC         0 020741 J       narekko
慣れる な.れ-る V1     i   0 002465 J       nareru
慣れる なれる WS         1 002465 J VC   V1 nareru
慣れ切る なれき-る V5   R     0 033273 J       narekiru
慣わし ならわし NC         0 033273 J       narawashi
慣わす なら.わ-す V5   S t   0 061089 J       narawasu
慣わす ならわす WS         1 061089 J VC   V5 narawasu
慣行 かんこう NC         0 007161 J       kanko_
慣行犯 かんこうはん NC         0 061089 J       kanko_han
慣手段 かんしゅだん NC         0 061089 J       kanshudan
慣習 かんしゅう NC         0 007457 J       kanshu_
慣習法 かんしゅうほう NC         0 061089 J       kanshu_ho_
慣熟 かんじゅく VN     i   0 061089 J       kanjuku
慣性 かんせい NC         0 013474 J       kansei
慣性の法則 かんせいのほうそく U         U 061089 J       kanseinoho_soku
いき NC         0 061089 J       iki
WS         1 061089 J NC   NC u
うまれ NC         0 061089 J       umare
うまれ WS         1 061089 J NC NP   NC umare
うみ NC         0 061089 J       umi
NC         0 061089 J       ki
WP         1 061089 J   NC NC ki
しょう NC         0 061089 J       sho_
せい NR         0 003721 J       sei
せい WS         1 003721 J NC   NC sei
なま NC         0 010656 J       nama
なま WP         1 010656 J   NC NC nama
なまり NC         0 061089 J       namari