Chinese Lexical Database

Covers over 500,000 entries

Simplified and Traditional Chinese

Optimized for NLP applications

Overview

The CJKI Chinese Lexical Database (CLD) is a comprehensive monolingual lexical database specifically designed for NLP applications. It consists of two modules, Simplified Chinese (SC) and Traditional Chinese (TC), with about 250,000 entries in each module covering general vocabulary, technical terms, and important proper nouns.

A unique feature of CLD is that the readings (pinyin and zhuyin) take into account the differences in pronunciation between the PRC and Taiwan. For example, SC 危险 wēixiǎn ‘dangerous’ is TC 危險 wéixiǎn. Furthermore, the TC not merely a code-conversion equivalent of the SC version, but has been carefully proofread to ensure accuracy on both the orthographic and lexemic levels.
For example, 出租车 chūzūchē ‘taxi’ has a lexemic equivalent of 計程車 jīchéngchē, rather than the SC orthographic equivalent 出租車. Developed by CJKI’s team of Chinese specialists over many years, CLD is a significant contribution to the field of Chinese lexicography and information processing.

Main Features

Phonological information

Such as pinyin, zhuyin, and IPA

Semantic classification codes

Such as type of proper noun

Grammatical information

Such as POS and adjacency attributes

Morphological information

derivational affixes and binding valency codes

* Select one of the tabs below.

POS	SC	Pinyin
NC	东家之子	dōngjiāzhīzǐ
E	东家效颦	dōngjiāxiàopín
NP	东架松	dōngjiàsōng
NP	东河	dōnghé
NP	东河	dōnghé
NP	东河镇	dōnghézhèn
NP	东河沿	dōnghéyán
NP	东河区	dōnghéqū
NP	东河漕胡同	dōnghécáo hútóng
NP	东河道	dōnghédào
NP	东花	dōnghuā
NP	东花厅胡同	dōnghuātīng hútóng
NP	东花枝胡同	dōnghuāzhī hútóng
NP	东霞	dōngxiá
NP	东会村	dōnghuìcūn
NC	东海	dōnghǎi
NP	东海	dōnghǎi
NP	东海	dōnghǎi
NP	东海县	dōnghǎixiàn
E	东海扬尘	dōnghǎiyángchén
E	东海捞针	dōnghǎilāozhēn
U	东海舰队	dōnghǎijiànduì
E	东海桑田	dōnghǎisāngtián
NP	东海大学	dōnghǎidàxué
NP	东外大街	dōngwàidàjiē
NC	东郭	dōngguō
NP	东郭	dōngguō
E	东郭先生	dōngguōxiānshēng
NC	东郭履	dōngguōlǚ
NP	东革新里	dōnggéxīnlǐ
NC	东岳	dōngyuè
NP	东岳	dōngyuè
NP	东冠英胡同	dōngguānyīng hútóng
NP	东官房胡同	dōngguānfáng hútóng
NC	东干	dōnggān
NP	东管头	dōngguǎntóu
NP	东管头前街	dōngguǎntóuqiánjiē
NP	东莞	dōngguān
NP	东莞市	dōngguānshì
NC	东岸	dōngàn
NP	东岩	dōngyán
NP	东喜	dōngxǐ
NP	东旗	dōngqí
NP	东起	dōngqǐ
NP	东吉	dōngjí
NP	东吉祥胡同	dōngjíxiáng hútóng
NP	东弓匠胡同	dōnggōngjiàng hútóng
NP	东旧帘子胡同	dōngjiùliánzǐ hútóng
NP	东牛角胡同	dōngniújiǎo hútóng
NP	东京	dōngjīng
NP	东京影展	dōngjīngyǐngzhǎn
NP	东京畿道	dōngjīngjīdào
NC	东京股市	dōngjīnggǔshì
NP	东京大学	dōngjīngdàxué
NP	东京都	dōngjīngdū
NP	东京湾	dōngjīngwān
NP	东教场胡同	dōngjiāocháng hútóng
NP	东教胡同	dōngjiāo hútóng
NP	东局村	dōngjúcūn
NP	东玉	dōngyù
NP	东玉河	dōngyùhé
NP	东琴	dōngqín
NP	东琴科	dōngqínkē
NP	东区	dōngqū
NC	东隅	dōngyú
NC	东君	dōngjūn
NP	东慧	dōnghuì
NP	东月	dōngyuè
NP	东健	dōngjiàn
NP	东源	dōngyuán
NP	东源县	dōngyuánxiàn
NP	东湖	dōnghú
NP	东湖渠	dōnghúqú
NP	东湖区	dōnghúqū
NC	东胡	dōnghú
N	东胡史	dōnghúshǐ
NP	东交民巷	dōngjiāomínxiàng
NP	东光	dōngguāng
NP	东光	dōngguāng
NP	东光县	dōngguāngxiàn
NP	东光镇	dōngguāngzhèn
NP	东光胡同	dōngguāng hútóng
NP	东公街	dōnggōngjiē
NP	东公文	dōnggōngwén
NP	东厚	dōnghòu
NP	东口袋胡同	dōngkǒudài hútóng
NC	东向	dōngxiàng
NP	东向	dōngxiàng
NP	东后河沿	dōnghòuhéyán
NP	东幸福街	dōngxìngfújiē
NP	东康	dōngkāng
NP	东江	dōngjiāng
NP	东浩	dōnghào
NP	东港	dōnggǎng
NP	东港区	dōnggǎngqū
NP	东港市	dōnggǎngshì
NC	东皇	dōnghuáng
NP	东皇城根南街	dōnghuángchénggēnnánjiē
NP	东皇城根北街	dōnghuángchénggēnběijiē
NA	东航	dōngháng
NP	东航	dōngháng
NP	东航	dōngháng
U	东行航程	dōngxínghángchéng
NC	东郊	dōngjiāo
NP	东香	dōngxiāng
NP	东香河园	dōngxiānghéyuán
NP	东高地	dōnggāodì
NP	东高房胡同	dōnggāofáng hútóng
NP	东合	dōnghé
NP	东合盛	dōnghéchéng
NP	东克尔	dōngkèěr
NP	东克尔曼	dōngkèěrmàn
NP	东国	dōngguó
NP	东根	dōnggēn
NP	东佐夫	dōngzuǒfū
E	东差西误	dōngchāxīwù
NP	东沙岛	dōngshādǎo
NP	东沙群岛	dōngshāqúndǎo
NP	东塞尔	dōngsāiěr
NP	东才	dōngcái
NC	东作	dōngzuò
NP	东三亲家坟	dōngsānqīnjiāfén
NP	东三环中路	dōngsānhuánzhōnglù
NP	东三环北路	dōngsānhuánběilù
NP	东三巷	dōngsānxiàng
NC	东三省	dōngsānshěng
NP	东三省事宜条约	dōngsānshěngshìyítiáoyuē
NP	东三条	dōngsāntiáo
NP	东三道街	dōngsāndàojiē
NP	东山	dōngshān
NP	东山	dōngshān
NP	东山县	dōngshānxiàn
NP	东山镇	dōngshānzhèn
NP	东山区	dōngshānqū
E	东山高卧	dōngshāngāowò
E	东山再起	dōngshānzàiqǐ
E	东山之志	dōngshānzhīzhì
NC	东山法门	dōngshānfǎmén
NP	东山坡一里	dōngshānpōyīlǐ
NP	东山坡三里	dōngshānpōsānlǐ
NP	东山坡二里	dōngshānpōèrlǐ
NC	东司	dōngsī
NP	东四块玉南街	dōngsìkuàiyùnánjiē
NP	东四块玉北街	dōngsìkuàiyùběijiē
NP	东四头条	dōngsìtóutiáo
NP	东四九条	dōngsìjiǔtiáo
NP	东四西大街	dōngsìxīdàjiē
NP	东四道街	dōngsìdàojiē
NP	东四道口	dōngsìdàokǒu
NP	东四南大街	dōngsìnándàjiē
NP	东四北大街	dōngsìběidàjiē
NP	东子	dōngzǐ
NC	东市	dōngshì
NP	东市	dōngshì
NP	东市场五巷	dōngshìchángwǔxiàng
NP	东市区	dōngshìqū
E	东市朝衣	dōngshìcháoyī
NP	东志远	dōngzhìyuǎn
NC	东指	dōngzhǐ
E	东支西吾	dōngzhīxīwú
NP	东斯	dōngsī
NP	东斯科伊	dōngsīkēyī
E	东施效颦	dōngshīxiàopín
NP	东枝	dōngzhī
NP	东至县	dōngzhìxiàn
NP	东耳	dōngěr

POS	TC	Zhuyin
A,NC	博學	ㄅㄛˊㄒㄩㄝˊ
V	搏戰	ㄅㄛˊㄓㄢˋ
NC	伯仲	ㄅㄛˊㄓㄨㄥˋ
V	駁斥	ㄅㄛˊㄔˋ
V	泊車	ㄅㄛˊㄔㄜ
NC	薄產	ㄅㄛˊㄔㄢˇ
NC	駁船	ㄅㄛˊㄔㄨㄢˊ
NC	博士	ㄅㄛˊㄕˋ
U	博識	ㄅㄛˊㄕˋ
NC	博士班	ㄅㄛˊㄕˋㄅㄢ
NC	博士論文	ㄅㄛˊㄕˋㄌㄨㄣˋㄨㄣˊ
NC	博士後	ㄅㄛˊㄕˋㄏㄡˋ
NC	博士學位	ㄅㄛˊㄕˋㄒㄩㄝˊㄨㄟˋ
NC	博士生	ㄅㄛˊㄕˋㄕㄥ
V	搏殺	ㄅㄛˊㄕㄚ
U	薄紗	ㄅㄛˊㄕㄚ
NC	帛書	ㄅㄛˊㄕㄨ
D	勃然	ㄅㄛˊㄖㄢˊ
A	薄弱	ㄅㄛˊㄖㄨㄛˋ
NC	薄弱環節	ㄅㄛˊㄖㄨㄛˋㄏㄨㄢˊㄐㄧㄝˊ
NC	脖子	ㄅㄛˊㄗ˙
A	駁雜	ㄅㄛˊㄗㄚˊ
NC,V	薄葬	ㄅㄛˊㄗㄤˋ
NC,NP	伯祖	ㄅㄛˊㄗㄨˇ
NC	伯祖母	ㄅㄛˊㄗㄨˇㄇㄨˇ
V	博采	ㄅㄛˊㄘㄞˇ
NC	博彩	ㄅㄛˊㄘㄞˇ
A	薄脆	ㄅㄛˊㄘㄨㄟˋ
NP	伯斯特	ㄅㄛˊㄙㄊㄜˋ
NC,NP	博愛	ㄅㄛˊㄞˋ
NC	駁岸	ㄅㄛˊㄢˋ
NP	伯恩	ㄅㄛˊㄣ
NC	博弈	ㄅㄛˊㄧˋ
A,NP	博雅	ㄅㄛˊㄧㄚˇ
NC	柏油	ㄅㄛˊㄧㄡˊ
V	博引	ㄅㄛˊㄧㄣˇ
NC	博物	ㄅㄛˊㄨˋ
NC	博物館	ㄅㄛˊㄨˋㄍㄨㄢˇ
NC	博物院	ㄅㄛˊㄨˋㄩㄢˋ
NC	泊位	ㄅㄛˊㄨㄟˋ
U	柏原	ㄅㄛˊㄩㄢˊ
V	駁運	ㄅㄛˊㄩㄣˋ
V	播	ㄅㄛˋ
V	播報	ㄅㄛˋㄅㄠˋ
V	播發	ㄅㄛˋㄈㄚ
V	播放	ㄅㄛˋㄈㄤˋ
V	播弄	ㄅㄛˋㄋㄨㄥˋ
NC	簸籮	ㄅㄛˋㄌㄨㄛˊ
NC	薄荷	ㄅㄛˋㄏㄜˊ
NC	薄荷	ㄅㄛˋㄏㄜ˙
V	擘劃	ㄅㄛˋㄏㄨㄚˋ
V	擘畫	ㄅㄛˋㄏㄨㄚˋ
NC	簸箕	ㄅㄛˋㄐㄧ
NC	簸箕	ㄅㄛˋㄐㄧ˙
V	播種	ㄅㄛˋㄓㄨㄥˇ
V	播種	ㄅㄛˋㄓㄨㄥˋ
V	播送	ㄅㄛˋㄙㄨㄥˋ
V	播音	ㄅㄛˋㄧㄣ
NC	播音員	ㄅㄛˋㄧㄣㄩㄢˊ
V	播映	ㄅㄛˋㄧㄥˋ
NC	餑餑	ㄅㄛㄅㄛ˙
NC	波譜	ㄅㄛㄆㄨˇ
V	撥髮	ㄅㄛㄈㄚ
NC	波峰	ㄅㄛㄈㄥ
NC	波幅	ㄅㄛㄈㄨˊ
V	撥付	ㄅㄛㄈㄨˋ
U	撥打	ㄅㄛㄉㄚˇ
NC	波導	ㄅㄛㄉㄠˇ
U	波導管	ㄅㄛㄉㄠˇㄍㄨㄢˇ
V	波蕩	ㄅㄛㄉㄤˋ
V	撥電話	ㄅㄛㄉㄧㄢˋㄏㄨㄚˋ
V	剝奪	ㄅㄛㄉㄨㄛˊ
NP	波多黎各	ㄅㄛㄉㄨㄛㄌㄧˊㄍㄜˋ
NC	波段	ㄅㄛㄉㄨㄢˋ
NC,V	波動	ㄅㄛㄉㄨㄥˋ
NP	波特	ㄅㄛㄊㄜˋ
NC	波濤	ㄅㄛㄊㄠˊ
NC	缽頭	ㄅㄛㄊㄡˊ
V	撥通	ㄅㄛㄊㄨㄥ
V	撥弄	ㄅㄛㄋㄨㄥˋ
V	撥拉	ㄅㄛㄌㄚ
NP	波蘭	ㄅㄛㄌㄢˊ
NC	波瀾	ㄅㄛㄌㄢˊ
NC	波浪	ㄅㄛㄌㄤˋ
NC	撥浪鼓	ㄅㄛㄌㄤˋㄍㄨˇ
NC	撥浪鼓	ㄅㄛㄌㄤ˙ㄍㄨˇ
U	波浪鼓	ㄅㄛㄌㄤ˙ㄍㄨˇ
V	剝離	ㄅㄛㄌㄧˊ
NC	玻璃	ㄅㄛㄌㄧˊ
NC	玻璃紙	ㄅㄛㄌㄧˊㄓˇ
NC	玻璃磚	ㄅㄛㄌㄧˊㄓㄨㄢ
NC	玻璃絲	ㄅㄛㄌㄧˊㄙ
NP	玻利維亞	ㄅㄛㄌㄧˋㄨㄟˊㄧㄚˋ
NC	玻璃	ㄅㄛㄌㄧ˙
N	玻璃體	ㄅㄛㄌㄧ˙ㄊㄧˇ
NC	玻璃鋼	ㄅㄛㄌㄧ˙ㄍㄤ
NC	玻璃纖維	ㄅㄛㄌㄧ˙ㄒㄧㄢㄨㄟˊ
NC	玻璃紙	ㄅㄛㄌㄧ˙ㄓˇ
NC	玻璃磚	ㄅㄛㄌㄧ˙ㄓㄨㄢ
NC	玻璃絲	ㄅㄛㄌㄧ˙ㄙ
NC	波羅	ㄅㄛㄌㄨㄛˊ
NC	菠蘿蜜	ㄅㄛㄌㄨㄛˊㄇㄧˋ
NC	波羅蜜	ㄅㄛㄌㄨㄛˊㄇㄧˋ
V	剝落	ㄅㄛㄌㄨㄛˋ
NP	波哥大	ㄅㄛㄍㄜㄉㄚˋ
V	撥給	ㄅㄛㄍㄟˇ
NC	波谷	ㄅㄛㄍㄨˇ
V	撥開	ㄅㄛㄎㄞ
NC,V	撥款	ㄅㄛㄎㄨㄢˇ
V	撥號	ㄅㄛㄏㄠˋ
V	波及	ㄅㄛㄐㄧˊ
V	播講	ㄅㄛㄐㄧㄤˇ
NC	波形	ㄅㄛㄒㄧㄥˊ
V	剝削	ㄅㄛㄒㄩㄝˋ
NC	剝削階級	ㄅㄛㄒㄩㄝˋㄐㄧㄝㄐㄧˊ
NC	波折	ㄅㄛㄓㄜˊ
M	剝啄	ㄅㄛㄓㄨㄛˊ
V	播種	ㄅㄛㄓㄨㄥˇ
NC	波長	ㄅㄛㄔㄤˊ
V	播出	ㄅㄛㄔㄨ
V	撥出	ㄅㄛㄔㄨ
V	剝蝕	ㄅㄛㄕˊ
NP	波士頓	ㄅㄛㄕˋㄉㄨㄣˋ
NC	波束	ㄅㄛㄕㄨˋ
D,V	撥冗	ㄅㄛㄖㄨㄥˇ
NC	缽子	ㄅㄛㄗ˙
NC	撥子	ㄅㄛㄗ˙
NC	菠菜	ㄅㄛㄘㄞˋ
V	播撒	ㄅㄛㄙㄚˇ
NC	波爾卡	ㄅㄛㄦˇㄎㄚˇ
NC,NP	波音	ㄅㄛㄧㄣ
NC	波紋	ㄅㄛㄨㄣˊ
NC	缽盂	ㄅㄛㄩˊ
NC	波源	ㄅㄛㄩㄢˊ
V	掰	ㄅㄞ
A	百倍	ㄅㄞˇㄅㄟˋ
NC	百寶箱	ㄅㄞˇㄅㄠˇㄒㄧㄤ
D	百般	ㄅㄞˇㄅㄢ
NC	百病	ㄅㄞˇㄅㄧㄥˋ
V	擺佈	ㄅㄞˇㄅㄨˋ
V	擺平	ㄅㄞˇㄆㄧㄥˊ
U	百米	ㄅㄞˇㄇㄧˇ
NP	百慕達	ㄅㄞˇㄇㄨˋㄉㄚˊ
NC,NN,OC	百分	ㄅㄞˇㄈㄣ
NC	百分比	ㄅㄞˇㄈㄣㄅㄧˇ
NC	百分表	ㄅㄞˇㄈㄣㄅㄧㄠˇ
N	百分點	ㄅㄞˇㄈㄣㄉㄧㄢˇ
NC	百分率	ㄅㄞˇㄈㄣㄌㄩˋ
NC	百分號	ㄅㄞˇㄈㄣㄏㄠˊ
NC	百分號	ㄅㄞˇㄈㄣㄏㄠˋ
NC	百分制	ㄅㄞˇㄈㄣㄓˋ
D	百分之百	ㄅㄞˇㄈㄣㄓㄅㄞˇ
U	百分尺	ㄅㄞˇㄈㄣㄔˇ
V	擺放	ㄅㄞˇㄈㄤˋ
NC	百代	ㄅㄞˇㄉㄞˋ
V	擺地攤	ㄅㄞˇㄉㄧˋㄊㄢ
V	擺渡	ㄅㄞˇㄉㄨˋ
V	擺動	ㄅㄞˇㄉㄨㄥˋ
V	擺攤子	ㄅㄞˇㄊㄢㄗ˙
V	擺脫	ㄅㄞˇㄊㄨㄛ
NC	百衲本	ㄅㄞˇㄋㄚˋㄅㄣˇ
NC	百衲衣	ㄅㄞˇㄋㄚˋㄧ
NC,NN	百年	ㄅㄞˇㄋㄧㄢˊ
NC	百年大計	ㄅㄞˇㄋㄧㄢˊㄉㄚˋㄐㄧˋ
V	擺弄	ㄅㄞˇㄋㄨㄥ
A	百樂	ㄅㄞˇㄌㄜˋ
V	擺擂台	ㄅㄞˇㄌㄟˋㄊㄞˊ
NC	百里	ㄅㄞˇㄌㄧˇ
NC	百事	ㄅㄞˇㄕˋ
NC	百事通	ㄅㄞˇㄕˋㄊㄨㄥ
V	擺設	ㄅㄞˇㄕㄜˋ
V	擺手	ㄅㄞˇㄕㄡˇ
NC	百日	ㄅㄞˇㄖˋ
NC	百日咳	ㄅㄞˇㄖˋㄎㄜˊ
NC	百日維新	ㄅㄞˇㄖˋㄨㄟˊㄒㄧㄣ
NC	擺子	ㄅㄞˇㄗ˙
U	百足之蟲死而不僵	ㄅㄞˇㄗㄨˊㄓㄔㄨㄥˊㄙˇㄦˊㄅㄨˋㄐㄧㄤ
NC	百草	ㄅㄞˇㄘㄠˇ
NC	百歲	ㄅㄞˇㄙㄨㄟˋ
NC	百葉	ㄅㄞˇㄧㄝˋ
U	百業	ㄅㄞˇㄧㄝˋ
NC	百葉箱	ㄅㄞˇㄧㄝˋㄒㄧㄤ
NC	百葉窗	ㄅㄞˇㄧㄝˋㄔㄨㄤ
NC	百物	ㄅㄞˇㄨˋ
U	百位	ㄅㄞˇㄨㄟˋ
NN	百萬	ㄅㄞˇㄨㄢˋ
NC	百萬富翁	ㄅㄞˇㄨㄢˋㄈㄨˋㄨㄥ
D	白白	ㄅㄞˊㄅㄞˊ
NC	白報紙	ㄅㄞˊㄅㄠˋㄓˇ
NC	白班	ㄅㄞˊㄅㄢ
NC	白斑	ㄅㄞˊㄅㄢ
NC	白板	ㄅㄞˊㄅㄢˇ
U	白版	ㄅㄞˊㄅㄢˇ
U	白榜	ㄅㄞˊㄅㄤˇ
NC	白皮書	ㄅㄞˊㄆㄧˊㄕㄨ
U	白票	ㄅㄞˊㄆㄧㄠˋ
NC,NP	白馬	ㄅㄞˊㄇㄚˇ
NC	白馬王子	ㄅㄞˊㄇㄚˇㄨㄤˊㄗˇ
NC	白煤	ㄅㄞˊㄇㄟˊ
NC	白茅	ㄅㄞˊㄇㄠˊ

Practical Applications

CLD is being used by major IT companies to enhance their Chinese morphological analysis technology and is especially suitable for natural language processing (NLP) applications, such as:

Chinese Lexical Database

Covers over 500,000 entries

Simplified and Traditional Chinese

Optimized for NLP applications

Overview

Main Features

Phonological information

Semantic classification codes

Grammatical information

Morphological information

Practical Applications

Segmentation and tokenization

Named-entity recognition

Input method editors

Morphological analysis

Information retrieval

Part-of-speech tagging

Reference Documents

The Pitfalls and Complexities of Chinese to Chinese Conversion

Related Resources

Japanese Lexical Database

Korean Lexical Database

Chinese Hanyu Pinyin Database