日本人名異表記データベース

約350万項目を収録

多数のローマ字表記法で収録

性別分類コード

概要

日本人名異表記データベース(JNV: Japanese Personal Name Variants)は、日本人の姓・名とそのローマ字異表記を350万項目収録し、日本語の標準的なローマ字表記法とその他の表記法に基づいた幅広い異表記(一般的な表記および混合型)を網羅します。

日本人名の異表記が多数存在する背景には、アポストロフィーの有無(Kenichi, Ken’ichi)、長母音や一部の子音の表記(“とう”に対してのtō, tou, too, to, toh)等の要因が絡み合っています。仮に複数の要因が単一の人名中に混在する場合、同じ名前のローマ字表記数は一気に膨れ上がることになります。

JNVは、標準表記でない異表記を多く含む英文から日本語への機械翻訳システム開発に特に有用です。

* タブで画面を切り替えることができます。

使用分野

JNVは日本人名とその異表記を認識するために用いられ、次のようなソフトウェア開発に貢献しています。

検索エンジンのクエリ処理

出入国管理システム

単語分割と形態素解析

マネーロンダリング対策

金融機関における不正検知

用語抽出と情報抽出

機械翻訳の精度を向上

データクレンジングと正規化

セキュリティ対策用アプリ

犯罪者の名前と異表記を認識

参考文献

関連データベース

JEN

日英人名データベース

中日韓と西洋人名の日英データベース

KJN

韓日人名データベース

中日韓と西洋人名の韓日データベース

CNV

中国人名異表記データベース

中国人名とローマ字異表記