アラブ人名データベース

ウェブ統計に基づく頻度情報

2,500万項目以上の人名データに基づく

インターネットとコーパスで確認済み

ネイティブのアラビア語編集チームによる校正

包括的な収録範囲(640万項目以上の異表記)

アラビア語の語形変化もすべて母音付きで表記

概要

アラブ人名データベース(DAN: Database of Arabic Names)は640万項目以上のアラブ人の人名(姓と名)を網羅し、見出し語は多岐にわたる情報と多くの異表記を含みます。本データベースでは、アラビア語もしくはローマ字で書かれたアラブ系住民の名前を、アラブ人名と見なしています。

DANは、権威ある言語学データに基づいて作成され、ネイティブのアラビア語編集チームによる緻密な校正と拡張を経て構築されたものです。多数の異表記に加え、頻度、姓・名のタイプ、基本形、性別等多岐にわたる情報を提供します。

ソフトウェア開発、特にマネーロンダリング対策とテロ監視リストに関連したセキュリティアプリ開発で重要な役割を果たし、自然言語処理ツールとしてアラブ人名の認識と抽出の精度を高め、機械翻訳、異表記の正規化、情報抽出等の開発に有用です。

特徴

DANはアラブ人名を包括的に網羅したデータベースで、すべての人名を母音表記した他にも、多様なローマ字表記をサポート、頻度順に異表記を並べる等のユニークな特徴があります。数百万項目のローマ字異表記に対してウェブ統計に基づく頻度情報を語彙データベースの頻度と組み合わせて使えば、アラビア語の姓と名をより効果的に認識できます。

アラブ人名は母音付きと母音無しの両方を提供します。同じ名前に複数の母音表記がある場合もあります。

アラブ人名データベース

使用分野

DANは次のような幅広い分野のソフトウェア開発に有用です。

法令遵守とリスク管理

マネーロンダリング対策と不正検知

データクレンジングと正規化

テロ対策と出入国管理

情報検索とクエリ処理

機械翻訳

固有表現認識と抽出

関連データベース

DANA

アラビア語アラブ人名データベース

アラブ人名とアラビア語異表記

XOFAC

OFACデータベース拡張版

OFACのSDNリストに掲載しているアラブ人名の異表記

DAFNA

アラビア語外国人名データベース

アラブ人以外の外国人名のアラビア語訳とその異表記