注釈付き対訳合成コーパス

注釈付き対訳合成コーパス

完璧な多言語対訳

正確で自然な翻訳

充実した注釈情報

概要

 注釈付き対訳合成コーパスPASC)プロジェクトは、機械翻訳(MT)や生成型AI向けの自然言語処理(NLP)アプリケーションを含む様々な分野に於いて、大規模な合成コーパスを作成することを目的に立ち上げられました。実際のデータが不足しているか、入手が高額な場合、特に機械学習モデルのトレーニングに使用される合成データは、自然言語に準拠します。人工コーパスは、機械翻訳の品質向上に大いに期待されています。

PASCプロジェクトは「教師あり生成法」(supervised generation)を使用して合成コーパスを作成することを目標とします。既存のコーパスを拡張する拡張コーパスとは異なり、PASCは事前に定義された文の雛形に基き、言語の規則に厳密に従って合成コーパスをゼロから構築します。このきめ細かい方法により、精度の高い翻訳、文アラインメント、文法情報、正確な音素表記等が得られます。

PASCは、分野ごとに数千万から数億の項目から成る大規模なデータベースで構成されています。現在は、特に日中韓諸語とアラビア語向けに、人名、地名、地図上のPOI等の固有表現に着目しており、将来的には技術用語も網羅します。文アラインメント、翻訳の精度、正確な音素表記、多言語対応、充実した注釈や文法情報、統一性等がPASCの特徴と言えます。

注釈付き対訳合成コーパス

* タブをクリックして各言語をご覧ください。 


IDENGLISHJAPANESE
0002-01My full name is [Michael Owen].私の姓名は[オーウェン・マイケル]です。
0002-02[Michael] is my given name and [Owen] is my surname.[マイケル]は私の名前で、[オーウェン]は私の苗字です。
0002-03I’m called [Michael Owen].[オーウェン・マイケル]と言います。
0002-04Both [Michael] and [Owen] are personal names.[オーウェン]と[マイケル]は両方とも人名です。
0002-05[Michael Owen] is my full name.[オーウェン・マイケル]とは私のフルネームです。
0002-06[Michael Owen] is what’s written on my ID.旅券に記載されている姓名は[オーウェン・マイケル]です。
0002-07I’ve never heard of anyone called [Michael Owen].[オーウェン・マイケル]と言う人のことを聞いたことがない。
0002-08I go by the name [Michael Owen].[オーウェン・マイケル]と言う名前で呼ばれています。
0002-09Do you know of anyone who goes by the name of [Michael Owen]?[オーウェン・マイケル]という人を知っていますか。

使用分野

PASCは様々な言語モデルとアプリのNLPアルゴリズムの品質向上に有用です。

ニューラル機械翻訳

自動音声認識

テキスト音声合成

関連データベース

CNV

中国人名異表記データベース

700万項目を超す中国人と外国人の人名とローマ字異表記

DAN

アラブ人名データベース

650万項目に及ぶアラブ人名とローマ字異表記

JNV

日本人名異表記データベース

日本人名とローマ字異表記