OpenAI、文章の前後の脈絡（コンテキスト）から単語の意味を予測するWikipediaをベースにしたニューラルネットワーク「DeepType」を発表

OpenAIは、コンテキスト（文章の前後の脈絡、文脈）から単語の意味を予測するWikipediaを基にしたニューラルネットワークシステム「DeepType」を発表しました。

例えば、「ジャングルをJaguarが横切るのを見た。」という文章が与えられたとしたら、車なのか動物なのかを「Jaguar」から直接的に判断するのではなく、前後の脈絡から予測するというものです。

上図のように、本システムを使用すると、左では高速道路上ということで「Jaguar」を70％車と予測し、右ではジャングル上ということで「Jaguar」を89％動物と予測します。このように、コンテキストから予測することで、単語の意味をより正確に捉えることができるとします。

ステップとして、最初にすべてのWikipediaの内部リンクを抽出して、各単語ごとにエンティティを決定します。例えば、動物JaguarのWikipediaページをJaguarという単語の1つの意味と決定するみたいに。

そして、Wikipediaの各ページの下にあるカテゴリから、各エンティティが属するカテゴリのセットを決定し、本システムに落とし込みます。Wikipediaのデータ版とも言えるWikidataを使用しています。

これらを基に、単語と文脈を関連付けするトレーニングデータを生成し、関連付けを予測するためにニューラルネットワークを訓練します。

関連