OpenAIは、コンテキスト(文章の前後の脈絡、文脈)から単語の意味を予測するWikipediaを基にしたニューラルネットワークシステム「DeepType」を発表しました。
論文:DeepType: Multilingual Entity Linking by Neural Type System Evolution
著者:Jonathan Raiman、Olivier Raiman
GitHub:openai/deeptype
例えば、「ジャングルをJaguarが横切るのを見た。」という文章が与えられたとしたら、車なのか動物なのかを「Jaguar」から直接的に判断するのではなく、前後の脈絡から予測するというものです。
上図のように、本システムを使用すると、左では高速道路上ということで「Jaguar」を70%車と予測し、右ではジャングル上ということで「Jaguar」を89%動物と予測します。このように、コンテキストから予測することで、単語の意味をより正確に捉えることができるとします。
ステップとして、最初にすべてのWikipediaの内部リンクを抽出して、各単語ごとにエンティティを決定します。例えば、動物JaguarのWikipediaページをJaguarという単語の1つの意味と決定するみたいに。
そして、Wikipediaの各ページの下にあるカテゴリから、各エンティティが属するカテゴリのセットを決定し、本システムに落とし込みます。Wikipediaのデータ版とも言えるWikidataを使用しています。
これらを基に、単語と文脈を関連付けするトレーニングデータを生成し、関連付けを予測するためにニューラルネットワークを訓練します。
関連
Microsoft Researchら、テキストによる説明文から画像を生成する敵対生成学習を用いた手法を発表。コンピュータがピクセルごとにゼロから描画 | Seamless