ハンガリー:ブダペストに本拠を置くチーム「SignAll」は、機械学習とコンピュータビジョン技術を用いて画像から手話をリアルタイムに翻訳するシステムを開発しています。
SignAllが開発するシステムは、コンピュータビジョンと自然言語処理(NLP)に基づいた自動手話翻訳ソリューションです。プロトタイプでは、3つのウェブカメラと1つの深度センサを用いて構築されます。
深度センサとカメラで手の形状、手の動き、手のひらの方向、上半身の関節運動、表情などを画像から連続的に追跡し特徴を取得、自然言語処理モジュールにてその特徴を文法的に形成された文章に変換します。
システムは、順番に提示された個々の単語だけでなく、完全な文章で動作するのが特徴です。1つの単語を別の記号に置き換えて翻訳する手法は、文章にすると間違った内容になったり過度に単純化された表現を作成する傾向があるので、本アプローチは意味あるコミュニケーションツールとして一段上と言えます。
関連
筑波大学、聴覚障害者向けに相手の発言をAR的に吹き出し形式でテキスト表示するシースルー型HMDシステムを論文にて発表。環境雑音下や複数話者からでも正確に音声を取得 | Seamless