Microsoft Researchの研究者は、自然言語による音声認識システムに関してさらに精度を上げたことを報告しました。
それは、昨年設定した節目の目標に達したというもので、Word Error Rate (WER) エラー率を昨年の精度レベルと比較して約12%削減、5.1%という結果を叩き出しました。
音響モデリングのためにCNN-BLSTMモデルを導入したり、会話セッションの全履歴を使用して、次に来る可能性のあるものを予測し、会話のトピックやローカルコンテキストに効果的に適応させることで認識プログラムの言語モデルを強化しました。
続けて、ハイパーパラメータの最適化などのために、同社の機械学習ライブラリ「Microsoft Cognitive Toolkit 2.1(CNTK)」で利用可能な最もスケーラブルなディープラーニングを使用したり、Azure GPUへの投資など改善を積み重ね今回の結果を出しました。
本成果は、同社のCortana、Presentation Translator、Microsoft Cognitive Servicesなどの製品やサービスで貢献することになります。
技術の詳細に関しては、こちらのペーパーをご覧ください。
THE MICROSOFT 2017 CONVERSATIONAL SPEECH RECOGNITION SYSTEM(PDF)
関連
Microsoft、オープンソース機械学習ライブラリ「CNTK」のバージョン2.0をGitHubにて公開。Python Kerasサポートなどより使いやすいツールへ | Seamless