スタンフォード大学ら、敵対生成学習のCWGANを用いて自然言語テキストから3Dモデルを生成する手法を発表

スタンフォード大学とプリンストン大学の研究者らは、機械学習を用いて自然言語のテキストから3Dモデルを生成および検索する手法を発表しました。

論文:Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings
著者:Kevin Chen, Christopher B. Choy, Manolis Savva, Angel X. Chang, Thomas Funkhouser, Silvio Savarese

本稿では、自然言語から色付きの3D形状を検索及び生成するエンドツーエンドの機械学習フレームワークを提案します。

最初に、テキストと3D形状の組み合わせJoint Embedding(埋め込み)を学びます。データセットは、3DモデルのShapeNetから取得し作成します。

そして、学習されたJoint Embeddingを用いて、入力テキストクエリと一致する形状を何千もの椅子とテーブルを持つデータセットから検索します。

また、敵対生成学習のCWGAN(Conditional Wasserstein Generative Adversarial Network)と組み合わせることで、自由形式のテキストから新たな形状を生成します。

下図では、左に入力テキスト、右から2番目が本提案のCWGANを用いた生成の結果を確認できます。一番右がGround Truth(正解データ)です。

 

関連

香港城市大学ら、手描きスケッチから法線マッピングを推論する敵対生成学習(Wasserstein GAN)を用いた手法を発表 | Seamless

ABOUT

 本サイト(Seamless/シームレス)は、2014年に始めた先端テクノロジーの研究を論文ベースで記事にしているWebメディアです。山下が個人で運営し、執筆を行っています。現在は主に寄稿(ITmedia NEWS)と、Seamless Journalに専念しています。

連絡先:yamashita(at)seamless.jp
Subscribe:TwitterFacebookHatenaNewsPicks

ゲスト連載:プロジェクションマッピング技術の変遷 岩井大輔

 Seamless Journalとは、月額10ドルの課金で厳選した最新論文がほぼ毎日メールボックスに届くというものです。記事にならない気になる論文をお届けします。決済はPatreonを介して、クレジットカードおよびPayPalで行え、解約も同サービスからいつでも可能です。お申し込みはこちらから

ページ上部へ戻る