AI(人工知能)ML(機械学習)の最新研究まとめ[論文一覧]

 本ページは、人工知能(AI, Artificial Intelligence)、機械学習(Machine Learning)、深層学習(Deep Learning)に関する最新論文を厳選し、日本語要約と共に時系列順に随時更新、一覧にしている場所です。

 また、本ページのようにアーカイブベースではなく、速報ベースで取得したい方は、月1回の配信で最新論文を紹介するWebコンテンツもあります。

 初めての方はこちら

索引

最初に、索引として「A~Z」順に並べています。 索引を飛ばす場合はこちら。

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

機械学習、 深層学習の最新研究一覧


1枚の顔写真にリアルな動きを

MarioNETte: Few-shot Face Reenactment Preserving Identity of Unseen Targets

寄稿:顔の静止画像に動きを合成し操る技術。首、口、目、眉の動きなど大小の動作を制御。今までより出力後の不自然を軽減した。動画


 Convolutional Neural Network(CNN)を用い、動画内の衣服を着た人物の全身運動を制御する合成技術

Neural Human Video Rendering: Joint Learning of Dynamic Textures and Rendering-to-Video Translation

CNNを用い、動画内の衣服を着た人物の全身運動を制御する合成技術の研究。人物Aの動きを人物Bへ転送。Bの外観は保持したままAの動きをさせる。合成後の服のシワの欠損を軽減。また人型スケルトンを動かしゲームのようにBを動かす。バレットタイムの生成も可能。動画


音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法

Neural Voice Puppetry:
Audio-driven Facial Reenactment

音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法。任意の音声(テキスト)を入力に、音声に合わせ指定する顔の口元を操り人形のように話させる。デジタルアシスタントの音声も好きな顔に変換可能。遠隔会議で自撮り写真に話させる等。動画


Everybody’s Talkin’: Let Me Talk as You Want

音声から、その音声を話すリアルな人のビデオを合成する手法を提案する研究。任意のソースオーディオから、表現パラメーターに変換するリカレントネットワークが用いられ、ターゲットのポートレート映像の口領域を編集する。動画


文書画像のゆがみや明るさ、深層学習で補正

Document Rectification and Illumination Correction using a Patch-based CNN

文章が書かれたプリントをスマートフォンで撮影した画像の歪み(傾き、湾曲、しわ等)や照明による暗い部分等を、スキャンしたように均等に明るく平らな画像に変換する技術を提案する研究。


映像内の動きを抽出して画像に転送することで、リアルな合成動画を生成するGANを用いた手法

Few-shot Video-to-Video Synthesis

映像内の動きを抽出して画像に転送することで、リアルな合成動画を生成するGANを用いた手法を提案する研究。人の全身運動や顔の輪郭運動など、領域分割マスクや線画スケッチを基に、動かしたい画像に合成し写実的な映像に仕上げる。訓練データに含まれてなくても合成可能が新規性。動画


投影した映像が跳ね返った光の動き(影)から、その動きを予測し再現するシステムを提案する研究

Computational Mirrors: Blind Inverse Light Transport by Deep Matrix Factorization

投影した映像が跳ね返った光の動き(影)から、その動きを予測し再現するシステムを提案する研究。プロジェクターで投影するスクリーンから跳ね返った光が反対側の壁に映る光の動き、その動きから映像を推定する機械学習を用いた手法。画像:左が跳ね返った光、中央が入力映像、右が出力結果。動画


キャラクター制御システム

DReCon: data-driven responsive control of physics-based characters

物理シミュレーションと、大量のモーションキャプチャデータを使用したデータ駆動型アニメーションシステム 「モーションマッチング」 とを組み合わせたキャラクター制御システムを提案する研究。深層学習を用いて訓練することで、実行コストを抑えた高品質アニメーションを実現する。動画


高品質のアニメーションを生成する深層学習フレームワーク

Neural State Machine for Character-Scene Interactions

モーションキャプチャデータからキャラクターとオブジェクトの相互作用を学習し、制御コマンドから高品質のアニメーションを生成する深層学習フレームワークを提案する研究。椅子に座ったり、荷物を持ち運んだりのアニメーションをリアルに生成。動画


深層学習と独自の撮影機材を用い、3Dアバターを生成できるパフォーマンスキャプチャーシステム「The Relightables」

The Relightables:Volumetric Performance Capture of Humans with Realistic Relighting

深層学習と独自の撮影機材を用い、3Dアバターを生成できるパフォーマンスキャプチャーシステム「The Relightables」を提案する研究。カスタムLightStage(RGBカメラ58台IRカメラ32台プロジェクタ16台照明331個)で全身キャプチャし任意バーチャルシーンに合わせ照明の当たり方を変えリアルな動きを表現。動画


Learning an Intrinsic Garment Space for Interactive Authoring ofGarment Animation

半自動で衣服アニメーションを生成できるDeep learningを用いた手法を提案する研究。フレームを確認しながら、衣服形状を加えたり、モーションを一部変更したりして、インタラクティブに編集する。動画


Neural Style-Preserving Visual Dubbing

ビデオ内人物の口の動きを別のビデオ内人物の口の動きへ転送するGANを用いた手法を提案する研究。 ターゲット人物のアイデンティティを維持しながら、ソース人物の口の動きと声を転送できる。動画


SoftCon: Simulation and Control of Soft-Bodied Animals with Biomimetic Actuators

水中軟体動物の設計と制御をするためのdeep learningを用いたフレームワークを提案する研究。 タコ、ウナギ、ヒトデ、エイ、イカなど、さまざまな水中軟体動物のシミュレートを実証し、泳ぐ、つかむ、瓶から逃げるなどの多様な行動も学ぶ。リアルタイム制御も可能。動画


FSGAN: Subject Agnostic Face Swapping and Reenactment

別の画像に顔を転送するRNNをベースとしたネットワークを提案する研究。任意の動画内人物に、好きな顔を合成できる。髪型などはそのままに、顔の表面がシームレスに合成される。動画


Transport-Based Neural Style Transfer for Smoke Simulations

通常の画像から煙などの流体シミュレーションへスタイル転送できる機械学習を用いた手法を提案する研究。CNN(転移学習)を用いて、煙から特徴抽出を行い、その特徴と画像を合成する。動画


InteractionFusion: Real-time Reconstruction of Hand Poses andDeformable Objects in Hand-object Interactions

2台の深度センサーを用いて、手とオブジェクトのやり取りをリアルタイム且つより正確に再構築する機械学習を用いた手法を提案する研究。動画


Semantic Photo Manipulation with a Generative Image Prior

画像内の編集したい部分をなぞるだけで、ニューラルネットワークが周囲と調和した違う画像に変えるツールを提案する研究。 1枚の画像に対して、カーソル操作でなぞればその部分がそれらしい画像に変更。動画


PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization

1枚の画像から服を着た人の3Dモデルを再構築できるdeep learningを用いた手法を提案する研究。被写体の背面など、見えない領域もそれらしい形状及びテクスチャを推定 。動画


Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

言語障害者の音声を流暢な合成音声に直接変換する機械学習を用いた手法「Parrotron」を提案する研究。言語障害者の音声アシスタントへの入力エラー率を軽減。動画


Synthetic Defocus and Look-Ahead Autofocus  for Casual Videography

スマートフォンカメラで気軽に撮影する映像において、背景ボケ映像(被写界深度の浅い映像)の表現を文脈に合わせてリアルタイムに合成する機械学習を用いた手法を提案する研究。静止画像ではなく動画。動画


動画内の人の会話をテキストベースに修正するだけで口の動きも修正できる機械学習を用いた手法

Text-based Editing of Talking-head Video

動画内の人の会話をテキストベースに修正するだけで口の動きも音声と共に修正できる機械学習を用いた手法を提案する研究。言い間違いなどの部分的な箇所を自然に修正できる。 動画


3人対話で各アバターの視線や頭胴部などの動きを会話に合わせて自動生成するdeep learningを用いた手法

A Deep Learning-Based Model for Head and Eye MotionGeneration in Three-party Conversations

3人対話で各アバターの視線や頭胴部などの動きを会話に合わせて自動生成するdeep learningを用いた手法を提案する研究。音声信号を入力に、話者の目と頭の動的方向を推定。動画


ハイブリットUAV(翼付きドローン)のコントローラを自動的に設計するためのニューラルネットワークを用いた手法

Learning To Fly: Computational Controller Design For Hybrid UAVs With Reinforcement Learning

ドローンと飛行機を組み合わせたハイブリットUAVの制御システムを自動設計する機械学習を用いた手法を提案する研究。 ローター制御(マルチコプターモード)とウィング制御(飛行機モード) を切り替えて飛行。動画


スマートフォンカメラで撮影した人物画像の照明環境を後から変更できるLight Stageと機械学習を用いたリライティング法

Single Image Portrait Relighting

スマートフォンカメラで撮影した人物画像の照明環境を後から変更できるLight Stageと機械学習を用いたリライティング法を提案する研究。 LightStageで取得した 顔データセットで訓練。動画


大規模な不均一テクスチャをより高精度に生成するGANを用いたテクスチャ合成技術「TileGAN」

TileGAN: Synthesis of Large-Scale Non-Homogeneous Textures

大規模な不均一テクスチャをより高精度に生成するGANを用いたテクスチャ合成技術「TileGAN」を提案する研究。 サンプル画像を入力に、類似した大規模で自然な画像に合成する。動画


屋外画像の太陽光を変更及び制御できる機械学習を用いたマルチビューリライティングシステム

Multi-view Relighting Using a Geometry-Aware Network

屋外画像の太陽光だけを変更及び制御できる機械学習を用いたマルチビューリライティングシステムを提案する研究。屋外画像の光を変更するため、太陽の位置、それによる影の位置を再構築する。動画


ネット上の画像群を使用して観光地の3Dシーンをより現実的に再構築する機械学習フレームワーク

Neural Rerendering in the Wild

ネット上の異なる角度や距離から撮影した観光地のランドマーク画像群から3Dシーンを生成するより現実的にレンダリングできる機械学習フレームワークを提案する研究。公に入手可能な写真を唯一の入力に、さまざまな照明条件下でリアルな3Dシーンを生成する。動画


1枚の2D静止画像から人物の過去と未来の3Dポーズの動きを推定する機械学習を用いたフレームワーク

Learning 3D Human Dynamics from Video

1枚の2D静止画像から人物の過去と未来の3Dポーズの動きを推定する機械学習を用いたフレームワークを提案する研究。動画


サッカーゲームを攻略するマルチエージェントのための強化学習アーキテクチャ

Google Research Football: A Novel Reinforcement Learning Environment

サッカーのビデオゲームをマスターするための強化学習環境である「Google Research Football Environment」を提案する研究。チーム内のすべてのプレイヤーを制御し、選手間のパスの仕方を学び、ゴールを決めるための動きを学習する。動画


1台の頭部装着型カメラからの一人称視点映像を入力に自身の3D姿勢をリアルタイムに推定する手法

Ego-Pose Estimation and Forecasting as Real-Time PD Control

1台の頭部装着型カメラからの一人称視点映像を入力に自身の3D姿勢をリアルタイムに推定する手法を提案する研究。 歩行や走行 、しゃがむなどの動きを屋内外で推定。また、動きの未来予測として、将来の動きを生成可能。動画


シーン内の人とカメラの両方が移動していても1台の単眼カメラから深度を予測するdeep learningを用いた手法

Learning the Depths of Moving People by Watching Frozen People

シーン内の人とカメラの両方が移動していても1台の単眼カメラから深度を予測するDeep Learningを用いた手法を提案する研究。 ぼかし領域のリアルタイム操作、オブジェクトの除去と挿入、ビューの3D化などを可能にする。動画


映像内から抜き出した人物をそのままゲームキャラクタに変換する手法「Vid2Game」

Vid2Game: Controllable Characters Extracted from Real-World Videos

映像内から抜き出した人物をそのままゲームキャラクタに変換する手法「Vid2Game」を提案する研究。通常のビデオ内から人物の動きを抜き出し、別の背景に登場させ上下左右にコントロールすることを可能にする。動画


外部光学機器を必要とせずにリアルタイムに手のポーズを推定するdeep learningを用いたストレッチセンシングソフトグローブ

Interactive Hand Pose Estimation using a Stretch-Sensing Soft Glove

外部光学機器を必要とせずにリアルタイムに手のポーズを推定するDeep Learningを用いたストレッチセンシングソフトグローブを提案する研究。安価に高精度なハンドトラッキング を可能にする。動画


ピタゴラ装置を設計する物理シミュレーションと機械学習を用いた計算フレームワーク

Designing Chain Reaction Contraptions from Causal Graphs

ピタゴラ装置を設計する物理シミュレーションと機械学習を用いた計算フレームワークを提案する研究。 ユーザによって提供される原因結果グラフ技法の大雑把なレイアウト図を入力に、物理ベースのシミュレーションと機械学習を用いて条件下でレイアウトを最適化 する。動画


ハエの動きを3Dで姿勢推定できるDeep learningを用いたモーションキャプチャ「DeepFly」

DeepFly, a deep learning-based approach for 3D limb and appendage tracking in tethered adult Drosophila

ハエの動きを3Dで姿勢推定できるDeep learningを用いたモーションキャプチャ「DeepFly」を提案する研究。どこでも登れたりのハエの身体能力を手足の動作から探究し、小型の自律飛行ロボットを設計するために活用する。動画


音声から顔アニメーションをより自然に生成するdeep learningを用いたフレームワーク

VOCA: Capture, Learning, and Synthesis of 3D Speaking Styles

音声から顔アニメーションを生成するdeep learningを用いた手法「VOCA」を提案する研究。任意の音声信号と静的キャラクタメッシュを入力に、自動的にリアルな喋るキャラクタアニメーションを出力する。動画


人の動きを別動画内人物へリターゲティングするdeep learningを用いた手法

Learning Character-Agnostic Motion for Motion Retargeting in 2D

人の動きを別動画内人物へリターゲティングするDeep Learningを用いた手法を提案する研究。任意のモーションを任意のスケルトンと組み合わせて、任意のビュー方向から2D再構築することを可能にする。動画


もっともらしい3D屋内シーンを効率的に大量生成できるニューラルネットワーク

GRAINS: Generative Recursive Autoencoders for Indoor Scenes

もっともらしい3D屋内シーンを効率的に大量生成できるニューラルネットワーク「GRAINS」を提案する研究。長方形の部屋をベースに間取りを自動生成する。


スタイル見本画像を動的な顔へリアルタイムに転送する機械学習を用いた手法

Real-Time Patch-Based Stylization of Portraits Using Generative Adversarial Network

スタイル見本画像を動的な顔へリアルタイムに転送する機械学習を用いた手法「FaceStyleGAN」を提案する研究。被写体のアイデンティティを維持しながら、顔の表情だけを動かす。動画


1枚の画像から平面深度マップをピース単位で再構築する機械学習を用いた手法「PlaneNet」

PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image

1枚の画像から平面深度マップをピース単位で再構築する機械学習を用いた手法「PlaneNet」を提案する研究。動画


最大346の筋腱ユニットで人の動きをより忠実に再現するdeep learningを用いた物理シミュレーション

Scalable Muscle-actuated Human Simulation and Control

より現実的な人間の動きを構築するため、それら要因を考慮した最大346の筋腱ユニットの筋収縮で駆動する全身筋骨格モデルとその制御システムを提案する研究。骨と接続した8つの回転関節(膝と肘など)と14の臼状関節(腰、足首、肩、手首など)含む骨格筋に対応する284~346の筋腱ユニットで構成され、deep learningを用い物理シミュレーションで学習。動画


脳活動から声道の動きをシミュレートし音声合成(本人の声に近似)を生成する機械学習を用いたブレインマシンインタフェースを発表

Speech synthesis from neural decoding of spoken sentences

脳活動から声道の動きをシミュレートし音声合成(本人の声に近似)を生成する機械学習を用いたブレインマシンインタフェースを提案する研究。声道の物理的運動(調音動作)が脳内でどのように調整されるのか、脳活動から声道の動きを復元し、そこから本人の声に近似の合成音声へ変換する。動画


画像内の物体を背景から分離する対話型画像セグメンテーションアルゴリズム

Interactive Image Segmentation via Backpropagating Refinement Scheme

画像において物体を背景から分離する対話型画像セグメンテーションアルゴリズムを提案する研究。ユーザ注釈付きオブジェクトのセグメンテーションマスクを効率よく出力できる。動画


複数の映像内のイベントを時間的に整列させる機械学習を用いたフレームワーク

Temporal Cycle-Consistency Learning

複数の映像内のイベントを時間的に整列させる機械学習を用いたフレームワークを「Temporal Cycle Consistency (TCC)」を提案する研究。類似の複数ビデオにまたがって対応関係を見つけ整列させる学習法。動画


CNNとUVマッピングを組み合わせて1枚の2D画像から人の3Dモデルを生成する中間タスクを省略したフレームワーク

DenseBody: Directly Regressing Dense 3D Human Pose and Shape From a Single Color Image

CNNとUVマッピングを組み合わせて1枚の2D画像から人の3Dモデルを生成する中間タスクを省略したフレームワーク「DenseBody」を提案する研究。2D姿勢推定や2Dセグメンテーション、ヒートマップやマスクなどのサブタスクを中間に計算する2段階プロセスを省いた手法。単一RGB画像から身体形状へのマッピングを直接学習する。動画


画像分類ニューラルネットワークの意思決定プロセスを可視化する手法をオープンソース

Exploring Neural Networks with Activation Atlases

画像が提供されたときに、ニューラルネットワークがどのように画像分類するかを可視化するアプローチ「Activation Atlases」を提案する研究。分類途中の画像の集合体をWebページ上に層の数だけ表示。拡大や縮小、誤った分類をする要因を局所的に発見し修正することも可能。動画


字幕付き動画を見る視線動向から英語レベルを推定し、各個人に適した英語学習を作成できるシステム

SubMe: An Interactive Subtitle System with English Skill Estimation Using Eye Tracking

字幕付き動画を見る視線動向から英語レベルを推定し、各個人に適した英語学習を作成できるシステム「SubMe」を提案する研究。様々な英語レベルユーザの眼球運動をトラッキング。単語ベースではなく、1行ベースで分析。英語レベルが低いユーザの方が字幕への注視数が多く、費やす時間も多い傾向を用い、レベルに合わせた単語の日本語を提示する。動画


合成顔画像を生成する機械学習を用いた手法

SC-FEGAN: Face Editing Generative Adversarial Network with User’s Sketch and Color

顔画像を直感的に編集(マスク、スケッチ、カラー入力)するだけで高品質な合成顔画像を生成する機械学習を用いた手法「SC-FEGAN」を提案する研究。サングラスから目に変更したり、前髪のスケッチで髪の毛のボリュームを加えたり、鼻へのスケッチで変形したり、目への色入力で紫ベースのアイラインを生成したりが可能。


画像を思い出している眼球の動きからその画像を特定するCNNを用いた手法

The Mental Image Revealed by Gaze Tracking

画像を思い出している眼球の動きからその画像を特定するCNNを用いた手法を提案する研究。画像を思い出す際に動く眼球運動から特徴点の位置を抽出し、データベース内から最良の画像を一致させる計算を行う。動画


自動運転車における歩行者の次の動き位置を全身3Dメッシュから推定するシステム

Bio-LSTM: A Biomechanically Inspired Recurrent Neural Network for 3D Pedestrian Pose and Gait Prediction

自動運転車における歩行者の次の動き位置を全身3Dメッシュから推定するシステム「Bio-LSTM」を提案する研究。車両のカメラやLiDAR、GPSからのデータを入力として受け取り、位置とSkinned Multi-Person Linear(SMPL)モデルパラメータで表される歩行者姿勢の全身3Dメッシュを出力する。動画


1台のRGBカメラから着衣含め人の動きをリアルタイムに3D再構築するフルボディパフォーマンスキャプチャ

LiveCap: Real-time Human Performance Capture from Monocular Video

1台のカメラで撮影した映像から、ゆったりと着用する衣服を含めた人の動きをリアルタイムに3D再構築する機械学習を用いたフルボディパフォーマンスキャプチャシステム「LiveCap」を提案する研究。関節のある人の動きと、肌と衣服の非剛性の変形を自動的に推定することで、リアルタイムのフルボディパフォーマンスキャプチャを実現する。動画


漫画内のキャラクタの顔分類を行う機械学習を用いたクラスタリング法

Character Representation Adaption in Individual Manga

漫画内のキャラクタに対して、クラスタリングすることでキャラクタの顔分類を行う手法を提案する研究。漫画内のキャラクタに適応した特徴抽出器を作成するために、最初に教師あり学習によって漫画に汎用性のある特徴抽出器を作成し、その後深層距離学習により漫画内のキャラクタに適応した特徴抽出器を作成、最後に、その特徴抽出器から得られる特徴量に対してK-meansを適用することで分類を行う。


画像内の特定領域をより自然に変換させるGANを用いた手法

InstaGAN: Instance-aware Image-to-Image Translation

画像内の特定領域をより自然に変換させるGANを用いた手法「InstaGAN」を提案する研究。画像とそれに対応するインスタンス属性のセットの両方を変換するニューラルネットワークアーキテクチャ。


動画の欠落領域を連続的に補完するdeep learningを用いた手法

Video Inpainting by Jointly Learning Temporal Structure and Spatial Details

動画の欠落領域を連続的に補完するdeep learningを用いた手法を提案する研究。動画内の各フレーム内の欠けている部分を埋めるだけでなく、連続するフレーム間の一貫性を保つことを可能にする。動画


断片画像のみから物体の全体像を識別するコンピュータビジョンシステム

Brain-inspired automated visual object discovery and detection

断片画像のみから物体の全体像を識別するコンピュータビジョンシステムを提案する研究。椅子の後ろに隠れた犬の足としっぽのみを見ただけで、犬という全体像を思い浮かぶ人間の認識能力を模倣する。


RGB-Dセンサから3Dセマンティックセグメンテーションを推定する機械学習を用いた手法

3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans

RGB-Dセンサから3Dセマンティックセグメンテーションを推定する機械学習を用いた手法「3D-SIS」を提案する研究。RGB-Dセンサで記録したマルチビューを使用して、2Dカラー画像 と3Dジオメトリデータから学習するニューラルネットワーク、オブジェクトバウンディングボックス、クラスラベル、インスタンスマスクを予測する。動画


報酬の最大化だけでなく、エージェントの身体的デザインも同時に学習するアプローチ

Reinforcement Learning for Improving Agent Design

脳内だけでなく、環境に最適なボディデザインも学習することで、より高いパフォーマンスを達成させる手法を提案する研究。化学習において、報酬を最大化するだけでなく、同時にエージェントのデザインも学習する。


GAN Dissection: Visualizing and Understanding Generative Adversarial Networks

GANにおいて、どのユニットがどのオブジェクトクラスに影響を与えているかを視覚化し理解する分析フレームワークを提案する研究。ユニットレベル、オブジェクトレベル、シーンレベルでGANを視覚化し、GANのプロセスにおいて、何が何に影響を与えているかの因果効果を理解する。動画


1台の深度カメラとIMUから着衣する人の動きをより高品質に再構築するリアルタイム・パフォーマンスキャプチャシステム

HybridFusion: Real-Time Performance CaptureUsing a Single Depth Sensor and Sparse IMUs

1台の深度カメラと慣性計測装置(inertial measurement unit、IMU)を用いて、服を着ている人の全身運動を再構築するパフォーマンスキャプチャシステム「HybridFusion」を提案する研究。動画


fMRIを用いて脳活動から人がどこを注視しているかを機械学習を用いて推定し視覚化するアプローチ

Predicting eye movement patterns from fMRI responses to natural scenes

fMRIの活動から眼球運動パターンをCNN(Convolutional Neural Network)を用いて直接予測し、活動マップを元画像にオーバーレイし再構成するアプローチの研究。脳がどのようにこの能力を調整するか、どのように脳がその複雑な計算を素早く実行するか、正確な脳計測を使用して、自然な風景を見るときに人の目がどのように動くかを推定する。


deep learningとフルカラー&マルチマテリアル3Dプリンタを組み合わせて絵画(油絵等)を再現するRePaint

Deep Multispectral Painting Reproduction via Multi-Layer, Custom-Ink Printing

Deep learningとフルカラー&マルチマテリアル3Dプリンタを組み合わせて絵画(油絵等)を再現するRePaintシステムの研究。分光反射率を再現し、フルカラー&マルチマテリアル3Dプリンタを用いて複製できる。動画


単眼カメラの映像だけから深度とエゴモーションを推定する教師なし学習を用いた手法

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

単眼カメラの映像だけから深度とエゴモーションを推定する教師なし学習を用いた手法を提案する研究。シーン内の動的オブジェクト(例:移動する車、人、自転車など)がどこに向かっているかを検出でき、静的オブジェクトでも、潜在的に移動する可能性があるか検出する。


着衣アニメーションを生成する深層強化学習を用いた手法

Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning

着衣アニメーションを生成する深層強化学習を用いた手法の研究。人間モデルの関節角と速度、衣服の頂点位置、触覚(衣服の内側と接触しながら着衣するため)、表面情報、タスクベクトルなどを学習する。動画


メッシュ変形を転送するGANを用いた自動アルゴリズム

Automatic Unpaired Shape Deformation Transfer

ソース形状からターゲット形状にメッシュ変形を転送するGANを用いたアーキテクチャを提案する研究。例えば、細い人の動作を太い人へ、フラミンゴの動作を人へ、馬の動作を像へ、顔の動作を人へ等を転送する。動画


1枚の画像をぼかし調整できる機械学習を用いた手法

DeepLens: Shallow Depth Of Field From A Single Image

スマートフォンカメラなどの一般的なカメラで撮影された1枚の画像にDoF(Depth of field:被写界深度)効果を生成する機械学習を用いた手法「DeepLens」を提案する研究。焦点位置やぼかし加減も調整できる。動画


単一の2D画像から3D形状を推定する機械学習を用いた手法

Unsupervised Learning of Shape and Pose with Differentiable Point Clouds

2D投影から、点群表現を用いて3D物体の姿勢と形状を学習する手法の研究。同じオブジェクトの2つのビューを入力に、対応する形状(点群として表される)とカメラの姿勢を予測し、投影モジュールを使用して予測されたカメラポーズから推定された形状のビューを生成する。動画


ソース形状を別のターゲット形状に合わせ調整することで新しい形状を生成するCNNを用いた手法

ALIGNet: Partial-Shape Agnostic Alignment via Unsupervised Learning

ソース形状を別のターゲット形状に合わせ調整することで新しいインスタンスを生成するCNNを用いた手法「ALIGNet」を提案する研究。ソース形状とターゲット形状のランダムなペアから、教師なしの訓練スキームを介して、FFDグリッドを計算することを学び、入力のソースとターゲット形状の間のマッピングを学習する。


1枚の顔写真から似顔絵を生成するGANを用いた手法

CariGANs: Unpaired Photo-to-Caricature Translation

ペアになっていない1枚の顔写真から似顔絵を生成する敵対的生成ネットワークGANを用いた手法の研究。パラメータを調整もしくはカリカチュアの例を与えることで、カラーやテクスチャのスタイルも変更できる。


1枚の写真からdeep learningを用いてSVBRDFを推定しモデリングする手法

Single-Image SVBRDF Capture with a Rendering-Aware Deep Network

1枚の写真からdeep learningを用いてSVBRDFを推定しモデリングする手法の研究。ピクセルごとのノーマル、拡散アルベド、鏡面アルベド、物質表面の粗さに対応する4つのマップを予測する。


1枚の着衣全身画像とマスクから、別の照明環境下でその人物の陰影がどのようになるかを、より写実的に再現するCNNを用いた手法

Relighting Humans: Occlusion-Aware Inverse Rendering for Full-Body Human Images

服を着た人の全身画像1枚とそのマスクから、CNNを用いて、どのような陰影(明るい部分や暗い部分)になるかを推定し再現する研究。反射率や照明だけでなく、画素ごとに光の遮蔽を9次元の球面調和関数 (spherical harmonics; SH) の係数として符号化した光伝達マップも推定。様々な照明環境下で、人物画像の再照明をより写実的に実現する。動画


既存の3D形状を写実的なモデルへ自動的に変えるdeep learningを用いた手法

PhotoShape: Photorealistic Materials for Large-Scale Shape Collections

既存の3D形状に対して、各部分にSV-BRDFによるマテリアルを自動的に割り当てるdeep learningを用いたテクスチャリング・システム「PhotoShape」の研究。3D形状に対して、自動的にフォトリアリスティックなテクスチャを割り当てるフレームワークを提案し、写実的で再現性のある3D形状を大量に生成する。動画


動画内のアクロバットな動きから、その動きをキャラクタが習得するdeep learningを用いた手法

SFV: Reinforcement Learning of Physical Skills from Videos

動画内のアクロバットな動きから、その動きをキャラクタが習得するdeep learningを用いた手法の研究。単眼で撮影された通常の動画からアクロバットなスキル(動画内の人の動き)の姿勢推定から始まり、物理的なシミュレーションでスキルを再現し学習する。動画


GANの学習プロセスをリアルタイムに可視化するWebブラウザベースの対話型視覚化ツール

GAN Lab: Understanding Complex Deep Generative Models using Interactive Visual Experimentation

GANの学習プロセスをリアルタイムに可視化するWebブラウザベースの対話型視覚化ツール「GAN Lab」の研究。TensorFlow.jsを使用し実装されており、Webブラウザを介して行える。任意のパラメータに変更も可能。動画


3D Hair Synthesis Using Volumetric Variational Autoencoders

1枚の画像から3Dヘアを再構築するdeep learningを用いたモデリング法の研究。予測された髪の向きと髪型の概形に基づき、ストランドを頭部モデルの頭皮から成長させ毛髪の束を合成する。動画


衣服の2Dスケッチから折り目(ひだ)付きの3D衣服を任意の身体に合わせて生成できる手法

Learning a Shared Shape Space for Multimodal Garment Design

衣服の2Dスケッチから折り目(ひだ)付きの3D衣服を任意の身体に合わせて生成できる手法の研究。折り目パターンを含む衣服スケッチから、2D衣服の縫製パターンと3Dボディ形状パラメータを自動的に推測し、取得したパラメータからドレープされた3D衣服形状を予測する。出来上がった衣服は、元のスタイル(折り目パターン、シルエットなど)を維持しながら、異なる身体形状にリターゲットも可能。動画


複数人の2Dポーズをリアルタイムに高速検出する「Pose Proposal Networks(PPN)」

Pose Proposal Networks

複数人の2Dポーズをリアルタイムに高速検出する「Pose Proposal Networks(PPN)」の研究。 リサイズ後の入力画像からRegion proposal (RP/物体領域候補予測) フレームワークで身体部位のバウンディングボックスを検出し、CNNを使って部位を検出する。動画


顔のエッジ映像から様々なリアル顔映像に変換するGANを用いた手法

Video-to-Video Synthesis

顔のエッジ映像から様々なリアル顔映像に変換するGANを用いた手法の研究。 セグメンテーションマスクから背景や自動車を出力、顔のエッジマップから人物の顔を出力、ポーズから人の踊りを出力、ビデオからビデオへの変換が可能となる。動画


手書きの2Dスケッチから3DサーフェスをモデリングするCNNを用いた手法

Robust Flow-Guided Neural Prediction for Sketch-Based Freeform Surface Modeling

手書きの2Dスケッチから3DサーフェスをモデリングするCNNを用いた手法の研究。 入力であるスケッチ図(深度ポイント、曲率のヒント等含む)をもとに、DFNetを用いて表面の曲率方向を決める流れ場を回帰し、GeomNetを用いて深度マップおよび法線マップを生成する。動画


6つのIMUを装着し、リアルタイムに全身の3D姿勢推定を行うdeep learningを用いた手法

Deep Inertial Poser: Learning to Reconstruct Human Pose from Sparse Inertial Measurements in Real Time

6つの慣性計測装置(IMU)のみを全身に装着し、リアルタイムの3D姿勢推定を実行するdeep learningを用いた手法「DIP(Deep Inertial Poser)」の研究。動画


頭に取り付けた1台のカメラからの一人称視点映像で本人の3Dポーズを推定する模倣学習を用いた手法

3D Ego-Pose Estimation via Imitation Learning

頭に取り付けた1台のカメラからの一人称視点映像で本人の3Dポーズを推定する模倣学習を用いた手法の研究。モーションキャプチャデータ、ヒューマノイドモデル、物理シミュレータを活用した模倣学習法を採用。動画


動きは同じに人の外観だけを入れ替え可能なdeep learningを用いた手法

Towards Learning a Realistic Rendering of Human Behavior

ビデオ内の人の動きを、別の人の外観に置き換えて同じ動きをさせるdeep learningを用いた手法の研究。動画


別のビデオスタイルに動画を変換するGANを用いたデータ駆動型ビデオリターゲット技術

Recycle-GAN: Unsupervised Video Retargeting

別のビデオスタイルに動画を自動的に変換するGAN(Generative Adversarial Network)を用いたビデオリターゲット技術「Recycle-GAN」の研究。顔の表情と動きを人物から別の人物(またはキャラクタ)に変換、白黒フィルムをカラーに変換、花の開花を別の花へ変換、風が強い風景動画を穏やかな風の風景動画に変換、などが可能。動画


高品質な人体3Dモデルを必要とせずに、ユーザ制御下の写実的なリアルアバタを生成するGANを用いた手法

Neural Animation and Reenactment of Human Actor Videos

ビデオ内の人の動きだけを別のビデオ内の人に転送するconditional GANを用いた手法の研究。事前に3Dモデルを作成し、動きと組み合わせて実現する。動画


ビデオ内の人から別のビデオ内の人へ動きを転送する機械学習を用いた手法

Everybody Dance Now

異なるビデオ内の人物間の動きを転送する機械学習を用いた手法の研究。ソースビデオ内の人の動きをターゲットビデオ内の人へ転送し、外見はそのままに動作だけを入れ替える。GANを用い、合成ビデオの精度を上げる。動画


画像の前景オブジェクトと背景を分離し再合成するCNNを用いた手法

Semantic Soft Segmentation

画像の前景オブジェクトと背景を分離し再合成するCNNを用いた手法の研究。入力である元画像のテクスチャと色情報を分析し、訓練されたCNNと組み合わせることで、その画像内のオブジェクトが実際に何であるかを区別する。動画


参考画像から髪の色具合を3Dモデルへ適用できるGANを用いた3Dヘアレンダリングを発表

Real-Time Hair Rendering using Sequential Adversarial Networks

参考画像から髪の色具合を3Dモデルへ適用できるGANを用いた3Dヘアレンダリングの研究。自然な髪の画像を入力に、髪の色、照明、繊維レベルの構造へ分解しエンコード、毛髪を逆順で適用していき現実的なCGモデルを再構築する。動画


キャラクタのバスケットボール技能向上のためにドリブルを学ばせる深層強化学習を用いた手法

Learning Basketball Dribbling Skills Using Trajectory Optimization and Deep Reinforcement Learning

バスケットボールをするコンピュータアニメーションキャラクタをより現実的に表現する深層強化学習を用いた物理ベースの手法の研究。足の間をドリブル、背中の周囲にボールを回す、などを学習し、スキルから別のスキルへの移行方法も学習。 正確なボールの動きと、それに合った腕などの動きを生成する。動画


動きに合わせて自然なシワも表現する衣服の変形をリアルにシミュレートするための機械学習フレームワーク

DeepWrinkles: Accurate and Realistic Clothing Modelin

動きに合わせて自然なシワも表現するより現実的な衣服の再構築法「DeepWrinkles」の研究。 4Dスキャンから現実的な衣服の変形を生成するための機械学習フレームワーク。 全体的な形状と細かなシワなどを回復できるより現実的な衣服の変形を取得する。動画


一人称視点ビデオにおいて、注視を予測し可視化する機械学習を用いた手法

Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition

一人称視点ビデオにおいて、注視を予測し可視化する機械学習を用いた手法の研究。2つのモジュールを融合し、 最終的な注視マップを生成、一人称視点ビデオにおける注視予測を出力する。動画


音声スピーチに合わせて唇画像を動作させる機械学習を用いた手法

Lip Movements Generation at a Glance

音声スピーチに合わせて唇画像を動作させる機械学習を用いた手法の研究。ソース音声とターゲット画像を合成し、人物のアイデンティティを保持しながらリアルに描写する。動画


動画内の人物へ別の顔の表情や動きを転送し再構築する機械学習フレームワーク

ReenactGAN: Learning to Reenact Faces via Boundary Transfer

動画内の人物へ別の顔の表情や動きを転送し再構築する機械学習フレームワーク「ReenactGAN」を提案する研究。動画


単一の3Dオブジェクトに対してどのように使用するかの機能性を推定し可視化するCNNアーキテクチャ

Predictive and Generative Neural Networks for Object Functionality

単一の3Dオブジェクトに対してどのように相互作用するかの機能性を推定し可視化する手法の研究。単一の3Dオブジェクトに対しての機能性を推定し、周囲のオブジェクトとどのように相互作用するかを示すシーンを生成するニューラルネットワークアーキテクチャ。


見本のテクスチャから類似したより大規模で現実的なテクスチャに拡張するGANを用いたテクスチャ合成法

Non-Stationary Texture Synthesis by Adversarial Expansion

見本のテクスチャから類似したより大規模で現実的なテクスチャに拡張するGANを用いたテクスチャ合成法の研究。見本テクスチャ同士の融合も可能。生成した大規模テクスチャをシャッフルして、動いているように見せることも可。


画像内の小さくぼやけた顔も検出するGANを用いた手法

Finding Tiny Faces in the Wild with Generative Adversarial Network

画像内の小さくぼやけた顔も検出するGANを用いた手法の研究。画像中の10×10ピクセルほどの小さな顔でも高解像度の顔に生成するアルゴリズムを使用する。


描いたスケッチから現実的な画像を生成する敵対的生成ネットワークGANを用いた手法

SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

人が描いたスケッチから現実的な写真を生成する機械学習を用いた手法の研究。似た画像を検索してくるのではなく、スケッチから新しい画像を生成する。


画像のノイズを取り除くDeep learningを用いた手法

Noise2Noise: Learning Image Restoration without Clean Data

画像のノイズやアーティファクト、フィルムグレイン等を除去するDeep learningを用いた手法の研究。ノイズの多い画像とクリーンな画像のペアを使用するのではなく、ノイズ画像のみを用いて同等またはそれに近いパフォーマンスで自動的に除去し写真を強化する。動画


会話文に対して、自然言語による返答とそれに合う顔の表情

A Face-to-Face Neural Conversation Model

テキストもしくは動画による会話文の入力に対して、自然言語による返答と、同時にそれに合う適切な顔のジェスチャを生成するニューラルネットワークモデルを提案する研究。ボットとの会話のために、テキスト情報と顔情報の両方を用いた適切な応答の生成を可能に。動画


画像や動画内のどこから音が鳴っているかの音源を推定する教師なし学習を用いた手法

Learning to Localize Sound Source in Visual Scenes

画像や動画内のどこから音が鳴っているかの音源を推定する機械学習を用いた手法の研究。画像と音のペアから、その音源が画像中のどこから鳴っているかの音の視覚情報をヒートマップで提示する。動画


動画で行われている技能を評価しランク付けする機械学習を用いた手法

Who’s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination

2つの動画内で行われている技能(手術、絵を描く、ピザ生地をこねる、箸を使う)を評価し、どちらが上手かを推定するCNNを用いた手法の研究。


動画内のオブジェクトに色付けするコンピュータビジョンモデル

Tracking Emerges by Colorizing Videos

ビデオ内の特定のオブジェクトに追跡し色付けする技術の研究。白黒ビデオの特定のオブジェクトを追跡し、色付けする機械学習を用いた手法。コンピュータビジョンにおけるビジュアルトラッキングに役立てる。


画像からガラスのような光の反射や透過を要するオブジェクトをマッティングする効率的なモデル

TOM-Net: Learning Transparent Object Matting from a Single Image

1枚の画像からガラスのような透明オブジェクトを切り抜き、新しい背景画像に反射特性含めより自然に合成するCNNアーキテクチャの研究。876の透明オブジェクトデータセットを作成。1枚の画像から反射特性を保存しながら前景オブジェクトを新しい背景画像にレンダリングさせる。動画


音楽ビデオから特定の楽器音だけを分離する教師なし学習アーキテクチャ

The Sound of Pixels

音楽ビデオから特定の楽器音だけを分離する教師なし学習アーキテクチャ「PixelPlayer」の研究。動画から音を生成する画像領域を見つけ出し、特定の楽器の音を分離する。20以上の一般的に見られる楽器の音を識別できる。動画


屋内シーンの深度データを入力に、CNNを用いて欠落部分を推定、ラベル付きボクセルの3Dモデル

ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans

屋内シーンの深度データを入力に、CNNを用いて欠落部分を推定、ラベル付きボクセルの3Dモデルを生成する手法の研究。動画


バイオリンやピアノ演奏のオーディオ入力からアバタの動きを推定するニューラルネットワークシステム

Audio to Body Dynamics

ニューラルネットワークを用いて、バイオリンやピアノ演奏のオーディオ入力からアバタの動きを推定するシステムの研究。 各ビデオの各フレームの上体と指を検出し、オーディオ機能と身体骨格のランドマークとの相関を学習ネットワークを構築。 音声信号から身体のジェスチャを予測する。動画


人間の姿勢を2D画像から推定し、人体の表面にテクスチャをマッピングできる機械学習を用いたシステム

DensePose: Dense Human Pose Estimation In The Wild

人間の姿勢を2D画像から推定し、人体の表面にテクスチャをマッピングできる機械学習を用いたシステム「DensePose」の研究。 複数人が密集した2D画像から人体それぞれの3Dモデルを計算し、画像ピクセルを人体のサーフェス座標に関連付ける。動画


機械学習を用いて、人の将来の行動予測(活動のタイミングと継続時間)を推定するシステム

When will you do what? – Anticipating Temporal Occurrences of Activities

人の将来の行動予測(活動のタイミングと継続時間)を推定する機械学習システムの研究。5分以内に起こるすべての行動を推定する。例えば、料理の一連の動作をビデオシーケンスから学習し、新しい状況において調理人がいつどの時点で何を行うのかを予測するなど。動画


壁などに隠れる人の姿勢を推定するニューラルネットワークシステム

Through-Wall Human Pose Estimation Using Radio Signals

壁などに隠れる人の姿勢を推定するニューラルネットワークシステムの研究。低電力のワイヤレスRF信号(WiFiより1000倍低電力)を送信し、環境からの反射を受信し分析、人間の骨格を推定する。動画


高品質かつリアルタイムに動かすキャラクタリグ技術

Fast and Deep Deformation Approximations

deep learningを用いて、モバイル上でキャラクタを高品質かつリアルタイムに動かすキャラクタリグ技術の研究。メッシュ変形に必要な時間を短縮し計算量を削減する。


VRカメラ、iPhone 7/X等のデュアルレンズで撮影した画像から奥行き感あるビューを生成する機械学習を用いたシステム

Stereo Magnification: Learning view synthesis using multiplane images

ステレオカメラ、VRカメラ、iPhone 7/Xなどのデュアルレンズカメラで撮影した画像から奥行き感ある現実的なビューを作成エンドツーエンドのDeep learningフレームワークの研究。動画


ビデオ内の顔の表情、頭の動き、目の動きや瞬きを外観を維持しながら制御する機械学習を用いた手法

Deep Video Portraits

機械学習を用いて、ソースビデオの人物(顔)からターゲットビデオの人物(顔)へ転送し、3Dアニメーションを再構築するアプローチの研究。ソースビデオの人物がターゲットビデオの人物のアイデンティティと外観を維持しながら、頭部姿勢、顔の表情、目の動きや瞬きを制御する。動画


ロボットに家事などの日常的なタスクを学習させる3Dシミュレータ「

VirtualHome: Simulating Household Activities via Programs

ロボットに家事などの日常的なタスクを学習させる3Dシミュレータ「VirtualHome」の研究。「コーヒーを作る」などのさまざまなアクション約3,000のプログラムを使用してシステムを訓練する。動画


1枚の画像から顔の姿勢、形状、反射率、照明を推定し再構築するDeep learningを用いたインバースレンダリング法

InverseFaceNet:Deep Single-Shot Inverse Face Rendering From A Single Image

1枚の画像から顔の姿勢、形状、反射率、照明を推定し再構築するDeep learningを用いたインバースレンダリング法の研究。動画


ニューラルネットワークを用いて、より現実的に滑かな動きを実現する四足歩行キャラクタのリアルタイム制御技術

Mode-Adaptive Neural Networks for Quadruped Motion Control

ニューラルネットワークを用いて、より現実的に滑かな動きを実現する四足歩行キャラクタのリアルタイム制御技術の研究。27本の骨格モデルと81自由度。リアルタイムに四足歩行キャラクターのアニメーションを生成する。動画


機械学習を用いて対話的にラフスケッチのペン入れができる編集ツール

Real-Time Data-Driven Interactive Rough Sketch Inking

機械学習を用いて対話的にラフスケッチのペン入れができる編集ツールの研究。途切れた線を自然につなぎ、不要な線を効率的に消し、自動出力された線画を効果的に修正することが可能。動画


ページ上部へ戻る