AI(人工知能)ML(機械学習)の最新研究まとめ[論文一覧]

 本ページは、人工知能(AI, Artificial Intelligence)、機械学習(Machine Learning)、深層学習(Deep Learning)に関する最新論文を厳選し、日本語要約と共に時系列順に随時更新、一覧にしている場所です。

 また、本ページのようにアーカイブベースではなく、速報ベースで取得したい方は、月1回の配信で最新論文を紹介するWebコンテンツもあります。

 初めての方はこちら

索引

最初に、索引として「A~Z」順に並べています。 索引を飛ばす場合はこちら。

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

機械学習、 深層学習の最新研究一覧

音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法

Neural Voice Puppetry:
Audio-driven Facial Reenactment

音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法。任意の音声(テキスト)を入力に、音声に合わせ指定する顔の口元を操り人形のように話させる。デジタルアシスタントの音声も好きな顔に変換可能。遠隔会議で自撮り写真に話させる等。動画


Everybody’s Talkin’: Let Me Talk as You Want

音声から、その音声を話すリアルな人のビデオを合成する手法を提案する研究。任意のソースオーディオから、表現パラメーターに変換するリカレントネットワークが用いられ、ターゲットのポートレート映像の口領域を編集する。動画


文書画像のゆがみや明るさ、深層学習で補正

Document Rectification and Illumination Correction using a Patch-based CNN

文章が書かれたプリントをスマートフォンで撮影した画像の歪み(傾き、湾曲、しわ等)や照明による暗い部分等を、スキャンしたように均等に明るく平らな画像に変換する技術を提案する研究。


映像内の動きを抽出して画像に転送することで、リアルな合成動画を生成するGANを用いた手法

Few-shot Video-to-Video Synthesis

映像内の動きを抽出して画像に転送することで、リアルな合成動画を生成するGANを用いた手法を提案する研究。人の全身運動や顔の輪郭運動など、領域分割マスクや線画スケッチを基に、動かしたい画像に合成し写実的な映像に仕上げる。訓練データに含まれてなくても合成可能が新規性。動画


投影した映像が跳ね返った光の動き(影)から、その動きを予測し再現するシステムを提案する研究

Computational Mirrors: Blind Inverse Light Transport by Deep Matrix Factorization

投影した映像が跳ね返った光の動き(影)から、その動きを予測し再現するシステムを提案する研究。プロジェクターで投影するスクリーンから跳ね返った光が反対側の壁に映る光の動き、その動きから映像を推定する機械学習を用いた手法。画像:左が跳ね返った光、中央が入力映像、右が出力結果。動画


キャラクター制御システム

DReCon: data-driven responsive control of physics-based characters

物理シミュレーションと、大量のモーションキャプチャデータを使用したデータ駆動型アニメーションシステム 「モーションマッチング」 とを組み合わせたキャラクター制御システムを提案する研究。深層学習を用いて訓練することで、実行コストを抑えた高品質アニメーションを実現する。動画


高品質のアニメーションを生成する深層学習フレームワーク

Neural State Machine for Character-Scene Interactions

モーションキャプチャデータからキャラクターとオブジェクトの相互作用を学習し、制御コマンドから高品質のアニメーションを生成する深層学習フレームワークを提案する研究。椅子に座ったり、荷物を持ち運んだりのアニメーションをリアルに生成。動画


深層学習と独自の撮影機材を用い、3Dアバターを生成できるパフォーマンスキャプチャーシステム「The Relightables」

The Relightables:Volumetric Performance Capture of Humans with Realistic Relighting

深層学習と独自の撮影機材を用い、3Dアバターを生成できるパフォーマンスキャプチャーシステム「The Relightables」を提案する研究。カスタムLightStage(RGBカメラ58台IRカメラ32台プロジェクタ16台照明331個)で全身キャプチャし任意バーチャルシーンに合わせ照明の当たり方を変えリアルな動きを表現。動画


Learning an Intrinsic Garment Space for Interactive Authoring ofGarment Animation

半自動で衣服アニメーションを生成できるDeep learningを用いた手法を提案する研究。フレームを確認しながら、衣服形状を加えたり、モーションを一部変更したりして、インタラクティブに編集する。動画


Neural Style-Preserving Visual Dubbing

ビデオ内人物の口の動きを別のビデオ内人物の口の動きへ転送するGANを用いた手法を提案する研究。 ターゲット人物のアイデンティティを維持しながら、ソース人物の口の動きと声を転送できる。動画


SoftCon: Simulation and Control of Soft-Bodied Animals with Biomimetic Actuators

水中軟体動物の設計と制御をするためのdeep learningを用いたフレームワークを提案する研究。 タコ、ウナギ、ヒトデ、エイ、イカなど、さまざまな水中軟体動物のシミュレートを実証し、泳ぐ、つかむ、瓶から逃げるなどの多様な行動も学ぶ。リアルタイム制御も可能。動画


FSGAN: Subject Agnostic Face Swapping and Reenactment

別の画像に顔を転送するRNNをベースとしたネットワークを提案する研究。任意の動画内人物に、好きな顔を合成できる。髪型などはそのままに、顔の表面がシームレスに合成される。動画


Transport-Based Neural Style Transfer for Smoke Simulations

通常の画像から煙などの流体シミュレーションへスタイル転送できる機械学習を用いた手法を提案する研究。CNN(転移学習)を用いて、煙から特徴抽出を行い、その特徴と画像を合成する。動画


InteractionFusion: Real-time Reconstruction of Hand Poses andDeformable Objects in Hand-object Interactions

2台の深度センサーを用いて、手とオブジェクトのやり取りをリアルタイム且つより正確に再構築する機械学習を用いた手法を提案する研究。動画


Semantic Photo Manipulation with a Generative Image Prior

画像内の編集したい部分をなぞるだけで、ニューラルネットワークが周囲と調和した違う画像に変えるツールを提案する研究。 1枚の画像に対して、カーソル操作でなぞればその部分がそれらしい画像に変更。動画


PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization

1枚の画像から服を着た人の3Dモデルを再構築できるdeep learningを用いた手法を提案する研究。被写体の背面など、見えない領域もそれらしい形状及びテクスチャを推定 。動画


Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

言語障害者の音声を流暢な合成音声に直接変換する機械学習を用いた手法「Parrotron」を提案する研究。言語障害者の音声アシスタントへの入力エラー率を軽減。動画


Synthetic Defocus and Look-Ahead Autofocus  for Casual Videography

スマートフォンカメラで気軽に撮影する映像において、背景ボケ映像(被写界深度の浅い映像)の表現を文脈に合わせてリアルタイムに合成する機械学習を用いた手法を提案する研究。静止画像ではなく動画。動画


動画内の人の会話をテキストベースに修正するだけで口の動きも修正できる機械学習を用いた手法

Text-based Editing of Talking-head Video

動画内の人の会話をテキストベースに修正するだけで口の動きも音声と共に修正できる機械学習を用いた手法を提案する研究。言い間違いなどの部分的な箇所を自然に修正できる。 動画


3人対話で各アバターの視線や頭胴部などの動きを会話に合わせて自動生成するdeep learningを用いた手法

A Deep Learning-Based Model for Head and Eye MotionGeneration in Three-party Conversations

3人対話で各アバターの視線や頭胴部などの動きを会話に合わせて自動生成するdeep learningを用いた手法を提案する研究。音声信号を入力に、話者の目と頭の動的方向を推定。動画


ハイブリットUAV(翼付きドローン)のコントローラを自動的に設計するためのニューラルネットワークを用いた手法

Learning To Fly: Computational Controller Design For Hybrid UAVs With Reinforcement Learning

ドローンと飛行機を組み合わせたハイブリットUAVの制御システムを自動設計する機械学習を用いた手法を提案する研究。 ローター制御(マルチコプターモード)とウィング制御(飛行機モード) を切り替えて飛行。動画


スマートフォンカメラで撮影した人物画像の照明環境を後から変更できるLight Stageと機械学習を用いたリライティング法

Single Image Portrait Relighting

スマートフォンカメラで撮影した人物画像の照明環境を後から変更できるLight Stageと機械学習を用いたリライティング法を提案する研究。 LightStageで取得した 顔データセットで訓練。動画


大規模な不均一テクスチャをより高精度に生成するGANを用いたテクスチャ合成技術「TileGAN」

TileGAN: Synthesis of Large-Scale Non-Homogeneous Textures

大規模な不均一テクスチャをより高精度に生成するGANを用いたテクスチャ合成技術「TileGAN」を提案する研究。 サンプル画像を入力に、類似した大規模で自然な画像に合成する。動画


屋外画像の太陽光を変更及び制御できる機械学習を用いたマルチビューリライティングシステム

Multi-view Relighting Using a Geometry-Aware Network

屋外画像の太陽光だけを変更及び制御できる機械学習を用いたマルチビューリライティングシステムを提案する研究。屋外画像の光を変更するため、太陽の位置、それによる影の位置を再構築する。動画


ネット上の画像群を使用して観光地の3Dシーンをより現実的に再構築する機械学習フレームワーク

Neural Rerendering in the Wild

ネット上の異なる角度や距離から撮影した観光地のランドマーク画像群から3Dシーンを生成するより現実的にレンダリングできる機械学習フレームワークを提案する研究。公に入手可能な写真を唯一の入力に、さまざまな照明条件下でリアルな3Dシーンを生成する。動画


1枚の2D静止画像から人物の過去と未来の3Dポーズの動きを推定する機械学習を用いたフレームワーク

Learning 3D Human Dynamics from Video

1枚の2D静止画像から人物の過去と未来の3Dポーズの動きを推定する機械学習を用いたフレームワークを提案する研究。動画


サッカーゲームを攻略するマルチエージェントのための強化学習アーキテクチャ

Google Research Football: A Novel Reinforcement Learning Environment

サッカーのビデオゲームをマスターするための強化学習環境である「Google Research Football Environment」を提案する研究。チーム内のすべてのプレイヤーを制御し、選手間のパスの仕方を学び、ゴールを決めるための動きを学習する。動画


1台の頭部装着型カメラからの一人称視点映像を入力に自身の3D姿勢をリアルタイムに推定する手法

Ego-Pose Estimation and Forecasting as Real-Time PD Control

1台の頭部装着型カメラからの一人称視点映像を入力に自身の3D姿勢をリアルタイムに推定する手法を提案する研究。 歩行や走行 、しゃがむなどの動きを屋内外で推定。また、動きの未来予測として、将来の動きを生成可能。動画


シーン内の人とカメラの両方が移動していても1台の単眼カメラから深度を予測するdeep learningを用いた手法

Learning the Depths of Moving People by Watching Frozen People

シーン内の人とカメラの両方が移動していても1台の単眼カメラから深度を予測するDeep Learningを用いた手法を提案する研究。 ぼかし領域のリアルタイム操作、オブジェクトの除去と挿入、ビューの3D化などを可能にする。動画


映像内から抜き出した人物をそのままゲームキャラクタに変換する手法「Vid2Game」

Vid2Game: Controllable Characters Extracted from Real-World Videos

映像内から抜き出した人物をそのままゲームキャラクタに変換する手法「Vid2Game」を提案する研究。通常のビデオ内から人物の動きを抜き出し、別の背景に登場させ上下左右にコントロールすることを可能にする。動画


外部光学機器を必要とせずにリアルタイムに手のポーズを推定するdeep learningを用いたストレッチセンシングソフトグローブ

Interactive Hand Pose Estimation using a Stretch-Sensing Soft Glove

外部光学機器を必要とせずにリアルタイムに手のポーズを推定するDeep Learningを用いたストレッチセンシングソフトグローブを提案する研究。安価に高精度なハンドトラッキング を可能にする。動画


ピタゴラ装置を設計する物理シミュレーションと機械学習を用いた計算フレームワーク

Designing Chain Reaction Contraptions from Causal Graphs

ピタゴラ装置を設計する物理シミュレーションと機械学習を用いた計算フレームワークを提案する研究。 ユーザによって提供される原因結果グラフ技法の大雑把なレイアウト図を入力に、物理ベースのシミュレーションと機械学習を用いて条件下でレイアウトを最適化 する。動画


ハエの動きを3Dで姿勢推定できるDeep learningを用いたモーションキャプチャ「DeepFly」

DeepFly, a deep learning-based approach for 3D limb and appendage tracking in tethered adult Drosophila

ハエの動きを3Dで姿勢推定できるDeep learningを用いたモーションキャプチャ「DeepFly」を提案する研究。どこでも登れたりのハエの身体能力を手足の動作から探究し、小型の自律飛行ロボットを設計するために活用する。動画


音声から顔アニメーションをより自然に生成するdeep learningを用いたフレームワーク

VOCA: Capture, Learning, and Synthesis of 3D Speaking Styles

音声から顔アニメーションを生成するdeep learningを用いた手法「VOCA」を提案する研究。任意の音声信号と静的キャラクタメッシュを入力に、自動的にリアルな喋るキャラクタアニメーションを出力する。動画


人の動きを別動画内人物へリターゲティングするdeep learningを用いた手法

Learning Character-Agnostic Motion for Motion Retargeting in 2D

人の動きを別動画内人物へリターゲティングするDeep Learningを用いた手法を提案する研究。任意のモーションを任意のスケルトンと組み合わせて、任意のビュー方向から2D再構築することを可能にする。動画


もっともらしい3D屋内シーンを効率的に大量生成できるニューラルネットワーク

GRAINS: Generative Recursive Autoencoders for Indoor Scenes

もっともらしい3D屋内シーンを効率的に大量生成できるニューラルネットワーク「GRAINS」を提案する研究。長方形の部屋をベースに間取りを自動生成する。


スタイル見本画像を動的な顔へリアルタイムに転送する機械学習を用いた手法

Real-Time Patch-Based Stylization of Portraits Using Generative Adversarial Network

スタイル見本画像を動的な顔へリアルタイムに転送する機械学習を用いた手法「FaceStyleGAN」を提案する研究。被写体のアイデンティティを維持しながら、顔の表情だけを動かす。動画


1枚の画像から平面深度マップをピース単位で再構築する機械学習を用いた手法「PlaneNet」

PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image

1枚の画像から平面深度マップをピース単位で再構築する機械学習を用いた手法「PlaneNet」を提案する研究。動画


ページ上部へ戻る