論文紹介: MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

お久しぶりです，iwanao731です．2021年初投稿ですね．あけましておめでとうございます．相変わらず2021年もコロナの状況は変わっておらず，緊急事態宣言も続いている最中ですが，コロナに振り回されず，今やれることをやっていかないとですね．とりあえず最近は色々と作っていて，昨年興味があって色々と読んでいたVolumetric Videoに関しては，4DVIEWSで撮影したデータを使って，ポーズに依存した変形ができるアバターなんかを実験で作っておりました．

youtu.be

まだまだプロトタイプなのですが，色々と難しいことをやらないといけなくて，なんといってもメッシュのトラッキングですね．これが地味に難しくて，色々と工夫してました．まだ道半ばという感じですが．

youtu.be

さて，今日は今月末に開催されるSIGGRAPH ASIA勉強会に向けて各論文を読んで忘れないようにまとめようと思い，そのうちの一本の論文を取り上げます．

MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

[ Project Page ] [ Paper ] [ Code ]

youtu.be

概要

ビデオから二次元のジョイント位置を抽出し，三次元のジョイントの回転情報を取得する研究
スケルトンはボーンの長さによって表現されており，左右対称で，単一の人物のみであることを仮定
動きは動的であり，スケルトンは独立．回転の角度で動作が定義されており，ルート位置がグローバルかつ足の接地情報を出すことができる．

最初に思った疑問

モーションデータをどう学習することで角度の取得を可能にしたのか

学習するモーションデータセットは，様々な人の異なるモーションデータで，いずれもなめらかなデータであることを仮定
単一の人物のスケルトンで，グローバルポジションを持っている
学習時は，三次元モーションを任意のビューで二次元にプロジェクトションして，ネットワークで三次元やその他の情報を復元するように学習

グローバルの位置や接地情報はどうラベル付するのか

足の接地についても，足の位置を事前に調べておいて，設定した床からコンタクトを判定

オリジナリティや技術的貢献はどこか

Two-branch network

単一の静的なスケルトンを出すネットワークと，ジョイントの回転，ルート位置，足の接地といった動的な動作の要素を復元するネットワーク．使用しているコンポーネントは以下の３つ．

Forward kinematics layer by [Villegas, 2018]
Original paper is using for motion retargeting, but we use for pose estimation
Discriminator to joint rotation angle [Kanazawa, 2018]
絶対角度の値を使うところやフレームごとで行う点がオリジナルと異なるらしい
角速度の一定のシーケンスのリアリズムを判別するDiscrimnatorである点も異なる
1D temporal convolution [Pavllow, 2019]
They used it for 3d pose estimation
We used to train to lift 2d joint position into 3D with training to convert joint positions to rotation

Tips

モーションデータごとにTポーズ時の角度の絶対値が違う問題等があるため，基本的にはポーズはangle velocityに基づいたものを使っているそう．また，リファレンスとなるTポーズを学習にも使っているそう．(要調査)

その他の情報

データについて

CMU Motion capture dataset
Human 3.6M

11人で17シナリオのデータセットを使用

評価について

Quantitative, Qualitativeそれぞれ異なる研究をターゲットとして比較している
結論として，ジョイントの位置の推定精度はトップではないが良好．角度に関してはいい結果が得られた．

感想

ジョイントの絶対座標も取れるビデオ入力のモーションキャプチャはこれから確実に使われまそうです．
IKを使わないので，シンプルにビデオの入力に近い動きが取れるし，実際キャプチャしたモーションの精度も高そうでそこそこ使えそう．
論文長い．

僕のCGアカデミア

グラフィクス系(主にキャラクターアニメーションに関する)論文やアクティビティを簡単に紹介するログ

論文紹介: MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

概要

最初に思った疑問

モーションデータをどう学習することで角度の取得を可能にしたのか

グローバルの位置や接地情報はどうラベル付するのか

オリジナリティや技術的貢献はどこか

Two-branch network

Tips

その他の情報

データについて

評価について

感想