論文紹介: MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency
お久しぶりです,iwanao731です.2021年初投稿ですね.あけましておめでとうございます. 相変わらず2021年もコロナの状況は変わっておらず,緊急事態宣言も続いている最中ですが,コロナに振り回されず,今やれることをやっていかないとですね. とりあえず最近は色々と作っていて,昨年興味があって色々と読んでいたVolumetric Videoに関しては,4DVIEWSで撮影したデータを使って,ポーズに依存した変形ができるアバターなんかを実験で作っておりました.
まだまだプロトタイプなのですが,色々と難しいことをやらないといけなくて,なんといってもメッシュのトラッキングですね.これが地味に難しくて,色々と工夫してました.まだ道半ばという感じですが.
さて,今日は今月末に開催されるSIGGRAPH ASIA勉強会に向けて各論文を読んで忘れないようにまとめようと思い,そのうちの一本の論文を取り上げます.
MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency
[ Project Page ] [ Paper ] [ Code ]
概要
- ビデオから二次元のジョイント位置を抽出し,三次元のジョイントの回転情報を取得する研究
- スケルトンはボーンの長さによって表現されており,左右対称で,単一の人物のみであることを仮定
- 動きは動的であり,スケルトンは独立.回転の角度で動作が定義されており,ルート位置がグローバルかつ足の接地情報を出すことができる.
最初に思った疑問
モーションデータをどう学習することで角度の取得を可能にしたのか
- 学習するモーションデータセットは,様々な人の異なるモーションデータで,いずれもなめらかなデータであることを仮定
- 単一の人物のスケルトンで,グローバルポジションを持っている
- 学習時は,三次元モーションを任意のビューで二次元にプロジェクトションして,ネットワークで三次元やその他の情報を復元するように学習
グローバルの位置や接地情報はどうラベル付するのか
- 足の接地についても,足の位置を事前に調べておいて,設定した床からコンタクトを判定
オリジナリティや技術的貢献はどこか
Two-branch network
単一の静的なスケルトンを出すネットワークと,ジョイントの回転,ルート位置,足の接地といった動的な動作の要素を復元するネットワーク.使用しているコンポーネントは以下の3つ.
- Forward kinematics layer by [Villegas, 2018]
Original paper is using for motion retargeting, but we use for pose estimation
Discriminator to joint rotation angle [Kanazawa, 2018]
- 絶対角度の値を使うところやフレームごとで行う点がオリジナルと異なるらしい
角速度の一定のシーケンスのリアリズムを判別するDiscrimnatorである点も異なる
1D temporal convolution [Pavllow, 2019]
- They used it for 3d pose estimation
- We used to train to lift 2d joint position into 3D with training to convert joint positions to rotation
Tips
モーションデータごとにTポーズ時の角度の絶対値が違う問題等があるため,基本的にはポーズはangle velocityに基づいたものを使っているそう.また,リファレンスとなるTポーズを学習にも使っているそう.(要調査)
その他の情報
データについて
- CMU Motion capture dataset
- Human 3.6M
11人で17シナリオのデータセットを使用
評価について
- Quantitative, Qualitativeそれぞれ異なる研究をターゲットとして比較している
- 結論として,ジョイントの位置の推定精度はトップではないが良好.角度に関してはいい結果が得られた.
感想
- ジョイントの絶対座標も取れるビデオ入力のモーションキャプチャはこれから確実に使われまそうです.
- IKを使わないので,シンプルにビデオの入力に近い動きが取れるし,実際キャプチャしたモーションの精度も高そうでそこそこ使えそう.
- 論文長い.