僕のCGアカデミア

グラフィクス系(主にキャラクターアニメーションに関する)論文やアクティビティを簡単に紹介するログ

論文紹介: MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

お久しぶりです,iwanao731です.2021年初投稿ですね.あけましておめでとうございます. 相変わらず2021年もコロナの状況は変わっておらず,緊急事態宣言も続いている最中ですが,コロナに振り回されず,今やれることをやっていかないとですね. とりあえず最近は色々と作っていて,昨年興味があって色々と読んでいたVolumetric Videoに関しては,4DVIEWSで撮影したデータを使って,ポーズに依存した変形ができるアバターなんかを実験で作っておりました.

youtu.be

まだまだプロトタイプなのですが,色々と難しいことをやらないといけなくて,なんといってもメッシュのトラッキングですね.これが地味に難しくて,色々と工夫してました.まだ道半ばという感じですが.

youtu.be

さて,今日は今月末に開催されるSIGGRAPH ASIA勉強会に向けて各論文を読んで忘れないようにまとめようと思い,そのうちの一本の論文を取り上げます.


MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency

[ Project Page ] [ Paper ] [ Code ]

youtu.be

概要

  • ビデオから二次元のジョイント位置を抽出し,三次元のジョイントの回転情報を取得する研究
  • スケルトンはボーンの長さによって表現されており,左右対称で,単一の人物のみであることを仮定
  • 動きは動的であり,スケルトンは独立.回転の角度で動作が定義されており,ルート位置がグローバルかつ足の接地情報を出すことができる.

最初に思った疑問

モーションデータをどう学習することで角度の取得を可能にしたのか

  • 学習するモーションデータセットは,様々な人の異なるモーションデータで,いずれもなめらかなデータであることを仮定
  • 単一の人物のスケルトンで,グローバルポジションを持っている
  • 学習時は,三次元モーションを任意のビューで二次元にプロジェクトションして,ネットワークで三次元やその他の情報を復元するように学習

グローバルの位置や接地情報はどうラベル付するのか

  • 足の接地についても,足の位置を事前に調べておいて,設定した床からコンタクトを判定

オリジナリティや技術的貢献はどこか

Two-branch network

単一の静的なスケルトンを出すネットワークと,ジョイントの回転,ルート位置,足の接地といった動的な動作の要素を復元するネットワーク.使用しているコンポーネントは以下の3つ.

  1. Forward kinematics layer by [Villegas, 2018]
  2. Original paper is using for motion retargeting, but we use for pose estimation

  3. Discriminator to joint rotation angle [Kanazawa, 2018]

  4. 絶対角度の値を使うところやフレームごとで行う点がオリジナルと異なるらしい
  5. 角速度の一定のシーケンスのリアリズムを判別するDiscrimnatorである点も異なる

  6. 1D temporal convolution [Pavllow, 2019]

  7. They used it for 3d pose estimation
  8. We used to train to lift 2d joint position into 3D with training to convert joint positions to rotation

Tips

モーションデータごとにTポーズ時の角度の絶対値が違う問題等があるため,基本的にはポーズはangle velocityに基づいたものを使っているそう.また,リファレンスとなるTポーズを学習にも使っているそう.(要調査)

その他の情報

データについて

  • CMU Motion capture dataset
  • Human 3.6M

11人で17シナリオのデータセットを使用

評価について

  • Quantitative, Qualitativeそれぞれ異なる研究をターゲットとして比較している
  • 結論として,ジョイントの位置の推定精度はトップではないが良好.角度に関してはいい結果が得られた.

感想

  • ジョイントの絶対座標も取れるビデオ入力のモーションキャプチャはこれから確実に使われまそうです.
  • IKを使わないので,シンプルにビデオの入力に近い動きが取れるし,実際キャプチャしたモーションの精度も高そうでそこそこ使えそう.
  • 論文長い.