僕のCGアカデミア

グラフィクス系(主にキャラクターアニメーションに関する)論文やアクティビティを簡単に紹介するログ

論文紹介: End-to-end Recovery of Human Shape and Pose

現在は福岡に出張中でして、大体三週間程度いる予定です。普段は実家に住んでいるので、今はウィークリーマンションを借りているんですが、家に帰ったら本当にやることがなくて、スポーツジムの会員になったり、今日からコワーキングスペースの会員になりまして、お金で充実感を得ようとしている感が漂っております。

【スポーツクラブNAS】スポーツジム・フィットネスクラブなら

福岡市のコワーキングスペース,シェアオフィス,3Dプリンターなら | ヨカラボ天神

さて、最近は会社のお仕事とは関係なく、三次元の身体形状推定技術が気になっていまして。もともと大学ではキャラクタアニメーション、特に身体のシミュレーション(主には脂肪や筋肉の揺れ)であったり、三次元の動き(ダンス生成等)について研究していて、ちょうどそれを合わせたようなトピックっていうわけです。ダンス生成に関してはやはりデータベースが重要で、踊ってみた動画等から三次元の姿勢が取れたら大量のデータベースを構築できるわけですね。それにAR技術と掛け合わせることで様々なビデオエフェクトができるようになるでしょう。とにかく、モーションキャプチャを使用せずに如何にして三次元の姿勢情報を取得するかが今後のカギになってくると個人的には思っております。なので、このあたりの論文をここ最近調査しています。この調査内容は今年の夏に開催されるCEDECで発表したりしたいなと思ってます。

ちなみに、昨年はこんな内容で講演させていただきました。 「ダンスコンテンツ研究が拓くエンターテインメントイノベーション」 cedec.cesa.or.jp

こんな感じです。

概要

  • 動画像から人体の体型、姿勢及びカメラ情報を推定する研究。
  • Human Mesh Recovery (HMR)を提案することで、人間らしい姿勢を推定可能。

End-to-end Recovery of Human Shape and Pose, arXiv
[ PDF ] [ Project Page ]
www.youtube.com

チャレンジングな点

  • 正解値となる三次元姿勢のデータセットが汎用的ではない

    • モーションキャプチャルームで撮影されたものやグリーンバックで撮影されたものであり、汎用的なシーンではない。
  • 2次元画像が表している三次元の姿勢を伴った奥行き情報があいまい。

    • オクルージョンによって見えない部分の姿勢等が推定できない問題。
    • カメラの位置によって身体のスケール等が変わってしまう問題。

カギとなるアイデア

ペアではない二次元のアノテーションされたキーポイントと三次元スキャン情報を用いて、与えられた画像から三次元メッシュパラメータ情報と三次元のキーポイントがプロジェクション後の二次元のキーポイントと一致するカメラ座標を出力する敵対的手法。

曖昧性に対処するために、これらのパラメータは識別ネットワーク(discriminator network)に送られ、与えられた3Dパラメータ情報が実際の人間かどうかを判別するようになっている。 つまりこの識別機は、人間の多様性に基づいてパラメータを出力しようとする。(不自然な関節の向きや体型は排除するようになっている)

  • 使用するデータセット
    • 汎用的な(in-the-wildな)画像に付与された大量の二次元アノテーション情報データベース
    • 様々な体型及び様々な姿勢の3D人体メッシュモデル

その他の研究との相違点

  • 画像から三次元情報を直接推定する。その他の研究では、画像から推定された二次元情報から三次元情報(関節位置)を推定するといった二段階のトレーニングステージが必要で画像に含まれていた情報のロストも大きい。
  • スケルトンやメッシュといった情報以上のものを画像のみから出力可能。
  • 過去の研究をしのぐ誤差率とリアルタイム性を実現
  • 2D-3Dのペアデータを必要としない。

他手法との比較について

  • 画像から3Dジョイントを推定する研究との比較

    • 2DジョイントからSMPLのパラメータを推定し、その関節と比較する
  • 人体部位のセグメンテーション手法との比較

まとめ

画像から三次元の姿勢だけでなく、体型、カメラ座標がわかってしまうなんてすごい!

関連記事

UCバークレーら、敵対的学習を用いて1枚の画像から自然な人体3Dモデルを再構成する手法を論文にて発表。リアルタイムの実行も可能

shiropen.com