僕のCGアカデミア

グラフィクス系(主にキャラクターアニメーションに関する)論文やアクティビティを簡単に紹介するログ

論文紹介: DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor

ぱったりと更新が止まってから一年が経ってしまいました。ちょうど昨年頃は福岡に出張中で有り余る時間を論文を読む時間に当ててこのブログを更新していたわけですが、その後、なんと2018年4月からCGのツールをもっと学ぼうということで、デジタルハリウッド東京本校に通っておりました。そこで、CG/VFX専攻とUI/UXD専攻をとっていて、だいたい週4日のデジハリ生活を過ごしていたために更新する時間がなく。ようやく先週に修了式を終え、今までのような日常生活を取り戻し、今に至ります。他にもデジハリに通い始めるタイミングで都内で一人暮らしも始めたりと、この一年間は慌ただしく過ぎ去っていき、色々と積もる話もあるのですが、それはまぁ回を追うごとに少しずつ紹介したいと思います。

ちなみにデジハリではこんなもの(Mayaのツール)を作りました。

概要

  • 単一のデプスカメラを使って、人の動的なポーズや詳細な形状を取得する手法。

  • 身体のレイヤーとさらに外側のレイヤー(衣服等)の二重レイヤーを仮定することで、様々な体型や衣服(スカートやカバン等)に応じた安定なトラッキングを実現

DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor

[ プロジェクトページ ] [ 論文 ]

関連研究

もう既に静的形状がわかっているもの(スキャンされた形状)にスケルトンが埋め込まれたモデルをテンプレートとし、非剛体変形によってフィッティングする手法がこれまでに多かったが、事前に静的な形状を取得するのが大きなリミテーションとなる。そのため、以前紹介したSMPLのようなパラメトリックなモデルが近年のトレンドとなっている。

iwanao731.hatenablog.com

そして最新動向としては、SMPLで大まかな形状を取りつつ、着ている服を別レイヤーで取得したり[ 関連 ] 、SMPLにテクスチャ貼ったりする手法[ 関連 ] をよく見かける。このあたりの論文は今後このブログで継続的に紹介していきたい。SMPLを使いつつ、詳細なシワの形状などを取得したい、という目的から、DoubleFusionのようなDepthセンサーを使って、高密度な形状を取得していく手法が主な関連研究の一つである。本研究は、先行研究では復元が困難だった高速な復元を可能にしているそう。

提案手法

http://vgl.ict.usc.edu/Research/RealTimeCapture/images/outline.jpg

0. 事前準備

SMPLの表面上に既定のノードを設定しておき、グラフ構造を作っておく。このグラフ構造では、身体構造を考慮してあり、異なる部位のノードが繋がったりするようなことはないようになっている。

撮影の際は、カメラ固定でAポーズからスタートするようにする。 デプスマップを使用して、最初のSMPLの体型とポーズを推定する。 デプスマップからマーチンキューブ法で三角形メッシュを作成し、特に離れているところは、ノードとして保存する。

1. Joint motion tracking

Data Term 二重レイヤーとデプスマップが近くなるようにする

Regularization Term (Key) できるかぎり形状を剛体にする

Pose Prior Term なるべく不自然なポーズにならないようにする

とりあえず、中途半端ですが、ここで一旦公開しちゃいます。

続きは後日。

論文紹介: Learning a model of facial shape and expression from 4D scans

最近,Netflixでワンピースが観れるようになって廃人のような生活を繰り返すようになってしまっている@iwanao731です.福岡から帰ってきてだいぶ経ってしまいました.福岡で契約していたコワーキングスペースはなかなかよかったですね~.もう生活が仕事とプライベートワークって感じで自分の好きなことに集中して取り組める時間が沢山あって幸せでした.東京に戻ってからは仕事の締め切りがあって,2月中はずっと忙しかったのですが,3月は割と時間があってワンピースを見続ける体たらくな生活になってしまっております.

さて,今週の土曜日にSIGGRAPH ASIA 2017勉強会が開催される予定で,"Avatars and Faces"というセッションを担当することになったので,引き続きこの続いてるのか続いていないのかわからないブログ?を更新したいと思います.

概要

  • 4Dスキャン形状から三次元の顔の形状と表情のモデルを学習するという論文.
  • Identity(個人の顔形状)とExpression(表情)に加え,Pose(ポーズ)ブレンドシェイプという概念?が導入されている. 通常であれば,がPCAなどで低次元にモデル化されているが,本論文ではポーズブレンドシェイプ

Learning a model of facial shape and expression from 4D scans
[ プロジェクトページ ] [ 論文 ] [ 補足資料 ] [ データベース ]

関連研究

iwanao731.hatenablog.com

以前紹介したSMPLでは,体の姿勢等の制御は可能なのですが,個人顔の作成や表情の付与,もちろん眼球といった情報がないモデルでした.そこで彼らはSMPLを拡張して,表情モデルを作成する手法を提案しています.  

勘の鋭い人(このブログを見てくれている人笑)はお気づきかと思いますが,SMPLに表情モデルを付与した論文って以前に紹介しましたよね?

iwanao731.hatenablog.com

ただ,この論文ってarXivであって,まだPublishされていない論文なんですよね...(2018.3現在) なので本論文では,TotalCaptureとの比較はなされていませんでした.(手法も若干違います)

彼らの言い分によると,SMPLは骨が運動学的に動くことで体の形状が変形するものですが, 顔に関しては主に筋肉が関係しています.そこで,顔,頭部,首を含めたモデルにしたみたいです.

新しいところ

本論文では,

  • Shape Blendshape
  • Pose Blendshape
  • Expression Blendshape

を組み合わせたモデルを提案しています.中でもPose Blendshapeは他の論文では見かけない概念だったので新しい点かと思います.

Tips

統計的な形状のモデリング手法の条件として,トポロジー(頂点数など)が同じでないと実現できない手法になっています.ですが,デプスセンサー等からキャプチャした形状は頂点数は毎フレームバラバラなのでリトポロジー(テンプレートを変形させてキャプチャ形状に近づける作業)をする必要があります.

このあたりを手っ取り早く行えるWrap3は素敵なツールだと思います.

Wrap3 Tutorial: OpticalFlowWrapping Part3 from Neo307 on Vimeo.

CAESARモデルは,沢山の人の顔の形状があるので,SMPLモデルから顔領域(肩より上)を切り抜いてきて,トポロジーを合わせたりする処理をしているそうです.そして,毎度おなじみDeformation Transferを使ってSMPLのフルボディと生成したボディで何かしらやっているみたい.

ボディ及び顔データベースをまとめたい

  • Facewarehouse
    20個の異なる表情付きの150人のスキャン(おそらくHaoLi et al., 2013の手法を用いて,20->48個に拡張されている)

  • Basel Face Model
    200人の若者から構成されている個人顔パラメトリックデータベース.ただし表情がついていない.最近の研究では,これを拡張して表情付きのものもある様子.

  • CAESAR
    女性2100,男性1700人の全身形状データベース.
    SCAPE: shape completion and animation of people (SIGGRAPH 2005 Presentation) - YouTubeでも使用されている.

  • SMPL
    TBD

  • D3DFACS
    400を超える4Dシーケンスデータ

論文紹介: Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

現在、滞在中の福岡では例年にないほどの寒さになっていて、暖房を消すと部屋が激しく寒くなります。暖房をつけっぱなしだと空気が乾燥するし、難しいですね。そして案の定風邪をひいてしまいました。それでも論文調査くらいは横になっててもできますからね。続けますよ。 ベッドの上ではそれ以外にすることがあまりないので、ここ最近ハマっているYoutubeのジョーさんのジョーブログでも見ようかなと思います。

【南米縦断】第1話~46話 - YouTube

アマゾン川をイカダで下るところはかなり激しめです笑

さて、論文紹介に参りたいと思います。

概要

  • 表情、全身の動作、指の動作をすべてキャプチャできるシステムの提案。
  • 複数人のキャプチャも可能。

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
[ 論文 ]
www.youtube.com

  • 提案するフランケンシュタイン(Frankenstein)モデルにより全身キャプチャを実現。
  • Frankensteinを拡張したアダム(Adam)モデルによって、ヘアスタイルや衣服の再現も可能。

その他の研究との差異

  • 今までに全身や表情、指のトラッキングにフォーカスした研究は個々にあったが、それらを統合した一般的な手法は提案されていない。
    • 今までどうしてそれができてこなかったのか
      • 全身をキャプチャするには広いスペースを確保する必要がある。
      • 一方で表情や指は全身に比べるとスケールが小さく、詳細な情報を取りづらい。(正面を向く必要があるなど)
  • 人々の情報伝達手段(コミュニケーション)において、表情や全身及び指のすべてのジェスチャーに意味があり、重要。
  • 複数人が互いにコミュニケーションしてるようなシーンのキャプチャも実現。

関連研究

Embodied Hands: Modeling and Capturing Hands and Bodies Together, SIGGRAPH ASIA 2017
www.youtube.com

提案手法

  • マルチビューによる複数人の全身、表情、指のキーポイント検出
  • 生成的な全身モデル: フランケンシュタインモデル及びアダムモデル

フランケンシュタインモデルとSMPLの違い。

ここでSMPLについて iwanao731.hatenablog.com

SMPLは全身のみ(表情と手の情報は含まれてない)ので、それに加えて表情と手の情報を加えたものがフランケンシュタインモデル

  • 全身: SMPL
  • 表情: Facewarehouse
  • 手: アーティスト作成

まとめ

結果はすごいけど、いろいろと既存手法の組み合わせのような気がしてます。

関連記事

shiropen.com

Kinectセンサー10台と上記ブログには書かれていますが、論文にそのような記載はありませんでした。ソースどこだろう...。

論文紹介: SMPL: A Skinned Multi-Person Linear Model

研究の進め方って難しいですよね。

アイデアを見つけた時にまずプロトタイプを作ってから考えるか、関連研究をじっくりと調査して作戦を立てるか。トップダウンかボトムアップかって話だと思うんですが。

今までは結構プロトタイプ作ってからが多くて、実際に作ってみて見つかった欠点や問題をどう解決するかっていうので、新しい論文を書き上げる感じだったんですが。まぁ近年の研究動向だと、本当に移り変わりが激しいですし、特にキャプチャ系はたくさんあるので、何かしらかぶってしまいますよね。本当にレッドオーシャンになってきているので、年々更新していかないといきなり入れない領域になりつつあるような気がします。僕も今はいろいろと調査して手も動かしながらキャッチアップしようとしているところって感じですね。ここは我慢。調査しただけで、何かにまとめていないと無駄になってしまうので、こうしてウェブに書き溜めているわけです。

きっと無駄じゃない!笑

概要

  • 既存のアニメーションパイプラインに準拠した三次元の人体モデル(体型や姿勢、肉揺れ)をパラメトリックに生成できるようにしたSMPLモデル(Skinned Multi-Person Linear model)を提案。

SMPL: A Skinned Multi-Person Linear Model, SIGGRAPH ASIA 2015
[ Project Page ]
www.youtube.com

  • 以下のデータからモデル化。
    • Tポーズのテンプレート
    • ブレンドウェイト
    • 姿勢に依存したブレンドシェイプ
    • 個性に応じたブレンドシェイプ
    • 頂点から関節の位置を推定する回帰

ここがミソみたいだけどよくわかってないです。

Unlike previous models, the pose-dependent blend shapes are a linear function of the elements of the pose rotation matrices. This simple formulation enables training the entire model from a relatively large number of aligned 3D meshes of different people in different poses.

  • 同じデータセットを用いて生成したBlend-SCAPEと比較。
  • 既存のアニメーションパイプラインに準拠した(compatibleな)モデル。

既存研究との比較

SCAPE: shape completion and animation of people, SIGGRAPH 2005
[ Project Page ]
www.youtube.com

上記の手法では
+ リアリティに欠ける(らしい)
+ 既存のソフトウェアで実装されていない
+ 既存のアニメーションパイプラインに準拠していない
+ 手作業が必要

  • 本手法の特徴

    • シンプル
    • 幅広く使えるように標準的
    • データからモデル化した変形ベースモデルのリアリティを保っている
  • 身体情報(個性、姿勢、動的な脂肪の揺れ)に応じたブレンドシェイプを標準姿勢の時点で組み込み。

  • 姿勢ブレンドシェイプを各部位の回転行列の要素の線形関数として数式化した点。(やっぱりよくわからない)
    • この手法は上記のSCAPEと異なるらしい。
    • 線形にすることで回転行列が拘束条件になるため、結果が他手法より良くなる。

使用したデータベース

CAESAR dataset : およそ男女それぞれ2000人分のスキャンデータをPCAによって圧縮したデータベース

  1. 身体形状データ(1786人分)に対して、テンプレートメッシュを位置合わせ 1.1 体型ブレンドシェイプ(body shape blend shapes)になる
  2. トレーニング場のモデルの頂点エラーを最小化するために以下を推定
    2.1 the blend weights
    2.2 pose-dependent blend shapes
    2.3 the mean template shape (rest pose)
    2.4 a regressor from shape to joint locations

肉揺れに関して

以下のモデルにフィッティング

Dyna: A Model of Dynamic Human Shape in Motion (SIGGRAPH 2015)   www.youtube.com

まとめ

パラメトリックに体型や姿勢を変えられるのは素晴らしいね!

論文紹介: End-to-end Recovery of Human Shape and Pose

現在は福岡に出張中でして、大体三週間程度いる予定です。普段は実家に住んでいるので、今はウィークリーマンションを借りているんですが、家に帰ったら本当にやることがなくて、スポーツジムの会員になったり、今日からコワーキングスペースの会員になりまして、お金で充実感を得ようとしている感が漂っております。

【スポーツクラブNAS】スポーツジム・フィットネスクラブなら

福岡市のコワーキングスペース,シェアオフィス,3Dプリンターなら | ヨカラボ天神

さて、最近は会社のお仕事とは関係なく、三次元の身体形状推定技術が気になっていまして。もともと大学ではキャラクタアニメーション、特に身体のシミュレーション(主には脂肪や筋肉の揺れ)であったり、三次元の動き(ダンス生成等)について研究していて、ちょうどそれを合わせたようなトピックっていうわけです。ダンス生成に関してはやはりデータベースが重要で、踊ってみた動画等から三次元の姿勢が取れたら大量のデータベースを構築できるわけですね。それにAR技術と掛け合わせることで様々なビデオエフェクトができるようになるでしょう。とにかく、モーションキャプチャを使用せずに如何にして三次元の姿勢情報を取得するかが今後のカギになってくると個人的には思っております。なので、このあたりの論文をここ最近調査しています。この調査内容は今年の夏に開催されるCEDECで発表したりしたいなと思ってます。

ちなみに、昨年はこんな内容で講演させていただきました。 「ダンスコンテンツ研究が拓くエンターテインメントイノベーション」 cedec.cesa.or.jp

こんな感じです。

概要

  • 動画像から人体の体型、姿勢及びカメラ情報を推定する研究。
  • Human Mesh Recovery (HMR)を提案することで、人間らしい姿勢を推定可能。

End-to-end Recovery of Human Shape and Pose, arXiv
[ PDF ] [ Project Page ]
www.youtube.com

チャレンジングな点

  • 正解値となる三次元姿勢のデータセットが汎用的ではない

    • モーションキャプチャルームで撮影されたものやグリーンバックで撮影されたものであり、汎用的なシーンではない。
  • 2次元画像が表している三次元の姿勢を伴った奥行き情報があいまい。

    • オクルージョンによって見えない部分の姿勢等が推定できない問題。
    • カメラの位置によって身体のスケール等が変わってしまう問題。

カギとなるアイデア

ペアではない二次元のアノテーションされたキーポイントと三次元スキャン情報を用いて、与えられた画像から三次元メッシュパラメータ情報と三次元のキーポイントがプロジェクション後の二次元のキーポイントと一致するカメラ座標を出力する敵対的手法。

曖昧性に対処するために、これらのパラメータは識別ネットワーク(discriminator network)に送られ、与えられた3Dパラメータ情報が実際の人間かどうかを判別するようになっている。 つまりこの識別機は、人間の多様性に基づいてパラメータを出力しようとする。(不自然な関節の向きや体型は排除するようになっている)

  • 使用するデータセット
    • 汎用的な(in-the-wildな)画像に付与された大量の二次元アノテーション情報データベース
    • 様々な体型及び様々な姿勢の3D人体メッシュモデル

その他の研究との相違点

  • 画像から三次元情報を直接推定する。その他の研究では、画像から推定された二次元情報から三次元情報(関節位置)を推定するといった二段階のトレーニングステージが必要で画像に含まれていた情報のロストも大きい。
  • スケルトンやメッシュといった情報以上のものを画像のみから出力可能。
  • 過去の研究をしのぐ誤差率とリアルタイム性を実現
  • 2D-3Dのペアデータを必要としない。

他手法との比較について

  • 画像から3Dジョイントを推定する研究との比較

    • 2DジョイントからSMPLのパラメータを推定し、その関節と比較する
  • 人体部位のセグメンテーション手法との比較

まとめ

画像から三次元の姿勢だけでなく、体型、カメラ座標がわかってしまうなんてすごい!

関連記事

UCバークレーら、敵対的学習を用いて1枚の画像から自然な人体3Dモデルを再構成する手法を論文にて発表。リアルタイムの実行も可能

shiropen.com

Motion In Games 2016に参加した話

はじめに

2016年10月10-13日にSan Franciscoで開催されたMotion In Games 2016に参加してきました.
この学会では主にReal-Time系のPhysics-based SimulationやHuman Motionの研究が発表されます.今年は人工知能系のAIIDE 2016と同時開催.僕はその何れの研究分野にも興味があって今回参加しています. 僕が関わっている研究プロジェクトに関しては以下サイトにてご覧になれます.

research.mlabdance.com

気になった論文紹介


Real-TIme Physics based Simulation

Projective Fluids (Short Paper)

Marcel Weiler, Dan Koschier and Jan Bender
Project Page

youtu.be

話題のProjective Dynamicsを流体シミュレーションに適用した論文. 第一著者のMarcel Weiler氏と仲良くなったのだけど,彼は今回MIG2016で発表されたすべての研究に質問をしていてすごかった!


XPBD: Position-Based Simulation of Compliant Constrained Dynamics (Short Paper)

Miles Macklin, Matthias Muller, Nuttapong Chentanez
PDF
youtu.be

今回Muller氏に会えると思って期待してたんですけど,なんだか忙しいみたいで来てなかったのが残念.Maclin氏と話せたのはよかった. ちなみにNVIDIAは,グラフィクス系よりかはDeep Learning系の人を積極的に募集しているみたいですよ.


A Robust Method to Extract the Rotational Part of Deformations (Short Paper)

Matthias Muller, Jan Bender, Nuttapong Chentanez, Miles Macklin
PDF
youtu.be

僕が敬愛する小山氏が早くもレポートしてくれています!


Simulating Visual Geometry (Full paper)

Matthias Müller, Nuttapong Chentanez, Miles Macklin
PDF
youtu.be

通常,物理シミュレーション用のメッシュや可視化用のメッシュ,コリジョンハンドリング用のメッシュ等は別々に取り扱うことが多い(例えばコリジョンの場合は,プリミティブなオブジェクトを体に仕込んでコリジョン判定を簡単にするなど)が,それを一貫して取り扱えるにした研究(かな).


Human Motion

SkillVis: A Visualization Tool for Boxing Skill Assessment (Full Paper)

Hubert P. H. Shum, He Wang, Edmond S. L. Ho, Taku Komura
Project Page
youtu.be

僕がイギリスに留学しているときにお世話になったHubert P.H. Shum氏の研究.ボクシングのスキルを可視化するツール.ボクシングに限らず,様々なモーションのスキルを可視化してフィードバックしていくことは例えばスポーツの上達や作業効率アップなどに関わってこれるんじゃないかと思う.今後モーションキャプチャが安価になって手軽にモーションが取れてくるときに広げていきたい技術.


招待講演

Keynote by Mark Walsh

Pixarに18年アニメータとして勤め,現在はMotion A.Iという会社で人工知能(VR)とアニメーションを組み合わせた新たなエンターテインメントに取り組んでいる.
www.walshingmachine.com

Motion In Games 2012年の時の招待講演動画
youtu.be

Keynote by Simon Clavet

Unisoftのエンジニア.学生時代は流体シミュレーションに関する研究に取り組んでおり,現在は,モーション生成に関する開発に従事.
Simon Clavet

発表内容はCEDEC 2016でも発表していたモーションマッチングに関して.CEDECは参加できなかったのですが,この発表はすごく聞きたかったので今回聞けて嬉しかった! cedec.cesa.or.jp

資料もアップされています!Motion Matching資料

会った人

昔,サンフランシスコのTechHouseに泊まったときにお世話になった方に連絡をしてみたら,現在はひっそりサンフランシスコで日本人向けに泊まれる宿があるそうで,そこに今回泊まらせていただきました.そこで,僕と同日から泊まり始めた方が,Shuichi Tsutsumiさんという方で.

twitter.com

d.hatena.ne.jp

お顔は知らなかったのですが,名前とブログは読んだことがあったのでびっくり!ちょうどSFの会社で働き始めたところみたいです. iOSデベロッパーとしてのキャリアに関して伺うことができて嬉しかった.

最後に

普段はロサンゼルスにいるのですが,車がないので移動が大変.その分,サンフランシスコは街もコンパクトで美味しいお店も密集してたりするのでとても過ごしやすいですね!

ずっと食べたかった火鍋も食べれて満足でした.

遂に念願の火鍋が食べれるぞぉぉお!#ぼっちメシ #並ばずに入れた

Naoya Iwamotoさん(@iwanao731)が投稿した写真 -

帰り道

ちなみに,帰りのサンフランシスコからロサンゼルス行きの飛行機の時間を勘違いしていて,

結局乗れず,次の日の始発便に乗りました.追加料金かからず済んだのだけど,空港泊辛かったです涙

それでは.

論文紹介: Steklov-Poincaré Skinning

Ming Gao, Nathan Mitchell, Eftychios Sifakis
Steklov-Poincaré Skinning
SCA 2014
研究紹介ページ

概要

スケルトンドリヴンな物理ベースキャラクターアニメーション生成のための、効率的なシミュレーション手法の提案。 衝突判定もフルサポートする。メッシュベースアプローチ(命名: Volumetrically-reactive elastic surface model )

コンセプト

従来の物理ベーススキニングは,四面体や八面体を用いたものが多く,それらで体積保存や膨らみなどを表現していた.しかし,実際にレンダリングや変形,衝突などで重要となるスキンレイヤーへの取り組みは薄く,多くは直接的に関係のない内部の肉に計算コストがつぎ込まれている.そうではなく,一番重要なスキンメッシュに焦点を当て今回研究を行っている.

コントリビューション

 突然スケルトンが移動したら、シミュレーションが収束するまで時間がかかるんですが、それをスキニングの変形を用いる事ですぐに収束できるよ、という話。

  1. 共回転を伴う弾性体の動きを近似したマテリアルモデル
    メッシュの変形からではなく、スキニングで生じるローカルな回転変形を計算する事でコストを削減。その結果はスケルトンポーズに依存した係数と共に、頂点座標上でアフィン変換された力学モデルを示す。
  2. 力学モデルの使用
    サーフェスの頂点座標と境界上で力が均衡した結果との間のマッピングを行うための力場モデル。ボリュメトリックな弾性体モデルのStekov-Poincare operatorの離散バージョンとして?←よくわからない。
  3. Modified Newton Iterationやskinning inspired preconditioner(何かよくわからない)は境界問題をランタイムで解く事ができる。

他手法(有限要素法を用いたスキニング)との違い

  1. 準静的な肉のシミュレーションや慣性の無考慮、跳ね返るようなエフェクトを対象としている。
  2. 共回転弾性体モデルに近い、特定の構造を持った法則を用いる。ただし、後者の代数非線形性は避ける避ける

手法

Steklov-Poincaré operatorとは

与えられた境界条件に対して異なるタイプの値を与える(Neumann)

境界値の偏微分方程式を解く際に必要になる作用素。はい、全くわからない。

(この辺りが参考になりそう) 
Wikipedia

境界条件の基礎と決定法

The Helmholtz Equation

 

ざっくりとした概要は,急にスケルトンの位置が変動するとシミュレーションが落ち着くまでに何度もイテレーションをする必要があるが,有限要素法の一部の式をスケルトンのスキニングによる回転行列に置き換えることで,少ないイテレーションで安定したシミュレーション結果を得られるよう.あとは,いくつかコリジョンの取り扱いに関する工夫を行っている.