2020-04-17

論文紹介: Motion2fusion: real-time volumetric performance capture

久しぶりの投稿です。昨年デジハリを卒業した後は、忙しかったこともあり、その反動で気が抜けたような年になってしまいました。何もできなかったなぁと反省してたりします。そういうこと以外には同棲なんかを始めたりして、自分の時間を減った一方で、また別に楽しむ時間というのは増えた気もします。仕事的には、2018年頃にやった仕事が会社で賞をもらって、様々な賞をもらったり、挙句には本社のSNSに挙げてもらえたりして、非常にありがたい年だったと思います。

Meet the creator of the 3D live maker, an #AR application on Huawei’s #Mate20Pro – Iwamoto Naoya. What’s life like for this senior researcher? Watch and find out. #WhoAreWe #innovation pic.twitter.com/LChGAkxpaD
— Huawei (@Huawei) 2019年8月27日

最近は、もうコロナで大変です。オフィスへの通勤も在宅になり、日常が一気に変わりました。去年の今頃はCochellaという世界最大興行収入？のフェスに行っていて最高の時間を過ごしておりましたが、最近は粛々と家で仕事などをしています。基本外出禁止ということなので、家で過ごす時間が増え、最近はワンピースを全館読むなど暇の極みみたいなことをして楽しんでいます。

しばらく時間は空いてしまいましたが、これまで全く論文を読んでいなかったというわけではなく、新しい知識を入れるための勉強、というか主に論文を読んで基礎知識をつけていたりしました。しばらく前ですが、アメリカの経済制裁によって社内の3DツールとしてMayaが使えなくなり、Blenderに移行し、一通り、Blenderのチュートリアルをやった頃に、Volumetric Video(VV)という分野？にハマり、そのあたりをずっと調べていました。最近になってちょっとずつこのVVシステムの実装のための基礎技術開発なんかを進めています。

前置きが長くなりましたが、論文の中身に入っていきたいと思います。

概要

Motion2fusion: real-time volumetric performance capture [ 論文 ]

実時間で非常に高精度かつ高速な動きのパフォーマンスキャプチャを実現した論文。最近のナウいワードだと、Volumetric VideoやVolumetric Captureなんて呼ばれていたりします。

論文のオリジナリティ

従来研究で問題だった形状が滑ってしまう問題に対して、新たなNon Rigid Alignment（非剛体位置合わせ）手法を提案
従来の位置合わせ手法で非常に重い行列計算だった箇所を機械学習手法に置き換えることによって、フレーム間の対応を高速に計算
フレーム間によって変化するトポロジーを正確に捉え、それに合わせた正しい対応点抽出を実現

提案手法

入力はRGBDが入力となり、そのポイントクラウドから、Deformation Graph(DG)を作成し、フレーム間のDG間の対応関係をSpectral Embedding Algorithmを利用して別空間へと投影することで、互いの距離をロバストに検出することを可能にしました。

対応点が見つかった後、Embedded Deformation (ED)と呼ばれる手法を使って前フレームの形状を次フレームに変形させていきます。その後は、Detail layerやAtlas texturingを使って、よりdenseな形状の取得を実現しています。

今日はいったん力尽きたのでまた後日更新します。

2019-05-11

論文紹介: Neural Kinematic Networks for Unsupervised Motion Retargetting

Motion Retarget

令和になりましたね！特に何か大きく変わるわけじゃないですが、婚約した友人が何人かいました。そろそろ結婚を考える時期でしょうか。 GW中はというと、どこに行っても混んでいるので近所のカフェで論文を読んだりして過ごしていました。仕事ではなく趣味なんですが、本当に他人にはわかってもらえない趣味ですよね。内容が全くわからないとかなり辛いのですが、わからないことがわかるようになるってやっぱり楽しいですよね。

そんなこんなでGW中に読んだ論文なんかをここに紹介していきたいと思っているわけですが、さらっと一通り読んでみてもいざここにまとめるとなるとうまくまとまらないですよね。書くのってけっこう時間がかかる。。。ですが、あとで眺めたり、一旦まとめたりすると記憶の手助けになるので続けてやっていきたいと思ってます。取り上げる論文は単純に最近興味ある関連のものです。今はちょうどモーション系に興味があります。今更気づいたのですが、小話があってからのCGに関する内容のブログってちょっと手抜きOpenGLっぽい。

概要

Neural Kinematic Networks for Unsupervised Motion Retargetting
[ プロジェクトページ ] [ 論文 ] [ 補足資料 ] [ コード ] [ スライド ]

従来のモーションリターゲット手法は手作業で設計された制約に基づいた繰り返し最適化(iterative optimization)を用いるものが主であったが、本研究では、Reccurent Neural Networkを用いて、正解データを用意せずともシングルパスでモーションリターゲットを行える手法を提案。近年のDeep Learningを用いた人体動作に関する研究では関節の位置をそのまま使用するものが多いが、本研究では関節の回転情報を出力するため、Forward Kinematicsによってキャラクタの骨の構造を考慮した(ボーンの長さが不変な)アニメーションを生成できる。提案手法によって、キャラクタ間の身体構造の違い(背の高さや腕の長さなど)からくるリターゲットの不具合を解消し、キャラクタAの動きをキャラクタBに自然に適用することを可能にした。

提案手法

モーションを生成するパート

Neural Kinematic Networks

RNNを使用して、キャラクタAのモーションからキャラクタBのモーションを生成するフレームワーク。各時間tでのルートジョイントから各関節への相対位置pとルートジョイントの速度vを入力とし、RNNのencoderでencodeし、それにキャラクタBのニュートラルポーズ(Tポーズ)を入力し、decodeすることでキャラクタBの各ジョイントの角度を出力。Forward Kinematicsを用いることで、キャラクタBのモーションを再構成。

モーションを学習するパート

Adversarial Cycle Consistency Framework

通常、キャラクタのモーションリターゲットをトレーニングするには、体型の異なるキャラクタに同じ動きをさせたぺアデータセットを大量に用意しなければいけない。それがモーションリターゲットを未だ困難にしているが、本手法では、Adversarial cycle consistency frameworkによって、ペアのデータを用意せずとも自然なリターゲットを実現する。本フレームワークには、以下の４つのlossが提案されている。

Adversal loss
- 入力したキャラクタAのモーションと、生成されたキャラクタBのモーションが近いかどうかを判別するobjective。入力及び生成モーションの、フレーム間のジョイントの差異及びルートジョイントの速度の差異を計算。
Cycle consistency loss
- 生成されたキャラクタBのモーションを再びキャラクタAにリターゲットし、最初の入力のキャラクタAのモーションとの差異を計算する。
Twist loss
- 上記２つのobjectiveでは、過度なジョイントの回転が生まれてしまったため、ジョイントのtwistのobjectiveを用意。ボーンと並行の軸に対しての回転を考慮。
Smoothing loss
- フレーム間の連続性を考慮するobjectiveを用意。

結果

Mixiamoのモーションを使用した場合
- Mixiamoのキャラクタ7体(22個のジョイント)と1646 のトレーニングシーケンスを使用して実験を行った。各objectiveのそれぞれを外したものをすべてのものを比較し精度を評価。なお、ground truthはMixiamoで制作。提案手法では、ボーンの長さをきちんと考慮したモーションリターゲットを実現した。
- Cycle consistencyは、手先足先の位置を回帰することを防ぐため、身長の違いによる手の位置の違い等も考慮することができた。
- Adversarial objectiveは、自然なモーションを生成することを可能にした。
- Twist lossは、ボーンの過度な回転を防いだ
Human 3.6Mのデータセットで取得したモーションを使用した場合
- 関節数が17個のため、長さ0のジョイントを増やし、22個でMixiamoの関節構造と同じにした。
- こちらも自然な動きを生成することができた。

今後の課題

ジョイントの個数がfixになってしまう。
- 手足、足先で評価できる手法の提案が必要？
物理の考慮
- リターゲット先のキャラクタの体重など、キャラクタのPhysics要素の考慮が必要。
2次元ジョイント位置の入力
- 現状、三次元関節位置を入力する必要があるが、今後、二次元に対応するとなお良い。

2019-05-08

論文紹介: DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor

3D Body Estimation Volumetric Video

ぱったりと更新が止まってから一年が経ってしまいました。ちょうど昨年頃は福岡に出張中で有り余る時間を論文を読む時間に当ててこのブログを更新していたわけですが、その後、なんと2018年4月からCGのツールをもっと学ぼうということで、デジタルハリウッド東京本校に通っておりました。そこで、CG/VFX専攻とUI/UXD専攻をとっていて、だいたい週４日のデジハリ生活を過ごしていたために更新する時間がなく。ようやく先週に修了式を終え、今までのような日常生活を取り戻し、今に至ります。他にもデジハリに通い始めるタイミングで都内で一人暮らしも始めたりと、この一年間は慌ただしく過ぎ去っていき、色々と積もる話もあるのですが、それはまぁ回を追うごとに少しずつ紹介したいと思います。

ちなみにデジハリではこんなもの(Mayaのツール)を作りました。

卒制としてMayaのプラグインを作りました。表情の転写を可能にするExpression Transferと、関節の位置情報からリグのパラメータを逆推定するInverse Rig Mappingです。ソースコードも近日公開予定。https://t.co/QPU6ECknol #デジハリ東京本校 pic.twitter.com/ymsPC4p5Ck
— Naoya Iwamoto (@iwanao731) 2019年3月1日

概要

単一のデプスカメラを使って、人の動的なポーズや詳細な形状を取得する手法。
身体のレイヤーとさらに外側のレイヤー(衣服等)の二重レイヤーを仮定することで、様々な体型や衣服(スカートやカバン等)に応じた安定なトラッキングを実現

DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor

[ プロジェクトページ ] [ 論文 ]

提案手法

0. 事前準備

SMPLの表面上に既定のノードを設定しておき、グラフ構造を作っておく。このグラフ構造では、身体構造を考慮してあり、異なる部位のノードが繋がったりするようなことはないようになっている。

撮影の際は、カメラ固定でAポーズからスタートするようにする。デプスマップを使用して、最初のSMPLの体型とポーズを推定する。デプスマップからマーチンキューブ法で三角形メッシュを作成し、特に離れているところは、ノードとして保存する。

1. Joint motion tracking

Data Term 二重レイヤーとデプスマップが近くなるようにする

Regularization Term (Key) できるかぎり形状を剛体にする

Pose Prior Term なるべく不自然なポーズにならないようにする

とりあえず、中途半端ですが、ここで一旦公開しちゃいます。

続きは後日。

2018-03-23

論文紹介: Learning a model of facial shape and expression from 4D scans

Facial 3D Body Estimation

最近，Netflixでワンピースが観れるようになって廃人のような生活を繰り返すようになってしまっている@iwanao731です．福岡から帰ってきてだいぶ経ってしまいました．福岡で契約していたコワーキングスペースはなかなかよかったですね～．もう生活が仕事とプライベートワークって感じで自分の好きなことに集中して取り組める時間が沢山あって幸せでした．東京に戻ってからは仕事の締め切りがあって，2月中はずっと忙しかったのですが，3月は割と時間があってワンピースを見続ける体たらくな生活になってしまっております．

さて，今週の土曜日にSIGGRAPH ASIA 2017勉強会が開催される予定で，"Avatars and Faces"というセッションを担当することになったので，引き続きこの続いてるのか続いていないのかわからないブログ？を更新したいと思います．

概要

4Dスキャン形状から三次元の顔の形状と表情のモデルを学習するという論文．
Identity(個人の顔形状)とExpression(表情)に加え，Pose(ポーズ)ブレンドシェイプという概念？が導入されている．通常であれば，がPCAなどで低次元にモデル化されているが，本論文ではポーズブレンドシェイプ

Learning a model of facial shape and expression from 4D scans
[ プロジェクトページ ] [ 論文 ] [ 補足資料 ] [ データベース ]

新しいところ

本論文では，

Shape Blendshape
Pose Blendshape
Expression Blendshape

を組み合わせたモデルを提案しています．中でもPose Blendshapeは他の論文では見かけない概念だったので新しい点かと思います．

Tips

統計的な形状のモデリング手法の条件として，トポロジー(頂点数など)が同じでないと実現できない手法になっています．ですが，デプスセンサー等からキャプチャした形状は頂点数は毎フレームバラバラなのでリトポロジー(テンプレートを変形させてキャプチャ形状に近づける作業)をする必要があります．

このあたりを手っ取り早く行えるWrap3は素敵なツールだと思います．

Wrap3 Tutorial: OpticalFlowWrapping Part3 from Neo307 on Vimeo.

CAESARモデルは，沢山の人の顔の形状があるので，SMPLモデルから顔領域(肩より上)を切り抜いてきて，トポロジーを合わせたりする処理をしているそうです．そして，毎度おなじみDeformation Transferを使ってSMPLのフルボディと生成したボディで何かしらやっているみたい．

ボディ及び顔データベースをまとめたい

Facewarehouse
20個の異なる表情付きの150人のスキャン(おそらくHaoLi et al., 2013の手法を用いて，20->48個に拡張されている)
Basel Face Model
200人の若者から構成されている個人顔パラメトリックデータベース．ただし表情がついていない．最近の研究では，これを拡張して表情付きのものもある様子．
CAESAR
女性2100，男性1700人の全身形状データベース．
SCAPE: shape completion and animation of people (SIGGRAPH 2005 Presentation) - YouTubeでも使用されている．
SMPL
TBD
D3DFACS
400を超える4Dシーケンスデータ

2018-01-14

論文紹介: Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

3D Body Estimation

現在、滞在中の福岡では例年にないほどの寒さになっていて、暖房を消すと部屋が激しく寒くなります。暖房をつけっぱなしだと空気が乾燥するし、難しいですね。そして案の定風邪をひいてしまいました。それでも論文調査くらいは横になっててもできますからね。続けますよ。ベッドの上ではそれ以外にすることがあまりないので、ここ最近ハマっているYoutubeのジョーさんのジョーブログでも見ようかなと思います。

【南米縦断】第1話～46話 - YouTube

アマゾン川をイカダで下るところはかなり激しめです笑

さて、論文紹介に参りたいと思います。

概要

表情、全身の動作、指の動作をすべてキャプチャできるシステムの提案。
複数人のキャプチャも可能。

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
[ 論文 ]
www.youtube.com

提案するフランケンシュタイン(Frankenstein)モデルにより全身キャプチャを実現。
Frankensteinを拡張したアダム(Adam)モデルによって、ヘアスタイルや衣服の再現も可能。

その他の研究との差異

今までに全身や表情、指のトラッキングにフォーカスした研究は個々にあったが、それらを統合した一般的な手法は提案されていない。
- 今までどうしてそれができてこなかったのか
  - 全身をキャプチャするには広いスペースを確保する必要がある。
  - 一方で表情や指は全身に比べるとスケールが小さく、詳細な情報を取りづらい。(正面を向く必要があるなど)
人々の情報伝達手段(コミュニケーション)において、表情や全身及び指のすべてのジェスチャーに意味があり、重要。
複数人が互いにコミュニケーションしてるようなシーンのキャプチャも実現。

提案手法

マルチビューによる複数人の全身、表情、指のキーポイント検出
生成的な全身モデル: フランケンシュタインモデル及びアダムモデル

フランケンシュタインモデルとSMPLの違い。

ここでSMPLについて iwanao731.hatenablog.com

SMPLは全身のみ(表情と手の情報は含まれてない)ので、それに加えて表情と手の情報を加えたものがフランケンシュタインモデル

全身: SMPL
表情: Facewarehouse
手: アーティスト作成

まとめ

結果はすごいけど、いろいろと既存手法の組み合わせのような気がしてます。

shiropen.com

Kinectセンサー10台と上記ブログには書かれていますが、論文にそのような記載はありませんでした。ソースどこだろう...。

2018-01-13

論文紹介: SMPL: A Skinned Multi-Person Linear Model

3D Body Estimation

研究の進め方って難しいですよね。

アイデアを見つけた時にまずプロトタイプを作ってから考えるか、関連研究をじっくりと調査して作戦を立てるか。トップダウンかボトムアップかって話だと思うんですが。

今までは結構プロトタイプ作ってからが多くて、実際に作ってみて見つかった欠点や問題をどう解決するかっていうので、新しい論文を書き上げる感じだったんですが。まぁ近年の研究動向だと、本当に移り変わりが激しいですし、特にキャプチャ系はたくさんあるので、何かしらかぶってしまいますよね。本当にレッドオーシャンになってきているので、年々更新していかないといきなり入れない領域になりつつあるような気がします。僕も今はいろいろと調査して手も動かしながらキャッチアップしようとしているところって感じですね。ここは我慢。調査しただけで、何かにまとめていないと無駄になってしまうので、こうしてウェブに書き溜めているわけです。

きっと無駄じゃない！笑

概要

既存のアニメーションパイプラインに準拠した三次元の人体モデル(体型や姿勢、肉揺れ)をパラメトリックに生成できるようにしたSMPLモデル(Skinned Multi-Person Linear model)を提案。

SMPL: A Skinned Multi-Person Linear Model, SIGGRAPH ASIA 2015
[ Project Page ]
www.youtube.com

以下のデータからモデル化。
- Tポーズのテンプレート
- ブレンドウェイト
- 姿勢に依存したブレンドシェイプ
- 個性に応じたブレンドシェイプ
- 頂点から関節の位置を推定する回帰

ここがミソみたいだけどよくわかってないです。

Unlike previous models, the pose-dependent blend shapes are a linear function of the elements of the pose rotation matrices. This simple formulation enables training the entire model from a relatively large number of aligned 3D meshes of different people in different poses.

同じデータセットを用いて生成したBlend-SCAPEと比較。
既存のアニメーションパイプラインに準拠した(compatibleな)モデル。

既存研究との比較

SCAPE: shape completion and animation of people, SIGGRAPH 2005
[ Project Page ]
www.youtube.com

上記の手法では
+ リアリティに欠ける(らしい)
+ 既存のソフトウェアで実装されていない
+ 既存のアニメーションパイプラインに準拠していない
+ 手作業が必要

本手法の特徴
- シンプル
- 幅広く使えるように標準的
- データからモデル化した変形ベースモデルのリアリティを保っている
身体情報(個性、姿勢、動的な脂肪の揺れ)に応じたブレンドシェイプを標準姿勢の時点で組み込み。
姿勢ブレンドシェイプを各部位の回転行列の要素の線形関数として数式化した点。(やっぱりよくわからない)
- この手法は上記のSCAPEと異なるらしい。
- 線形にすることで回転行列が拘束条件になるため、結果が他手法より良くなる。

使用したデータベース

CAESAR dataset : およそ男女それぞれ2000人分のスキャンデータをPCAによって圧縮したデータベース

身体形状データ(1786人分)に対して、テンプレートメッシュを位置合わせ 1.1 体型ブレンドシェイプ(body shape blend shapes)になる
トレーニング場のモデルの頂点エラーを最小化するために以下を推定
2.1 the blend weights
2.2 pose-dependent blend shapes
2.3 the mean template shape (rest pose)
2.4 a regressor from shape to joint locations

肉揺れに関して

以下のモデルにフィッティング

Dyna: A Model of Dynamic Human Shape in Motion (SIGGRAPH 2015)　　 www.youtube.com

まとめ

パラメトリックに体型や姿勢を変えられるのは素晴らしいね！

2018-01-13

論文紹介: End-to-end Recovery of Human Shape and Pose

3D Body Estimation

現在は福岡に出張中でして、大体三週間程度いる予定です。普段は実家に住んでいるので、今はウィークリーマンションを借りているんですが、家に帰ったら本当にやることがなくて、スポーツジムの会員になったり、今日からコワーキングスペースの会員になりまして、お金で充実感を得ようとしている感が漂っております。

【スポーツクラブNAS】スポーツジム・フィットネスクラブなら

福岡市のコワーキングスペース,シェアオフィス,3Dプリンターなら | ヨカラボ天神

さて、最近は会社のお仕事とは関係なく、三次元の身体形状推定技術が気になっていまして。もともと大学ではキャラクタアニメーション、特に身体のシミュレーション(主には脂肪や筋肉の揺れ)であったり、三次元の動き(ダンス生成等)について研究していて、ちょうどそれを合わせたようなトピックっていうわけです。ダンス生成に関してはやはりデータベースが重要で、踊ってみた動画等から三次元の姿勢が取れたら大量のデータベースを構築できるわけですね。それにAR技術と掛け合わせることで様々なビデオエフェクトができるようになるでしょう。とにかく、モーションキャプチャを使用せずに如何にして三次元の姿勢情報を取得するかが今後のカギになってくると個人的には思っております。なので、このあたりの論文をここ最近調査しています。この調査内容は今年の夏に開催されるCEDECで発表したりしたいなと思ってます。

ちなみに、昨年はこんな内容で講演させていただきました。「ダンスコンテンツ研究が拓くエンターテインメントイノベーション」 cedec.cesa.or.jp

こんな感じです。

概要

動画像から人体の体型、姿勢及びカメラ情報を推定する研究。
Human Mesh Recovery (HMR)を提案することで、人間らしい姿勢を推定可能。

End-to-end Recovery of Human Shape and Pose, arXiv
[ PDF ] [ Project Page ]
www.youtube.com

チャレンジングな点

正解値となる三次元姿勢のデータセットが汎用的ではない
- モーションキャプチャルームで撮影されたものやグリーンバックで撮影されたものであり、汎用的なシーンではない。
2次元画像が表している三次元の姿勢を伴った奥行き情報があいまい。
- オクルージョンによって見えない部分の姿勢等が推定できない問題。
- カメラの位置によって身体のスケール等が変わってしまう問題。

カギとなるアイデア

ペアではない二次元のアノテーションされたキーポイントと三次元スキャン情報を用いて、与えられた画像から三次元メッシュパラメータ情報と三次元のキーポイントがプロジェクション後の二次元のキーポイントと一致するカメラ座標を出力する敵対的手法。

曖昧性に対処するために、これらのパラメータは識別ネットワーク(discriminator network)に送られ、与えられた3Dパラメータ情報が実際の人間かどうかを判別するようになっている。つまりこの識別機は、人間の多様性に基づいてパラメータを出力しようとする。(不自然な関節の向きや体型は排除するようになっている)

使用するデータセット
- 汎用的な(in-the-wildな)画像に付与された大量の二次元アノテーション情報データベース
- 様々な体型及び様々な姿勢の３D人体メッシュモデル

その他の研究との相違点

画像から三次元情報を直接推定する。その他の研究では、画像から推定された二次元情報から三次元情報(関節位置)を推定するといった二段階のトレーニングステージが必要で画像に含まれていた情報のロストも大きい。
スケルトンやメッシュといった情報以上のものを画像のみから出力可能。
過去の研究をしのぐ誤差率とリアルタイム性を実現
2D-3Dのペアデータを必要としない。

他手法との比較について

画像から3Dジョイントを推定する研究との比較
- 2DジョイントからSMPLのパラメータを推定し、その関節と比較する
人体部位のセグメンテーション手法との比較

まとめ

画像から三次元の姿勢だけでなく、体型、カメラ座標がわかってしまうなんてすごい！

UCバークレーら、敵対的学習を用いて1枚の画像から自然な人体3Dモデルを再構成する手法を論文にて発表。リアルタイムの実行も可能

shiropen.com

概要

論文のオリジナリティ

関連研究

提案手法

概要

提案手法

モーションを生成するパート

Neural Kinematic Networks

モーションを学習するパート

Adversarial Cycle Consistency Framework

結果

今後の課題

概要

関連研究

提案手法

0. 事前準備

1. Joint motion tracking

概要

関連研究

新しいところ

Tips

ボディ及び顔データベースをまとめたい

概要

その他の研究との差異

提案手法

フランケンシュタインモデルとSMPLの違い。

まとめ

関連記事

概要

既存研究との比較

使用したデータベース

肉揺れに関して

まとめ

概要

チャレンジングな点

カギとなるアイデア

その他の研究との相違点

他手法との比較について

まとめ

関連記事