僕のCGアカデミア

グラフィクス系(主にキャラクターアニメーションに関する)論文やアクティビティを簡単に紹介するログ

論文紹介: Mesoscopic Facial Geometry Inference Using Deep Neural Networks

こんにちわ、iwanao731です。最近緊急事態宣言が解除され、少しずつですが日常が戻りつつあります。世間では、「ニューノーマル」や「ウィズコロナ」と言ったワードが示すように、これからの生活は今までと異なるような見解が多いですが、案外今まで通りの日常に戻ることもあり得るんじゃないかな、と思えてきます。緊急事態宣言が解除されたと同時に在宅勤務も終わり、出社することになりました。今週から出社しているのですが、やはり移動時間が長いのでもったいないなという気持ちが芽生えてきます。往復で1.5hなので、一週間で7.5h。もはや一日の就業時間に当たるわけですよね。非常にもったいない!

そう、先週ホロデヒというイベントが開催されまして、それで登壇してました。最近Volumetric Videoという技術が気になっておりまして、その内容についてお話させていただきました。アーカイブが出ているので良かったら見てください。

概要

Mesoscopic Facial Geometry Inference Using Deep Neural Networks
Huynh et al., CVPR 2016

youtu.be

[ 論文 ]

顔のしわや毛穴といった詳細の情報を、顔を3Dスキャンして取得したテクスチャからディスプレイスメントマップとして推定する技術。テクスチャからMed-frequencyとHigh-frequencyの2つに分解し、それぞれで4Kサイズにupsamplingし、合成。

f:id:iwanao731:20200530102218p:plain
system pipeline (論文より)

関連研究

顔の形状とテクスチャがセットになったMorphable modelの登場によって、写真一枚からでも顔を復元できるようになった一方で、まだまだ皮膚の毛穴やシワといった詳細な情報は考慮できていません。最近になって少しずつMorphable modelにどう詳細な情報をつけるかといった論文が出始めてきていますがまだまだ課題となっています。当時だと、Saito et al (2015)の論文が顔のテクスチャを高解像度にするというので話題になっていました。

youtu.be [1] Photorealistic Facial Texture Inference Using Deep Neural Networks, CVPR 2017

一方で、顔のジオメトリの情報に関しては未考慮であったため、どうキャプチャ後のモデルに皮膚レベルの詳細を足すかといった課題に取り組んだのがこの論文です。皮膚は表面化散乱が起きるので普通のキャプチャシステムで詳細なジオメトリを取るのは案外難しくて、その詳細を取るためにShape From Shadingという色んなアングルからライトを当てて、それによって生じる陰の情報から詳細な形状を復元するというのが主なキャプチャ方法になっています。そんな中でかなり高クオリティなキャプチャを達成したのが、フェイシャルの高精度な表情キャプチャ関連で必ず出てくるBeelerらの論文との比較が多めにあります。10年程度経つ今見てもかなりクオリティが高いです。

youtu.be [2] High-Quality Passive Facial Performance Capture using Anchor Frames, SIGGRAPH 2011

Light Stageを使えば、非常に高解像度のdisplacement mapも撮れるには撮れるのですが、High speedカメラが必要という理由でdefenseしてます。

youtu.be [3] Multiview Face Capture using Polarized Spherical Gradient Illumination, SIGGRAPH 2011

実時間で取得した表情にシワを足そう、という論文が顔の研究でおなじみCaoらによって研究されています。彼らの研究ではシワレベルは再現できても毛穴レベルは再現できていないということで、今回の論文では実時間ではないものの、クオリティはCaoらよりも高いということが言えます。今回の論文ではpore(毛穴)-levelとかmesoscopic(ミクロの)というワードがよく出てきます。

youtu.be [4] Real-time high-fidelity facial performance capture, SIGGRAPH 2015

もう割と関連研究でお腹いっぱいというか、関連研究とどう差別化しているか、っていうところが割と研究で重要な気がしたので、これからそのあたりをメインに書いていくかもしれないですね。

提案手法

3Dのジオメトリを3Dの情報としてニューラルネットワークでトレーニングするPointNetという論文があったりするのですが、それだとメモリを大量に使用してしまうということで、彼らの提案手法では、2Dのテクスチャ空間でディスプレイスメントマップとしてエンコードするというのがポイントになっています。テクスチャ空間に落とし込むと、3次元情報よりも軽く、異なる人物間のジオメトリの個性をencapsulate(要約?)できるというのが優位性になっているようです。もちろんCNNで学習しやすいというメリットもあります。

本論文では、displacement情報からmediumとhigh frequencyに分けた後、それぞれでenhanceするサブネットワークを設けていて、実際にLight Stageから取得した情報を正解としてトレーニングしているようです。Light Stageから取得したdisplacement mapをGaussian Filterをかけてなましたものをmed-frequencyとし、All- med = high frequencyとして取得していて、それを学習している様子。データは328人分からトレーニングしているようです。

TextureからDisplacement Mapに変換するところは、Image-to-Image Translation with Conditional Adversarial Networks [ 論文 ]が参考になっているそう。

f:id:iwanao731:20200530110624p:plain
Image-to-Image Translation with Conditional Adversarial Networks

結果

f:id:iwanao731:20200530111354p:plain
結果の比較。(論文より)
f:id:iwanao731:20200530111452p:plain
結果2 (論文より)

Beelerらの結果に劣らない結果が得られている。

今後の課題や展望

  • 学習のためのdisplacement mapはsubject(被験者)ごとにUVを合わせる必要がある。
  • Saitoらのalbedoを高解像度にする手法と組み合わせれば、albedoとdisplacement mapという2つの高解像度テクスチャが得られる。
  • 上記のようなmorphable modelベースの手法と組み合わせるのもあり。

雑感 - albedoとdisplacementといったらあとはspecularですね。次回は、1枚の写真からalbedoもdisplacementも、そしてspecularも推定してしまう技術論文を紹介したいと思います。

  • High-Fidelity Facial Reflectance and Geometry Inference From an Unconstrained Image [ 論文 ]