コロナ、大変ですね。皆さんは家でどのように過ごしていますでしょうか。僕は、家でひたすら論文を読んだり、実装をしたり、それ以外は時々散歩にでかけたり、あとは料理をしたりですね。餃子やタコスパーティ、あとはたこ焼き器を買ったのでタコパなんかもしてなるべく楽しく過ごせるように工夫しています。ちょうど一昨年、昨年と、ハワイに行ったり、LA(Cochella)に行っていた時期なので、海外に行けないのはとても残念ですが、僕よりも大変な状況な方はきっとたくさんいると思うし、僕らは僕らはなるべく被害が拡大しないよう、なるべく家で色々と工夫しながら過ごしていければいいな、と思います。いや、しかし、このVolumetric Videoの分野は非常に分野として活発なので、次から次へと論文が出てきて大変ですね。このままGWまでしばらく論文を読んでいく事になりそうです。

そういえば、落合陽一氏がNewspicのWeeklyOchiaiという番組で、とても納得することを言っていました。今後、社会に対してデジタルの付加価値をどう提供できるでしょう。

デジタルの付加価値を作る難しさは確実にあるけど、唯一PerfumeのCochellaライブは映像で見た方がよかったと感じれる体験だった。リアルを拡張したフィジカルなデジタル体験はコロナをきっかけとして広がっていきそう。 https://t.co/5DqawJU3PH
— Naoya Iwamoto (@iwanao731) 2020年4月18日

今、僕ができることは、Volumetric Videoの技術を自身でより理解し、言語化し、伝え、実装し、社会に実現し、普及させていくこと。今は、そういったことができればと思っていて、その準備期間っていう感じです。準備だけで一生を終えるかもしれませんが笑

Volumetric Videoのデータとその撮影画像、各カメラパラメータを使って、Blenderで可視化してみた。 #blender #b3d 使用したデータはこちら。https://t.co/xSSQ8Ylv8X pic.twitter.com/5nr5GCxQQl
— Naoya Iwamoto (@iwanao731) 2020年4月18日

概要

Fusion4D: Real-time Performance Capture of Challenging Scenes
Dou et al., SIGGRAPH 2016

[ 論文 ]

単一のRGBDカメラを使用した実時間パフォーマンスキャプチャ技術に関する研究。従来難しかったダイナミックな動きにも対応し、安定したトラッキングが実現できる。

過去の研究との差異

多視点のRGBDカメラで静的な物体のスキャンを実現したKinectFusionの応用として出たDynamicFusion[1] は、動的な物体のスキャンも可能にした一方、その動きは非常にゆっくりでないと破綻してしまう問題があった。加えて、トポロジーが変わってしまうようなシーン(例えば、手が体とくっついてしまった場合に、そこから抜け出せなくなる)に対応できない問題もあった。

[1] DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time, Newcombe et al., CVPR 2015

また、実時間で身体をキャプチャする関連研究として、体の部位に特化したテンプレートモデルを使用する研究[2]も登場したが、いずれも対象物体が決まっており、例えば赤ん坊とか犬といった異なる動的な形状には対応していないことが欠点だった。

[2] Real-Time Non-Rigid Reconstruction Using an RGB-D Camera, Zollhofer et al., SIGGRAPH 2014

そういった背景から、対象物体を限定せず、実時間で、かつダイナミックな動きにも対応した、というのが論文の特徴となっている。

提案手法

・Key Volumeによって、ノイズの多いデプス情報を累積しながらスムーズにすると共に、極端なトポロジーの変化にも対応。・Closet Point [1][2]ではなく、Correspondence Fieldによって、早い動作にもロバストな対応点検出を実現・Data volumeに累積した現在のモデルをKey VolumeをWarp、そしてResampleすることで統合。それにより、新しく取得したデータに対しての応答がとても早い。 ([1]では、現在のkey volumeを変形させるDeformation Fieldの推定により、表面のdetailを保持し、Key Frameに統合。)