2011/04/13更新

"Computational Photography" の伝道師 ~前編~

人間のビジュアル・アビリティを無限に高めるために

前述したように、Computational Photographyとイルミネーションの融合というテーマは、新天地におけるRaskar氏の新たな研究の方向性の大きな柱となっている。Raskar氏はこれをComputational Light Transportとよび、Computational Photographyの限界を越える新たなイデオロギーをもった研究ジャンルへ発展させてゆこうとしている。

前編で紹介したように、Raskar氏がComputational Photographyの普及に人一倍尽力してきた背景には、Computational Photographyという研究ジャンルの存在が、自己目標の達成にとって非常に有意義だと確信できたことがあった。さらにRaskar氏は、MERLからMITへの移籍をきっかけに、自己目標を大きくアップデートしていった。かねてからRaskar氏の頭の中には、「人間のビジュアル・アビリティは何故これほど制限されているのか」という想いがあったようだ。新たな自己目標は、まさにこの制限を取り除いていくことだった。

これまでの研究は、人間が現実世界で見ているものをバーチャル空間内で復元したり、より効率的に操作できるようにしたりすることを目指していた。それに対して、今回は人間が現実世界で実際に見ることのできないもの(場合によっては“想像”しかできないもの)を、自分の目で見ていると知覚できるように復元することを目指している。そのためには、Computational Photographyというジャンルには収まりきらない、より緻密なシミュレーションが必要になるとRaskar氏は考えている。

Computational Light Transportとは、まさにこのようなシミュレーション技術の研究開発を行うジャンルを意味している。見方を変えると、それはCGレンダリング分野における、ライト・シミュレーションと非常に似通っているともいえる。しかし、前編で紹介したComputational Photographyとイメージベースト技術の違い同様に、Computational Light Transportでは、新しいコンセプトのデバイスを導入することによって、CGレンダリングのライト・シミュレーションでは不可能だったことを可能にすることが目指されている。そして、このようなComputational Light Transportの特徴を非常によく表しているのが、2009年に開始された“Transient Imaging”というプロジェクトだといえる。

デバイス③

“Transient Imaging”の直接的な目的は、人間の目が実際に見ることのできないシーンの構造を復元することだった。たとえば、ドアを半分ほど開いて部屋の中を覗いた場合、部屋の隅の構造や、そこにどのような物体が配置されているかといったことまではわからない。最大の課題は、人間やカメラの視線が到達できない地点の情報を、どのようにしてキャプチャするかということだ。この課題をクリアするために、ここでは“Transient Imaging Camera”という、非常に新しいコンセプトのデバイスが考案された。

問題を単純化するために、ここでは復元すべきシーンの構造が複数のパッチで構成されていると考える。“Transient Imaging Camera”は、一定間隔で光を放射する光源と、各パッチが反射する光を時間軸に沿ってキャプチャするセンサから成っている。センサの各ピクセルは、各パッチに対応している。光源は、カメラから見えている特定のパッチだけを順番に照らしていく。その間にセンサは、カメラから見えている各パッチが反射する光の強さを時間軸に沿って記録する。センサが記録する各パッチからの光は、そのパッチで光が反射されたときにピークとなる。このピークは、時間軸に沿って何回か繰り返される。それぞれのピークは、光源を発した光が、着目しているパッチ上で直接反射したか、または他のパッチ上で反射した後に着目しているパッチに達して反射した場合に対応している。したがって、ピークが起きるタイミング、ピーク時の光の強さ、そのピークが作り出された光の経路といった情報を合わせて解析することで、カメラと各パッチとの位置関係を復元することができる。いったんカメラと各パッチとの位置関係がわかれば、各パッチどうしの位置関係も復元でき、これによってパッチで構成されているシーンの構造を知ることができる、というしくみになっている。

カメラから見えているパッチの位置関係を復元するためには、光源を発して1度目、または2度目の反射に対応するピークを解析すればよい。問題はカメラから見えていないパッチの位置関係をいかにして知るかということだ。この場合には、カメラから見えているパッチの位置関係を復元したうえで、光源を発してから3度目の反射に対応する(カメラから見えている)各パッチのピークに着目する。直感的にいえば、計測しているパッチと隠れているパッチとの距離が近いほど、計測される3度目のピークは、より早いタイミングで、より大きく引き起こされることになる。カメラから見えている各パッチで計測されたこのような情報を総合的に解析することによって、カメラから見えていないパッチの位置関係を復元することができるのだ。

通常のカメラと同様に、“Transient Imaging Camera”でも、センサが捉えるのはカメラから見えているパッチのレスポンスのみである。このレスポンスを、時間軸に沿って光の経路を追跡する連続的なものとしてキャプチャしていることが、問題解決の鍵となっている。しかし、センサの時間的・空間的解像度に、復元の精度が依存している点は、実用面でのボトルネックとなっている。現時点の研究成果は2009年から大きく進化しており、まもなく新たなアップデート・バージョンが発表される予定だという。Transient Imagingは、視点から隠れているシーンの構造の復元のみならず、これまでのComputational PhotographyやCGレンダリングが成し得えなかった数々の問題解決の可能性を秘めており、Raskar氏が目下最も大きな期待を寄せている技術開発だといえる。

Transient Imaging Cameraは、カメラの視線上にない物体の位置情報を間接的にキャプチャすることができる。図aでは、Transient Imaging Cameraの光源はドアを照らしており、Transient Imaging Cameraのセンサはドアの各部分からの光のレスポンスを時間軸に沿って記録している。光源を発して3度目の反射に相当するレスポンス(4)が起こるタイミングや、そのレスポンスの強さは、ドアの上部と下部では違っている。この違いは光源を発して2度目の反射(3)が起こった位置の違い(=部屋の中の人間の身体の左部分と右部分の位置の違い)によって引き起こされている。したがって、3度目の反射に相当するレスポンス(4)の違いを解析することによって、人間の身体の位置情報を得ることができる。


上のグラフは、シーンが3つのパッチで構成されており、そのいずれもがカメラから見えている場合に、Transient Imaging Cameraのセンサ(Time Camera)の各ピクセルが受け取る光のレスポンスを表している。Transient Imaging Cameraの光源(Femto-Projector)は、上から3つのグラフではパッチP1を照らしており、その下の3つのグラフではパッチP2を照らしている。いずれの場合も、青のラインは光源を発して1度目の反射、緑のラインは2度目の反射、オレンジのラインは3度目の反射に対応している。
このようにシーンを構成するパッチがすべてカメラから見えている場合には、1度目と2度目の反射に対応するレスポンスのタイミングと光の強さ、そのレスポンスが作り出された光の経路といった情報を合わせて解析することで、カメラとパッチの位置関係、およびパッチどうしの位置関係を知ることができる。


上のグラフは、シーンが4つのパッチで構成されており、そのうちの2つのパッチがカメラから見えていない場合に、Transient Imaging Cameraのセンサの各ピクセルが受け取る光のレスポンスを表している。パッチP1とパッチP4で起きる3度目の反射に対応するレスポンス(オレンジのライン)は、隠れているパッチP2およびP3の位置に依存する。
したがって、まずは図bの場合と同様に、パッチP1とパッチP4の位置を復元したうえで、3度目の反射に対応するレスポンスのタイミングと光の強さ、そのレスポンスが作り出された光の経路といった情報を合わせて解析することで、パッチP2およびパッチP3の位置情報を復元することができる。
"Transient Imaging"
"Looking Around the Corner using Transient Imaging"
(Ahmed Kirmani, Tyler Hutchison, James Davis, and Ramesh Raskar, ICCV2009 Kyoto, Japan)