AppleはWWDCにて「Apple Vision Pro」を正式に発表しました。

Vision Pro

Vision ProはAppleが発表した空間コンピュータです。言い換えればMixed Reality用のデバイスです。同様のデバイスであれば「Meta Quest Pro」やVIVE製品などがありますが、Vision Proは一線を画した製品となっています。

空間コンピューティングというのは、これまでパソコンやスマホに向かって操作していたものをまるで、その空間にあるように操作が出来る新しいコンピューティング体験です。

何ができるのかは実際にAppleの発表を見てみましょう。

空間コンピューティングでは、実際に風景の中にウィンドウが浮かぶように配置されたり、通話先の人の顔やフレームが実際にその場にいるかのように表現できるというものです。

AppleはMacのトラックパッド、iPodのクリックホイール、iPhoneのマルチタッチのように、他のデバイスがいらない新しいカタチのインターフェイスとして、目と声、そして手によるジェスチャでの入力に対応するとしています。そのため、Vision Proは手によるジェスチャや、声によるSiriや入力、そして目線によって操作を行います。ウィンドウを広げたい時、キーボードに入力したいときは手で操作しますし、ものを書き込むときも手です。そしてポインタの操作には目線を利用します。

ただし手には、Hapticがないので、視覚的にタッチできたということを認識させる必要があります。Vision Proはそのあたりの設計も考えられているという声が実際に現地でデモ機を触った人からも挙げられています。

ビデオ通話のとき、ウェアラブルオンリーであるVision Proは自分の顔を俯瞰して見ることが出来ません。なので、後述するTrue Depthによって顔を記録し、機械学習によって再現した顔を相手に表示します。これはミー文字の技術を応用したものでしょう。

そして、ある種の空間コンピューティングの肝ですが、自分が作った3Dオブジェクトを直感的に見ることが出来たり、ゲームにも利用することが可能です。個人的にはNVIDIA Omniverseと組み合わせて使えるようになると面白いなと思いました。

ハードウェア

ではハードウェアを見ていきましょう。

ディスプレイ

まず、ディスプレイにはiPhoneよりも更に高密度なものを採用しています。具体的には、iPhoneの1ピクセルの大きさに64ピクセルを詰め込んだMicro OLEDを採用。ピクセルの幅は7.5ミクロンという脅威の密度を誇っています。Vision Proの両目のスクリーンのパネルを合計すると2300万ピクセルですが、それぞれのサイズは切手サイズ程度となります。

切手の対角を1.25インチ、片側のディスプレイのピクセル数を1300万とすると、その密度は8000ppiを超え、iPhoneの17倍にもなります。

もちろんOLEDなので、コンストラストは高く、比で表すと2,000,000:1以上になることは間違いないです。

空間オーディオ

空間コンピュータとは、基本的にその空間に装着している感なく何かを使うことを目的としています。つまり、仮想空間の中でどれほど現実を再現できるかが製品の鍵となります。それは視覚だけではなく、聴覚にも当てはまります。Vision Proでは、空間サウンドを搭載しています。

この空間サウンドの特筆すべき点は「オーディオレイトレーシング」という技術です。レイトレーシングはグラフィックスにおいて最近話題ですが、そもそもレイトレーシングというのは線の反射を計算する技術であり、それは光だけではありません。音の反射も計算することが可能です。Vision Proでは、周りのモノからの反射も認識して空間サウンドを実現しています。

カメラとセンサ

空間サウンドで周りのモノと言いましたが、Vision Proはそれを認識するためのセンサーやカメラを多数搭載しています。私の知る限り、Apple製品の中でその数が最も多いのです。

前面外側には「Main Camera」「Downward Camera」「Side Camera」という3種類のカメラを左右に1基ずつ。この時点でおわかりいただけたかもしれませんが、自分の視界の方向すべてにカメラがあるのです。

さらにLiDARスキャナが1基、その左右にiPhoneでおなじみ「True Depth Camera」が搭載されています（True Depthと聞き、もしかして目の前の人を美少女VTuber化できるのではないかと思っています）。

センサ・カメラは外側だけでなく、内側つまり目の方向にも向いています。Vision Proの内側には、IRカメラとLEDイルミネータが搭載され、目の動きや瞬きを検出しています。

チップ

そして、Vision Proはハイエンドであるということも重要です。

Vision Proには「Apple M2」チップと新しい「Apple R1」チップを搭載しています。

Apple R1

Apple R1についてより詳しい事はわかっていないものの、基本的にリアルタイムにセンサーの入力を受け付けるための処理チップであることは間違いないようです。ただ、その処理のためにこんなに大規模なチップ積むのかと。例えば、Apple T2チップは一部の機能を無効化したApple A10 Fusionであることがわかっていますし、Apple R1についてもA12あたりを再設計したものなのかと思ったのですが、Appleの発表を見る限りなんかM2と同じサイズなんですよね。わかりやすくするためにそう発表しているだけなのか、本当にM2と同等のサイズがあるかは不明ですが。

ここで少し話を戻しまして空間サウンドについて。オーディオレイトレーシングについて先程サラっと説明しましたが、すでにあるハードウェアレイトレーシングアクセラレーターというものは、グラフィカルな処理をしているわけではなく、発射された線がどのオブジェクトにどの角度で反射し、もしそれが透過したマテリアルであるならば、どれほどの光量が透過してどれほどの光量が反射あるいは吸収されたのかと言うのを実際にシーンを生成するGPUに伝えているハードウェアユニットなのです。

これは先程の通り音にも適用されます。このレイトレーシングの処理をGPUで行うのは処理が大きすぎるので困難であるというのが結局のところ結論となります。Apple M2にはレイトレーシングユニットは搭載されていません。なので個人的にはApple R1にはオーディオ用のアクセラレーターが搭載されていて、そのアクセラレーターにはハードウェアレイトレーシングの機能が搭載されているのではないかと予想しています。

まあ実際のところVision Proはセンサーの数があまりにも多すぎ、しかもグラフィカルな情報を扱うセンサーが10以上搭載されているということから、単純にそれを処理させるためのアクセラレーターである可能性もありますけどね。

ただし、AppleがApple T2にそれなりのパワーをもたせたように、R1自体がそれなりの処理能力を持っているのは事実でしょう。

（あと個人的にApple M2がこの手の外部アクセラレータを許容する設計なのが気になる。）

電源

Vision Proは、内部に2時間駆動できるバッテリーを備えている他、ポケットに入るサイズの外部電源（バッテリー）も備えており、これを接続することで終日利用可能であるそう。

外部電源は、Vision Proの耳の部分に接続できます。

物理インターフェイス

Vision Proは、手・声・目線だけでなく、ボタンがいくつかあります。

例えば、Digital Crownが搭載されており、どれだけ仮想空間を広げるかを設定できたりできます。これについては更に別の使い方もできそうですね。

それ以外にも、Bluetoothアクセサリに対応するので、Magic KeyboardやMagic Trackpadのようなアクセサリも入力に利用可能であるとしています。USBやらThunderboltがないので、個人的には究極のポートレスデバイスだと思います。

visionOS

Vision Proは、visionOSと呼ばれる新しいOSを搭載しています。このOSはVision Proで使用できる空間コンピュータ用の新しいOSです。

iOS、iPadOS、macOSをベースにしているとしていますが、発表を聞く限り直接派生しているのはiPadOSであると見られます。visionOSでは、iOSのSDKをすべて利用することができるため、iPhone/iPadアプリケーションを何もせずに利用することが可能であるとしています。

実際に、Adobe LightroomやZoom、Webex、OfficeなどがVision Pro上で動作するデモが行われていました。

Vision Proのリリースが来年になることから、東京を含む世界いくつかの都市で開発者がVision Proの実機でアプリをテストすることができる施設をオープンするとしています。さらに開発者向けにはVision Proでのアプリ開発を促進させるために「Reality Composer Pro」アプリがリリースされることが案内されています。