大学・企業現場リポート ディジタル最前線

Vol.2 世の中に真に役立つ技術を求めて。

スポーツのハイライトや映画・ドラマなどのダイジェストを自動生成。

「カ〜ン!」「打った!これは大きい!入るか、入った〜!ホームラン!」。球場内に響き渡る歓声、応援のドラム。スポーツダイジェストの番組などでおなじみのプロ野球のハイライトシーンだ。まさに放送局のプロの技術者や制作者が時間と闘いながら番組制作している世界。その世界に大きなインパクトを与えたのが、野球をはじめ、サッカー、相撲、テニスなどのスポーツのハイライトや、映画、ドラマ、ニュースなどのダイジェストを自動生成する画期的なソフトウェア「Highlight Creator」だ。これを開発したのがKDDI研究所のマルチメディア・アプリケーション分野の技術者たちである。

MPEG形式で符号化されたスポーツ映像や映画、ドラマなどの動画コンテンツから、重要なプレーやイベントを自動抽出(ハイライト)したり、指定した長さに自動要約(ダイジェスト)したりできる。ハイライトの抽出精度は相撲の取り組みで90%以上、ホームランやテニスのラリーで90%という高さだ。また、ダイジェストの場合も、5分なら5分の時間、あるいは放映時間の10%と、指定の長さにダイジェストできる技術は世界初だという。

この「Highlight Creator」は、MPEGデータ上で映像と音声の特徴を統合解析。圧縮データのまま解析することにより、DVDレコーダ高画質モードの場合で、通常再生時間の約1/10の時間でコンテンツの重要度を判定できる。また、スポーツのハイライトや映画などのダイジェストといった入力コンテンツの特性に応じて重要シーンの判定を行なっている。

マルチメディア・アプリケーション分野担当執行役員・中島康之氏は「開発には数年かかっていますが、あらゆるスポーツを研究し、放送局のスポーツダイジェストなどを分析してきました。やはり、野球のようにピッチャーが投げてバッターが打つ、相撲のように制限時間いっぱいとなれば立ち合うといった構造化されたスポーツはハイライトがつくりやすく、逆に、盛り上がりの少ないスポーツは全体に静かですし、アウェイでやるスポーツは味方の歓声を拾いくいため難しいですね。アメリカのNBAのようにシュートの連続でずぅ〜と盛り上がっているゲームもまたつくりにくいんですけど・・・」と開発の苦心を語る。

映画やドラマのダイジェストは映画会社や放送局のサイトなどで紹介されているあらすじを基に評価したという。「『タイタニック』は本編の10%ダイジェスト、時間で16分のものをつくりました。ダイジェストは評価の仕方が難しいんですが、あらすじとの一致度は80%程度に達しています。映画やドラマは本編の10%位のダイジェストがいい線で、5%ダイジェストになるとキツいですね。また、ドキュメンタリーなどはナレーションが長いシーンが重要で、それがダイジェストにも活きてきます」とノウハウを語る中島氏。

ダイジェスト・ハイライト自動検出ソフトウェアの魅力は、ダイジェストやハイライトの自動生成はもちろん、それを再編集したり、ブロードバンドやモバイルなどさまざまな配信フォーマットに変換出力できること。つまり、携帯電話でスポーツの試合後にそのハイライトシーンを見たり、光ファイバ映像配信で映画やドラマなどの予告編を見たりできるようになる。

ハイビジョン映像による遠隔コミュニケーションを実現。

研究所のマルチメディア・アプリケーション分野が最近特に注力しているのは、従来に比べて半分のデータ量で同等の画質が実現できるH.264/MPEG-4 AVCフォーマットへの対応技術だ。

たとえば、H.264/MPEG-4 AVC対応の高圧縮映像伝送方式では、世界で初めてPC上のソフトウェアでD1(720×480)解像度のライブ通信を実現している。さらに、ハイビジョンデジタルビデオ方式「HTV」への対応により、FTTHなどの100Mbpsクラスのブロードバンド環境があり、HDVカメラとPC、それに研究所が開発した「Quality Meeting HD」というソフトウェアさえあれば、簡単にテレビ会議や遠隔教育、遠隔監視などの高品質な遠隔コミュニケーションができるようになった。実際に取材時に撮影してもらい、送信側モニタから受信側モニタに送信してもらうと、取材者のハイビジョン映像が写し出され、手にした書類などの細かい文字もはっきりと読める。これなら20〜30人の大人数が参加のテレビ会議も参加者一人一人の表情がはっきりと写し出され、会議書類を画面で確認することもできる。

中島氏は「ネットワークの混雑などによって帯域が狭くなっているときに大量のデータを送ると、伝送時間が遅くなるのはもちろん、画像が欠落したり音が途切れたりするパケットロスが生じます。このロスをどう少なくし、帯域変動にどう対応するかが課題でした。そのため独自のエラー耐性技術で欠落した画像や音を本来の画像や音から瞬時に補間したり、また、混雑しているときは最適な伝送レートにして遅延が少なくなるようにしました。これらにより、その時点でのネットワークの帯域に最適な圧縮制御ができ、低ビットレートで、高画質な映像、高品質なステレオオーディオを伝送できます」と独自の技術を解説する。

また、HDV・H.264/MPEG-4 AVC対応の高速ネイティブ編集が可能なプロフェッショナルノンリニア編集ソフトウェア「MPEG Edit Studio Pro Ver2.0」の開発・商品化や、MPEG2とH.264に対応し高画質を保ったまま事件・事故・災害現場からの第一報やフィールドからの監視映像が伝送できる小型・コンパクトなBOXタイプの携帯型マルチリンク映像伝送システム「Vista Finder Bx」などの商品化も注目されている。

ユニークな研究としては、顔認識・認証技術があげられる。これは約1秒の処理時間で99%の精度で本人を認証するというもの。これを応用した「CHECK THE HARAJUKU GAO!」というエンターテイメントシステムが原宿のKDDIデザイニングスタジオで人気を集めている。カメラの前の人物が原宿で活躍するどの職業に顔特徴に類似しているかを判定するシステムで、Webデザイナーやカリスマ店員、ソムリエ、モデル、ネイルアーティストなど男女各12職種にあてはめるというものだ。研究所のデモで試したが、一番類似する職業からパーセント表示され個人の特徴が出ていて面白かった。この顔認識・認証が携帯電話などへの実装に応用されていく。

技術の歴史を見つめると、次なる技術が見えてくる。

KDDI研究所は、今回取材した「マルチメディア・アプリケーション分野」をはじめ、「モバイル・ワイヤレス分野」、「IP・ネットワーク分野」、「フォトニックネットワーク分野」、「ユビキタスネットワーク分野」の5分野でさまざまな技術開発を行っている。

これからの研究者に期待するものとして、中島氏は「KDDI研究所の源流は旧電電公社電気通信研究所までたどります。いま技術はみなブラックボックス化していますが、技術はすべて積み重ねです。たとえば映像に関しても、MPEG1が登場したのは1980年代のコンパクトディスクから。それがカラオケCDやビデオCDへと変遷し、衛星放送の時代からMPEG2となったわけです。技術の変遷をまずしっかりと捉え、そこからいまの技術を見ると、これから何が求められてくるかが見えてくると思うんです。PCの外部記憶装置HDがいつの間にか放送や音楽配信などの録画デッキなどに用いられ、モバイルまでカバーするようになりました。デジタル放送、映画、モバイル、ゲーム。コンテンツ利用の世界は無限にあります。研究所では所員のモチベーションアップのために、機会を見つけては研究発表会を行っていますが、一つ一つのものに興味をもって、それらを融合し、どう世の中で役立つものを生み出していくかという視点が大切だと思います」。

[Vol.1] 人間の個性や人間らしさをデジタルでサイエンスする。
個人情報保護方針ウェブサイトにおけるプライバシーポリシー 個人情報開示請求について