RTC 2019 @北京　参加レポート - 2

#SDK

2020.03.04

目次［非表示］［表示］

はじめに

2019年10月24日、25日に中国（北京）で開催されたRTC 2019というライブ配信やビデオ通話に関わる開発者向けのカンファレンスに参加してきました。カンファレンスの概要については、RTC 2019 @北京　参加レポート #1に記載しています。

今回は筆者が参加したセッションについてのレポートです。業界トレンドの変遷やAI × RTC をテーマとしたセッションが中心となっています。

リアルタイム映像技術の今とこれから

このセッションでは、Shawn Zhong氏（Agoraのチーフサイエンティスト）がリアルタイムビデオテクノロジーの変遷について話しました。Zhong氏によると2021年には、インターネット上を流れる情報の87%がビデオになり、ビデオの存在感、没入感が高まり、より日々の生活にとって身近な存在になってきているとのことです。

こうした状況のもと、今後追加されるAgoraのサービスの特徴として、80%のパケットロスに耐えること、ディープラーニングを利用したビットレートの調整、AIを利用したエコーキャンセラーなどを挙げていました。この後のセッションでもAgoraの登壇者からはそういった話が色々とありました。なお、2019年11月末にリリース予定のVideo SDK version 3.0.0では、70%のパケットロスに耐えられるようになる予定です。（カンファレンス開催時）

その後、今後のリアルタイムビデオテクノロジーにおいて、5Gが多くの新しいビジネスモデルを生み出す一方、いくつかの問題を抱えていることについて話しました。5Gにより、より高速で大容量の通信が可能になります (KDDIのこちらの記事に5Gの特徴がわかりやすく記載してあります。)。

しかしながら、全地域で5Gが利用できるようになるわけではありません。現時点でも3Gしか利用できない地域もあり、5Gインフラの整備には多額の費用がかかります。また、5Gによって大量にデータが送信されるようになりますが、そのデータを受信するデバイスもそれに耐える必要があります。5Gがもたらすメリットを活かすうえで、CPUやGPU、ビデオコーデックといった5Gに関連する技術の性能向上も重要となってきます。

そして、最後にドイツの数学者でフィット・ヒルベルトの「我々は知らねばならない、我々は知るであろう (We must know, We will kmow) 」という言葉を紹介して、日々知識を深めていくことは大切だと言っていました。この言葉について、少し調べてみたのですが、「我々は知らない、知ることはないだろう」という言葉に対するアンチテーゼのようです。頑張ろうという気持ちになれるいい言葉ですね。

Webのリアルタイムコミュニケーション技術の変遷

このセッションでは、Philippe Le Hégaret氏（W3Cのテクノロジープロジェクトジェネラルマネージャー）がWebにおけるリアルタイムコミュニケーション技術の変遷について話しました。まずHégaret氏は、Webの中心的な技術として、以下10の要素を挙げました。

[Webの主要な技術]

そして、これらの主要技術のなかでも成長し、影響力が大きくなっている技術として、WebRTC、WebAuthn、Web Assembly 、Web Paymentsを挙げました。WebRTCは今回のカンファレンスのメインテーマでもあるので、ここに挙げられるのは当たり前といえば、当たり前なのですが、訪中してみるとWeb Paymentsは日本より普及していると感じました。

タクシーでの支払いから飲食店、レンタルサイクルまで広範囲に渡りオンライン決済が利用されていました。また、Web技術の進化に伴いプロトコルが複雑化していることについても言及していました。

[様々なネットワーク技術の変遷]

ディープラーニングによる超解像 (SR : Super Resolution) [AI and RTC]

このセッションでは、Shifu Zhou氏（AgoraのAIアルゴリズムエンジニア）がモバイルRTCの超解像 (以後、SRとします) におけるディープラーニングの活用について話しました。

まず、Zhou氏はRTCの映像表示における従来からある問題点について話しました。RTCでは、低解像度、低ビットレートの映像が送信されます。そして、送信された映像 (画像) を拡大するとぼやけて見えてしまい、より詳細な部分を確認することができないません。

こうした問題の解決方法として、画像を拡大した際に解像度を上げる技術であるBicubic補完 (Bicubic Interpolation) と呼ばれる画像の補完法が従来用いられてきました。しかしながら、近年ではディープラーニングの発達により、それを用いてより精度の高い補完法、高解像度 (HR : High Resolution) 化を図るSR技術についての研究が盛んにおこなわれているようです。ただ、SRの効果と計算量・計算速度の関係はトレードオフであるという側面もあります。そのため、AgoraのモバイルRTCではそれらの点を考慮した設計がなされているようです。

[BicubicとSRの比較]

映像コーディングのアルゴリズム [Codec Now and Then]

このセッションでは、Jiali Li氏（Agoraのビデオアルゴリズムエンジニア）がAgora-PVC (Agora-Perceptual Video Coding) というビデオコーディングアルゴリズムについて話しました。

Agora-PVCでは、CNN (Convolutional Neural Network) というディープラーニングの技術を利用して、ビットレートを調整します。現在はまだ研究段階ですが、将来的には、Agoraにも取り入れられる予定です。

[Agora-PVCのデモ]

リアルタイムコミュニケーション、音声、AIの変遷 [AI and RTC]

このセッションでは、Ruofei Chen氏（Agoraのオーディオエクスペリエンス兼エンジニアリングディレクター）がRTCと音声、AIの変遷について話しました。Chen氏は、これら3つの要素を通して実現できることとして、6つの点を話しました。

1つ目は高音質化、2つ目はノイズキャンセリングです。3つ目はAIによるエコーキャンセリング、4つ目はAIによるPLC (Programmable Logic Contoroller)です。5つ目は効果音 (ボイスエフェクト)、6つ目はAIによる音声認識です。 Agoraにもこうした技術は活用されています。

まとめ

今回は筆者が参加したセッションについて記載しました。参加したセッションの中でまだお伝えしきれていないセッションもあるので、それについては次回のレポートで記載します。また、次回のレポートでは、セッション会場外のRTCに関する展示についてもお伝えします。自分で実際に試すことができるものもあったので、面白かったです。