ボイスチャットアプリが話やすいワケ。Agoraの高音質オーディオ
2021年1月下旬、日本でも爆発的に利用者が増えていった音声SNS「Clubhouse」。iOS版に少し遅れて、2021年5月にはAndroid版もリリースされ、最盛期は過ぎたものの順調に利用者を伸ばしています。他にも「Dabel」など双方向でコミュニケーションが取れるボイスチャットアプリが人気を集めています。
実際に利用してみて、これまでの音声メディアと比べて「話しやすい」「聞き取りやすい」と感じた人も多いのではないでしょうか。こうした高音質のオーディオによる新たな体験が人々を惹き付ける理由の1つになっています。
本記事では音声配信の可能性を広げ、新感覚のユーザー体験をするSDK「Agora」を例に、今の高音質オーディオの裏側を「聞き取りやすさ」と「話しやすさ」の2つの観点から紹介します。
目次[ 非表示 ][ 表示 ]
高い音質で「聞き取りやすさ」を向上
では、Agoraが高音質である理由を、周波数やパフォーマンスの観点から説明します。
広い周波数の音声をカバー
Agoraは広い周波数の音声をカバーしており、対面で話しているときと変わらない音質を保つことができます。
人の声は、0〜20kHzの周波数を持っています。Agoraは、サンプリングレート48kHzまでサポートしています。通常の電話の場合は4kHzのため、高周波の部分が失われる場合もありますが、Agoraは幅広くカバーしていることが分かります。
*コーデックはOPUS
つまり、Agoraを利用すれば、人の声が持つ周波数を十分にカバーしているので、対面で話すのと変わらない音質を届けることができるのです。
実際に、AgoraのMOS値は、4.7と高い評価を得ています。一方、従来の電話による通話音質は、およそ3.5〜4.2です。
*MOS値:主観的な意見の平均点。国際的な基準では、MOSスコアは5段階評価で1が最低、5が最良としています。
劣悪なネットワーク環境下でも安定したパフォーマンス
Agoraでは、競合他社と比べ、劣悪なネットワーク環境下でも安定したパフォーマンスが得られます。
以下の図から分かるとおり、Agoraは幾度の試験で、MOSスコアが競合他社よりも高い基準を安定的に維持しています。上り回線パケットロスの許容限界値は、競合他社が50%であるのに対し、Agoraは80%と高い数値となっています。
そのため、安定しないネットワーク環境下でも、安定的に音声が送受信されるので音質が損なわれることが少なくなっています。
「話しやすさ」を高めるAgoraの機能
Agoraは聞き取りやすい音質の提供が可能なだけでなく、「話しやすさ」を高める機能もあり、ハウリングやエコー、ダブルトークを抑えることで、双方向の会話がよりスムーズになっています。
Voice/Music分析能力
Agoraはユーザーの状況を判断し、音声とその他のBGMや音が交互に流れるような状況においても、正確に音を伝えることでユーザ体験を向上でさせています。シナリオ指定も可能です。
ダブルトーク検出(DTD)
Agoraのダブルトーク検出機能では、スピーカーが2人以上いる場合に同時に発話してお互いの声が重なる「ダブルトークシーン」での音声の中断を減らし、聴取者の聞き心地を向上させます。
ボイスチャットアプリのような複数人で双方向の会話をするアプリであればこうした機能は会話のしやすさに大きく寄与する部分です。
エコーパス推定アルゴリズム
Agoraでは音声エコーを除去し、エコーや音切れが発生しない双方向の会話ができるようになっており、ユーザー体験を向上させています。
音声の遅延推定値を1秒以下にすることで、エコー経路が変化しても間に合うように対応されます。また、エコー収束までの時間を大幅に短縮して、様々なエコー効果を吸収します。
独自開発したAIによるハウリング防止メソッド
スピーカーとマイクの位置が近くなっていた場合などに発生する、「キーン」「ウーン」という高周波音を防ぐ機能があります。
特にスマートフォンはマイクとスピーカーの位置が近く、マイク付きのイヤホンなどを利用しないとハウリングが発生してしまうことが多いですが、Agoraはこうした高周波音も防ぐことが可能です。
AIによるノイズ除去
AgoraにはAIによるノイズ除去も追加されました。既存の仕組みでは除去できなかったキーボード音や環境音も、AIによって自然に除去できるようになりました。
このような機能により、Agoraを使ったサービス・アプリでは、音声がハウリングしにくく、双方向での会話がしやすいです。また、ノイズも少なく聞き取りやすくなっているのが特徴です。
まとめ|高音質な送受信を可能にするSDK「Agora」
Agoraには、「聞き取りやすさ」と「話しやすさ」を向上させる機能があります。電話よりも広い周波数の音声をカバーしており、劣悪なネットワーク環境下であっても安定して音声を届けることができます。そして、ダブルトークやハウリング、エコーなどの音声の乱れを防ぎ、ノイズ除去まで実施されます。≈