用語集
用語集
音声認識は、人間が発した音声や発話内容のデータをコンピューターが解析してテキストに変換する技術のことです。人間が実際に話す天然の音声認識と対比させて、自動音声認識(Automatic Speech Recognition=ASR)とも呼ばれます。
近年ではAI技術である自然言語処理(NLP)の活用により、音声認識の精度が格段に向上しています。従来の技術では難しかった、曖昧な発音や不明確な表現なども理解できるようになったため、より多くの分野で利用されるようになっています。
たとえば検索エンジンに搭載されている音声検索機能や音声で作動するスマートホーム機器などは、私たちの生活においてもっとも身近な存在と言えるでしょう。そのほかにも自動言語翻訳や自動字幕生成、文字起こし、コンタクトセンターにおけるバーチャルエージェントなど、音声認識を活用している機能やアプリケーションは多岐にわたります。
昨今の自動音声技術は単なる文字起こしの役割にとどまらず、人間と機械の音声コミュニケーションを実現する重要な役割を担っています。たとえば音楽を流すのも、調べものをするのも、電話をかけるのも、機器の操作を覚える必要はもはやありません。ただ人間を相手にするのと同じように話しかけるだけで実現できるのです。音声認識は私たちの生活の利便性を向上させるにあたり、いまや欠かせない存在となっています。
Vonageは、電話やSMS・ビデオ・チャット・SNSなど、さまざまなコミュニケーションチャネルをWeb・モバイルアプリケーションやビジネスへ組み込めるクラウドAPIサービスです。自動電話発信や電話転送、対話型IVR、自動SMS通知や二要素認証など、多岐にわたるサービスを実現できます。
Vonage Voice APIは通話に必要なあらゆる機能(転送、録音、音声認識、IVRなど)をプログラムで制御できるAPIです。数行のコードを既存システムに組み込むだけで、PSTN(公衆回線網)や SIPでの発信・着信機能を利用できるようになります。また日本を含む約80カ国の電話番号を提供しており、購入した電話番号を自由に使うことができます。
たとえばVonageから電話番号を購入して自社サービスの問い合わせ先とし、顧客からの着信に対して音声認識を行い、その内容をもとにあらかじめ用意しておいた回答を合成音声で再生して自己解決を促す、といった一連の流れをVonage Voice APIだけで実現できます。
また有人対応が必要な場合にはオペレーターに電話を転送し、その内容を録音して、以降の応対に役立てることも可能です。
さらに後述する「Vonage AI Studio」を用いれば、そうしたフローをノーコード/ローコードで実現できます。
さまざまな機能をリーズナブルに利用できるため、スモールスタートがしやすいほか、組み合わせによって柔軟にニーズに寄り添う機能開発が可能です。