arrow-flowarrow-linkarrowcircle-thincta-circleflow-frame-pc-smallflow-frame-pcflow-frame-spheading-archicon-aicon-amazon-connect01icon-amazon-connect02icon-amazon-connect03icon-amazon-connect04icon-angleicon-blankicon-bubbleicon-bubblesicon-callicon-calledicon-chat31icon-cost-cloudicon-cost-onpremiseicon-detouricon-dialicon-documenticon-effect01icon-effect02icon-effect03icon-effect04icon-facebookicon-flow01icon-flow02icon-flow03icon-flow04icon-flow05icon-flow06icon-flow07icon-hatebuicon-instagramicon-lineicon-linked_inicon-mailicon-maintenence-cloudicon-maintenence-onpremiseicon-operatoricon-phone-thinicon-phoneicon-pinteresticon-qicon-roboticon-scale-cloudicon-scale-onpremiseicon-scene01icon-scene02icon-scene03icon-selecticon-service01icon-service02icon-service03icon-service04icon-service05icon-service06icon-shortcuticon-speed-cloudicon-speed-onpremiseicon-triangle-arcicon-twittericon-youtubelogo-docomologo-verticalsp-menu-bubblesprite-icon-service_ivr

コラム

  • コラム

音声認識AIとは? 仕組みや活用法、導入前の確認ポイント

音声認識AIとは? 仕組みや活用法、導入前の確認ポイント

音声認識AIは、人が話した内容を文字に変換する「音声認識」と、人工知能である「AI」が合わさった技術です。
AIが組み合わさることにより、文字への変換だけではなく話した内容を理解して、自動でアクションを起こすことが可能になります。
「音声認識AI」という言葉自体はまだあまり浸透していませんが、スマホを音声で操作できる機能はおなじみの方も多いと思います。

本記事では、
「音声認識AIはどのような仕組み?」
「業務の改善や効率化に活用できる?」
「企業が実際に音声認識AIを活用している事例は?」
と疑問を抱く方に向けて、音声認識AIの仕組みや活用するメリットを解説します。

音声認識AIを導入している企業の事例も紹介するので、活用方法を知りたい企業様はぜひ参考にしてみてください。

音声認識はAIで飛躍的に進化

音声認識とは人の発話内容をコンピューターが分析して、文字に変換(文字起こし)する技術のことです。

最近ではAIとの組み合わせが注目を集めていますが、実は音声認識の技術自体は1990年頃から実用化されてきました。多くの人に音声認識の技術が認識され始めたのは、Appleの「Siri」Amazonの「Amazon Echo」が登場した2010年代頃です。

近年では、AI(人工知能)やディープラーニング(機械学習)が目覚ましい進化を遂げ、音声認識技術の精度が飛躍的に向上しています。
これにより、音声認識AIはコールセンターなどで普及し、さまざまな業務で活用され始めています。

音声認識の仕組み

そもそも、音声認識はどのような仕組みで発話内容を文字に変換しているのでしょうか。具体的な仕組みを見ていきましょう。

音声認識自体は従来からある技術

音声認識自体は、従来からある技術のひとつです。
ディープラーニングを用いない従来の音声認識技術は、大まかに以下のような仕組みとなっています。

  1. 音響分析…音声データをコンピューターが理解しやすいデータに変換・解析
  2. 音素を抽出・特定(音響モデル)…音声の波形がどの音素と近いかを特定
  3. 単語に変換…音に近い単語を発音辞書と照合して変換
  4. 文章への出力(言語モデル)…単語を適切に並び替えて文章を組み立てる


音声認識は上記の流れを瞬時に行い、発話内容を文章化しています。このように音声データを文章に変換することを「デコーディング」といいます。

近年はAIのディープラーニングを活用

近年は、音声認識にディープラーニングが導入されています。
たとえば、これまでは音素を抽出・特定する際は「音響モデル」をもとに音声認識を行っていましたが、ディープラーニングを活用することによりさらに認識精度が向上しました。

ディープラーニングとの併用は、業務の効率化や業務負担軽減などの効果が期待できます。また、実際に使用されるシーンも飛躍的に増えています。

音声認識AIを活用するメリット

音声認識AIをビジネスで活用するメリットは、以下の通りです。

  • 業務の効率化が図れる
  • 新たな知見を見出せる
  • 人手不足の解消


定型化された単調な作業であれば、人の手を借りずに音声認識AIのみで自動化できます。これにより、手作業のケアレスミスを防ぐことも可能です。
また、音声データをテキスト化することで、商品開発やマーケティングに役立つ知見を見出せることもあります。

さらに、音声認識AIで自動化できる業務であれば人員を割く必要がなくなり、人にはAIにできない高度な業務を任せられます。
コールセンターなどの人手不足に悩む部署では、音声認識AIが大いに役立つでしょう。

業務効率化で活用・ボイスボット

ボイスボットは、人工知能であるAIやディープラーニングを活用した電話の自動応答システムです。発話内容のテキスト化だけではなく、リアルタイムで対応まで自動で行えます
ボイスボットをコールセンターで活用すれば、人手不足の解消や業務の効率化が期待できます。

なかでもNTTドコモの「AI電話サービス」は、定型化された業務内容はボイスボットのみで完結可能です。これにより、オペレーターは人間にしかできない高度な業務に集中でき、業務を効率化できます。

万が一ボイスボットで対応できない場合のみ、オペレーターに転送すれば効率的に業務を進められます。そのため、人手不足のコールセンターでも顧客の対応が遅れることなく、顧客満足度を低下させる心配もありません。

音声認識AIを業務効率化で導入している事例

ここからは、音声認識AIを業務効率化で導入している企業の活用事例を紹介します。
主に以下の対応において、音声認識AIが導入されています。

  • 多言語に対応
  • レストラン予約電話
  • コールセンター業務

クラウド型コミュニケーションロボットが多言語に対応

東京都交通局では、2020年より一部の駅でクラウド型コミュニケーションロボット「Sota(ソータ)」を導入しました。
音声認識・音声合成技術を活用して、日本語だけではなく英語や中国語にも対応し、非対面での案内や受付のほか商品PRも行っています。

また、利用者との対話内容はすべて記録されており、対話ログから利用者のニーズを把握してサービスに反映させることも可能です。これにより、より利用者が求めるサービスが提供できるようになりました。
対話ログの分析やサービスへの反映は、音声認識AIだからこそできる技術だといえます。

レストラン予約電話をAIが対応

音声認識AIは、予約対応も自動で行えることが特徴です。
Googleが提供しているレストランなどの予約サービス「Google Duplex」は、スタッフではなくAIのみで予約対応を完結できます。音声合成技術により、ユーザーはまるで人と話しているかのような感覚で予約が可能です。

2020年10月15日には、Google Duplexによる通話の99%がAIによって自動化されていると発表されました。
AIによる電話予約サービスは日本でも注目されており、今後サービスの提供は日本国内でも広がっていくのではないかと思われます。

なお、NTTドコモの「AI電話サービス」は、 レストラン予約やワクチン接種予約、企業の電話取次に活用できます。具体的な仕組みやサービス内容については、以下の記事をご覧ください。

AI電話予約とは? 仕組みと3つのメリット・デメリット

コールセンター業務に音声認識AIを活用

東京電力エナジーパートナーでは、NTTドコモの「AI電話サービス」を導入してボイスボットによる自動電話受付を開始しました。
手続きに関する一部の業務で採用し、応対件数の75%がオペレーターを介さずに対応を完了しています。これにより、電力供給サービス受付の75%を無人対応に切り替えることができました。

さらに、1件あたりの電話応対時間を70%短縮することにも成功しています。
AI電話サービス」の導入により、大幅に業務効率化を進めることができました。

導入事例の詳しい内容は、以下の記事をご覧ください。

電気申込の電話を自動化して業務効率を2倍にする方法】

音声認識AI・導入前に知っておきたい3つのこと

音声認識AIの導入前に、以下の3つのことを認知しておきましょう。

  1. 雑音・ノイズが多いと精度ダウン
  2. 音声認識エンジンによる差
  3. シナリオ作成など導入前にかかる時間

1)雑音・ノイズが多いと精度ダウン

音声認識AIは、雑音やノイズが多い場合は認識精度が下がってしまいます
雑音やノイズが入り込んでしまう場合は、音声認識用のマイクを性能の良いものに入れ替えましょう。もしくは、ノイズを低減できるソフトの導入がおすすめです。

2)音声認識エンジンによる差

使われている音声認識エンジンによって、得意な分野が異なる場合があります。また、精度が改善できる機能がついているなど、機能性も異なります。
それぞれのエンジンに一長一短があるので、自社に適した製品を選びましょう。

AI電話サービス」では、ご希望があれば導入前に精度の確認が可能です。さらに、チューニングによって精度を高めることもできます。

3)シナリオ作成など導入前にかかる時間

コールセンターなどで音声認識AIを活用する場合は、初期設定時のシナリオ作成に時間がかかる場合があります。予定よりも時間がかかってしまった場合は、導入予定時期に間に合わない可能性があるので注意しましょう。

しかし、音声認識AIは自社の顧客に合わせてシナリオを自由に作成できるのが魅力です。
シナリオ作成に時間をとられたくない場合は、シナリオがパッケージ化されたプランを利用しましょう。スムーズな導入が可能です。

AI電話サービス」では取次・予約のユースケースがパッケージ化された「お試しパッケージ」を用意しています。

音声認識AIを活用するならAI電話サービス

音声認識AIの導入は、NTTドコモの「AI電話サービス」がおすすめです。導入することで、コールセンターにおける電話業務を自動化できます。

具体的には、以下のような受電・架電業務に対応しています。

  • サービス申込み・変更・解約
  • 商品・サービスのご案内
  • レストラン/ホテル/病院の予約
  • 予約日前日のリマインド
  • 高齢者のみまもり電話
  • 荷物の再配達
  • 荷物配達当日の在宅確認
  • 電話の取次 など


ドコモの音声対話サービスで長年培った音声対話技術と高い対話デザイン力、自然言語処理技術によって、まるで人と話しているかのような自然な会話を実現しています。
また、顧客管理システム(CRM)や各種チャットツールとの連携なので、利便性も向上できます。
ご利用いただける音声の種類は50種類以上。利用シーンに合わせて、最適な音声を柔軟に実装可能です。

電話業務にAIを導入することで、24時間365日のコールセンター運用が可能になります。これにより、日中は忙しくて架電できない顧客もいつでも問い合わせができるようになり、顧客満足度の向上が期待できるでしょう。
「取次ぎ」「予約」の2パターンがお試しで利用できる「お試しパッケージ」もありますので、本格的な導入の前にぜひ一度ご検討ください。

まとめ(音声認識AIの仕組みや活用法)

音声認識AIは、従来の音声認識の技術にAIが組み合わさった技術です。会話内容を理解・分析して、自動で電話対応が行えます。
音声認識AIを導入することで、業務の効率化や人手不足の解消効果が期待できます。定型化された内容であれば、オペレーターに頼らずAIのみで自動的に対応可能です。

NTTドコモの「AI電話サービス」は適宜シナリオの改良が可能で、精度が向上することによってさらなる業務効率化や、顧客満足度の向上が期待できます。
導入前に使用感を試せる「お試しパッケージ」もご用意していますので、お気軽にご相談ください。

音声認識AIを導入して、コールセンターの課題解決とさらなる業務効率化をめざしていきましょう。

資料請求
はこちら