Onkyo SPEECH

「音」を追求し続けたオンキヨーだから実現できた音声解析技術

  • 電話応対効率化ソフトウェア

  • 独自の音声認識エンジンを開発し、システムに用いることで、お電話の受付から文字起こしまでのプロセスを自動化することに成功しました。これにより、人手で電話応答を行い音声を聞き取って書き起こすまでの人手作業を、大幅に削減することが可能となりました。Onkyo SPEECHは、コールセンター業務に特化した音声認識技術です。

    Onkyo SPEECHの特長

    Onkyo IVRで採用されるOnkyo SPEECHは当社独自の音声認識アルゴリズムであり音声データをテキスト化する技術です。お客様の通話データを学習し、独自のラベル付けを行うことで高精度な音声認識を実現。これまで当社に多く寄せられたシニア層のお客様の電話回線越し音声を解析することで、特にM3層(50歳以上男性)の認識率に優れています。

    ■ 豊富な音声データ量

    Onkyo SPEECHは当社独自の音声認識アルゴリズムであり音声データをテキスト化する技術です。お客様の通話データを学習し、独自のラベル付けを行うことで高精度な音声認識を実現。これまで当社に多く寄せられたシニア層のお客様の電話回線越し音声を解析することで、特にM3層(50歳以上男性)の認識率が優れているところを特徴としています。

    ■ 業界特有の用語を識別

    音声認識の特徴として、学習時と全く異なる音声や未知単語が含まれる文章では認識率が低下する問題があります。高い認識精度を持つ他社の汎用音声認識システムを使用した場合でも、電話の音声、専門用語が含まれる文章、方言を含む話し言葉の場合、認識精度は大幅に低下します。そのため、高い認識率を得るためには個別カスタマイズが必要となります。

    音声認識の向上について

    業界・環境特有の言葉を当社で書き起こし、学習することで音声認識率を向上させていきます。

    音響モデル (Acoustic Model)

    音響モデルにディープラーニングを用いたシステムを採用し、音響分析で抽出した音声特徴量を学習し分類を行います。
    ディープラーニングのモデルにはボトルネック層を用いた”factored TDNN”をエンジンに採用しており、音声の重要箇所を効率的に学習します。特に高齢者層の認識について、他社の音声認識システムと比較して高い認識率を有します。

    言語モデル (Language Model)

    言語モデルにはクラス言語モデルを採用。ひとつの学習データから幅広い認識を可能としています。

    認識結果の例

    Onkyo SPEECHは誤認識が少なく、文脈も損なわないため、オペレーターの修正作業が軽減されます。