アプリケーションの数と音声インターフェイスの重要性は急速に高まっています
技術

アプリケーションの数と音声インターフェイスの重要性は急速に高まっています

オレゴン州ポートランドに住むアメリカ人家族は最近、アレックスの音声アシスタントがプライベートなチャットを録音し、友人に送信していたことを知った。 メディアからダニエルと呼ばれるこの家の所有者は記者団に対し、「信用できないので、この機器には二度と接続しない」と語った。

アレクサは、米国の何千万もの家庭にある Echo スピーカー (1) およびその他のガジェットによって提供され、ユーザーが自分の名前または「呼び出し言葉」を話すのを聞くと録音を開始します。 これは、テレビ広告で「Alexa」という単語が言及された場合でも、デバイスが録画を開始する可能性があることを意味します。 ハードウェア販売代理店のアマゾンによれば、今回のケースではまさにそれが起こったという。

同社は声明で「残りの会話は音声アシスタントによってメッセージを送信するコマンドとして解釈された」と述べた。 「ある時点で、アレクサが大声でこう尋ねました。「誰に?」 堅木張りの床についての家族の会話の続きは、機械によって顧客の連絡先リストの項目として認識されるはずです。」 少なくともアマゾンはそう考えている。 したがって、翻訳は一連の事故に帰着します。

しかし、不安は残ります。 なぜなら、何らかの理由で、私たちがまだ安心している家の中で、私たちはある種の「音声モード」に入り、自分の言うこと、テレビが放送していること、そしてもちろん、タンスの上にあるこの新しいスピーカーが何をしているのかを見なければならないからです。と言う。 私たち。

それにもかかわらず、 テクノロジーの不完全性やプライバシーへの懸念にもかかわらず、Amazon Echo のようなデバイスの人気の高まりにより、人々は音声を使用してコンピューターと対話するという考えに慣れ始めています。.

Amazon の CTO である Werner Vogels 氏が 2017 年末の AWS re:Invent セッションで指摘したように、これまでテクノロジーは私たちがコンピューターと対話する方法を制限していました。 私たちはキーボードを使用して Google にキーワードを入力します。これは、今でもマシンに情報を入力する最も一般的で簡単な方法だからです。

フォーゲルス氏は語った。 -

ビッグ XNUMX

電話で Google 検索エンジンを使用しているとき、おそらくずっと前に、通話を呼びかけるマイクのサインに気づいたでしょう。 これ 今すぐグーグル (2) は、検索クエリを指示したり、音声でメッセージを入力したりすることができます。近年、Google、Apple、Amazon は大幅に改良しました。 音声認識技術。 Alexa、Siri、Google アシスタントなどの音声アシスタントは、あなたの声を録音するだけでなく、あなたが話した内容を理解し、質問に答えます。

Google Now は、すべての Android ユーザーが無料で利用できます。 このアプリケーションでは、アラームを設定したり、天気予報を確認したり、Google マップでルートを確認したりすることができます。 Google Now の状態の会話拡張 Google アシスタント () – 機器のユーザーに対する仮想アシスタンス。 主にモバイルデバイスやスマートホームデバイスで利用できます。 Google Nowとは異なり、双方向の交換に参加できます。 このアシスタントは、Google メッセージング アプリ Allo の一部として、また Google Home 音声スピーカー (2016) の一部として 3 年 XNUMX 月にデビューしました。

3.Googleホーム

IOS システムには独自の仮想アシスタントもあります。 シリ、これは Apple のオペレーティング システム iOS、watchOS、tvOS homepod、macOS に含まれるプログラムです。 Siri は、5 年 4 月の Let's Talk iPhone カンファレンスで iOS 2011 と iPhone XNUMXs とともにデビューしました。

このソフトウェアは会話型インターフェイスに基づいており、ユーザーの自然な音声を認識し (iOS 11 では手動でコマンドを入力することも可能)、質問に答え、タスクを完了します。 機械学習の導入により、時間の経過とともにアシスタントが登場 個人の好みを分析する ユーザーは、より関連性の高い結果と推奨事項を提供できます。 Siri には常時インターネット接続が必要です。ここでの主な情報源は Bing と Wolfram Alpha です。 iOS 10 では、サードパーティの拡張機能のサポートが導入されました。

四天王のもう一人 コルタナ。 これは、Microsoft によって作成されたインテリジェントなパーソナル アシスタントです。 Windows 10、Windows 10 Mobile、Windows Phone 8.1、Xbox One、Skype、Microsoft Band、Microsoft Band 2、Android、および iOS プラットフォームでサポートされています。 Cortana は、2014 年 XNUMX 月にサンフランシスコで開催された Microsoft Build Developer Conference で初めて導入されました。 プログラムの名前は、Halo ゲーム シリーズのキャラクターの名前に由来しています。 Cortana は、英語、イタリア語、スペイン語、フランス語、ドイツ語、中国語、日本語で利用できます。

前述のプログラムのユーザー アレクサ 言語制限も考慮する必要があります。デジタル アシスタントは英語、ドイツ語、フランス語、日本語のみを話します。

Amazon の仮想アシスタントは、Amazon Lab126 によって開発された Amazon Echo および Amazon Echo Dot スマート スピーカーで初めて使用されました。 音声インタラクション、音楽再生、ToDo リストの作成、アラームの設定、ポッドキャストのストリーミング、オーディオブックの再生、天気、交通、スポーツ、ニュースなどのその他のニュース情報に関するリアルタイム情報の提供が可能です (4)。 Alexa は複数のスマート デバイスを制御してホーム オートメーション システムを構築できます。 Amazonでのお買い物にも便利です。

4. ユーザーが Echo を使用する目的 (調査による)

ユーザーは、Alexa の「スキル」をインストールすることで、Alexa の機能を強化できます。Alexa の「スキル」は、他の設定での天気アプリやオーディオ アプリなど、一般にアプリと呼ばれるサードパーティによって開発された追加機能です。 ほとんどの Alexa デバイスでは、ウェイク パスワードと呼ばれるウェイク パスワードを使用して仮想アシスタントをアクティブ化できます。

現在、Amazon は間違いなくスマート スピーカー市場を支配しています (5)。 2018年XNUMX月に新サービスを導入したIBMはトップXNUMX入りを狙っている ワトソンのアシスタント、音声制御を備えた仮想アシスタントの独自システムを作成したい企業向けに設計されています。 IBM ソリューションの利点は何ですか? 同社の代表者らによると、まず第一に、パーソナライゼーションとプライバシー保護の機会が大幅に増えることだという。

まず、Watson Assistant にはブランドがありません。 企業はこのプラットフォーム上で独自のソリューションを作成し、独自のブランドを付けることができます。

第 XNUMX に、独自のデータセットを使用して支援システムをトレーニングできるため、IBM によれば、他の VUI (音声ユーザー インターフェイス) テクノロジーよりもそのシステムに機能やコマンドを追加することが容易になります。

第三に、Watson Assistant はユーザーのアクティビティに関する情報を IBM に提供しません。プラットフォーム上のソリューションの開発者は、貴重なデータを自分自身で保持することしかできません。 一方、たとえば Alexa を使ってデバイスを構築する人は、貴重なデータが最終的に Amazon に送信されることを認識する必要があります。

Watson Assistant にはすでにいくつかの実装があります。 このシステムは、たとえば、マセラティ コンセプト カーの音声アシスタントを作成したハーマンによって使用されました (6)。 ミュンヘン空港では、IBM アシスタントが Pepper ロボットに電力を供給し、乗客の移動を支援しています。 XNUMX 番目の例は Chameleon Technologies で、スマート ホーム メーターに音声テクノロジーが使用されています。

6. マセラティのコンセプトカーに搭載されたワトソン・アシスタント

ここでの基礎となるテクノロジーも新しいものではないことを付け加えておきます。 Watson Assistant には、既存の IBM 製品、Watson Conversation、Watson Virtual Agent の暗号化機能に加え、言語分析とチャット用の API が含まれています。

Amazon はスマート音声テクノロジーのリーダーであるだけでなく、それを直接ビジネスに変えようとしています。 ただし、一部の企業はもっと早くから Echo の統合を実験しています。 BI および分析業界の企業である Sisense は、2016 年 XNUMX 月に Echo 統合を導入しました。 次に、スタートアップの Roxy は、ホスピタリティ業界向けに音声制御を備えた独自のソフトウェアとハ​​ードウェアを開発することにしました。 今年の初め、Synqq は、音声と自然言語処理を使用して、キーボードで入力することなくメモやカレンダーのエントリを追加できるメモ作成アプリを導入しました。

これら中小企業はいずれも高い志を持っています。 しかし、何よりも彼らは、音声通信プラットフォームの構築において最も重要なプレーヤーである Amazon、Google、Apple、または Microsoft にすべてのユーザーが自分のデータを転送したいわけではないことを学びました。

アメリカ人は買いたい

2016 年、音声検索は Google モバイル検索全体の 20% を占めました。 このテクノロジーを日常的に使用している人々は、その最大の利点として、その利便性とマルチタスクを挙げています。 (たとえば、車の運転中に検索エンジンを使用できる機能)。

Visiongain のアナリストは、スマート デジタル アシスタント市場の現在の価値を 1,138 億 2018 万ドルと見積もっています。 Gartner によると、XNUMX 年末までに 私たちのやり取りの 30% テクノロジーとの連携は、音声システムとの会話を通じて行われます。

英国の調査会社IHSマークイットは、AIを活用したデジタルアシスタントの市場は今年末までに4億台のデバイスに達し、その数は2020年までに7億台に増加する可能性があると予測している。

eMarketer と VoiceLabs のレポートによると、2017 年には 35,6 万人のアメリカ人が少なくとも月に 130 回音声コントロールを使用していました。 これは、前年比でほぼ 2018% の増加を意味します。 デジタルアシスタント市場だけでも、23年にはXNUMX%の成長が見込まれています。 これは、すでに使用していることを意味します。 60,5万人のアメリカ人、それは生産者に具体的なお金をもたらします。 RBC Capital Markets は、Alexa インターフェースが Amazon に 2020 年までに最大 10 億ドルの収益をもたらすだろうと推定しています。

洗って、焼いて、掃除して!

音声インターフェースはますます大胆に家電製品や家庭用電化製品市場に参入しています。 これは昨年の IFA 2017 展示会ですでに見られており、たとえば、アメリカ企業 Neato Robotics は、Amazon Echo システムを含むいくつかのスマートホーム プラットフォームの XNUMX つに接続するロボット掃除機を発表しました。 Echo スマート スピーカーに話しかけることで、昼夜を問わず特定の時間に家全体を掃除するように機械に指示できます。

この展示会では、トルコの会社 Vestel が東芝ブランドで販売するスマート TV からドイツの会社 Beurer の暖房ブランケットに至るまで、他の音声起動製品も展示されました。 これらの電子デバイスの多くは、スマートフォンを使用してリモートでアクティブ化することもできます。

しかし、ボッシュの代表者によると、ホームアシスタントのどのオプションが主流になるかを言うのは時期尚早だという。 IFA 2017 では、ドイツの技術グループが Echo に接続する洗濯機 (7 台)、オーブン、コーヒーマシンを展示しました。 ボッシュはまた、自社のデバイスが将来的に Google および Apple の音声プラットフォームと互換性を持つことを望んでいます。

7. Amazon Echoに接続できるボッシュの洗濯機

富士通、ソニー、パナソニックなどの企業は、独自の AI ベースの音声アシスタント ソリューションを開発しています。 シャープは、市場に投入されるオーブンや小型ロボットにこの技術を追加します。 日本電信電話は、音声制御の人工知能システムを適応させるハードウェアおよび玩具メーカーを雇用しています。

古い概念。 ついに彼女の時代が来たのか?

実際、音声ユーザー インターフェイス (VUI) の概念は数十年前から存在しています。 何年も前にスタートレックや 2001 年宇宙の旅を見た人は、2000 年頃には誰もが音声でコンピューターを制御できるようになるだろうと予想していたことでしょう。 また、このタイプのインターフェイスの可能性に気づいたのは SF 作家だけではありませんでした。 1986 年、ニールセンの研究者は IT 専門家に、2000 年までにユーザー インターフェイスの最大の変化は何だと思うかを尋ねました。 彼らは最も多くの場合、音声インターフェースの開発を指摘しました。

そのような解決策が期待される理由があります。 結局のところ、言葉によるコミュニケーションは、人々が意識的に考えを交換するための最も自然な方法であるため、これを人間と機械の相互作用に使用することが、これまでのところ最良の解決策のように思えます。

最初の VUI の XNUMX つと呼ばれる 靴箱, 60年代初頭にIBMによって作成されました。 これは今日の音声認識システムの先駆けでした。 ただし、VUI デバイスの開発は、コンピューティング能力の限界によって制限されました。 人間の音声をリアルタイムで解析して解釈するには多大な努力が必要で、実際にそれが可能になるまでには XNUMX 年以上かかりました。

音声インターフェイスを備えたデバイスは 90 年代半ばに大量生産され始めましたが、普及しませんでした。 音声制御 (ダイヤル) を備えた最初の電話は フィリップス・スパーク1996年に発売されました。 ただし、この革新的で使いやすいデバイスにも技術的な限界があったわけではありません。

音声インターフェイス (RIM、Samsung、Motorola などの企業が開発したもの) を備えた他の電話機も定期的に市場に登場し、ユーザーは音声でダイヤルしたり、テキスト メッセージを送信したりできます。 しかし、それらはすべて、特定のコマンドを記憶し、当時のデバイスの機能に合わせて強制的で人工的な形式で発音する必要がありました。 これにより多数のエラーが発生し、ユーザーの不満につながりました。

しかし、私たちは現在、コンピューティングの新時代に突入しており、機械学習と人工知能の進歩により、テクノロジーと対話する新しい方法として会話の可能性が解き放たれています (8)。 音声対話をサポートするデバイスの数は、VUI の開発に大きな影響を与える重要な要素となっています。 現在、世界人口のほぼ 1 分の 3 が、この種の行動に使用できるスマートフォンをすでに所有しています。 ほとんどのユーザーはついに音声インターフェイスを適応させる準備ができたようです。

8. 音声インターフェース開発の現代史

しかし、『宇宙の旅』の登場人物のように、コンピューターと自由に会話できるようになるまでには、多くの問題を克服する必要があります。 機械は言語のニュアンスを扱うのがまだあまり得意ではありません。 その上 多くの人が検索エンジンに音声コマンドを与えることに今でも不快感を感じています.

統計によれば、音声アシスタントは主に自宅または親しい友人の間で使用されています。 インタビューを受けた人の中で、公共の場所で音声検索を使用したことを認めた人は一人もいなかった。 しかし、この封鎖はこの技術の普及とともに解消される可能性があります。

技術的に難しい質問

システム (ASR) が直面する問題は、音声信号から有用なデータを抽出し、それを人にとって特定の意味を持つ特定の単語に関連付けることです。 出てくる音は毎回異なります。

音声信号の変動 これはその自然な性質であり、そのおかげで私たちはたとえばアクセントやイントネーションを認識します。 音声認識システムの各要素には特定のタスクがあります。 処理された信号とそのパラメータに基づいて、言語モデルに関連付けられた音響モデルが作成されます。 認識システムは、少数または多数のパターンに基づいて機能し、それにより、認識システムが機能する語彙のサイズが決まります。 それらは可能です 小さな辞書 個々の単語やコマンドを認識するシステムの場合、 大規模なデータベース 言語セットと同等のものを含み、言語モデル (文法) を考慮しています。

そもそも音声インターフェースが直面する問題 スピーチを正しく理解する、たとえば、文法シーケンス全体が省略されることが多く、言語的および音声上の誤り、エラー、省略、音声欠陥、同音異義語、不当な繰り返しなどが発生します。これらすべての ACP システムは、迅速かつ確実に動作する必要があります。 少なくともそれらは期待されています。

問題の原因は、認識システムの入力に入る、認識された音声以外の音響信号でもあります。 すべての種類 干渉とノイズ。 最も単純なケースでは、それらが必要です フィルターで取り除く。 この作業は日常的で簡単に思えます。結局のところ、さまざまな信号がフィルタリングされており、電子技術者なら誰でもそのような状況で何をすべきかを知っています。 ただし、音声認識の結果が期待どおりである場合、これは非常に注意深く慎重に行う必要があります。

現在使用されているフィルタリングでは、音声信号とともに、マイクが拾う外部ノイズや音声信号そのものの認識を困難にする内部特性を除去することが可能です。 しかし、分析された音声信号への干渉が別の音声信号、つまり周囲での騒々しい議論などである場合には、より複雑な技術的問題が発生します。 この質問は文献ではいわゆる として知られています。 これにはすでに、いわゆる複雑な方法を使用する必要があります。 デコンボリューション 信号を(解き明かして)。

音声認識の問題はこれで終わりではありません。 音声にはさまざまな種類の情報が含まれていることを認識する価値があります。 人間の声は、性別、年齢、持ち主のさまざまな性格、健康状態を示唆します。 音声信号に含まれる特徴的な音響現象に基づいて、さまざまな病気の診断を扱う生物医工学部門が広範囲に渡って行われています。

音声信号の音響分析の主な目的が、話者を特定したり、話者が本人であることを確認したりすること (キー、パスワード、PUK コードではなく音声) を行うアプリケーションもあります。 これは、特にスマート ビルディング テクノロジにとって重要になる可能性があります。

音声認識システムの最初のコンポーネントは次のとおりです。 микрофон。 ただし、マイクで拾った信号は通常、ほとんど役に立ちません。 研究によると、音波の形状とコースは、人、話す速度、部分的には対話者の気分によって大きく異なりますが、音声コマンドの内容そのものをある程度反映していることが示されています。

したがって、信号は正しく処理される必要があります。 現代の音響学、音声学、コンピューター サイエンスを組み合わせることで、音声信号の処理、分析、認識、理解に使用できる豊富なツール セットが提供されます。 信号の動的スペクトル、いわゆる 動的スペクトログラム。 これらは非常に簡単に入手でき、動的スペクトログラムの形式で表示される音声は、画像認識で使用されるものと同様の技術を使用して比較的簡単に認識できます。

音声の単純な要素 (コマンドなど) は、スペクトログラム全体の単純な類似性によって認識できます。 たとえば、音声で起動する携帯電話の辞書には、数十から数百の単語やフレーズしか含まれておらず、通常はそれらを簡単かつ効率的に識別できるように事前にスタックされています。 単純な制御タスクにはこれで十分ですが、アプリケーション全体が大幅に制限されます。 この方式に従って構築されたシステムは、原則として、音声が特別に訓練された特定の話者のみをサポートします。 したがって、自分の声を使ってシステムを制御したいと考えている新人がいたとしても、おそらく受け入れられないでしょう。

この操作の結果は次のように呼ばれます。 スペクトログラム 2-W、つまり二次元スペクトルです。 このブロックには、注目に値するもう XNUMX つのアクティビティがあります。 セグメンテーション。 一般的に言えば、連続した音声信号を個別に認識できる部分に分割することについて話しています。 これらの個々の診断からのみ、全体の認識が行われます。 長く複雑な音声を一度に識別することはできないため、この手順が必要です。 音声信号のどのセグメントを区別するかについては、すでに全編が書かれているため、区別されるセグメントが音素 (音に相当するもの)、音節、あるいは異音のいずれであるべきかについては、ここでは決定しません。

自動認識のプロセスでは、常にオブジェクトのいくつかの特徴が参照されます。 音声信号については、数百の異なるパラメータのセットがテストされています。 認識されたフレームに分割される と持っている 選択された機能これにより、これらのフレームが認識プロセスで提示され、(フレームごとに個別に) 実行できます。 分類、つまりフレームに識別子を割り当てます。これは将来フレームを表すことになります。

次のステージ フレームを別々の単語に組み立てる - ほとんどの場合、いわゆるものに基づいています。 陰的マルコフ モデル (HMM-) のモデル。 次に言葉のモンタージュが始まります 完全な文章.

ここで、Alexa システムに少し戻ります。 彼の例は、機械が人を「理解」する多段階のプロセス、より正確には、人によって与えられたコマンドや質問を示しています。

単語を理解すること、意味を理解すること、ユーザーの意図を理解することは全く別のことです。

したがって、次のステップは NLP モジュール () の作業です。そのタスクは次のとおりです。 ユーザーの意図の認識、つまりコマンド/質問が発声された文脈における意味。 意図が特定できれば、 いわゆるスキルや能力の割り当て、つまり、スマート アシスタントによってサポートされる特定の機能。 天気に関する質問の場合、天気データ ソースが呼び出されますが、音声に処理されるまで残ります (TTS - メカニズム)。 その結果、ユーザーは質問に対する答えを聞くことになります。

声? グラフィックアート? それとも両方でしょうか?

最も知られている最新の対話システムは、と呼ばれる仲介者に基づいています。 グラフィカル・ユーザー・インターフェース (グラフィカルインターフェイス)。 残念ながら、GUI はデジタル製品を操作するための最も明白な方法ではありません。 これには、ユーザーが最初にインターフェイスの使用方法を学習し、その後の操作ごとにその情報を記憶する必要があります。 多くの状況では、デバイスに話しかけるだけで VUI を操作できるため、音声の方がはるかに便利です。 ユーザーに特定のコマンドや対話方法の暗記を強制しないインターフェイスでは、問題の発生が少なくなります。

もちろん、VUI の拡張は、従来のインターフェイスを放棄することを意味するものではなく、複数の対話方法を組み合わせたハイブリッド インターフェイスが利用可能になります。

音声インターフェイスは、モバイル環境におけるすべてのタスクに適しているわけではありません。 これを使用すると、車を運転している友人に電話したり、SMS を送信したりすることもできますが、システム () に送信され、システム (システム) によって生成される情報の量のせいで、最新の転送を確認するのは非常に困難です。 Rachel Hinman 氏が著書『Mobile Frontier』で示唆しているように、VUI の使用は、入出力情報の量が少ないタスクを実行するときに最も効果的です。

インターネットに接続されたスマートフォンは便利ですが、不便でもあります (9)。 ユーザーは、何かを購入したり、新しいサービスを使用したりするたびに、別のアプリをダウンロードし、新しいアカウントを作成する必要があります。 音声インターフェースの使用と開発の分野がここに創設されました。 専門家らは、ユーザーにさまざまなアプリのインストールやサービスごとに個別のアカウントの作成を強制する代わりに、VUI によってこれらの面倒なタスクの負担が AI を活用した音声アシスタントに移されるだろうと述べています。 彼にとっては激しい活動を行うのに便利です。 私たちは彼に命令だけを与えます。

9. スマートフォンによる音声インターフェース

今日、インターネットに接続されているのは電話やコンピュータだけではありません。 スマート サーモスタット、照明、ケトル、その他多くの IoT 統合デバイスもネットワーク (10) に接続されています。 このように、私たちの周りには、私たちの生活を満たす無線デバイスがありますが、そのすべてがグラフィカル ユーザー インターフェイスに自然に適合するわけではありません。 VUI を使用すると、環境に簡単に統合できます。

10. モノのインターネットとの音声インターフェース

音声ユーザー インターフェイスの作成は、すぐにデザイナーの重要なスキルになるでしょう。 これは本当に問題です。音声システムを実装する必要があると、プロアクティブな設計、つまり、ユーザーの最初の意図を理解しようとして、会話のあらゆる段階でユーザーのニーズや期待を予測しようとすることに、より集中するようになるでしょう。

音声はデータを入力する効率的な方法であり、ユーザーは自分の意思でシステムにコマンドをすばやく発行できます。 一方、画面は情報を表示する効率的な方法を提供します。これにより、システムは大量の情報を同時に表示できるため、ユーザーの記憶への負担が軽減されます。 これらを XNUMX つのシステムに統合するのは合理的です。

Amazon Echo や Google Home のようなスマート スピーカーは、視覚的なディスプレイをまったく提供しません。 適度な距離での音声認識の精度が大幅に向上し、ハンズフリー操作が可能になり、柔軟性と効率が向上します。すでに音声制御機能を備えたスマートフォンを持っているユーザーにとっても望ましいものです。 ただし、画面がないことが大きな制限となります。

可能なコマンドをユーザーに知らせるにはビープ音しか使用できず、最も基本的なタスクを除いて、出力を読み上げるのは退屈になります。 料理中に音声コマンドでタイマーを設定するのは便利ですが、残り時間を尋ねる必要はありません。 定期的に天気予報を取得することは、ユーザーにとって記憶力のテストとなり、画面から一目で内容を理解するのではなく、一週間を通して一連の事実を聞いて吸収する必要があります。

デザイナーたちはすでに ハイブリッドソリューション, ベーシックなスマートスピーカーEchoにディスプレイ画面を追加したEcho Show(11)。 これにより、機器の機能が大幅に拡張されます。 ただし、Echo Show は、スマートフォンやタブレットで長い間利用できた基本的な機能を実行する能力がまだはるかに劣っています。 たとえば、Web サーフィンをしたり、レビューを表示したり、Amazon のショッピング カートの内容を表示したりすることは (まだ) できません。

視覚的なディスプレイは本質的に、音声だけよりも豊富な情報を人々に提供する効果的な方法です。 音声を優先して設計すると、音声インタラクションを大幅に改善できますが、長期的には、インタラクションのためにビジュアル メニューを任意に使用しないことは、片手を後ろ手に縛られて戦っているようなものになります。 エンドツーエンドのインテリジェント音声およびディスプレイ インターフェイスの複雑さが迫っているため、開発者はインターフェイスへのハイブリッド アプローチを真剣に検討する必要があります。

音声生成および認識システムの効率と速度が向上することで、たとえば次のようなアプリケーションや分野でそれらを使用できるようになりました。

• 軍事(飛行機またはヘリコプターでの音声コマンド、たとえば F16 VISTA)、

• 自動テキスト変換 (音声からテキストへ)、

• インタラクティブ情報システム (Prime Speech、音声ポータル)、

• モバイルデバイス(電話、スマートフォン、タブレット)、

• ロボット工学 (Cleverbot - 人工知能と組み合わせた ASR システム)、

• 自動車 (Blue & Me などの自動車コンポーネントのハンズフリー制御)、

• ホーム アプリケーション (スマート ホーム システム)。

安全に気をつけてください!

自動車、家電製品、冷暖房およびホームセキュリティシステム、および多くの家電製品が、多くの場合 AI ベースの音声インターフェイスを使用し始めています。 この段階では、機械との何百万もの会話から得られたデータが次の場所に送信されます。 コンピューティングクラウド。 マーケティング担当者がそれらに興味を持っていることは明らかです。 彼らだけではありません。

シマンテックのセキュリティ専門家による最近のレポートでは、音声コマンドを使用するユーザーは、ホーム セキュリティ システムはもちろん、ドア ロックなどのセキュリティ機能を制御しないよう推奨しています。 パスワードや機密情報の保存についても同様です。 人工知能とスマート製品のセキュリティはまだ十分に研究されていません。

家中のデバイスがあらゆる言葉を聞くと、システムのハッキングや悪用のリスクが非常に重要な問題になります。 攻撃者がローカル ネットワークまたはそれに関連付けられた電子メール アドレスにアクセスすると、スマート デバイスの設定が変更されたり、工場出荷時の設定にリセットされたりする可能性があり、その結果、貴重な情報が失われ、ユーザー履歴が削除されます。

言い換えれば、セキュリティ専門家は、音声と VUI を利用した人工知能が、潜在的な脅威から私たちを守り、見知らぬ人が何かを要求したときに口を閉ざすほど賢くはまだないのではないかと懸念しています。

コメントを追加します