Appleの研究者、「ヘイ、Siri」の認識精度向上に関する論文を公開

2018年4月17日2024年10月31日

Apple ヘイ、Siri 論文

Appleの研究者が、「ヘイ、Siri」と話しかけた時の認識精度向上に関する論文を公開しました。声の主を特定することで、間違った起動を回避する手法などが記されています。

iOS6で導入された「ヘイ、Siri」

iPhoneをはじめとする製品に搭載された人工知能アシスタントSiriは、「ヘイ、Siri」と話しかけて呼び出した後、「今日の天気は？」「パパに、今向かっている、ってメッセージを送って」と調べ物や端末の操作をさせることができます。

2014年、iOS8とiPhone6で実用化された「ヘイ、Siri」は、最初は電源に接続した状態でないと利用できませんでしたが、その後、電源に接続していなくても利用可能となりました。

これは、常に「ヘイ、Siri」と声をかけられるのを待っていてもバッテリー消費が少ないプロセッサが搭載されたことによります。

「ヘイ、Siri」の誤認識、イラッとするのは？

Appleが運営する、機械学習に関する論文を掲載するブログサイトMachine Learning Journalに新たに掲載された論文には、Siriを端末上でユーザーに最適化させるための技術が説明されています。

AppleがSIriを呼び出すフレーズとして「ヘイ、Siri」を採用したのは、それが「自然な」言葉だから、とのことです。

論文では、「ヘイ、Siri」が誤認識されるケースを以下の3つに分類しています。

主なユーザーが「ヘイ、Siri」に似たフレーズを話した場合
他のユーザーが「ヘイ、Siri」と話した場合
他のユーザーが「ヘイ、Siri」に似たフレーズを話した場合

そして、3番目の誤認識がユーザーにとって最もストレスになる、と解説しています。

「何が話されたか」よりも「誰が話しているか」を重視

Siriが間違って起動してしまう可能性を下げるために、Appleの技術陣は「話者認識」の手法を導入しています。

「話者認識」は「誰が話しているか」の認識を重視するのが特徴で、「何が話されたか」を重視する「音声認識」とは区別されます。

話者認識の精度を上げるために、明示的方法と非明示的方法の両方を活用する手法があります。明示的方法は、ユーザーが端末に向かって何回か話しかけるもので、非明示的方法は、ユーザーが機能を使用しているうちに自動的に学習する、実際に使われるのに近いものです。

論文では、声が反響しやすい大きな部屋や、雑音の多い自動車内での認識精度向上が現在の課題として挙げられています。

人工知能分野で研究成果の発信を始めたApple

Appleは、研究内容の秘密保持に神経をとがらせていましたが、研究成果の発表ができない環境では優秀な研究者が定着しない、との批判を受けていました。

2016年12月、Appleは人工知能分野の研究者が研究成果を論文として発表することを許可し、同年末にはAppleの研究者による論文が初めて公開されました。

2017年7月には機械学習に特化したブログサイト「Apple Machine Learning Journal」を公開しています。同サイトには、すでに9本の論文が掲載されており、誰でも無料で読むことができます。

Source:Apple via MacRumors
(hato)

この記事がお役に立ったらシェアお願いします