ディープフェイク音声の自動判別法

北陸先端科学技術大学院大学先端科学技術研究科
生体機能・感覚研究センター

鵜木祐史うのきまさし教授

インターネット上では、画像や映像、あるいは音声の「なりすまし」が社会問題となっています。悪質なディープフェイクから私たちの暮らしを守っていくには、何が本物で何が偽物なのかを見極めることが重要になります。鵜木先生は、人間の聴知覚メカニズムを工学的に応用する研究を続けてこられました。今回、ディープフェイク音声の判別法に取り組まれる中で得られたこと、新たな課題などについてお聞きしました。

人間の耳と同等の機能を
計算機につけたい

――先生の研究されているテーマについて教えてください。

私は聴覚の研究をしています。聴覚といっても私は情報科学の分野の人間ですから、基本的にはコンピュータを使って「人間の聴覚と似たような機能を計算機につける」ことを大きな目標として取り組んでいます。
コンピュータで音に関わるものというと、スピーカーとマイクしかありません。人間の聴覚には素晴らしい機能がたくさんありますが、今のところ計算機上で扱える音の処理はかなり限られているわけです。そこをなんとか切り拓いていきたいということを、学生時代から考えていました。

研究を始めた頃は、いかに聴覚機能を計算機で実装するのか（computer visionに対するcomputer auditionのようなもの）、その点ばかりに目が向いていました。しかし、海外の大学に１年間研究留学をした際、人間の聴知覚をモデル化する場合には実装するだけでなく、そのもととなるデータを取ることが大事だと気づきました。日本人はデータのないところでモデルを作るのが得意ですが、科学の研究では、人間の持っている機能のデータを、できるだけシンプルなモデルで説明することが重要になります。そのため、帰国してからは、信号処理だけでなく、聴覚心理学という分野も研究するようになりました。

聴覚心理学というのは、音（物理量）に対する感覚を紐づける学問です。例えば、人に音を聞いてもらい、その反応からどのように感じたのかを調べたり、音がこの条件では聞こえる・聞こえないという閾値（いきち）を調べたりするなど、音と心理の関わりを研究します。私の研究室では、この聴覚心理学が研究の１つの柱になっています。そして、もう１つの柱が、聴覚心理学の研究でわかったことを信号処理の研究に活かす（コンピュータでどのように実装するか）というものです。ひとことで言えば、聴覚でわかったものを工学的に応用する研究ということになりますね。

――そもそも先生が聴覚に目を向けられたきっかけは何だったのですか？

学部生だった頃、第二次AIブームがちょうど終わる時期で、私はニュラールネットワークに興味を持つようになりました。例えば、人間の脳から「手を動かせ」と指令（神経信号）が出ると、それが神経回路を通って手が動きます。人間の神経回路上にはいろいろな雑音が入ってきているはずなのに、正しく指令が伝わって（神経信号が伝達して）手が動かせるわけです。なぜ、きちんと伝わるのかを考えていくと、神経回路の伝達系に雑音を除去する仕組みがあるのではという考えが出てきました。今でこそニューラルフィルターという研究がありますが、当時はなかったですからね。

その後、AIブームが下火となり、脳に代わる研究対象を考え始めた時に、人間の聴覚にも同じような仕組みがあるのではないかと思ったのです（本当は聴覚＋脳なのですが）。人間の聴覚は、聞きたい音だけをうまく聞き取ってしまうとか、本当にすごい機能を持っています。それがどのようにしてできているのかという原理原則を知りたくて、研究するようになりました。

北陸先端科学技術大学院大学先端科学技術研究科／生体機能・感覚研究センター鵜木祐史教授 — 「人間の聴覚は本当に素晴らしい。雑音の中でも聞きたいことだけを聞き取れるのですから。そんな聴覚の仕組みを知りたくて研究を続けています」

本物か偽物か、
音声の特徴から判別する

――今回、調査・研究のテーマに「ディープフェイク音声」を選ばれた理由を教えてください。

皆さんも「ディープフェイク」という言葉をご存じかと思います。すでにディープフェイクを利用した詐欺事件なども起きており、なりすましが大きな社会的脅威となっています。「ディープフェイク」の中でもAI音声合成技術によって作成されたメディアクローン音声は、「ディープフェイク音声」とも呼ばれ、専門家でさえ本物かどうか判別が難しくなっています。そのため、本物か偽物かを見破る仕組みを確立し、悪用を未然に防ぐ対策に取り組みたいと考えたことがきっかけです。

――音声を判別する方法では、「メルスペクトル」という特徴を利用するのが一般的だそうですね。先生のご研究とはどのような違いがあるのでしょうか？

ディープフェイク音声については、AIの深層学習技術を使って判別する研究が多く進められています。そのほとんどは「メルスペクトル（音の高さを考慮して変換された周波数スペクトルの１つ）」と呼ばれる音声の特徴を使用したもので、皆さんその中で少しでも精度を高めていくことを目指しています。

ただ、判別法を考える時に私がポイントだと思うのは、「なぜ、その特徴を採用しているのか」ということです。恐らくメルスペクトルを採用した理由をたずねると、ほとんどの人が「音声認識などでみんなが使っているから」と回答されると思います。そこが私の考え方とは少し違うと思います。

研究は、結果が良ければ全て良いというものではなく、なぜそういうことができるかという仕組みを解明することが重要だと思うのです。ですから、ディープフェイク音声の判別についても、なぜその特徴から「これは本物で、これは本物ではない」と言えるのかを明確にしたいと考えました。

――具体的にどのような調査・研究を行われたのですか？

ディープフェイク音声の判別方法として、最初はあらかじめ音声の中に知覚不能なデータ（電子すかし）を埋め込み、それを手掛かりに判別するという方法を考えました。電子すかしの技術は、著作権の保護などを想定してすでに開発していたので、それを使うことを考えたのですが、電子すかしはオリジナル音声に事前に埋め込まなければなりません。現在出回っている全てのオリジナルデータに埋め込むことはできませんよね。そこで今回は、未知のデータでも、そこに入っている特徴から本物か偽物かを判別する方法を確立することを目指しました。

今回の調査・研究では、私たちは人間の声を出す部分、「音声生成」に着目しました。人間は声帯を震わせ、口の中に音響空間を作り、そこで調音して「あいうえお」のような様々な音声を発します。世の中には様々な音声生成のソフトウエアがありますが、私たちがその音を聞いたときに、それが人間の口から出た本物の音声か、機械で作った合成の音声かはわかります。AIで作られた音声もだいぶ本物っぽくなっていますが、やはり違いを感じ取り偽物だとわかるのです。

では、なぜ違いを感じられるのかというと、音声の中にある特徴に違いがあるからです。この判別のための特徴を山のように考えました。いくつもの候補を検討した末に、「ジッター」「シマー」という音声の特徴が使えることがわかってきました。ジッターとは、声帯が振動した時の周波数（基本周波数といい、声の高さに関係する特徴）の揺らぎを、シマーはその振幅の時間変動を表すものです。このジッター、シマーを見てみると、自然な音声では急激な揺らぎは起こりません。一方、機械で合成的に作った音声には、自然な音声のような揺らぎがみられず、不自然に急激な変動がみられます。この特徴によって、その音声が本物かどうかを判別できるのではないか考えました。実際に調べてみると、本物の音声とAIベースで合成された音声のジッター、シマーには明確な違いが現れました。

下の図は、今回の調査・研究をもとに提案したディープフェイク音声検出法です。この検出法は２部で構成されており、機械学習を利用した識別法のベースラインモデルとジッター、シマーを利用した識別法を組み合わせています。実際に判別方法を評価してみると、これまでの判別方法の中で最もEER(Equal Error Rate)の値が低く（29.90％）、ジッター、シマーを利用する優位性が確認できました。

AIが進化しているからこそ、
根本を見ることが大事

――今回の調査・研究で印象に残っているエピソードがあれば教えてください。

ジッター、シマーで音声の判別を試みている時、最初に使っていたのはとてもローテクな識別器でした。それでも最初はメルスペクトルによる判別法よりも精度の高い結果が得られていたのですが、メルスペクトルで使用する識別器を機械学習でトレーニングすると、だんだん精度が上がり、最終的には同じくらいになりました。音声の特徴が大事だと言っているものの、AIによる学習があまりに性能を上げすぎてしまい、結果だけをみるとAIによる学習だけでなんでも解決できるのではないかという錯覚さえ覚えました。

AIの技術が進み、私たちの身の回りにある諸問題は機械学習によって全て改善できるようになっていくかもしれません。ただ、改善はされても問題を根本的に解決できたかどうかはわかりません。やはり、根本を探っていく中で得られることが、その次の応用につながっていくのだと信じています。だからこそ、音声の特徴を探る研究を深化させ、それに適した識別器の開発やAIによる学習を検討していかなければならないという気持ちになりました。

――根本を明確にすることで、音声合成技術の可能性は広がっていきますね。

世の中にはディープフェイクを使って悪いことを考える人がいっぱいいます。その一方で防御する技術は少ないというのが現状です。今は検出できていることも、AI技術がさらに発展し本物そっくりの音声合成が登場すればディープフェイクを検出できなくなる可能性は否めないでしょう。

しかし、悪用されるなら音声合成の技術がないほうが良いかというと、決してそういうわけではない。私は、音声合成技術はとても大事なものだと思っています。例えば、喉頭がんや口腔がんで患部を除去してしまったために、音声をうまく発することができなくなった患者さんは、話すことをためらってしまいます。それではその方のQoL（生活の質）は低下するばかりです。うまく話ができない方も、テキストで打つと音声が出るような仕組みがありますし、その音声が本人の声であればより望ましいことだと思うのです。そういう方たちのために本人の声データをたくさん収録し、AIにそれを学習させることで、その方の音声合成器を作る。これが正しい使い方だと思います。

正しくも、悪さにも使える音声合成技術は諸刃の剣ではありますが、それを正しく使えるようにしていくために、判別の技術もさらに改善していく必要があると考えています。

聴覚の優れた機能を応用し、
世の中に役立つ研究を続けたい

――先生の今後のご研究の展望について教えてください。

今回の調査・研究で、ディープフェイク音声の判別にジッター、シマーを利用できることは大きな発見だったと思っています。ただ、これは人間の声を出す機能に着目したもので、人間の聴覚のメカニズムに基づいたものではありません。聴覚には、声だけではなく外界のいろんな音を聴き取る、もっと優れた機能があります。今は、「音色」に着目し、その特徴から音声を判別する方法に取り組んでいるところです。

人間の聴知覚には大きく分けて３つの属性があります。それが音の大きさ、音の高さ、音色です。音色は、学問上の定義がとても複雑です。例えば、２つの音があって、同じ大きさ、同じ高さの音なのに、違って聞こえるという時に、「音色が違う」と表現します。音の大きさ、高さは、音の物理で明確に定義ができるのですが、音色については大きさ、高さ以外の全てという括りになり、対応する物理量がまだすべてわかっているわけではありません。その中で、ザラザラする、キンキンするといった音色の特徴とそれに対応する物理量がなんであるかは、少しずつわかってきています。これらの特徴もまたディープフェイク音声の判別に使えるのではないかと考えています。

私の研究では、調査・研究で得られたことを工学的に応用していくことも柱としていますから、こうしたディープフェイク音声の判別でわかってきたことを、さらに異常音検出や正しい・正しくない、壊れている・壊れていないなど、他の判別技術への展開も進めています。少しでも世の中の困りごとの解決に役立てられたらという気持ちで取り組んでいきたいと思っています。

年齢制限がなく、
自由度の高い助成制度

本学の中で様々な研究支援制度の案内があり、KDDI財団の助成制度もそれで知りました。こうした制度の中には年齢制限があるものも多く、シニアになってくると申請できるところも限られてきます。その点でも年齢制限がないことはありがたいと思いました。

また、実際に助成を受けて感じたのは、助成金の使途の自由度が高く、自分で考えたように使えるということです。研究には設備投資も必要ですが、人的資源はとても大事です。どれほどいいコンピュータがあったとしても、それを使いこなせる人がいなければ意味がありません。本学には、ラボラトリーアシスタント、リサーチアシスタントという制度があって、学生たちに給付という形で研究の謝金を支払うことができます。助成金の一部は、本研究課題に関わった学生たちに対する謝金として使わせていただきました。このような用途で利用できる助成制度は少なく、とても助かりました。

いろんな形で研究したいけれどサポートが受けられるチャンスが限られている若手の研究者、申請の年齢制限が近いシニアの研究者の皆さんは、KDDI財団の助成制度を活用されるといいと思います。助成制度は３年の期間をあければ、また申請が可能になるとのことですから、調査・研究が次の段階に進んだ時に、またサポートをお願いできればと思っています。