〒186-0002
東京都国立市東2-21-3

TEL : 042-843-0268

製品進化とマネジメント風景 第88話 説明可能なAI (XAI) の進化とマネジメント

ここ1~2年のAIについての評価を読むと、ようやく地に足がついてきたなという感覚を覚えます。一時は、「何でもできる。人間を脅かす」ものであるという印象が表にだされていましたが、今は「AIにも得意不得意がある。だから人はAIを自身の能力を補完する手段として使えばよいのだ」というニュアンスに変わってきました。 

それを認識した上でも、「これからの時代は、何でもAIの言うことに従うようになるのではないか?」という懸念の声が残っています。「なにを言っているんだ。私はAIの言いなりにはならないぞ!」という声が聞こえてきそうですが、上記の見解には一定の根拠があります。 

これからその理由を説明しますが、その前に1つ前提を述べておきます。それは、「人が物事の判断を行う時、個人で行う場合と組織で行う場合では異なる脳の使い方、異なる判断を行うことが多い」ということです。 

一般的に人の脳は省エネが好きであり、重要でないことは出来るかぎりルーチン化し、考えないでも行動できるようにする強い傾向があります。この特性は、特に個人の行動でよく見られます。自分さえ納得すれば良いので、この省エネモードを多用したくなるのです。 

そこにAIが入り込む余地があります。まずは些細な問題からAIを使い始めるのでしょうが、利用を通してその便利さや実用性を実感してくると、次第に重要な問題にも使おうと思い始めます。その結果、何でもAIに頼るようになってしまう可能性が出てくるのです。

一方の組織での判断は違います。人が人を説得する必要があり、しかも決定に関与する人が複数いる場合には全員を納得させなければなりません。当然ですが、しっかりした根拠に基づいたロジカルな説明が求められます。省エネモードではこの仕事はできないので、脳をフル回転させる必要が出てきます。 

上記の話をすると、「ならばAIは個人的判断に入り込むかもしれないが、組織的な判断には入り込むことはないな」と思うかもしれません。しかし、実は、組織的判断においてもAIが入り込む余地はあります。 

その理由を説明しましょう。前提として、AIの予測精度が高いと実証されてからの話です。予測精度が高まってきて、例えば、A案の成功確率は70%、B案の確率は30%という結果が出てきたとします。組織人である貴方はどちらの案を選びますか? 

個人であれば、仮にA案の成功確率が高くても、個人としてその案に感情的に納得できなければ却下できます。実際、この種の心理学テストが多数行われ、少なくとも米国においては、たとえ利益が減るとしても自分の判断に従うケースが多かったと報告されています。 

一方、組織の場合、感情論は抑制されるので、確率の高いA案を採用する可能性が出てきます。最大の理由は、もし、B案を採用して悪い結果が出てきた時に言い逃れが出来なくなるからです。 

逆にA案を選定していれば、仮に不成功の結果になったとしても、「AIが予想した案であり、誰も反対しなかった」という言い逃れが出来るからです。ですから、ここにAIが入り込む余地があるというわけです。 

とは言え、今のAIには足りないことがあるので、まだ、組織での採用は限定的になるでしょう。足りないのは、「なぜ、その結論に至ったのか」の説明が下手だからです。 

深層機械学習は、予測精度は良いのだがその結果を人が分かるように説明できない一般に言われます。人の脳は省エネを求めるのですが、同時に物事の原因や判断の理由を理解したいという強い欲求も同時に持ち合わせています。 

ですから、どんなに優秀なAIであっても、出した結果を人にうまく説明できない限り、組織での利用は限定されるでしょう。逆に言えば、AIの結果を上手に説明できる補助ツールがあると、AIの利用が爆発的に進む可能性があるということでもあります。 

AIの結果に説明性を与えてくれる補助ツールを表す言葉として、最近、XAIという言葉を見掛けることが増えてきました。XAIの代表的な和訳は「説明可能なAI」ですが、「解釈可能なAI」という意味で使われる場合もあります。 

「説明可能なAI」と「解釈可能なAI」の意味は似ているようですが、意外に大きな違いがあります。 

「説明可能」では、人が予測の判断理由を理解できることが重視されます。理由を説明することに焦点を当てるため、必ずしもAIの内部構造を理解する必要はなく、ブラックボックスであるAIの判断を外からロジカルに説明できるならば十分とされます。よって、深層機械学習を補完するツールとして役に立つでしょう。 

これに対して「解釈可能」では、予測に至るプロセスを理解できることが重視されます。つまり、入力を変えると出力がどう変化するかを予見できることが求められます。これは、AIがブラックボックスではなく、ホワイトボックスでなければならないということです。昔ながらの機械学習はこの要件を大抵は満たしています。 

AIに求めるものの代表として「説明可能」、「解釈可能」を挙げましたが、最近はAIに対して「信頼できる」、「説明責任のある」あるいは「公平性のある」ことを求めるケースも増えてきました。 

「信頼」という日本語には注意が必要です。英語であれば、TrustworthinessとReliabilityという異なる単語が用意されていますが、日本語では同じ単語を用いるためです。 

Trustworthinessの意味は、利用者の経験と整合し、感情的に肯定できるという意味があります。予測の正しさとは異なるニュアンスです。ですから、「私は彼を信頼している」という使い方をします。これは、彼の知性を信頼しているというよりも、彼の人間性を信頼しているという意味で使われる場合の方が多いでしょう。 

現在、「AIに人格を与える、与えない」という議論が進みつつありますが、仮に人格を与えるならば、このTrustworthinessが重要になります。個人的な見解を述べると、AIを人のように信頼するのは無理だと思います。 

一方のReliabilityは、発言、知性、予測など、表示された結果の精度が良く、その結果に従うことが利用者に価値をもたらすという意味を持ちます。「この予測法は信頼性が高い」というのが代表的な使い方です。組織でAIを使う場合には、こちらの意味で使うことが多いでしょう。 

「説明責任のあるAI」という言葉も使われつつあります。この言葉は、「責任を取れるAI」と勘違いしそうになるので注意が必要です。あくまでも、使用したデータやモデルが誰の責任か(自社か他社か)を対外的に説明できるという意味で使われています。 

最後の「公平性のあるAI」は、使用しているデータやモデルが倫理的に公平であることを意味しています。これからの時代に重要になりそうな考え方ですね。 

ここからは、説明可能なAIに焦点を当て、LIMEとSHAPという2つの方法について述べていきます。他にも手法はいろいろとありますが、実用性から言ってこの2つが代表的な存在だと言えるからです。 

LIMEというのは、Local Interpretable Model-agnostic Explanationsの略語です。画像やテキストを含む多様なデータに対して、局所的な線形近似をし、人に説明をするタイプのツールです。 

AIが出した結果を「解釈可能」なものに変換する際に役立ちます。ただし、局所的な説明なので、事例ごとに解釈が変わり、一貫性のある解釈が出来ない場合が出てくる欠点があります。 

しかし、人間の脳は線形予測と非常に相性が良いので、この説明を見て分かった気分になれる可能性があります。脳は不安な気分を嫌うので、この分かった気分は安心を与えてくれます。 

ReliableではなくてもTrustworthyな印象を与えるので、人はそのAIに対して信頼感を持つかもしれません。そういう意味で、LIMEは今後、利用される場面が増えてくるかもしれません。 

もう1つのSHAPは、SHapley Additive exPlanationsの略語です。何かの予測をした時、その予測に影響を及ぼすパラメータの貢献度を可視化するツールであり、非常に強力です。個人的には、これによってAIの説明力が大幅に向上すると考えています。もちろん、欠点もありますが・・・ 

この方法はもともと、複数のメンバーがゲームを行って報酬を得た時、その報酬をどう公平に分配するかを考えた時に提案された方法でした。貢献度を表すパラメータとしてShapley値が使用されます。 

このShapley値ですが、数式で説明すると分かりにくいため、分かりやすい具体例で説明します。 

ここに3人のプレイヤーA,B,Cがいたとして、彼らが連携してゲームを行った場合を想定してください。この場合、連携の組み合わせは参加する順番を考慮し、全部で6つのパターンになります。具体的には、ABC, ACB, BAC, BCA, CAB,CBAです。 

ABCとACBの違いは次のように考えてください。ABCでは、まず、Aがゲームを始め、次にBが加わり、最後にCが加わったということです。ACBは、BとCのゲームに加わる順番が変わります。 

貢献度の評価をするために基礎データが必要です。まず、A,B,Cが個人でゲームをしたときの結果、これをV(A),V(B),V(C)としましょう。Vとしては、複数回の結果の平均値を用いるのが妥当です。 

次に、AとB、AとC、BとCが連携した時の結果をV(A,B),V(A,C),V(B,C)とします。そして最後にA,B,Cが連携した時の結果、V(A,B,C)があります。これらの結果を揃えると、A,B,Cのそれぞれの貢献度を算出できます。 

この方法は、既にお金を貸す時の与信評価や人事評価に用いられ始めています。 

今、AIが、X氏が返済不能になる確率を90%と予測し、Y氏が返済不能になる確率を30%と予測したとします。返済確率を計算するパラメータが、仮に職業(A)、年収(B)、年齢(C)であるとして、これまでに集めたデータから前述のVの値を求めれば、X氏とY氏における確率50%の差がなぜ生じたか、その寄与度を具体的に明らかにすることができます。 

データが多数あり、また、それを表現するパラメータが多数ある問題でも、それぞれのパラメータの寄与度を算出することが出来るので、応用範囲が広い方法だと言えます。

さらに一つのパラメータ(例えば年齢C)を変化させたシミュレーションをした時、ある年齢で非線形的に返済確率が変わるという結果が出たとして、それが一般人の感覚と合致していれば、納得性の高い説明になるでしょう。 

上の説明ではパラメータは3つであり、人間も理解しやすいと思います。しかし、AIはパラメータの数を増やして予測精度を高めてくるかもしれません。AIは、パラメータの数が多くても気にしませんが、人間は気にします。物事を理解する時、そのパラメータ数が10個くらいまでならば何とか対応できるでしょうが、それ以上になると、理解できなくなってくるでしょう。 

多数のパラメータがある場合、それらが完全に独立した関係にあるのは希です。大抵、相互に影響を及ぼしあい、何らかの従属関係があるものです。しかし、人間の脳は複雑な関係性を嫌い、少数の独立したパラメータでの説明を求めます。 

実際、相互作用が強く、従属関係にある場合でも、突き詰めていくと、本質的で影響力の強いパラメータを見つけられる場合が多々あります。その本質的な影響を及ぼす少数パラメータを見つけるのは、やはり人間の持ち味だと考えます。 

当社は製品の安全性を追求する航空系の開発法を提供しています。安全性は非常に多くのパラメータの影響を受けるので、そこから本当のコアを見つけ出すノウハウを持っています。つまり、安全性を深く考えることにより、物事の間の本質的な関係性が見えてくる場合が多いということです。 

安全性の確保が見えてきたら、この手法をコストや生産性に適用することが出来ます。その結果、大きな改善が得られる場合が多数ありました。興味のある方はぜひ、当社にご相談ください。