製品進化とマネジメント風景 第136話 生成AIを有効に活用するマネジメント(その1)
2024年の後半から生成AIのビジネスへの応用が話題となっていますが、生成AIに限らず、AIの応用について、まずは整理する必要があります。なぜなら、AI利用による収益モデルが不完全であるにもかかわらず、投資が先行しているためです。
サービス業については、受付・案内業務のAI化が最も進んでいます。例えば、駅や商業施設でのAI案内があります。以前の案内AIは、AIという名前はついているものの、騒音が多いので音声対話は難しく、結局のところ、メニューを通しての対話型が主であり、その意味では従来のサービスと大差はありません。しかし、生成AIが組み込まれることにより、以前には対応できなかった複雑な要望に対応できるようになりつつあり、確実に柔軟性を増してきています。
窓口サービスなど、AIの対話能力は向上していることは間違いありませんが、現在は途上にあるため、性能不足でユーザーが求めていることに応えられていない場合も多々あります。それ自体は仕方がないのですが、問題は、性能不足であるにも関わらず、無人対応を徹底している企業、機関があり、そうなると却ってユーザーはストレスを感じるようになってしまうことです。
私自身も、電話予約のAIが、私の苗字をどうしても聞き取ってくれず、諦めた経験があります。一方で、聞き取り能力さえ向上すれば、殆どの窓口業務はAIが対応できるようになり、世の中の殆どの窓口業務を置き換えてしまうくらいの潜在力を持っています。クレーマー対策としても有効でしょう。
さて、製造業や技術系企業への利用についてですが、設計・製造や研究・開発へのAI活用が考えられます。その場合、AIの機能としては、大きく、識別系、予測系、実行系、支援系および説明系の5つが想定されます。
識別系は、設計における不整合や製造における不良品や異物の検知や識別があります。製造時の作業や作業場の危険性の識別、設備や計測データの異常の識別をします。これらは従来型のAIでも対応可能な領域です。
予測系は製品の需要予測、資材コストあるいは製品売価の予測などが対象とされています。様々な情報源から決められた項目のデータを取得し、解析し、予測カーブを推定するものであり、これも従来型のAIで対応可能な領域です。
実行系の代表例は自動運転やロボットですが、これらについても、センサーからの情報を処理して機能するように制御するものであり、従来型のAIで対応可能な領域です。
では、生成AIはどこで役に立つのかと言えば、それは支援系と説明系の業務です。
支援系で最初に出てくるのは特許、論文、規制などの調査とその翻訳、要約です。主に研究・開発時に役立つものです。英語は読めても、フランス語やドイツ語は苦手という人は多いでしょうから、翻訳とその要約のニーズが最も高いと考えますが、それに限らず、複数の特許や製造法を比較分析し、その差の分析や共通点の抽出などにも役立ちます。
2番目は設計や製造支援です。3次元CADについて、生成AIを通して初期のモデルを迅速に作成できます。また、細かい修正についても、大部分は生成AIで対応可能であり、人間よりも上手に行います。
製造プロセスについては、過去のデータ蓄積が十分にあることが前提となりますが、新しい対象物の製造プロセス条件について、AIとの対話を通して、初めから最適に近いパラメータを設定してくれるでしょう。
制御系の設計ではソフトウェア開発が重要な仕事になりますが、ソフトウェア開発は、人間が要求仕様を作成し、それに基づいてAIがソフトウェアの雛型を作成し、この雛型を人間が検証・確認し、自身で修正する、あるいはAIに修正させて完成させるというプロセスが今後の主流になるでしょう。
説明系は、説明する相手が理解しやすいように、説明内容を画像に変換する時に絶大な効果を発揮するでしょう。画像は静止画がメインでしょうが、要すれば動画化することで、相手の理解を大きく促進することが可能です。説明する相手は、まず、顧客ですが、社内の幹部説明用としても役に立つでしょう。
加えて、以前から、「AIは何らかの答えを出すが、その答えが出てきた理由が人間には分からないので、AIを信じて良いのか分からない」という意見が多かったですが、大量に事例のある業務であれば、生成AIは統計的な確率論に基づいて、ある程度、納得性のある回答をしてくれるでしょう。とは言え、すべての人が納得するほどの、論理的な回答はまだ無理でしょう。
このように生成AIは支援系、説明系で役に立ち、人間のパートナーとして、その役割は年々、増大していくことになると考えられます。このような使い方のメリットは、AIはあくまでも相談相手ではあり、最終判断を行う主役は人間であることです。前述の実行系AIは、原則としてすべてをAIが自ら判断して動くので、時に人間の害となる場合が出てきますが、支援系、説明系では、使う人間が注意さえすれば、そのような問題は回避可能です。
生成AIは、大きく画像系、言語系および音声系の3つに分類されます。画像系は、今は2次元の静止画と動画が主流ですが、いずれ3次元画像やホログラムを使う形に進化していくことになるでしょう。
言語系はテキスト系だけでなく音声系の一部を含みます。それゆえ、前述の支援系、説明系は、テキストによる説明だけでなく、音声による説明も出来るようになりました。
なお、音声系は言語系も含みますが、音楽を含む、すべての音を含みます。音楽分野では、既存の曲を学習した上で、新しい曲を作曲することが可能です。鳥や動物、工場や車など音も再現可能であり、もはや自然の音なのかAIが作った音なのか聞き分けられなくなるのは時間の問題です。
上記を踏まえた上で、今回は、画像系の生成AIに焦点を絞り、そのコンセプトを解きほぐしていきます。同時に今の生成AIと人間の脳との違いを検討していきます。
画像系の生成AIの進化は、ニューラルネットワークの1つであるオートエンコーダから始まりました。このオートエンコーダはそもそも画像の圧縮技術を起源としています。
圧縮が目的だったので、その出力は容量を圧縮しつつも出来るだけ入力を忠実に再現することを目標としていました。そして、目標を実現するために、オリジナルの入力画像と圧縮された出力画像のその間に中間層を1つ入れます。
この中間層を入れる目的は、画像空間を圧縮するために、画像の特徴だけを抽出した別の空間に転写しつつ、次元を削減します。このプロセスは一種の暗号化なのでエンコードと呼ばれます。次に、次元が圧縮されたものを元の画像空間に戻します。これは暗号を復号することに因んでデコードと呼ばれます。これにより、画像の品質を出来るだけ維持しつつ、容量を圧縮できるわけです。
このオートエンコーダを多層にすることで複雑な処理ができるので、多層化が進み、それがディープラーニングと呼ばれるようになりました。
オートエンコーダはいくつかの方式に分類されます。第1が畳み込み方式です。畳み込みのプロセスで特徴を抽出して次元を削減しつつ、一方で、得られた特徴の依存性を減らすためにプーリング層を加えた方式です。カナダのトロント大学がCIFAR100で驚異的な改善を示したことを契機として有名になりました。
第2の方式は積層オートエンコーダと呼ばれ、1層ずつエンコード、デコードのプロセスをしながら多層のプロセスを行うものです。最近はあまり使われなくなりました。
第3の方式は変分オートエンコーダと呼ばれ、本日の主役です。第1の方式との最も大きな違いは、確率分布の考え方を持ち込んだことです。確率分布としては正規分布を用います。ここは分かりにくいので、簡単化した例で説明します。
現実世界で遭遇するデータは、そのデータ数の規模を大きくしてプロットすると、バラツキながらも正規分布に近い形をとります。その際に、正規分布に沿うと仮定して、データにベストフィットする正規分布を求めると、平均値と標準偏差を得られます。この考え方を画像のあらゆる場所において応用し、まず、入力の画像を正規分布で近似し、平均値と標準偏差の多次元のベクトルに変換するということです。
そのプロセスの後、次元削減のために特徴空間に転写します。転写された特徴空間においても、前述の確率分布が維持されるものと仮定して扱います。この仮定こそが生成AIの鍵と言ってよいでしょう。
第1、第2のオートエンコーダでは、画像を特徴空間に転写した際、空間内でのパラメータはあちこちに離散的に存在しています。仮にそのパラメータを少し変更すると、出力画像は入力画像とまったく異なる画像になってしまいます。しかし、確率分布を持ち込んだ第3の方式では、特徴空間に転写した際、パラメータは一定の範囲に連続的に存在することができます。よって、その範囲内であれば、異なるパラメータ値を選択しても、入力画像をほぼ再現しつつ、細かい点で異なる画像を作り出すことができるのです。
最もシンプルな変分オートエンコーダでは、画像空間(例えばx)から次元を削減した特徴空間(例えばz)への転写を行います。しかし、すぐに思いつくことですが、同じ考え方で特徴空間zの次元をさらに削減するために、特徴空間z1への転写をすることができます。これが多層の変分オートエンコーダです。
この多層化のメリットは、画像における大局的な特徴と局所的な特徴を分離して学習できるという点です。人間に当てはめて考えると、製品のシステム、モジュール、部品、素材について、同時並行的に学習するということです。
画像系生成AIが拡散モデルを用いていることはご存じだと思いますが、この拡散モデルは、基本、この多層の変分オートエンコーダとほぼ同じです。
例えば、沢山の人間の顔写真を学習させると、特徴空間のいくつかの部分に集中的に分布していることに気付くでしょう。集中的に分布している所からパラメータを選定してデコードすると、人間の顔に見えるものを生成できるということです。結果として、全体としては誰にも似ていないが部分的には誰かに似ている人間の顔を創り出すことが可能になるのです。
以上から、次のようなことを予想することが出来ます。大量のデータがあり、その分布が正規分布を取る案件では、生成AIは大きく活躍できる可能性があるということです。
一方で、正規分布に乗らない案件については、あまり活躍できないだろうということでもあります。正規分布に乗らないとはどういうものか? それは、これまでにデータが取得されていない新しい切り口のものということです。
このように考えていくと、人間が進むべき道がぼんやりと見えてきます。それは、どんな分野の仕事であれ、どのようなデータが出てくるのかを想像できないような、新しい切り口を生み出し続けることです。これは、今の生成AIでは対応できず、ここに人間の存在意義があると言えましょう。
このように述べると「大変だな」と感じる人もいるかもしれません。しかし、新しい切り口を見つけることは、実はそれほど難しい話ではありません。
なぜなら、既存のものに新しいものが追加された環境では必ず新しい問題、新しい不便を生み出します。人間の仕事の多くは、結局の所、不便さの解消を目的としています。つまり、生成AIにより人間の働く環境が変化すれば、結果として次から次へと新しい仕事が生み出されることになるでしょう。
新たに発生した不便を解消する際、生成AIと対話しながら考えれば、従来よりも効率的に解決策を見つけられるはずです。生成AIによって、既存の仕事の一部は置き換えられることになるでしょうが、一方で人間にとっての新しい問題、新しい仕事が日々生み出されます。極端な選り好みをしない限り、人間の仕事が減るとことはないと考えます。いかがでしょうか?