こんにちは、ふめりんです。 今回は「犬と猫をどうやって見分けているか?」を出発点に、ChatGPTの画像分類の仕組みを解説しながら、AIに起きる“意外な現象”——「忘れる」という性質に迫っていきます。
AIの画像認識と人間との違い
ChatGPTって画像も見えるの?
最近のChatGPT(GPT-4oなど)は、画像を見せると「これは○○ですね」といった説明をしてくれます。 まるで画像を“見て理解している”かのように思えますが、実はちょっと違います。
ChatGPTは、画像そのものを自分で処理しているわけではなく、 内部の画像認識専用AIに画像を渡し、その結果をもとに文章で返答しているのです。
イメージとしては、画像を見るのが得意なAI(視覚担当)と、言葉で説明するのが得意なChatGPT(言語担当)がいて、 ChatGPTが画像認識AIの結果を受け取り、それを自然な文章にまとめている、という感じです。
これは、人間で言えば「視覚野で見たものを、言語野で言葉にする」ような分業体制に近い構造です。
たとえば、犬と猫の写真を見せると、ChatGPTはこう答えるかもしれません:
「これは猫ですね。耳が尖っていて、顔つきも丸いです。」
これは、画像認識AIが「猫らしさ」を判定した結果をもとに、ChatGPTが文章化しているわけです。
AIはどうやって画像認識してるの?
AIによる画像認識は、ざっくり言うとこんな感じの仕組みです:
- 画像をピクセル単位で認識し、ピクセルごとに数値パターン化して取り込む
- その数字をもとに、特徴(目・耳・シルエットなど)を抽出
- 学習済みの「分類器」にかけて、「これは95%猫っぽい」「5%犬っぽい」と判断
この「確率で判断する」というのがポイントです。 人間が「うーん…たぶん猫かな」と迷うときと、ちょっと似ていますよね。
でも人間は少し違って、一発で判断できないときは、視覚以外の知識や経験も引き出して考えます。
「見た目は猫っぽいけど、吠えてたし…もしかして犬?」
「そういえば、猫は尻尾をピンと立てるって聞いたな」
「前に猫を飼ってたとき、あの動き方は犬っぽくなかった」
こんなふうに、人間は視覚だけでなく、音、行動、過去の経験、知識なども加味して判断します。 ここに、AIとの大きな違いがあります。
AIの“思考”は人間の脳をまねしている?
ところで、そもそもAIの仕組みってどうやって作られているか知っていますか?
実は、ChatGPTを含む多くのAI、とくに画像認識や言語処理を行うニューラルネットワーク型AIは、 人間の脳の仕組みを参考にして作られています。
人間の脳では、ニューロン(神経細胞)同士が電気信号でつながって情報を処理しています。 この構造を数式とデータで再現しようとしたのが「人工ニューラルネットワーク」です。
AIのニューラルネットワークはどう“思考”しているのか?
AIに犬と猫の画像をたくさん見せて学習させたあとで、犬の写真を1枚ポンと見せてみます。 このときAIの中では、人間の脳のように、以下のような“電気信号の流れ”が起きていると想像してみてください。
- 耳の形が犬っぽい → ニューロンAが反応
- 毛の色が犬っぽい → ニューロンBが反応
- 全体のシルエットが犬っぽい → ニューロンCが反応
このように複数の特徴に反応するニューロンが連鎖的に活性化することで犬の可能性が高まり、 最終的に「これは犬である」という判断へとつながります。
AIの意外な弱点「破滅的忘却」
ここからが今回の本題です。 今度は、このAIに「鳥と魚の違い」も学習させてみましょう。
すると…先ほどまでできていた「犬と猫の判断」が、なぜかできなくなってしまうのです。
AIの記憶は、各ニューロンの“つながり方”(=重み)として保存されています。 新しいタスク(鳥と魚)を学ぶとき、そのつながり方が再調整されてしまうと、 以前に「犬らしさ」「猫らしさ」を判断するために使っていた経路が壊れてしまうのです。
これが「破滅的忘却(Catastrophic Forgetting)」と呼ばれる、AI特有の現象です。
特徴がかぶるほど、忘れ方がひどくなる
この忘却は、「鳥と魚」の判断に使う特徴が「犬と猫」に似ているほど、より深刻になります。
たとえば:
- とがった形 → 犬の耳か鳥のくちばしか?
- ふわふわの毛 → 猫の毛か、羽毛か?
AIは同じニューロンを使い回すため、新しい特徴を学ぶたびに、古い知識が上書きされやすくなります。
ノートで例えるなら…
AIの記憶は、「1冊のノートにすべて書き込む」方式です。 犬猫のルールを10ページかけて書いたあと、同じページの上に鳥魚のルールを書いてしまう。 当然、元の文字はかすれたり消えたりしてしまいます。
一方、人間はタスクごとに「別のノートを使う」ように記憶できるため、忘却は起きにくいのです。
じゃあ、人間はなぜ忘れないのか?
ここまで読んで、「でも人間は、猫と犬を見分けたまま、鳥と魚も見分けられるよね?」と思った方もいるかもしれません。 その通り。人間は“破滅的には”忘れません。
では、なぜ人間には破滅的忘却が起きないのでしょうか?
人間の記憶は“モジュール式”と言われている
まだ仮説段階ですが、人間の脳には視覚・言語・記憶などの担当領域が存在しており、 情報処理の“モジュール分離”がある程度行われていることは、多くの研究で示唆されています。
たとえば:
- 犬猫の分類は「哺乳類の見分け」に関する記憶モジュール
- 鳥魚の分類は「非哺乳類の動物分類」に関するモジュール
それぞれが、ある程度独立して記憶・判断に使われているイメージです。
このため、新しく何かを学んでも、前に覚えたことが上書きされにくい構造になっていると考えられます。
モジュールを“呼び出して使う”という柔軟さ
人間が分類判断をするとき、必要に応じてさまざまな記憶モジュールを呼び出して、 「統合判断」する柔軟さがあります。
たとえば:
「これは毛があるから哺乳類っぽい」
「でも羽もあるし…飛んでたよな」
「あ、哺乳類に羽はないか。じゃあ鳥だな!」
このように、複数の分類ルールを並行的・段階的に呼び出して考えることで、私たちは「混ざった特徴を持つ動物」でも正しく分類できるのです。
だから私たちは、鳥を新しく覚えても、「犬ってなんだっけ?」とはなりません。
これは、知識が「1つのノートに上書き保存されていない」からです。 **それぞれの知識が“場所を分けて保存”され、“用途に応じて呼び出されている”**という感覚の方が近いかもしれません。
このあたりを踏まえると、人間って結構すごいんだなって思いますよね?
AIにも“忘れにくさ”を持たせるには?
破滅的忘却を防ぐために、研究者たちはいろんな方法を試しています。 その中でも代表的な3つの対策を、サクッと紹介します!
対策名 | 内容 |
---|---|
モジュール分離 | タスクごとに脳みそ(ネットワーク)を分けて、記憶が混ざらないようにする方法 |
統合ヘッド(マルチタスク学習) | 1つのネットワークで複数の分類を“同時に”学習し、共通する特徴の「違い」までセットで覚える。 「とがった部位」を文脈に応じて“耳”とも“くちばし”とも判断できるようにするスタイル。共有もできるけど混乱リスクもある! |
逐次処理(選択的な記憶呼び出し) | 状況に応じて必要なルールだけを呼び出す“賢い切り替え型AI”。人間の判断スタイルに一番近いけど超ムズい |
まとめ
今回は、AIのちょっと意外な性質、”破滅的忘却”について紹介しました。
そして、それに対して人間は、記憶をモジュール分けしながら、必要に応じて統合判断できるという“柔軟さ”を持っていることも見えてきました。
こうやって学んでいくと、「AIも万能じゃない」ということが見えてきますね。 とはいえ、AIがとても頼もしい相棒であることには変わりありません。
つまり、「AI最強!」と過信しすぎず、かといって「AIだめじゃん!」と遠ざけるのでもなく、 しっかりとAIの得意不得意を理解したうえで使っていくのが賢い選択ではないかと思います。
さて、次回は、ChatGPTが知識を手に入れる過程と、“あとから覚える”ことの難しさについてお話します。
コメント