LAC WATCH

セキュリティとITの最新情報

RSS

株式会社ラック

メールマガジン

サイバーセキュリティや
ラックに関する情報をお届けします。

テクニカルレポート | 

書いたのは人間か、それともAIか?生成AIコンテンツ識別の最前線

生成AIは、驚くほど流ちょうな文章を瞬時に生成するため、目ざとい学生がさっそく飛びつくのも無理はありません。特に、論文やレポートといったテキストの生成との相性が良いため、教師は大いに悩まされることになりました。そこで、AIが生成した文章と人間が書いた文章を見分ける必要性が高まりましたが、その識別は技術的に難しく、決定打は生まれていないようです。

ChatGPT公開後すぐにAI判定ツールも登場

世界に衝撃を与えた、米OpenAI社が開発・提供する対話型AIチャットサービス「ChatGPT」の登場は、2022年11月でした。これを誰よりも喜んだのは学生かもしれません。教師から与えられた課題を短いプロンプト(指示)として打ち込むと、「完璧と思われる」回答が一瞬で生成されるのです。このChatGPTの、教育界への影響力は大きなものでした。

その結果、AIが書いた文章を検知するソフトウェアも、まず大学から登場しました。翌2023年の年明け早々に、米プリンストン大学の学部生が「GPTZero」というツールを公開しました。その後、ビジネス化され広く普及しています。

GPTZeroは、調べたいテキストをWebサイトに貼り付けてボタンを押すと、「AIが書いた文章」「人間が書いた文章」「両方が混ざった文章」がそれぞれどのぐらいの確率なのか表示する、シンプルで使いやすいツールです。

一方、本家であるOpenAI社も、同じ2023年1月にオリジナルの検知ツール「AI Text Classifier」をリリースしました。入力した文章を「AI生成の可能性が高い」から「AI生成の可能性が非常に低い」までの5段階に分類します。しかし、OpenAI社は同年7月に公開を終了しました。理由は精度の問題です。同社によると、AI生成テキストの26%を「AI生成の可能性が高い」と正しく判定した一方で、人間が書いたテキストの9%をAI生成だと誤判定しました。この数字をいかに判断するかは議論すべきなのかもしれませんが、この時点では、誤検知が多過ぎて実用性に乏しいと判断されました。

いずれにしても、生成AIコンテンツの検知は、将来にわたって重要な課題であることを浮き彫りにしました。生成AIはますます高度化し、フィッシングメールやフェイクニュースを巧妙に生成する能力を持つようになってきています。これに対抗するため、その後も多くの検知ツールが開発されています。

有名な例として、以下のようなものがあります。

名称 開発元(国) 検知の方法 特徴
AI Text Classifier OpenAI社(米国) 言語モデルを用いて、入力されたテキストがAIによって生成された可能性を評価 教育機関や企業での不正検出に利用
GPTZero エドワード・ティエン氏(米国) テキストの複雑さと予測可能性を分析し、AI生成テキストである可能性を評価 教育分野での使用が想定され、教師が学生の提出物を評価する際に役立つ
Copyleaks Copyleaks(イスラエル) 人間の文章パターンを認識し、当てはまらないものをAI生成テキストの可能性大と判断 教育機関や企業向け
GLTR(Giant Language Model Test Room) ハーバード大学とIBM Watson AI研究所(米国) AIが統計学的なパターンによって単語を配置するという「クセ」を持つことから、人間の書いたものでないと識別 主に研究者や教育者向けに設計され、英語の文章を視覚的に検証
Winston AI Winston AI(カナダ) 人間が書いたテキストとAI生成テキストの両方の大規模データセットに基づき、それぞれに固有のパターン・特徴を認識して評価 教育機関、SEO専門家、ライター向けに最適化され、多言語対応
Turnitin Turnitin(米国) 独自のアルゴリズムを使用して、文章がAI生成かを判断 教育機関向けに特化し、学生の提出物がAI生成かどうかを確認。英語のみ対応
AI Text Classifier
開発元(国) OpenAI社(米国)
検知の方法 言語モデルを用いて、入力されたテキストがAIによって生成された可能性を評価
特徴 教育機関や企業での不正検出に利用
GPTZero
開発元(国) エドワード・ティエン氏(米国)
検知の方法 テキストの複雑さと予測可能性を分析し、AI生成テキストである可能性を評価
特徴 教育分野での使用が想定され、教師が学生の提出物を評価する際に役立つ
Copyleaks
開発元(国) Copyleaks(イスラエル)
検知の方法 人間の文章パターンを認識し、当てはまらないものをAI生成テキストの可能性大と判断
特徴 教育機関や企業向け
GLTR(Giant Language Model Test Room)
開発元(国) ハーバード大学とIBM Watson AI研究所(米国)
検知の方法 AIが統計学的なパターンによって単語を配置するという「クセ」を持つことから、人間の書いたものでないと識別
特徴 主に研究者や教育者向けに設計され、英語の文章を視覚的に検証
Winston AI
開発元(国) Winston AI(カナダ)
検知の方法 人間が書いたテキストとAI生成テキストの両方の大規模データセットに基づき、それぞれに固有のパターン・特徴を認識して評価
特徴 教育機関、SEO専門家、ライター向けに最適化され、多言語対応
Turnitin
開発元(国) Turnitin(米国)
検知の方法 独自のアルゴリズムを使用して、文章がAI生成かを判断
特徴 教育機関向けに特化し、学生の提出物がAI生成かどうかを確認。英語のみ対応

これらのツールは、言語モデルや訓練データの特徴などを手がかりに、文章の特徴を解析して判定します。みな、高精度だと訴求していますが、決して完全ではありません。

さらに、AI関連企業の中には、AI生成テキストを巧妙に変換し、人間が書いたものと誤認識させるサービスまで登場しています。AI検知ツールと回避技術の間で、イタチごっこの様相を呈しているのです。そのような状況下で、「OpenAI社が100%に近い精度の判定ツールを開発済み」と報じられました。

OpenAI社が高精度のAI判定ツールを公開しない理由

2024年8月4日付の米Wall Street Journalは、「ChatGPTを使った学生のカンニングを捕まえるツールをOpenAI社は持っている。だが公開していない」と報じ、高精度のAI判定ツールの存在をスクープしました。

この技術は「ウォーターマーク」(電子透かし)と呼ばれる手法を用います。電子透かしとは紙幣の透かしの電子版で、AIが文章を生成する際に「トークン」(テキストの基本単位)を予測するプロセスを変更することで、生成された文章には「ユーザーに見えない特徴」を埋め込むものです。この特徴を検出することで、AI生成かどうかを判定します。

関係者によると、検出精度は99.9%に達し、「電子透かしを見落とす確率は、明日太陽が蒸発する確率よりも低い」と自信を示していたそうです。このプロジェクトは社内で約2年間議論され、約1年前からリリース準備が整っていたものの、現在もペンディングの状態が続いています。

公開が遅れている理由は、さまざまな懸念があるためです。例えば、英語がネイティブではないユーザーが誤判定を受けやすい可能性、透かしを入れてもユーザーが結果を多言語へ翻訳した後に再翻訳する抜け道の存在、絵文字の追加・削除で検出を回避できてしまう技術的な課題、ChatGPTのクオリティが低下する可能性などです。

それらに加え、ユーザーの反応への懸念もあったようです。OpenAI社が2023年4月に実施したユーザー調査によると、ChatGPTユーザーの約30%が、ChatGPTに「AIが作成したかどうかを検出する技術が導入され、競合他社には導入されていない場合」には、「ChatGPTの利用を減らす」と回答したとのことです。利用者が減少すれば、技術の開発や維持の意味も薄れてしまいます。こうしたことも、公開に踏み切れなかった理由の一部と考えられます。

この記事が出た8月4日、OpenAI社は5月に公開済みの公式ブログを更新し、電子透かしによるAI判定ツールに取り組んでいることを公表しました。報じられた内容について、翻訳や再翻訳、特殊文字の挿入と削除などで回避される可能性や不公平性への懸念を認める一方で、2023年4月のユーザー調査については全く触れませんでした。

不完全ではあるが、現時点ではベスト

AI生成はテキストだけでなく、画像や動画にも広がりを見せています。そのため、AI生成コンテンツを正しく判定することは急務となっています。この動きに積極的に関与しているのが、「Coalition for Content Provenance(C2PA)」という標準化団体です。2021年にアドビ社やマイクロソフト社などが立ち上げた団体で、画像や文章などのコンテンツの出どころを認証する技術の仕様策定に取り組んでいます。

先述のOpenAI社の5月のブログ更新は、もともと同社がC2PAに加入したことを発表するものでした。これにより、同社が独自のAI判定技術から一歩踏み出し、業界標準への合流を果たしたと言えます。また、競合企業であるグーグル社のDeepMindは、5月にテキストと動画向けの電子透かし技術「SynthID」を主要な製品に導入する計画を発表しました。Googleはその前の2月に、C2PAの運営委員会に参加することを明らかにしており、SynthIDはC2PAに適応した技術となる見込みです。

トップAI企業が続々と参加することで、C2PAは本当の標準化に向けて進展しています。しかし、この技術はまだ成熟には遠いという指摘もあります。スイス連邦工科大学チューリッヒ校の研究者らは、2024年に電子透かし技術の脆弱性を突いて攻撃する「Watermark Stealing(電子透かし盗)」という手法を明らかにしました。この手法は、電子透かしを付与された大規模言語モデル(LLM)にクエリを送信し、その応答を分析することで規則を推測するものです。研究チームの検証では、この手法によって、「電子透かしのなりすまし」と「電子透かしの除去」の両方で8割以上の成功率を確認したといいます。

それでも、研究チームは「生成AIモデルの電子透かしは、AI生成コンテンツを高い信頼性で検出するための最も有望な手段」と述べています。そして、「より徹底した評価を行うことで、堅牢なスキームが開発されると楽観しています」と、この方向で研究を進めるよう提言しています。生成AIは今後さらに高度化し普及が進む中で、対策の開発も急務です。セキュリティと同様に、対策と進化のイタチごっこが続くことでしょう。

プロフィール

末岡 洋子(ITジャーナリスト)

末岡 洋子(ITジャーナリスト)
アットマーク・アイティ(現アイティメディア)のニュース記者を務めた後、独立。フリーランスになってからは、ITを中心に教育など分野を拡大してITの影響や動向を追っている。

この記事は役に立ちましたか?

はい いいえ