ChatGPTで課題を書いてみる

ChatGPTは、OpenAIの提供しているチャットボット。学習した文章をもとに、問合せに対して適切な応答をAIが生成する。現在は無料のプレビュー版が提供されている。ChatGPT自身に説明してもらった。

 

 

課題のアドバイスを得られるか、プレビュー版を試してみた。また、OpenAIの提供したAIチェックシステムAI Classifierも試した。

AIを利用した「創作」は、教育関係でも警戒されている。実際、本学で契約している剽窃検知システムは対応を表明している。ChatGPT自身も対応を予定しているようだ。本試行にはChatGPTを使った課題作成の「手口」を調査して結果を示し、よくない使い方を抑止する目的もある。

 

エッセイの課題をChatGPTで生成する

 

ともかく、数十回試したうちからいくつか例を紹介しよう。

使ったChatGPTのバージョンはJan 30 (2023)で、トレーニングに使われたテキストデータは2021年。トレーニングデータの期日以降のことを訊いても、的外れな応答しかされない。今年の2月にリリースされたAI Classifierのことも、昨年のオミクロン対応ワクチンのことも、学習していない。

 

 

まず、課題を説明し、どのようなポイントを盛り込んだらよいか、訊いてみた。

 

 

こちらのニーズに合っていないので、追加のポイントを提案した。

 

 

例文をお願いした。

 

 

自分なりのエピソードを提案してみた。

 

 

課題として提出するには、例文が短すぎる。もう少し長い例文をお願いした。

 

 

途中で切れてしまったので、続きをお願いした。

 

 

このまま課題として提出しても問題ないか、確認してみた。本学の規定に抵触するのは確かだろうが、違法にまでなるとはいえない。

 

 

解剖学的な設問についても、ChatGPTは対応できるかを試してみた。膝関節をネタに使ったが、適切な回答は得られなかった。

 

 

英語で試す

 

英語を使うと、より的確な回答が得られることが知られている。学習量の違いだろう。解剖学でも、日本語での場合よりもうまくいった。

まず、感想文から。日本語の場合よりも詳しい回答を得られた。こちらの英語が多少変でも意図は伝わる。

 

 

例文をお願いした。日本語の場合よりも長い。

 

 

DeepLで翻訳した。翻訳はChatGPTよりDeepLの方が高品質だし、速い。

 

 

膝関節についても訊いてみた。

 

 

概ねよさそうなので、靱帯についても詳しく訊いてみた。

 

 

臨床的な事柄にも進めてみた。

 

 

予防についても訊いてみた。

 

 

膝関節に関して、解剖学的・医学的な事柄を訊くと、臨床上で的確かどうかはともかく、試験の答案としてなら概ね破綻ない回答を得られた。

英語での試行を繰り返すと、同じ質問に対する回答は傾向が揃っているようだ。この性質は、ChatGPTを自分の創作とするには不利に働くだろう。

 

ChatGPTで剽窃を確認する

 

ChatGPT自身が剽窃チェックになるかを試した。結果は不安定で、信頼できなかった。

ポジティブコントロールとしてChatGPTの生成した文章、ネガティブコントロールとしてChatGPTがリリースされるよりまえのこのブログの記事を用いた。いずれの場合も、判定が正しいことも誤っていることもあった(data not shown)。

 

Classifierを試す

 

OpenAIの開発したAIチェックシステムAI Classifierを試してみた。

現状ではいくつか制限事項がある(DeepLで翻訳し修正):

  • 最低1,000文字(約150~250ワード)が必要。
  • AIが作成したテキストと人間が書いたテキストの両方を誤って分類する可能性があるため、Classifierは必ずしも正確ではない。
  • AIが生成したテキストは、Classifierを回避するために簡単に編集することができる。
  • Classifierは、主に大人が書いた英語のコンテンツで学習したため、子供が書いたテキストや英語でないテキストでは間違う可能性が高い。

最低の文字数の制限があるので、短文の回答を求める課題や記述式試験には使いにくい。今後は、文字数制限に「最低1,000文字」というのが加わるかもしれない。

日本語でChatGPTが生成する文章は、1,000文字に足らない。いくつかの回答を継ぎ合わせ、これをポジティブコントロールとして使った。正しく判定した。

 

 

ブログ記事を使ってネガティブコントロールをとってみた。正しく判定した。

 

 

もうひとつのポジティブコントロールとして、ChatGPTで生成した英文をDeepLで翻訳したものを使った。判定できないとの結果になった。

 

 

ChatGPT自身に日本語訳をさせた文章(文字数が足らなかったので、他の回答を一部差し込んである)では、正しく判定できた。

 

 

日本語で1000字を越える文章を生成できるか

 

AI ClassifierでAIの関与をチェックするには、現バージョンでは1000字以上が求められる。チェックが可能になるよう、課題の要件に1000字以上との字数制限を設定することが考えられる。

上でみたように、英文ではそのような文章も生成できたが、日本語では1000字の半分にも満たない文章しか生成されないことが多い。そこで、1000文字を越える日本語の文章を生成させてみた。

現状では、AI Classifierでチェックできる長さの文章は、ChatGPTで一気に生成するのはできそうになかった。

まず、ひとつの回答に文字数制限があり、長文では途中までしか生成できない。「続けてください」と要求すると、続きを生成することも、前とは続いていない文章を生成することもあった。いずれの場合も、全体としてまとまりがなかったり、話しが繰り返されていたりした。(data not shown)

長文をChatGPTで作成するには、話題をいくつかに分割して、それぞれ生成した文章をつなぎ合わせることになるだろう。

 

Microsoft Bingのチャットを試す

 

ChatGPTをベースにしたAIチャット機能がBingに加わった。現在利用者数を限定して公開されている。使うための要件は:

  1. Micorosoft Edgeの最新版をインストールし、Microsoftのアカウントでログインする
  2. AIチャット機能のウエイティングリストに登録する
  3. メールで連絡がとどき、AIチャット機能を使えるようになる

ChatGPTにない特徴は:

  • 日本語で質問しても英語と同じくらいの品質の答えが得られることが多い
  • 「詳細情報」として関連するサイトのリンクが付く
  • 関連する質問が提案される

バージョンは機密事項らしい。

 

 

感想文を試した。ChatGPT同様の回答だが、追加のポイントを提案すると話しが最初からになってしまうことがしばしばだった。コンテキストはあまり追っていないのかもしれない。

 

 

要求するポイントの多い質問や、答えが長くなりそうな質問は、途中まで答えかけてあきらめることがある。

 

 

膝関節についても試した。

 

 

前十字靱帯損傷の診断・治療・ケアについてたずねた。途中で途切れてしまった。

 

 

関連する質問を提案されたので、それ追って2つ質問を続けた。

 

 

更新履歴:

  • 2023/1/25: 最初の投稿
  • 2023/2/2: ChatGPT Jan 30 Versionを使って例を再生成。Classifierについても記載した。
  • 2023/2/3: 長文の生成について追記。
  • 2023/2/13: BingのAI Chatについて追記。

 

アイキャッチ画像:OpenAIのDALL·Eで生成した画像(japanese medical student using ai for homework)