GitHub と OpenAI は、コード スニペットをオートコンプリートする Visual Studio Code の一部となった新しいコード生成ツール Copilot を発表しました。Copilot は、1 年前に発表された GPT-3 の製品である Codex に基づいています。GPT-3 をめぐる誇大宣伝はまだ消えていないようです。そのため、段階的に詳細を掘り下げることにしました。見てみな。
GPT-3とは?
GPT-3 は Generative Pre-trained Transformer 3 の略で、Open AI が 2020 年 5 月にリリースした言語モデルの 3 番目のバージョンです。GPT-3 は固有のテキストの長い文を出力として生成できるため、生成的です。ほとんどのニューラル ネットワークは、「はい」または「いいえ」の答え、または簡単な文を吐き出すことしかできないことに注意してください。事前トレーニング済みとは、言語モデルが特別なドメイン知識で構築されていないことを意味しますが、翻訳などのドメイン固有のタスクを完了することができます。したがって、 GPT-3 はこれまで存在した中で最も革新的な言語モデルです。
わかりましたが、トランスフォーマーとは何ですか?簡単に言えば、Google の科学者によって 2017 年に開発されたニューラル ネットワークのアーキテクチャであり、言語理解に適した自己注意メカニズムを使用しています。Attention メカニズムが 2015 年に NLP ドメインのブレークスルーを可能にしたことを考えると、Transformer は GPT-1 と Google の BERT (もう 1 つの優れた言語モデル) の基盤となりました。本質的に、注意は、他の単語に囲まれて、次に出現する単語の確率を計算する関数です。
ところで、BERTのExplainerを開発しました。詳細については、NLP ランドスケープを変更する Google の BERT を確認してください。
典型的な変圧器の構造
待ってください、でも GPT-3 がこれほどユニークな理由は何ですか? GPT-3 言語モデルには 1,750 億のパラメーター、つまりトレーニング中にニューラル ネットワークが最適化する値があります (GPT-2 の 15 億のパラメーターと比較してください)。したがって、この言語モデルは、顧客サービスからドキュメント生成まで、さまざまな業界で自動化の優れた可能性を秘めています。GPT-3 Playgroundのベータ版を自分で試すことができます。
アプリケーションで GPT-3 を使用するにはどうすればよいですか? 2021 年 7 月の時点で、同社はLmaSベース (language-model-as-a-service) で API のプライベート ベータ版を提供できるため、待機リストに参加できます。
すでに聞いたことがあるかもしれない例を次に示します— GPT-3 は素晴らしいフィクションを書いています。GPT-2 と GPT-3 の両方を実験している gwern.net の著者である Gwern は次のように述べています。 」テキスト生成における GPT-3 の優れた点は、通常の方法で何でもトレーニングする必要があることです。代わりに、GPT-3 に必要なことを教えるためのプロンプトを作成するのが最善です。
Sharif Shameemは、リクエストに応じてコードを生成するプラットフォームであるdebuildにGPT-3 を使用しました。「スイカ スタイルのボタンを作成する」などのリクエストを入力し、コードを取得してアプリに使用することができます。@zebulgarが行ったように、GPT-3 を使用して実質的なビジネス ガイドラインを生成することもできます。
GPT-3 はどのように機能しますか?
フードの下を見て、GPT-3 のナットとボルトを定義しましょう。
大規模なモデルは、コンテキスト内の情報から効率的に学習しています
率直に言うと、GPT-3 は、このテキスト内の他の単語が与えられた場合に、ある単語がテキストに出現する可能性を計算します。これは、単語の条件付き確率として知られています。たとえば、「マーガレットはガレージ セールを手配しています… たぶん、古い ___ を購入できるかもしれません」という文の椅子という単語は、たとえば、象よりもはるかに出現する可能性が高くなります。つまり、プロンプト テキストで椅子という単語が出現する確率は、象が出現する確率よりも高くなります。
GPT-3 は、単語をベクトル、つまり数値表現に変換するために何百万ものサンプル テキストを消費しながら、何らかの形式のデータ圧縮を使用します。その後、言語モデルは圧縮されたテキストを人間にわかりやすい文章に展開します。したがって、テキストを圧縮および解凍すると、単語の条件付き確率を計算しながら、モデルの精度が向上します。
GPT-3 のトレーニングに使用されるデータセット
GPT-3 は「少数ショット」設定で高いパフォーマンスを発揮するため、これまで公開されたことのない特定のテキスト例と一致する方法で応答できます。したがって、すでに多くのテキスト サンプルでトレーニングされているため、適切な応答を生成するために必要な例はわずかです。技術的な詳細については、研究論文をご覧ください: Language Models are Few-Shot Learners .
少数ショット モデルは、すでに多くのテキスト サンプルでトレーニングされているため、適切な応答を生成するために必要なサンプルはわずかです。スキームは、英語からフランス語への翻訳の仕組みを示しています。
トレーニング後、言語モデルの条件付き確率が可能な限り正確になると、入力された単語、文、またはフラグメントがプロンプトとして与えられたときに、次の単語を予測できます。正式に言えば、次の単語の予測は自然言語推論に関係しています。
GPT-3 で実際にできること
本質的に、GPT-3 はテキスト予測子です。その出力は、以前にトレーニングされたデータに基づいて、与えられた入力に対する統計的にもっともらしい応答です。ただし、GPT-3 は質問応答とテキストの要約に最適な AI システムではないと主張する批評家もいます。GPT-3 は、各 NLP タスクを個別に行う SOTA (最先端の) メソッドと比較すると平凡ですが、以前のどのシステムよりもはるかに一般的であり、今後のシステムは GPT-3 に似ています。
一般に、GPT-3 は、いくつかのプロンプトが表示された後に NLP タスクを実行できます。次のタスクでは、少数ショットの設定で高いパフォーマンスを発揮しました。
言語モデリング
GPT-3 は、ペン ツリー バンク (PTB) のゼロ ショット環境下で、20.5 のパープレキシティ (確率言語モデルがサンプルをどれだけうまく予測するかを定義する) を示しました。最も近いライバルである BERT-Large-CAS は、31,3 を誇っています。
GPT-3 は、パープレキシティ 20.5 のペン ツリー バンクの言語モデリングのリーダーです。
GPT-3 は、LAMBADA データセット テストの実行中に、少数ショット設定で86.4% の精度(以前の SOTA モデルから 18% の増加) も示しています。このテストでは、モデルは文の最後の単語を予測し、段落全体を「読む」必要があります。
重要なお知らせ: GPT-3 は、次のような穴埋めの例のおかげでこれらの結果を示しました。
「アリスはボブと友達だった。アリスは彼女の友達______に会いに行きました。→ボブ
ジョージは野球の道具、ボール、グローブ、そして_____を買いました。→」
さらに、研究者は、HellaSwag データセットで少数ショット設定でストーリーの最良の結末を選択する際に、約 79.3% の精度を報告しています。また、StoryCloze 2016 データセットで 87.7% の精度を示しました (これは、「BERT ベースのモデルを使用して微調整された SOTA よりも 4.1% 低い」)。
クローズドブック質問応答
…または GPT-3 を使用して幅広い事実に関する知識をテストします。GPT-3 研究論文によると、Natural Questions、WebQuestions、および TriviaQA データセットでテストされ、結果は次のとおりです。
少数ショット設定の GPT-3 は、TriviaQA データセットでのみ、微調整された SOTA モデルよりも優れています。
翻訳
翻訳に関しては、教師あり SOTA ニューラル機械翻訳 (NMT) モデルがこの分野の明確なリーダーです。ただし、GPT-3 は、主に英語に翻訳するときに、英語の LM としての強みを反映しています。研究者はまた、「GPT-3 は、英語に翻訳するときは以前の教師なし NMT の作業よりも大幅に優れていますが、逆方向に翻訳するときはパフォーマンスが劣る」と述べています。
一般に、テストされた 3 つの言語モデル (フランス語、ドイツ語、およびルーマニア語と組み合わせた英語) のすべてで、モデルの容量に滑らかな上昇傾向があります。
ウィノグラード スタイルのタスク
ウィノグラード スタイルのタスクは、古典的な NLP タスクであり、文法的にはあいまいであるが、人間にとって意味的にはあいまいでない場合に、文で参照されている単語の代名詞を決定します。微調整された方法は最近、Winograd データセットで人間のようなパフォーマンスに達しましたが、より複雑な Winogrande データセットにはまだ遅れをとっています。
GPT-3 の結果は次のとおりです。「Winograd では、GPT-3 はゼロ ショット、ワン ショット、および少数ショットの設定で 88.3%、89.7%、および 88.6% を達成し、明確なコンテキスト内学習を示していませんが、すべてにおいてケースは、最先端の推定人間のパフォーマンスよりもわずか数ポイント低い強力な結果を達成しています。」
常識的な推論
物理的または科学的推論に関しては、GPT-3 は微調整された SOTA メソッドよりも優れていません。
総合的および定性的なタスク
結果が次のようになるため、GPT-3 はまだ算術が得意ではありません。
ただし、ニュース記事の生成に関して言えば、GPT-3 で書かれたニュース (ショット数が少ない設定) の人間による検出はほぼ可能性があり、平均精度の 52% です。
GPT-3 の制限事項は何ですか?
Open AI の CEO である Sam Altman でさえ、GPT-3 は過大評価されているとツイートしており、研究者自身が次のように述べています。
テキスト合成といくつかの NLP タスク
GPT-3 はテキスト合成が得意ではありません — 生成されたテキストの全体的な品質は高いですが、ドキュメント レベルで、または長いパッセージに進むと、同じことが繰り返され始めます。
また、離散言語タスクの領域でも遅れをとっており、「常識物理学」の範囲内で困難を抱えています。したがって、GPT-3 が「チーズを冷蔵庫に入れた場合、溶けますか?」という質問に答えるのは難しいです。GPT-3 には、読解と比較のタスクに顕著なギャップがいくつかあります。
構造とアルゴリズムの制限
経験的に双方向から恩恵を受けるタスクは、GPT-3 の改善領域でもあります。「穴埋めタスク、2 つのコンテンツを振り返って比較するタスク、または再読が必要なタスク、または長い文章を注意深く検討してから非常に短い答えを生成するタスク」が含まれる場合があります。研究者が述べているように。
GPT-3のようなモデルは高価で不便です
GPT-3 のようなモデルは多くのスキルを持っており、特定のタスクについては「資格過剰」になります。さらに、これは計算能力を必要とするモデルです。「GPT-3v175B のトレーニングでは、事前トレーニング中に数千ペタフロップ/秒の計算が消費されましたが、1.5B パラメーターの GPT-2 モデルでは数十ペタフロップ/秒が消費されました。 」、研究者が述べているように。
GPT-3 は偏っている
モデルは人間がインターネット上で生成したコンテンツでトレーニングされているため、偏見、公平性、および表現に関する問題がまだ残っています。このように、GPT-3 は偏見や固定観念のあるコンテンツを生成する可能性があります。しかし、オンラインですでに多くのことを読んだり、研究論文で確認したりすることができます. 著者はそれについてかなりよく考えています。
結論
GPT-3 は、NLP の明るい未来を垣間見せてくれます。コードの生成、意味のあるテキストの断片、翻訳、さまざまなタスクの成功を支援します。また、テキストの偏った断片を生成するなどの制限や倫理的な問題もあります。全体として、以前は常に NLP にあったように、私たちは何か興味深いことを目の当たりにしています。
コメント