大規模言語モデル - 暇つぶしWikipedia

大規模言語モデル

.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

ウィキペディアにおける大規模言語モデルについては、「Wikipedia:大規模言語モデルの利用」をご覧ください。

大規模言語モデル（だいきぼげんごモデル、英: large language model、LLM）は、多数のパラメータ（数千万から数十億）を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習（英語版）によって訓練が行われる [1]。

LLMは2018年頃に登場し、さまざまなタスク（仕事）で優れた性能を発揮している。これにより、自然言語処理の研究の焦点は、特定のタスクに特化した教師ありモデルを訓練するという以前のパラダイムから転換した [2]。大規模言語モデルの応用は目覚ましい成果を上げているが、大規模言語モデルの開発はまだ始まったばかりであり、多くの研究者が大規模言語モデルの改良に貢献している [3]。

大規模言語モデルという用語の正式な定義はないが、大規模コーパスで事前訓練された、数百万から数十億以上のパラメータを持つディープラーニングモデルを指すことが多い。LLMは、特定のタスク（感情分析、固有表現抽出、数学的推論など）のために訓練されたものとは異なり、幅広いタスクに優れた汎用モデルである [2][4]。LLMがタスクを実行する能力や対応可能な範囲は、ある意味では設計における画期的な進歩には依存せず、LLMに費やされた資源（データ、パラメータサイズ、計算力）の量の関数であるように見える [5]。多数のパラメータを持ったニューラル言語モデルは、文の次の単語を予測するという単純なタスクで十分に訓練することで、人間の言葉の構文や意味の多くを捉えられることがわかった。さらに、大規模な言語モデルは、世の中に関するかなりの一般知識を示し、訓練中に大量の事実を「記憶」することができる [2]。

質の高い証拠とされる2023年のメタ分析によれば、大規模言語モデルの創造性に目を輝かせる研究者はもちろん世界中に存在し、小規模言語モデルにはできないタスクで大規模言語モデルが創造的であると主張する学者もいるが、これは測定基準の選択によるものであり、創造性によるものではないことが示唆されている。異なる測定基準を選択した場合、大規模言語モデルの創造性の優位性は見られない可能性が示唆されている [6]。
特性
 事前訓練データセット「機械学習研究のためのデータセットリスト（英語版）」も参照

大規模言語モデル（LLM）は通常、さまざまな分野や言語にわたる大量のテキストデータで事前訓練が行われる [7]。著名な事前訓練データとしては、Common Crawl、The Pile（英語版）、MassiveText [8]、Wikipedia、GitHubなどが知られている。大半のオープンソースのLLMは一般公開されているデータを利用しているが、非公開のデータで事前訓練が行われることもある [9]。事前訓練データは、重複排除、毒性が高いシーケンスの除外、低品質データの破棄など、生テキストをさまざまな手順で前処理して作成される [10]。言語データの蓄積は年率7%で増加しており、2022年10月現在、高品質な言語データは4兆6,000億語から17兆語の範囲内にあると推定されている [11]。LLMでは事前訓練データを広範に使用するため、事前訓練データに評価データが混入すると、ベンチマーク評価時のモデル性能に影響を与えるデータ汚染が起こる [12]。
スケーリング則詳細は「ニューラルスケーリング則」を参照

一般にLLMは、モデルの大きさ、訓練データセットの大きさ、訓練費用、訓練後の性能という4つのパラメータにより特徴づけられる。これらの4つの変数はそれぞれ実数で正確に定義することができ、経験から「スケーリング則（scaling laws）」と呼ばれている単純な統計的法則（英語版）によって関係していることがわかっている。

ある研究では、両対数学習率（英語版）のスケジュールで、1エポック分の自己回帰的な訓練を行ったLLMの場合のスケーリング則（Chinchillaスケーリング（英語版））を、次のように表している [13]。 { C = C 0 N D L = A N α + B D β + L 0 {\displaystyle {\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}} ここで、変数は次のとおりである。

C {\displaystyle C} ：モデルの訓練に掛かる費用（FLOPS単位）

N {\displaystyle N} ：モデル内のパラメータ数

D {\displaystyle D} ：訓練セット内のトークン数

L {\displaystyle L} ：テストデータセットで訓練されたLLMにより達成される、トークン当たりの平均の負対数尤度損失（ナット/トークン）

統計パラメータは次のとおりである。

C 0 = 6 {\displaystyle C_{0}=6} 、すなわち、1つのトークンで訓練するにはパラメータごとに6 FLOPSの費用がかかる [14]。ここで、訓練費用は推論費用よりもはるかに高いことに注意を要する。1つのトークンを推論する費用はパラメータあたり1?2 FLOPSである。

α = 0.34 , β = 0.28 , A = 406.4 , B = 410.7 , L 0 = 1.69 {\displaystyle \alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69}

創発的能力質問応答などのタスクを含め、多くの自然言語ベンチマークでは、モデルがある規模に達するまでは偶然によるものよりも性能が劣り、ある時点で性能が急激に向上する。それぞれの図は創発的能力の例を示している。モデル規模は訓練の計算量によって測定されている。

一般に、さまざまなタスクに対する大規模モデルの性能は、同様の小規模モデルの性能に基づいて推定することができるが、ときには、下流におけるスケーリング則が「破綻」し [15]、大規模モデルが、小規模モデルとは異なる速度で突然に能力を獲得することがある。これは「創発的能力」（英: emergent abilities）として知られているもので、これまでも多くの研究の対象であった。研究者は、こうした能力は「小規模モデルの性能を外挿することでは予測できない」ことが多いと指摘している [4]。このような能力は、プログラムされたり設計されたりするものではなく、むしろ「発見される」ものであり、場合によっては、LLMが一般公開されて初めて発見されることすらある [5]。これまでに数百もの創発的能力が報告されている。たとえば、多段階の算術、大学レベルの試験、単語の意図する意味の特定 [4]、思考の連鎖 [4]、国際音声記号の解読、マス埋めパズル、ヒングリッシュ（ヒンディー語と英語の混成語）の段落内の不快な内容の特定、およびスワヒリ語のことわざに相当する英語の生成などがある [16]。

Schaefferらは、創発的な能力は予測不可能な形で獲得されるのではなく、滑らかなスケーリング則に従って予測通りに獲得されると主張している [17]。著者らは、LLMが多肢選択問題を解く統計的トイモデルを検討し、他の種類のタスクを考慮して修正されたこの統計モデルが、これらのタスクにも適用できることを示した。

ここで、 x {\displaystyle x} をパラメータ数、 y {\displaystyle y} をモデルの性能とする。

y = average P r ( correct token ) {\displaystyle y={\text{average }}Pr({\text{correct token}})} のとき、 ( log ⁡ x , y ) {\displaystyle (\log x,y)} は指数曲線（1でプラトーに達する前）となり、創発のように見える。

Size:164 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef