この項目では、プロンプトに応答してテキストや画像を生成する人工知能システムについて説明しています。統計的分類の文脈における生成モデルについては「生成的モデル」を、さまざまな知的作業を実行する人工知能については「汎用人工知能」をご覧ください。
.mw-parser-output .side-box{margin:4px 0;box-sizing:border-box;border:1px solid #aaa;font-size:88%;line-height:1.25em;background-color:#f9f9f9;display:flow-root}.mw-parser-output .side-box-abovebelow,.mw-parser-output .side-box-text{padding:0.25em 0.9em}.mw-parser-output .side-box-image{padding:2px 0 2px 0.9em;text-align:center}.mw-parser-output .side-box-imageright{padding:2px 0.9em 2px 0;text-align:center}@media(min-width:500px){.mw-parser-output .side-box-flex{display:flex;align-items:center}.mw-parser-output .side-box-text{flex:1}}@media(min-width:720px){.mw-parser-output .side-box{width:238px}.mw-parser-output .side-box-right{clear:right;float:right;margin-left:1em}.mw-parser-output .side-box-left{margin-right:1em}}この記事の項目名には以下のような表記揺れがあります。
生成系人工知能[1][2]
生成型人工知能[3][4]
スペース・オペラ・シアター
生成的人工知能(せいせいてきじんこうちのう、英: generative artificial intelligence)または生成AI(せいせいエーアイ、英: GenAI[5])は、文字などの入力(プロンプト)対してテキスト、画像、または他のメディアを応答として生成する人工知能システムの一種である[6][7]。
生成的人工知能モデルは、訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる[8][9]。ジェネレーティブAI、ジェネラティブAIともよばれる。
著名な生成AIシステムとして、OpenAIがGPT-3やGPT-4の大規模言語モデル[10]を使用して構築したチャットボットのChatGPT(および別形のBing Chat)や、GoogleがLaMDA基盤モデルに構築したチャットボットBardがある[11]。その他の生成AIモデルとして、Stable DiffusionやDALL-Eなどの人工知能アートシステムがあげられる[12]。
生成AIは、アート、執筆、ソフトウェア開発、ヘルスケア、金融、ゲーム、マーケティング、ファッションなど、幅広い業界で応用できる可能性がある[13][14]。生成AIへの投資は2020年代初頭に急増し、Microsoft、Google、Baiduなどの大企業だけでなく、多数の中小企業も生成AIモデルを開発している[6][15][16]。しかし、生成AIを訓練する目的での著作物の無法図な利用や人をだましたり操作したりするフェイクニュースやディープフェイクの作成など、生成AIの悪用の可能性も懸念されており[17][18][19]、欧州連合における人工知能法など法規制の議論も進んでいる[20][21]。また、効果的加速主義などのシリコンバレーの技術思想との関係も話題になっている[22]。 機械学習の分野では、その誕生以来、データをモデル化し予測することを目的として、統計的モデルを使用してきた。2000年代後半、ディープラーニング(深層学習)の登場により、画像や動画処理、テキスト分析、音声認識などのタスクで進化と研究が進んできた。しかし、ほとんどのディープニューラルネットワークは識別的モデルとして、画像認識 (en:英語版
歴史
2014年、変分オートエンコーダや敵対的生成ネットワークなどの進歩により、画像のような複雑なデータの生成的モデルを学習し、生成することができる実用的なディープニューラルネットワークが登場した。
2017年、Transformerネットワークはより大規模な生成的モデルの実現を可能にし、2018年に最初の生成的事前学習トランスフォーマー(GPT)が開発された[23]。2019年、GPT-2がこれに続き、基盤モデルとして教師なし学習を多くの異なるタスクに汎化する能力を実証した[24]。
2024年、映像生成AIの実用化の成功は、イラスト生成AIの成功が人間の仕事の質を超えるのと同じようになると専門家は予想している[25]。
これ以降の応用面における進化については次節のモダリティを参照のこと。 生成AIシステムは、教師なしまたは自己教師ありの機械学習を、データセットに適用することにより構築される。生成AIシステムの能力は、訓練に使用するデータセットのモダリティや種類
モダリティ
生成AIは、ユニモーダルシステムとマルチモーダルシステム(英語版)に大分でき、ユニモーダルは1種類の入力(例:テキスト)しか受け入れないのに対し、マルチモーダルは複数種類の入力(例:テキストと画像)を受け入れることができる[26]。たとえば、OpenAIのGPT-4はテキストと画像の両方の入力を受け入れる[27]。
テキスト「大規模言語モデル」を参照 単語や単語トークンで訓練された生成AIシステムには、GPT-3、LaMDA、LLaMA、BLOOM(英語版)、GPT-4などがある(を参照)。これらは自然言語処理、機械翻訳、自然言語生成が可能であり、他のタスクの基盤モデルとして使用することができる[28]。データセットとして、BookCorpus、Wikipediaなどがある(テキストコーパスの一覧(英語版)を参照)。
コンピュータープログラム自然言語のテキストに加えて、プログラミング言語のテキストを大規模な言語モデルに訓練することで、新しいコンピュータプログラムのソースコードを生成することができる[29]。たとえば、OpenAI Codexがある。
画像「人工知能アート」を参照
説明文(英語版)付きの画像セットで訓練された生成AIシステムには、Imagen(英語版)、DALL-E、Midjourney、Stable Diffusionなどがある。これらは、テキストからの画像生成(英語版)やニューラルスタイル変換(英語版)によく使われる[30]。データセットにはLAION-5Bなどがある(コンピュータビジョンにおけるデータセット)。