大規模言語モデル - 暇つぶしWikipedia

大規模言語モデル

□記事を途中から表示しています
[最初から表示]

^ これは、事前学習されたモデルウェイトのライセンスである。たいていの場合、訓練コード自体はオープンソースであるか、簡単に複製することができる。
^ 66Bを含めた小規模モデルは一般に公開されており、175Bのモデルはリクエストに応じて入手可能である。
^ 数学的な内容でフィルタリングされたウェブページおよびarXivプレプリントサーバーに投稿された論文からの385億トークン。
^ Facebookのライセンスと配布スキームにより、モデルへのアクセスは承認された研究者にが制限されていたが、モデルウェイトが流出して広く利用されるようになった。
^ テクニカルレポートに述べられているように『GPT-4のような大規模モデルの市場競争と安全性への影響の両方を考慮して、このレポートには、アーキテクチャ（モデルサイズを含む）、ハードウェア、訓練計算環境、データセット構築、トレーニング方法に関する詳細は含まれていない [126]。』
^ ブルームバーグのデータソースからの3,630億トークンと、汎用データセットからの3,450億トークンのデータセット

 出典 ^ Goled, Shraddha (2021年5月7日). “Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ”. Analytics India Magazine. 2023年5月13日閲覧。
^ a b c d e f g Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus 151 (2): 127?138. doi:10.1162/daed_a_01905. https://www.amacad.org/publication/human-language-understanding-reasoning.
^ “Responsible AI - Week 3”. Coursera. 2023年7月23日閲覧。
^ a b c d e f Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (31 August 2022). “Emergent Abilities of Large Language Models” (英語). Transactions on Machine Learning Research. .mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}ISSN 2835-8856. https://openreview.net/forum?id=yzkSU5zdwD.
^ a b Bowman, Samuel R.. Eight Things to Know about Large Language Models. https://cims.nyu.edu/~sbowman/eightthings.pdf.
^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). Are Emergent Abilities of Large Language Models a Mirage?. doi:10.48550/ARXIV.2304.15004. https://arxiv.org/abs/2304.15004.
^ Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clement Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Diaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta , Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu. "PaLM 2 Technical Report". arXiv:2305.10403。
^ “Papers with Code - MassiveText Dataset” (英語). paperswithcode.com. 2023年4月26日閲覧。
^ Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann. "BloombergGPT: A Large Language Model for Finance". arXiv:2303.17564。
^ Jesse Dodge, Maarten Sap, Ana Marasovi?, William Agnew, Gabriel Ilharco, Dirk Groeneveld, Margaret Mitchell, Matt Gardner. "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus". arXiv:2104.08758。
^ Villalobos, Pablo; Sevilla, Jaime; Heim, Lennart; Besiroglu, Tamay; Hobbhahn, Marius; Ho, Anson (25 October 2022). "Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning". arXiv:2211.04325 [cs.LG]。
^ Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. "Language Models are Few-Shot Learners". arXiv:2005.14165。
^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (2022-03-29). ⇒“Training Compute-Optimal Large Language Models”. arXiv:2203.15556 [cs]. ⇒http://arxiv.org/abs/2203.15556.
^ a b Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec et al. (2020). “Scaling Laws for Neural Language Models”. CoRR abs/2001.08361. arXiv:2001.08361.
^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). Broken Neural Scaling Laws. International Conference on Learning Representations (ICLR), 2023.
^ Ornes, Stephen (2023年3月16日). “The Unpredictable Abilities Emerging From Large AI Models”. Quanta Magazine. 2023年5月13日閲覧。
^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (1 April 2023). "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004 [cs.AI]。
^ Elman, Jeffrey L. (March 1990). ⇒“Finding Structure in Time” (英語). Cognitive Science 14 (2): 179?211. doi:10.1207/s15516709cog1402_1. ⇒http://doi.wiley.com/10.1207/s15516709cog1402_1.

次ページ

記事の検索

Size:164 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef