ChatGPT
ChatGPTは2022年11月にOpenAI社によって、公開された大規模言語モデルである。それまではBERTやGPT3などモデルの構造や学習方法も含めて公開されることが多かったが、OpenAI社はChatGPTの構造や学習方法の具体的な内容は公開していない。
そこで、ChatGPTに構造や学習方法について聞いてみた。
ChatGPTに聞いて分かったこと
- ChatGPTはエンコーダー・デコーダーモデルである
- 日本語の学習コーパスはWikipediaとニュース記事(主に雑誌)
- モデルのパラメータ数は絶対に教えてくれない
- 大規模言語モデルなのに推論速度が速い理由については聞けば聞くほど謎が深まった
ChatGPTはエンコーダー・デコーダーモデルである
日本語の学習コーパスはWikipediaとニュース記事(主に雑誌)
モデルのパラメータ数は絶対に教えてくれない
大規模言語モデルなのに推論速度が速い理由については聞けば聞くほど謎が深まった
どうやらインファレンスエンジンのおかげで早い推論ができるらしい。
何を最適化しているのか、何をキャッシュしているのかこの辺りから疑問点が拡散していく。
まずは何を最低化しているのか?
この辺りからモデルの構造が分からないゆえに、わからない点が増えていく。(どの層でパラメータ共有がされているのか?)
一旦、何をキャッシュしているのかも聞いてみた。
「キャッシュ」=「前のトークンの隠れ状態」という説明になっており、高速な推論との関係性がみえなくなってくる。また、「逆向きキャッシュ」という謎の新語が生成される。
→推論速度の速さは謎が多い。
コメント
こんにちは、これはコメントです。
コメントの承認、編集、削除を始めるにはダッシュボードの「コメント」画面にアクセスしてください。
コメントのアバターは「Gravatar」から取得されます。