高パラメーター効率ファインチューニング (PEFT) とは

URL をコピー

大規模言語モデル (LLM) の運用には、コンピュートリソースと資金が必要です。高パラメーター効率ファインチューニング (PEFT) とは、LLM 内のパラメーターの一部のみを調整してリソースを節約する一連の技法です。 

PEFT は、従来のファインチューニング・モデルと同等の出力を生み出しつつ、LLM のカスタマイズのハードルを引き下げます。 

Red Hat AI の詳細

ファインチューニングと PEFT はどちらも、LLM アライメントの技法です。求める出力が生成されるように、必要なデータを使って LLM に調整や情報の供給を施します。PEFT は言わば、従来のファインチューニングの進化形です。

従来のファインチューニングは、モデル全体をさらにトレーニングすることで LLM を調整します。そのためには、多大なコンピュートリソース、データ、そして時間が必要です。 

これに比べて、PEFT はモデル内のパラメーターのごく一部を変更するだけなので、大規模なリソースを持たない組織にとって利用しやすい技法となります。 

PEFT には、小規模なハードウェアで大規模なモデルをより迅速にトレーニングできるというメリットがあります。 

PEFT には、具体的には次のようなメリットがあります。

  • トレーニング速度の向上: PEFT では、更新するパラメーターが少なければ、短期間で実験やイテレーションを実施できます。
  • リソース効率が高い:PEFT は従来のファインチューニングと比べて GPU メモリーの使用量がはるかに少なく、コンシューマーグレードのハードウェアで実行できます。つまり、専用サーバーがなくてもノートパソコンで LLM のトレーニングができます。
  • 破滅的忘却の回避:破滅的忘却とは、モデルが新しいトレーニングデータを与えられた際に、すでに学習した知識を忘れてしまう現象です。PEFT ではモデル全体ではなく一部のパラメーターのみを更新するため、モデルの破滅的忘却を防げます。
  • 可搬性がある:PEFT でチューニングされたモデルは、より規模が小さく、管理しやすく、あらゆるプラットフォームに容易にデプロイできます。そのため運用環境におけるモデルの更新や改善が容易です。
  • 持続可能:PEFT は使用するコンピュートリソースが少ないため、環境に配慮した運用目標に合致します。
  • 利用しやすい: チームや組織のコンピュートリソースが少なくても、モデルをファインチューニングして、目指す成果を実現できます。

LLM は複数のニューラルネットワークレイヤーで構成されています。これらのレイヤーを、入力レイヤーから始まって出力レイヤーで終わるフローチャートの一種と考えるとよいでしょう。これら 2 つのレイヤーの間にニューラルネットワークを流れるデータを処理するさまざまなレイヤーがあり、それぞれが独自の役割を担っています。

言語モデルによる情報処理の方法を調整するには、パラメーターを変更します。 

PEFT の技法:GPU で LLM を最適化する方法

LLM のパラメーターとは

パラメーター (「重み」と呼ばれることもある) は、LLM がどのように言語を理解するかを決めるものです。 

パラメーターは機械で言えば、調整するための歯車のようなものです。各パラメーターには特定の数値が割り当てられていて、その数値を変えることでモデルの言語の解釈能力や生成能力が変化します。 

1 つの LLM に数十億 (場合によっては数千億) ものパラメーターが含まれることもあります。パラメーター数が多いほど、モデルが実行できるタスクの複雑性も上がります。 

しかし、モデルのパラメーター数が増えると、必要なハードウェアリソースも増えます。必要なハードウェアに投資する資金がある組織ばかりではないため、PEFT をはじめとするチューニング技法が重要となります。 

モデルの効率を高めるために、精度を維持しつつ不要なパラメーターを除外する方法を学びましょう。

パラメーターの効率的なファインチューニング

PEFT では、あらかじめトレーニングされたモデルの構造の大部分は維持しつつ、戦略的に少数のパラメーターのみを変更します。調整方法の例は次のとおりです。

モデルレイヤーの凍結: 推論中は、ニューラルネットワークのすべてのレイヤーを経由して計算が行われます。これらのレイヤーの一部を凍結することで、計算の実行に必要な処理能力を一部削減できます。 

アダプターの追加:アダプターは、ボードゲームで言う拡張パックのようなものです。アダプターはあらかじめトレーニングされたモデル内のレイヤーに追加され、トレーニングを通じてドメインまたはアプリケーション固有の情報を学習します。このシナリオでは、元のモデルが変更されるのではなく、新しい機能が追加されます。 

PEFT を実施するためには、以下のような複数の手法が使用されます。

  • LoRA (Low-Rank Adaptation)
  • QLoRA (quantized low-rank adaptation)
  • プレフィックスチューニング
  • プロンプトチューニング
  • P チューニング

LoRA と QLoRA の詳細を見る

この分野の主要なツールは vLLM です。vLLM は、メモリー効率の高い推論サーバーおよびエンジンであり、ハイブリッドクラウド環境における大規模言語モデルのスピードと処理能力を向上させるために設計されています。vLLM による PEFT のサポート (特に複数の LoRA アダプターの提供) により、1 つのベースモデルを GPU メモリーにロードしたままにすることができるため、効率が大幅に向上します。 

vLLM を使用して PEFT を提供すると、1 つのモデルで複数のファインチューニングされたバージョンを同時に提供できます。つまり、PEFT が小さなファイルを作成し、vLLM が単一の基盤モデルからキー値 (KV) キャッシュなどのメモリーリソースを共有および分散することで、それらのファイルの提供を最適化します。 

vLLM の詳細はこちら

ファインチューニングは、LLM が目標に合わせて出力を調整できるようにするために、そのモデルに意図を伝える方法です。

たとえば、ある LLM はシェイクスピアのような文体でメールを作成することができる一方で、会社が提供する製品の詳細については何も知らないとします。

このような場合に、独自の情報を使ったモデルのトレーニングに使用できるのがファインチューニングです。 

ファインチューニングとは、事前にトレーニングしたモデルを、よりカスタマイズされたデータセットを使用してさらにトレーニングし、独自のタスクをより効果的に実行できるようにするプロセスです。この追加のトレーニングデータによりモデルのパラメーターが変更され、元のモデルに代わる新しいバージョンが作成されます。

ドメイン固有のユースケースに合わせて LLM を個別化するには、ファインチューニングが欠かせません。ところが、従来のファインチューニングには多大なコストがかかります。 

ファインチューニングのコストが高い理由

LLM のファインチューニングが高額な理由には、次のようなものがあります。

  • GPU 要件:ファインチューニングには多大な処理能力が求められます。グラフィックス・プロセッシング・ユニット (GPU) は購入コストも運用コストも高く、ファインチューニング・プロセスにおいては GPU を長時間稼働させる必要があります。そのため、電力や冷却にかかる費用も高額になります。
  • データ要件:LLM を新たな情報でファインチューニングするためのデータセットは、高品質で適切にラベル付けされたものでなければなりません。こうしたデータの取得、構築、事前処理には費用も時間もかかります。 

LLM アライメントとは、言語モデルをトレーニングし、個別化して、求める出力を生成するプロセスを指します。

さまざまな LLM アライメント技法から組織に合ったものを選択する際には、以下の要素を検討すると良いでしょう。

  • データ依存度: どのくらいのデータが必要ですか?この技法が適切に機能するために必要なデータにアクセスできますか?
  • 精度:この技法はチューニング後のモデルの精度にどの程度影響しますか?
  • ユーザーが感じる複雑性:使いやすさはどの程度ですか?

従来のファインチューニングと比較すると、PEFT は必要なデータ量が少なく、きわめて正答率が高く、ユーザーにとっても使いやすくなっています。 

検討すべきもう 1 つの LLM アライメントのオプションは、検索拡張生成 (RAG) です。RAG により、LLM 内に存在するデータを任意の外部知識ソース (データリポジトリ、テキストのコレクション、既存のドキュメントなど) で補完することができます。RAG はデータ依存度は高いものの、正答率が高く、ファインチューニングよりも使い方が簡単です。 

RAG とファインチューニングの比較を見る

Red Hat® AI は、vLLM 搭載のサーバーを通じて、高速で柔軟かつ効率的な推論を行うように構築されています。モデルをデータと確実に接続し、専用エージェントのカスタマイズと開発を単一のプラットフォームで行うことができます。オープンソースを基盤として構築された当社の製品により、あらゆる規模で AI ワークフローをエンドツーエンドで完全に制御することができます。 

また、Red Hat AI ポートフォリオには AI 推論、エージェント型 AI ワークフロー、AI 対応アプリケーションをあらゆるインフラストラクチャ上でデプロイ、管理、スケーリングするためのプラットフォームである Red Hat AI Enterprise が含まれています。

Red Hat AI の詳細

ブログ投稿

戦略の主権をどの程度保持していますか?Red Hat Sovereignity Readiness Assessment ツールの概要

Red Hat Sovereignty Readiness Assessment ツールは、Web ベースのセルフサービス評価ツールであり、7 つの重要ドメインにわたる組織のデジタル管理についての明確で客観的なベースラインを提供します。

Red Hat OpenShift AI

モデルと AI 対応アプリケーションを迅速に開発、トレーニング、提供、監視するツールを提供する AI プラットフォーム。

関連情報

What are predictive analytics

現在と過去のデータを分析し、将来のイベントを予測する手法。機械学習、統計モデリング、データマイニング等による傾向、行動、成果、ビジネス機会の特定を支援します。

What is deep learning?

ディープラーニングは、人間の脳をヒントに開発されたアルゴリズムを使用してコンピュータにデータを処理する方法を教える人工知能 (AI) 技法です。

What is sovereign AI?

ソブリン AI は、AI テクノロジーを所有してデータをローカルに保つことで、システムが組織の価値観を反映し、法的要件にも準拠するようにすることです。

AI/MLリソース

関連するコンテンツ