Llama 2 をローカルにダウンロードしてインストールする方法

あなたのような読者が MUO をサポートします。当社サイトのリンクを使用して商品を購入すると、アフィリエイト手数料が発生する場合があります。続きを読む。

Meta は 2023 年の夏に Llama 2 をリリースしました。Llama の新バージョンは元の Llama モデルよりも 40% 多くのトークンを使用して微調整されており、コンテキストの長さが 2 倍になり、利用可能な他のオープンソースモデルよりも大幅に優れています。 Llama 2 にアクセスする最も速くて簡単な方法は、オンラインプラットフォームを介して API を使用することです。ただし、最高のエクスペリエンスを求める場合は、Llama 2 をコンピュータに直接インストールしてロードするのが最適です。

これを念頭に置いて、Text-Generation-WebUI を使用して量子化された Llama 2 LLM をコンピューター上にローカルにロードする方法に関するステップバイステップのガイドを作成しました。

Llama 2 をローカルにインストールする理由

Llama 2 を直接実行することを選択する理由はたくさんあります。プライバシーを考慮してこれを行うものもあれば、カスタマイズを目的とするもの、オフライン機能を目的として行うものもあります。プロジェクトに合わせて Llama 2 を研究、微調整、または統合している場合、API 経由で Llama 2 にアクセスすることは適していない可能性があります。 LLM を PC 上でローカルに実行するポイントは、次への依存を減らすことです。サードパーティの AI ツール企業やその他の組織に機密データが漏洩する可能性を心配することなく、いつでもどこでも AI を使用できます。

そうは言っても、Llama 2 をローカルにインストールするためのステップバイステップのガイドから始めましょう。

ステップ 1: Visual Studio 2019 ビルドツールをインストールする

話を簡単にするために、Text-Generation-WebUI (GUI で Llama 2 をロードするために使用されるプログラム) のワンクリックインストーラーを使用します。ただし、このインストーラーが機能するには、Visual Studio 2019 Build Tool をダウンロードし、必要なリソースをインストールする必要があります。

ダウンロード： Visual Studio 2019 （無料）

ソフトウェアのコミュニティエディションをダウンロードしてください。
次に、Visual Studio 2019 をインストールし、ソフトウェアを開きます。開いたら、チェックボックスにチェックを入れます C++ によるデスクトップ開発 そしてインストールを押します。

C++ を使用したデスクトップ開発がインストールされたので、Text-Generation-WebUI ワンクリックインストーラーをダウンロードします。

ステップ 2: Text-Generation-WebUI をインストールする

Text-Generation-WebUI のワンクリックインストーラーは、必要なフォルダーを自動的に作成し、Conda 環境と AI モデルを実行するために必要なすべての要件をセットアップするスクリプトです。

スクリプトをインストールするには、をクリックしてワンクリックインストーラーをダウンロードします。 コード > ZIPをダウンロードします。

ダウンロード： テキスト生成 WebUI インストーラー（無料）

ダウンロードしたら、ZIP ファイルを任意の場所に解凍し、解凍したフォルダーを開きます。
フォルダー内で下にスクロールして、オペレーティングシステムに適した起動プログラムを探します。適切なスクリプトをダブルクリックしてプログラムを実行します。
- Windows を使用している場合は、選択します スタートウィンドウ バッチファイル
- MacOS の場合は、選択します スタートマコス シェルストリップ
- Linuxの場合、 スタートリナックス シェルスクリプト。
ウイルス対策ソフトによってアラートが作成される場合があります。これは大丈夫です。プロンプトは単なるウイルス対策誤検知バッチファイルまたはスクリプトを実行します。クリック とにかく走ってください 。
ターミナルが開き、セットアップが開始されます。初期段階ではセットアップが一時停止し、使用している GPU を尋ねられます。コンピューターにインストールされている適切なタイプの GPU を選択し、Enter キーを押します。専用のグラフィックスカードをお持ちでない場合は、 なし (CPU モードでモデルを実行したい) 。 CPU モードでの実行は、専用 GPU でモデルを実行する場合と比較してはるかに遅いことに注意してください。
セットアップが完了すると、Text-Generation-WebUI をローカルで起動できるようになります。これを行うには、お好みの Web ブラウザを開いて、指定された IP アドレスを URL に入力します。
これで WebUI を使用する準備が整いました。

ただし、このプログラムは単なるモデルローダーです。モデルローダーを起動するために Llama 2 をダウンロードしましょう。

ステップ 3: Llama 2 モデルをダウンロードする

必要な Llama 2 のイテレーションを決定する際には、考慮すべきことがかなり多くあります。これらには、パラメータ、量子化、ハードウェアの最適化、サイズ、および使用法が含まれます。これらの情報はすべてモデル名に示されています。

パラメーター： モデルのトレーニングに使用されるパラメーターの数。パラメータが大きいほどモデルの機能は向上しますが、パフォーマンスが犠牲になります。
使用法： 標準でもチャットでも可能です。チャットモデルは、ChatGPT のようなチャットボットとして使用するために最適化されていますが、標準がデフォルトのモデルです。
ハードウェアの最適化: モデルを最適に実行するハードウェアを指します。 GPTQ はモデルが専用 GPU で実行するように最適化されているのに対し、GGML は CPU で実行するように最適化されていることを意味します。
量子化: モデル内の重みとアクティベーションの精度を示します。推論の場合、q4 の精度が最適です。
サイズ： 特定のモデルのサイズを指します。

一部のモデルでは配置が異なっていたり、同じ種類の情報が表示されない場合もありますのでご注意ください。ただし、このタイプの命名規則は、世界ではかなり一般的です。ハグ顔モデルライブラリなので、理解する価値はまだあります。

この例では、モデルは、専用 CPU を使用したチャット推論用に最適化された 130 億のパラメーターでトレーニングされた中型の Llama 2 モデルとして識別できます。

専用 GPU で実行している場合は、 GPTQ モデル、CPU を使用している場合は、 GGML 。 ChatGPT と同じようにモデルとチャットしたい場合は、 チャット ただし、モデルの全機能を試してみたい場合は、標準モデル。パラメーターに関しては、より大きなモデルを使用すると、パフォーマンスは犠牲になりますが、より良い結果が得られることに注意してください。個人的には7Bモデルから始めることをお勧めします。量子化については、推論専用なので q4 を使用します。

手書きをテキストフリーソフトウェアに変換する

ダウンロード： GGML （無料）

ダウンロード： GPTQ （無料）

必要な Llama 2 のイテレーションがわかったので、必要なモデルをダウンロードしてください。

私の場合、これをウルトラブックで実行しているため、チャット用に微調整された GGML モデルを使用します。 call-2-7b-chat-ggmlv3.q4_K_S.bin。

ダウンロードが完了したら、モデルを配置します テキスト生成-webui-main > モデル 。

モデルをダウンロードしてモデルフォルダーに配置したので、モデルローダーを構成します。

ステップ 4: テキスト生成 WebUI を構成する

それでは、構成フェーズを始めましょう。

もう一度、次のコマンドを実行して Text-Generation-WebUI を開きます。 start_(お使いのOS) ファイルを作成します (上記の前の手順を参照してください)。
GUI の上にあるタブで、 モデル。 モデルのドロップダウンメニューで更新ボタンをクリックし、モデルを選択します。
次に、ドロップダウンメニューをクリックします。 モデルローダー そして選択します AutoGPTQ GTPQ モデルを使用しているユーザー向け、および 変圧器 GGML モデルを使用している人向け。最後に、をクリックします負荷をクリックしてモデルをロードします。
モデルを使用するには、[チャット] タブを開いてモデルのテストを開始します。

おめでとうございます。Llama2 がローカルコンピューターに正常にロードされました。

他の LLM を試してみる

Text-Generation-WebUI を使用してコンピュータ上で Llama 2 を直接実行する方法がわかったので、Llama 以外の LLM も実行できるはずです。モデルの命名規則と、量子化されたモデル (通常は q4 精度) のみが通常の PC にロードできることを覚えておいてください。多くの量子化 LLM が HuggingFace で入手できます。他のモデルを調べたい場合は、HuggingFace のモデルライブラリで TheBloke を検索すると、利用可能なモデルが多数見つかるはずです。