クラウドAIサービスは便利ですが、「月額料金が気になる」「機密データを外部に送りたくない」「ネット環境がなくても使いたい」という方も多いのではないでしょうか。
そんな方におすすめなのが、Open WebUI + Ollamaを使ったローカルAI環境の構築です。自分のPC上でAIモデルを動かすことで、完全無料・完全プライベートなAIチャット環境を手に入れることができます。
この記事では、2026年4月時点の最新情報をもとに、導入方法からモデル選び、クラウドAPIとの比較、コスト計算まで徹底的に解説します。
Open WebUI と Ollama とは?
Ollama(オラマ)
OllamaはオープンソースのAIモデルランナーで、ローカルPC上で大規模言語モデル(LLM)をダウンロード・管理・実行するためのツールです。デフォルトでポート11434でAPIを提供し、コマンドラインからAIモデルと対話できます。Windows、Mac、Linuxに対応しています。
Open WebUI(オープンウェブUI)
Open WebUIは、Ollamaと連携してChatGPTのようなウェブインターフェースを提供するオープンソースプロジェクトです。ブラウザ上でAIとチャットでき、モデルの切り替え、会話履歴の保存、RAG(検索拡張生成)など多彩な機能を備えています。完全にオフラインで動作し、すべてのデータがローカルに保存されるため、プライバシーが最大限に保護されます。
環境構築の手順
方法1:Docker を使う方法(推奨)
最も簡単な方法はDockerを使うことです。以下のコマンド1つでOpen WebUIとOllamaをまとめてインストールできます。
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
このコマンドを実行したら、ブラウザで http://localhost:3000 にアクセスするだけです。初回はアカウント作成画面が表示されるので、ローカル用のアカウントを作成します。
GPUを持っていない場合は --gpus=all を外してCPUモードで実行することもできますが、応答速度は大幅に低下します。
方法2:Docker Compose を使う方法
より細かい設定が必要な場合や、リモートサーバーで運用する場合はDocker Composeがおすすめです。
version: '3.8'
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
volumes:
- open-webui_data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
- ollama
volumes:
ollama_data:
open-webui_data:
docker compose up -d で起動し、http://localhost:3000 にアクセスします。
方法3:pip でインストール
Dockerを使わない場合は、Pythonのpipでもインストール可能です。
pip install open-webui
open-webui serve
事前にOllamaを別途インストールしておく必要があります。
ローカルで動かせるモデルの性能比較
2026年時点で、Ollamaで利用できる主要モデルを比較します。
| モデル | パラメータ数 | 必要VRAM | 得意分野 | 総合評価 |
|---|---|---|---|---|
| Llama 3.3 70B | 70B | 40GB以上 | 汎用・推論 | ◎ 最高品質 |
| Llama 3.2 8B | 8B | 6GB | 汎用 | ○ バランス良好 |
| Qwen 2.5 Coder 7B | 7B | 6GB | コーディング | ◎ コード最強 |
| Mistral 7B | 7B | 6GB | 汎用・欧州言語 | ○ 軽量で高速 |
| Phi-3 Mini | 3.8B | 3GB | 軽量タスク | ○ 低スペックPC向け |
| Gemma 2 9B | 9B | 7GB | 汎用・日本語 | ○ Google品質 |
モデルのダウンロードと実行
Ollamaでモデルをダウンロードするのは非常に簡単です。
ollama pull llama3.2
ollama pull qwen2.5-coder:7b
ollama pull mistral
ダウンロード後、Open WebUIのモデル選択メニューから利用するモデルを切り替えられます。
クラウドAPI経由でClaude/GPT/Geminiを使う設定
Open WebUIの大きなメリットの一つは、ローカルモデルだけでなくクラウドAPIも統一インターフェースで利用できることです。
OpenAI API(ChatGPT)の設定
Open WebUIの設定画面で「Connections」→「OpenAI API」を選択し、APIキーを入力するだけで、GPT-5.4やGPT-5.5をOpen WebUI上で利用できます。
Anthropic API(Claude)の設定
同様に「Connections」から「Custom Provider」を追加し、AnthropicのAPIエンドポイントとAPIキーを設定します。Claude Opus 4.6、Sonnet 4.6、Haiku 4.5を利用できます。
Google Gemini API の設定
Google AI StudioからAPIキーを取得し、OpenAI互換エンドポイントとして設定することで、Gemini 2.5 ProやFlashも利用可能です。
これにより、1つのインターフェースでローカルモデルとクラウドモデルを自由に切り替えながら使用できます。機密性の高い作業はローカルモデル、高品質な出力が必要な作業はクラウドAPIと使い分けることで、コストとプライバシーの最適なバランスが取れます。
ローカルモデル vs クラウドAPI のコスパ・性能比較
性能面の比較
正直なところ、2026年時点でもローカルモデルはクラウドの最新モデルには性能面で及びません。GPT-5.5やClaude Opus 4.6のような最先端モデルは、膨大な計算資源で学習されており、ローカルの7B〜70Bモデルでは追いつけない領域があります。
ただし、Llama 3.3 70Bは多くの実用タスクで十分な品質を提供しており、日常的な文章作成や質問応答、簡単なコーディング支援であれば実用レベルです。
コスト面の比較
クラウドAIサービスの月額課金と比較すると、ローカルAIは初期投資こそ必要ですが、長期的にはコストメリットがあります。
| 項目 | クラウドAI(月額課金) | ローカルAI |
|---|---|---|
| 月額費用 | $20〜$200/月 | 電気代のみ($5〜15/月) |
| 初期費用 | なし | GPU購入費(5〜30万円) |
| 年間コスト | 約36,000〜360,000円 | 約6,000〜18,000円+初期費用 |
| プライバシー | データがサーバーに送信される | 完全ローカル |
| 利用制限 | メッセージ数/時間制限あり | 無制限 |
| 性能 | 最高品質 | 実用レベル(用途による) |
電気代・GPU代を含めた本当のコスト計算
電気代の目安
ローカルAIを動かす際のGPUの消費電力は、モデルサイズと使用頻度によって変わります。
NVIDIA RTX 4060(8GB VRAM)の場合、推論時の消費電力は約115Wです。1日8時間使用した場合、月間の電力消費は約27.6kWhとなり、電気代は約900円(1kWh=33円で計算)です。
NVIDIA RTX 4090(24GB VRAM)の場合、推論時の消費電力は約450Wです。同条件で月間約108kWh、電気代は約3,500円です。
GPU購入費用の目安(2026年4月時点)
| GPU | VRAM | 価格帯 | 対応モデルサイズ |
|---|---|---|---|
| RTX 4060 | 8GB | 約4〜5万円 | 7Bモデルまで |
| RTX 4070 Ti Super | 16GB | 約10〜12万円 | 13Bモデルまで |
| RTX 4090 | 24GB | 約25〜30万円 | 30Bモデルまで |
| RTX 5090 | 32GB | 約35〜40万円 | 70Bモデル(量子化) |
損益分岐点の計算
ChatGPT Plus(月額約3,000円)からローカルAIに乗り換えた場合の損益分岐点を計算すると、RTX 4060(約5万円)の場合は約18ヶ月(1年半)で元が取れます。RTX 4090(約28万円)の場合は約100ヶ月(約8年)で、GPU自体の寿命を考えると採算が合わない可能性があります。
つまり、コスト面だけで考えるなら、エントリークラスのGPUで軽量モデルを動かすのが最も効率的です。
予算別おすすめ構成
予算3万円以下:CPU Only構成
GPUなしでもOllamaは動作します。Phi-3 Mini(3.8B)やLlama 3.2 3Bなどの軽量モデルなら、16GBのRAMがあればCPUだけで実行可能です。応答速度は遅め(1トークン/秒程度)ですが、試してみるには十分です。追加コストはほぼゼロです。
予算5〜8万円:エントリーGPU構成
RTX 4060(8GB)を追加する構成です。Llama 3.2 8BやQwen 2.5 Coder 7Bなどの7〜8Bモデルが快適に動作します。応答速度は30〜50トークン/秒と実用的で、日常的なAIチャットには十分な性能です。コスパ最強の構成といえます。
予算12〜15万円:ミドルレンジ構成
RTX 4070 Ti Super(16GB)を使う構成です。13Bクラスのモデルを快適に動かせ、品質と速度のバランスが優れています。プログラミング支援やある程度の文章生成にも対応でき、本格的な業務利用にも耐えうるレベルです。
予算30万円以上:ハイエンド構成
RTX 4090(24GB)またはRTX 5090(32GB)を使う構成です。Llama 3.3 70B(量子化版)などの大規模モデルを動かせ、クラウドAIに近い品質を実現できます。ただし、コスパを考えるとクラウドAPIの併用がおすすめです。
まとめ:ローカルAIはこんな人におすすめ
Open WebUI + OllamaによるローカルAI環境は、プライバシーを重視する方(機密データを外部に送信したくない場合)、利用制限なしで使いたい方(月額課金の制限が煩わしい場合)、AI技術を深く理解したい方(モデルの仕組みを学びたい場合)、長期的なコスト削減を目指す方に特におすすめです。
一方で、最高品質の出力が常に必要な場合や、画像・動画生成が必要な場合は、クラウドAIサービスの方が適しています。
最も賢い選択は、ローカルAIとクラウドAPIの併用です。日常的な作業はローカルモデルで処理し、高品質な出力が必要な場面だけクラウドAPIを使うことで、コストとプライバシーと品質の最適なバランスを実現できます。