STATUS: ONLINE

大規

# Docker # Linux # Ollama # FLUX.1 # GPU

大規模ローカルAIサーバー構築

RTX 5080+3080のデュアルGPU環境でLLM・画像生成モデルをセルフホスト。Docker Composeによるマルチサービス管理とGPUリソース最適化。

背景・動機

自作PCの趣味を通じて保有していた複数の強力なGPU（RTX 5080, RTX 3080）のリソースを最大限に活用し、ハードウェアの限界に挑戦するとともに、クラウドAPIに依存しない強力なローカルAI推論環境の構築を目指しました。

システム構成

CPU: Ryzen 9 9950X3D (主にアップスケーリング等の処理を担当)
GPU 1: RTX 5080（画像生成等の高負荷モデルを担当）
GPU 2: RTX 3080（プロンプト理解・LLM推論を担当）
OS / 基盤: WSL (Ubuntu) + Docker Compose
主なサービス: Ollama (LLM推論), ComfyUI (画像生成), Discord Bot

技術的な課題と解決策

大容量モデルのVRAM枯渇問題と量子化の導入: 画像生成モデル「FLUX.1」は非常に強力ですが、VRAMの消費量が膨大です。これを個人のローカル環境で安定して動作させるため、nf4量子化を導入してVRAM使用量を大幅に削減しました。
マルチGPU環境でのモデル互換性の解決: 量子化モデルを導入した結果、RTX 3080側で稼働させているプロンプト理解用のLLMとの間で処理形式にズレが発生しました。この問題に対しては、テキストエンコーダーをGGUF形式で扱うよう構成を見直すことで、差異を吸収し動作を実現しました。

実装・運用のポイント

仮置き

今後の展望

仮置き