Сервер для Ollama: выбор железа, тесты GPU и конфиги 2025

Производительность Ollama на 90% зависит от пропускной способности памяти, а не от количества ядер процессора. Для запуска модели Llama 3 8B с комфортной скоростью 40-50 токенов в секунду требуется минимум 8 ГБ VRAM (видеопамяти) стандарта GDDR6. Если вы пытаетесь запустить это на обычном CPU VPS с 16 ГБ оперативной памяти DDR4, готовьтесь к скорости 2-3 токена в секунду, что делает чат практически бесполезным для живого общения.

TL;DR: Ключевые метрики и выводы

Минимальный GPU: NVIDIA Tesla T4 (16 ГБ VRAM) или RTX 3060 (12 ГБ) — цена от $45/мес на февраль 2025 года.
Скорость на CPU: 2.4 токена/сек на 8-ядерном Xeon Platinum, что в 15 раз медленнее бюджетной видеокарты.
Расход памяти: Модель Llama 3 8B Q4 занимает 4.7 ГБ VRAM, а 70B версия требует минимум 40 ГБ (две карты RTX 3090 или одна A6000).
Сюрприз: Частота оперативной памяти (МГц) влияет на скорость генерации в CPU-режиме сильнее, чем количество ядер.

Аппаратные требования: GPU против CPU

Ollama использует библиотеку llama.cpp, которая умеет перекладывать вычисления на видеокарту через CUDA. В наших тестах от января 2025 года разрыв между серверными процессорами и GPU стал еще более заметным. Мы запускали модель Mistral 7B на двух разных конфигурациях, чтобы измерить реальную задержку (latency).

Железо	VRAM / RAM	Tokens/sec (Mistral 7B)	Ориентировочная цена
NVIDIA RTX 4090	24 GB GDDR6X	115 t/s	$220 - $300/мес
NVIDIA Tesla T4	16 GB GDDR6	38 t/s	$45 - $70/мес
AMD EPYC 7742 (CPU Only)	128 GB DDR4	4.1 t/s	$120/мес
Apple M2 Pro (Unified)	16 GB LPDDR5	22 t/s	Локальное железо

NVIDIA Tesla T4 остается "золотым стандартом" для недорогого хостинга Ollama. Несмотря на то, что это архитектура 2018 года, ее 16 ГБ памяти позволяют запускать модели с длинным контекстом (до 32k токенов) без вылета по OOM (Out of Memory). Если ваш бюджет ограничен, Valebyte VPS предлагает конфигурации, которые справятся с базовыми задачами обработки текста через API.

Почему CPU — это плохая идея для чат-ботов

Проблема CPU не в вычислительной мощности, а в "узком горлышке" шины памяти. Пропускная способность DDR4-3200 составляет около 25 ГБ/с, в то время как у старой RTX 3060 она превышает 360 ГБ/с. Поскольку при генерации каждого токена нейросеть должна прочитать все свои веса из памяти, скорость напрямую упирается в эти цифры. На обычном сервере вы получите текст, который "печатается" медленнее, чем читает человек.

Выбор видеокарты: Consumer vs Enterprise

NVIDIA RTX 3060 12 ГБ — лучший выбор для self-hosting проектов в 2025 году. Она дешевле серверных аналогов, но имеет 12 ГБ видеопамяти, что позволяет запустить Llama 3 8B с квантованием Q8 (высокая точность) и оставить место для контекста.

Корпоративные карты вроде A100 или H100 нужны только в двух случаях: если вы планируете дообучать (fine-tune) модели или запускать тяжелые веса 70B+ параметров. Для простых задач — суммаризации писем, классификации тикетов или работы Telegram-бота — арендовать A100 за $2/час бессмысленно.

Для тех, кто ищет баланс цены и производительности, дешевый GPU VPS для LLM станет оптимальной точкой входа. Мы протестировали более 12 провайдеров и пришли к выводу, что для Ollama критически важна поддержка проброса CUDA ядер в виртуальную машину без оверхеда.

Развертывание Ollama на сервере через Docker

Установка Ollama напрямую в систему (native) часто приводит к конфликтам зависимостей драйверов NVIDIA. Мы рекомендуем использовать Docker. Наш стандартный конфиг для продакшена включает автоматический перезапуск и ограничение ресурсов, чтобы процесс LLM не "подвесил" весь сервер при переполнении VRAM.

Пример рабочего docker-compose.yml для сервера с GPU:

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./ollama_data:/root/.ollama
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_HOST=0.0.0.0

Ollama контейнер занимает около 600 МБ дискового пространства, но сами модели весят значительно больше. Учитывайте это при выборе диска. Для Llama 3 8B потребуется около 5 ГБ, для 70B — более 40 ГБ. Мы рекомендуем использовать только NVMe накопители, так как загрузка модели с обычного SSD в видеопамять при первом запросе может занять до 30-40 секунд, что приведет к таймауту API.

Оптимизация производительности: Квантование

Квантование — это процесс сжатия весов нейросети. По умолчанию Ollama загружает модели в 4-битном квантовании (Q4_0). Это лучший компромисс. Наши тесты показывают, что переход с 16-битной точности (FP16) на 4-битную снижает требования к VRAM в 3.5 раза, при этом деградация ответов составляет менее 1.5% по метрике MMLU.

Важно: Если ваша модель "галлюцинирует" или выдает бессвязный бред, проверьте, не вытеснена ли часть слоев в системную RAM. Ollama делает это автоматически, если VRAM не хватает, но скорость падает до 0.5-1 токена в секунду.

Если вы планируете использовать Ollama для автоматизации торговли, обратите внимание на задержки сети. В статье про VPS для торговых роботов мы разбирали, как минимизировать latency. Для LLM это актуально, если бот должен принимать решения на основе новостей в реальном времени.

Безопасность: Не оставляйте порт 11434 открытым

Ollama по умолчанию не имеет встроенной аутентификации. Если вы укажете OLLAMA_HOST=0.0.0.0 и не настроите Firewall, любой человек в интернете сможет использовать ваши вычислительные мощности.

Мы столкнулись с этим в марте 2024 года, когда наш тестовый сервер за 4 часа намотал трафика на $15 из-за того, что боты-сканеры нашли открытый порт и начали генерировать токены. Всегда используйте Nginx с базовой авторизацией или VPN-туннель для доступа к API. Если вы работаете с конфиденциальными данными, рекомендуем настроить сервер для Xray Reality для безопасного соединения с вашим GPU-узлом.

Что мы поняли на практике: Ошибки и сюрпризы

Самым большим сюрпризом для нас стала работа Ollama с оперативной памятью на Linux. Мы ожидали, что при наличии GPU системная RAM почти не будет задействована. На деле Ollama кэширует модели в RAM, и если у вас всего 8 ГБ системной памяти, OS начинает агрессивно использовать Swap, что тормозит даже базовые команды консоли.

Наш опыт: Для стабильной работы GPU-сервера с Ollama объем системной RAM должен быть как минимум равен объему VRAM видеокарты. Если у вас карта на 24 ГБ, ставьте 32 ГБ оперативной памяти. Это исключит фризы при переключении между разными моделями.

Еще один важный момент — перегрев. На дешевых bare-metal серверах видеокарты часто стоят вплотную. При нагрузке Ollama на 100% (генерация длинного текста) температура RTX 3090 поднималась до 88°C за 2 минуты, после чего начинался троттлинг. Если арендуете выделенный сервер, убедитесь, что там серверное охлаждение (turbines), а не обычные домашние вентиляторы.

Практические шаги по настройке

Выбор провайдера (15 мин): Найдите GPU VPS с поддержкой CUDA. Используйте VPS-провайдер с крипто-оплатой, если важна анонимность или нет зарубежной карты.
Установка драйверов (10 мин): На Ubuntu 22.04/24.04 используйте команду sudo ubuntu-drivers install.
Развертывание Docker (5 мин): Скопируйте наш конфиг выше и запустите docker compose up -d.
Проверка (2 мин): Выполните docker exec -it ollama ollama run llama3. Если первый ответ пришел быстрее чем за 5 секунд — вы все настроили верно.

Общее время настройки "с нуля" до первого ответа нейросети составляет около 35-40 минут при наличии готового сервера. Сложность задачи: 4/10 (средняя).

FAQ: Ответы на частые вопросы

Можно ли запустить Ollama на обычном VPS без GPU?
Да, можно. Но скорость будет крайне низкой — около 150-200 слов в минуту для модели 7B. Это подходит для фоновых задач (например, парсинг данных ночью), но не для чата. Для таких целей лучше выбирать серверы с высокой частотой процессора (от 3.5 ГГц).

Сколько моделей можно держать запущенными одновременно?
Ollama выгружает неиспользуемые модели из VRAM через 5 минут (настраивается параметром OLLAMA_KEEP_ALIVE). Одновременно в памяти может находиться столько моделей, сколько влезет в вашу видеопамять. Например, на 16 ГБ VRAM поместятся три модели по 4 ГБ, и они будут отвечать мгновенно.

Какая ОС лучше всего подходит для Ollama?
Ubuntu 22.04 LTS — самый стабильный вариант. Драйверы NVIDIA и Docker-прослойка nvidia-container-toolkit тестируются в первую очередь на этой системе. На Windows производительность через WSL2 на 5-7% ниже, чем на нативном Linux.

Использование Ollama на собственном сервере — это в первую очередь вопрос приватности и отсутствия цензуры. В отличие от ChatGPT, локальная модель не откажется отвечать на острые вопросы и не передаст ваши логи третьим лицам. При стоимости владения сервером в $50/мес он окупается за 2-3 месяца активного использования командой из 5 человек.

Автор

slipjar.app

Редакция

Команда slipjar.app пишет о хостинге, серверах и инфраструктуре.

Была ли статья полезной?