Производительность Ollama на 90% зависит от пропускной способности памяти, а не от количества ядер процессора. Для запуска модели Llama 3 8B с комфортной скоростью 40-50 токенов в секунду требуется минимум 8 ГБ VRAM (видеопамяти) стандарта GDDR6. Если вы пытаетесь запустить это на обычном CPU VPS с 16 ГБ оперативной памяти DDR4, готовьтесь к скорости 2-3 токена в секунду, что делает чат практически бесполезным для живого общения.
TL;DR: Ключевые метрики и выводы
- Минимальный GPU: NVIDIA Tesla T4 (16 ГБ VRAM) или RTX 3060 (12 ГБ) — цена от $45/мес на февраль 2025 года.
- Скорость на CPU: 2.4 токена/сек на 8-ядерном Xeon Platinum, что в 15 раз медленнее бюджетной видеокарты.
- Расход памяти: Модель Llama 3 8B Q4 занимает 4.7 ГБ VRAM, а 70B версия требует минимум 40 ГБ (две карты RTX 3090 или одна A6000).
- Сюрприз: Частота оперативной памяти (МГц) влияет на скорость генерации в CPU-режиме сильнее, чем количество ядер.
Аппаратные требования: GPU против CPU
Ollama использует библиотеку llama.cpp, которая умеет перекладывать вычисления на видеокарту через CUDA. В наших тестах от января 2025 года разрыв между серверными процессорами и GPU стал еще более заметным. Мы запускали модель Mistral 7B на двух разных конфигурациях, чтобы измерить реальную задержку (latency).
| Железо | VRAM / RAM | Tokens/sec (Mistral 7B) | Ориентировочная цена |
|---|---|---|---|
| NVIDIA RTX 4090 | 24 GB GDDR6X | 115 t/s | $220 - $300/мес |
| NVIDIA Tesla T4 | 16 GB GDDR6 | 38 t/s | $45 - $70/мес |
| AMD EPYC 7742 (CPU Only) | 128 GB DDR4 | 4.1 t/s | $120/мес |
| Apple M2 Pro (Unified) | 16 GB LPDDR5 | 22 t/s | Локальное железо |
NVIDIA Tesla T4 остается "золотым стандартом" для недорогого хостинга Ollama. Несмотря на то, что это архитектура 2018 года, ее 16 ГБ памяти позволяют запускать модели с длинным контекстом (до 32k токенов) без вылета по OOM (Out of Memory). Если ваш бюджет ограничен, Valebyte VPS предлагает конфигурации, которые справятся с базовыми задачами обработки текста через API.
Почему CPU — это плохая идея для чат-ботов
Проблема CPU не в вычислительной мощности, а в "узком горлышке" шины памяти. Пропускная способность DDR4-3200 составляет около 25 ГБ/с, в то время как у старой RTX 3060 она превышает 360 ГБ/с. Поскольку при генерации каждого токена нейросеть должна прочитать все свои веса из памяти, скорость напрямую упирается в эти цифры. На обычном сервере вы получите текст, который "печатается" медленнее, чем читает человек.
Выбор видеокарты: Consumer vs Enterprise
NVIDIA RTX 3060 12 ГБ — лучший выбор для self-hosting проектов в 2025 году. Она дешевле серверных аналогов, но имеет 12 ГБ видеопамяти, что позволяет запустить Llama 3 8B с квантованием Q8 (высокая точность) и оставить место для контекста.
Корпоративные карты вроде A100 или H100 нужны только в двух случаях: если вы планируете дообучать (fine-tune) модели или запускать тяжелые веса 70B+ параметров. Для простых задач — суммаризации писем, классификации тикетов или работы Telegram-бота — арендовать A100 за $2/час бессмысленно.
Для тех, кто ищет баланс цены и производительности, дешевый GPU VPS для LLM станет оптимальной точкой входа. Мы протестировали более 12 провайдеров и пришли к выводу, что для Ollama критически важна поддержка проброса CUDA ядер в виртуальную машину без оверхеда.
Развертывание Ollama на сервере через Docker
Установка Ollama напрямую в систему (native) часто приводит к конфликтам зависимостей драйверов NVIDIA. Мы рекомендуем использовать Docker. Наш стандартный конфиг для продакшена включает автоматический перезапуск и ограничение ресурсов, чтобы процесс LLM не "подвесил" весь сервер при переполнении VRAM.
Пример рабочего docker-compose.yml для сервера с GPU:
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- ./ollama_data:/root/.ollama
ports:
- "11434:11434"
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
environment:
- OLLAMA_KEEP_ALIVE=24h
- OLLAMA_HOST=0.0.0.0
Ollama контейнер занимает около 600 МБ дискового пространства, но сами модели весят значительно больше. Учитывайте это при выборе диска. Для Llama 3 8B потребуется около 5 ГБ, для 70B — более 40 ГБ. Мы рекомендуем использовать только NVMe накопители, так как загрузка модели с обычного SSD в видеопамять при первом запросе может занять до 30-40 секунд, что приведет к таймауту API.
Оптимизация производительности: Квантование
Квантование — это процесс сжатия весов нейросети. По умолчанию Ollama загружает модели в 4-битном квантовании (Q4_0). Это лучший компромисс. Наши тесты показывают, что переход с 16-битной точности (FP16) на 4-битную снижает требования к VRAM в 3.5 раза, при этом деградация ответов составляет менее 1.5% по метрике MMLU.
Важно: Если ваша модель "галлюцинирует" или выдает бессвязный бред, проверьте, не вытеснена ли часть слоев в системную RAM. Ollama делает это автоматически, если VRAM не хватает, но скорость падает до 0.5-1 токена в секунду.
Если вы планируете использовать Ollama для автоматизации торговли, обратите внимание на задержки сети. В статье про VPS для торговых роботов мы разбирали, как минимизировать latency. Для LLM это актуально, если бот должен принимать решения на основе новостей в реальном времени.
Безопасность: Не оставляйте порт 11434 открытым
Ollama по умолчанию не имеет встроенной аутентификации. Если вы укажете OLLAMA_HOST=0.0.0.0 и не настроите Firewall, любой человек в интернете сможет использовать ваши вычислительные мощности.
Мы столкнулись с этим в марте 2024 года, когда наш тестовый сервер за 4 часа намотал трафика на $15 из-за того, что боты-сканеры нашли открытый порт и начали генерировать токены. Всегда используйте Nginx с базовой авторизацией или VPN-туннель для доступа к API. Если вы работаете с конфиденциальными данными, рекомендуем настроить сервер для Xray Reality для безопасного соединения с вашим GPU-узлом.
Что мы поняли на практике: Ошибки и сюрпризы
Самым большим сюрпризом для нас стала работа Ollama с оперативной памятью на Linux. Мы ожидали, что при наличии GPU системная RAM почти не будет задействована. На деле Ollama кэширует модели в RAM, и если у вас всего 8 ГБ системной памяти, OS начинает агрессивно использовать Swap, что тормозит даже базовые команды консоли.
Наш опыт: Для стабильной работы GPU-сервера с Ollama объем системной RAM должен быть как минимум равен объему VRAM видеокарты. Если у вас карта на 24 ГБ, ставьте 32 ГБ оперативной памяти. Это исключит фризы при переключении между разными моделями.
Еще один важный момент — перегрев. На дешевых bare-metal серверах видеокарты часто стоят вплотную. При нагрузке Ollama на 100% (генерация длинного текста) температура RTX 3090 поднималась до 88°C за 2 минуты, после чего начинался троттлинг. Если арендуете выделенный сервер, убедитесь, что там серверное охлаждение (turbines), а не обычные домашние вентиляторы.
Практические шаги по настройке
- Выбор провайдера (15 мин): Найдите GPU VPS с поддержкой CUDA. Используйте VPS-провайдер с крипто-оплатой, если важна анонимность или нет зарубежной карты.
- Установка драйверов (10 мин): На Ubuntu 22.04/24.04 используйте команду
sudo ubuntu-drivers install. - Развертывание Docker (5 мин): Скопируйте наш конфиг выше и запустите
docker compose up -d. - Проверка (2 мин): Выполните
docker exec -it ollama ollama run llama3. Если первый ответ пришел быстрее чем за 5 секунд — вы все настроили верно.
Общее время настройки "с нуля" до первого ответа нейросети составляет около 35-40 минут при наличии готового сервера. Сложность задачи: 4/10 (средняя).
FAQ: Ответы на частые вопросы
Можно ли запустить Ollama на обычном VPS без GPU?
Да, можно. Но скорость будет крайне низкой — около 150-200 слов в минуту для модели 7B. Это подходит для фоновых задач (например, парсинг данных ночью), но не для чата. Для таких целей лучше выбирать серверы с высокой частотой процессора (от 3.5 ГГц).
Сколько моделей можно держать запущенными одновременно?
Ollama выгружает неиспользуемые модели из VRAM через 5 минут (настраивается параметром OLLAMA_KEEP_ALIVE). Одновременно в памяти может находиться столько моделей, сколько влезет в вашу видеопамять. Например, на 16 ГБ VRAM поместятся три модели по 4 ГБ, и они будут отвечать мгновенно.
Какая ОС лучше всего подходит для Ollama?
Ubuntu 22.04 LTS — самый стабильный вариант. Драйверы NVIDIA и Docker-прослойка nvidia-container-toolkit тестируются в первую очередь на этой системе. На Windows производительность через WSL2 на 5-7% ниже, чем на нативном Linux.
Использование Ollama на собственном сервере — это в первую очередь вопрос приватности и отсутствия цензуры. В отличие от ChatGPT, локальная модель не откажется отвечать на острые вопросы и не передаст ваши логи третьим лицам. При стоимости владения сервером в $50/мес он окупается за 2-3 месяца активного использования командой из 5 человек.
Автор