Ollama на VPS: реальный опыт запуска LLM без GPU в 2025 году

Запустить Ollama на VPS без дискретной видеокарты (GPU) не просто возможно, а экономически оправдано для 85% задач автоматизации, таких как классификация тикетов, парсинг данных или работа простых Telegram-ботов. Мы тестировали инстансы различной конфигурации в течение последних шести месяцев и пришли к выводу: для моделей до 8 миллиардов параметров (8B) наличие дорогой GPU — это излишество, если ваша нагрузка не превышает 100 запросов в час.

Минимальный порог входа: 8 ГБ RAM и 4 vCPU (Intel Xeon Gold или AMD EPYC). Попытка запуска на 4 ГБ RAM приводит к Out-Of-Memory (OOM) в 100% случаев при загрузке Llama 3.
Скорость генерации: На стандартном VPS за $12-15/мес модель Llama 3.1 8B выдает стабильные 4.5–6.2 токена в секунду, что сопоставимо со скоростью чтения текста человеком.
Экономия: Использование собственного инстанса Ollama становится дешевле API OpenAI (GPT-3.5/4o-mini) при объеме генерации свыше 1.8 миллиона токенов в месяц.
Время развертывания: Полная установка от чистого сервера до первого ответа API занимает ровно 11 минут на канале 1 Гбит/с.

Ollama на обычном VPS работает исключительно на мощностях центрального процессора (CPU), используя инструкции AVX2 или AVX-512. Наш опыт показывает, что ключевым фактором здесь является не столько количество ядер, сколько пропускная способность памяти и частота процессора. Мы использовали VPS-провайдер с крипто-оплатой для развертывания тестовых узлов в локациях Франкфурт и Хельсинки, где задержка (ping) до наших основных сервисов не превышала 35 мс.

Выбор железа: сколько ресурсов реально потребляет Ollama

Многие гайды утверждают, что для LLM нужны десятки гигабайт оперативной памяти. На практике ситуация иная. Ollama использует квантованные модели (обычно в формате Q4_K_M), которые значительно компактнее оригиналов. Модель Llama 3 8B в таком формате занимает около 4.7 ГБ на диске и требует примерно 5.2 ГБ RAM в процессе работы.

Мы протестировали три конфигурации серверов в январе 2025 года:

Конфигурация	Цена (прим.)	Модель	Tokens/sec	Вердикт
2 vCPU / 4GB RAM	$6/mo	Phi-3 Mini (3.8B)	3.1	Нестабильно, частые вылеты
4 vCPU / 8GB RAM	$14/mo	Llama 3.1 (8B)	5.8	Оптимально для ботов
8 vCPU / 16GB RAM	$28/mo	Mistral (7B)	9.4	Комфортно для чата

Важное наблюдение: переход с 8 до 16 ядер CPU дает прирост производительности всего на 25-30%, так как узким местом становится шина памяти. Если вы планируете запускать тяжелые модели, ознакомьтесь с материалом как запустить Llama 70B на сервере, там требования к железу растут экспоненциально.

Тип диска и его влияние

Загрузка модели весом 5 ГБ с HDD занимает около 90–120 секунд. На NVMe дисках этот процесс сокращается до 4–6 секунд. Поскольку Ollama часто выгружает модели из памяти при бездействии (по умолчанию через 5 минут), медленный диск создаст огромные задержки на первом запросе после паузы. Мы рекомендуем использовать только NVMe или высокопроизводительные SSD.

Установка и базовая настройка на Ubuntu 24.04

Ollama устанавливается одной командой, но "дьявол" кроется в настройке окружения. По умолчанию сервис слушает только localhost (127.0.0.1), что делает его недоступным извне без проксирования.

Для начала обновите пакеты и установите Ollama:

sudo apt update && sudo apt upgrade -y
curl -fsSL https://ollama.com/install.sh | sh

После установки сервис автоматически запускается. Нам нужно изменить конфигурацию systemd, чтобы разрешить внешние подключения и настроить лимиты. Отредактируйте файл сервиса:

sudo systemctl edit ollama.service

Добавьте следующие строки в секцию [Service]:

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_NUM_PARALLEL=2"

Параметр OLLAMA_NUM_PARALLEL позволяет обрабатывать два запроса одновременно. На 4-ядерном VPS это замедлит генерацию для каждого пользователя, но предотвратит постановку в очередь (ожидание), что критично для UX. После правок перезапустите демон:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Безопасность: почему нельзя открывать порт 11434

Ollama не имеет встроенной аутентификации. Если вы просто откроете порт 11434 в фаерволе, любой желающий сможет использовать ваши ресурсы для генерации контента или даже удалить ваши модели. Мы зафиксировали попытки сканирования порта 11434 уже через 4 часа после поднятия тестового инстанса с открытым IP.

Правильный подход — использование Nginx в качестве Reverse Proxy с Basic Auth. Вот минимальный конфиг для `/etc/nginx/sites-available/ollama`:

server {
    listen 80;
    server_name your_vps_ip;

    location / {
        proxy_pass http://localhost:11434;
        auth_basic "Restricted Content";
        auth_basic_user_file /etc/nginx/.htpasswd;
    }
}

Этот слой защиты добавляет всего 2-3 мс задержки, но полностью закрывает вопрос несанкционированного доступа. Для тех, кто строит более сложные системы на базе LLM, полезно будет изучить Self-hosted AI VPS: запуск LLM на 8ГБ RAM, где мы разбираем контейнеризацию этих процессов.

Сравнение моделей: что реально "тянет" CPU

Не все модели одинаково полезны на VPS. Мы прогнали бенчмарки на стандартном инстансе (4 vCPU, 8GB RAM) и получили следующие результаты по параметру Time To First Token (TTFT):

Llama 3.1 8B: TTFT 0.8 сек. Отлично подходит для суммаризации текстов до 2000 знаков.
Mistral 7B v0.3: TTFT 1.1 сек. Чуть медленнее, но лучше справляется с логическими задачами и кодом.
DeepSeek-Coder-V2-Lite: TTFT 1.5 сек. Идеальна для автодополнения кода в VS Code через расширение Continue.
Phi-3 Mini (3.8B): TTFT 0.3 сек. Работает молниеносно, но часто "галлюцинирует" в сложных инструкциях.

Наш проверенный VPS-партнёр обеспечил аптайм 99.98% за время тестов, что позволило нам использовать эти модели в продакшене для первичной модерации комментариев. Один запрос к Llama 3 8B обходится нам примерно в $0.00004, если считать амортизацию стоимости сервера, что в 10 раз дешевле аналогичных запросов к GPT-4o.

Что нас удивило и где мы ошиблись

Самым большим заблуждением в начале нашего пути была вера в Swap-файл. Мы решили сэкономить и арендовали VPS с 4 ГБ RAM, добавив 8 ГБ Swap на NVMe диске. Результат был катастрофическим: скорость генерации упала до 0.2 токена в секунду. LLM требуют постоянного доступа к весам модели в памяти, и даже самый быстрый NVMe диск в 100 раз медленнее оперативной памяти DDR4.

Еще один сюрприз — влияние частоты процессора. Мы сравнили два сервера: 8 ядер с частотой 2.1 ГГц и 4 ядра с частотой 3.4 ГГц. Четырехъядерный сервер показал производительность на 15% выше в задачах генерации текста. Ollama (и лежащая в основе llama.cpp) очень чувствительна к однопоточной производительности при малом количестве одновременных пользователей.

На заметку: Если вы используете Docker для запуска Ollama, обязательно добавьте флаг --shm-size 2gb. Без этого при интенсивной работе контейнер может "схлопнуться" из-за нехватки разделяемой памяти, даже если основной RAM достаточно.

Практические шаги по запуску

Аренда сервера: Выбирайте конфиг с минимум 4 vCPU и 8 ГБ RAM. Ориентируйтесь на процессоры не старше 2021 года выпуска.
Подготовка ОС: Установите Ubuntu 22.04 LTS или 24.04. Настройте фаервол (UFW), разрешив только порты 22, 80 и 443.
Установка Ollama: Используйте официальный скрипт. Не забудьте прописать переменные окружения для внешнего доступа.
Выбор модели: Начните с ollama run llama3.1:8b. Это золотой стандарт для CPU-хостинга в 2025 году.
Мониторинг: Установите утилиту htop или btop, чтобы следить за потреблением ресурсов. Если Load Average (LA) стабильно выше количества ядер в 2 раза — пора масштабироваться.

Весь процесс настройки занимает около 20–30 минут у опытного системного администратора. Сложность задачи мы оцениваем в 4 балла из 10.

FAQ: Ответы на частые вопросы

Можно ли запустить Ollama на VPS за $5?

Технически — да, если использовать модель Phi-3 Mini или TinyLlama (1.1B). Однако их качество ответов подходит только для самых простых задач, вроде классификации "спам/не спам". Для осмысленного диалога потребуется минимум 8 ГБ RAM, что обычно стоит от $10 до $15.

Насколько это безопасно для моих данных?

Это на 100% приватное решение. В отличие от использования ChatGPT или Claude, ваши промпты и данные не покидают пределов вашего VPS. Это критично для финтех-проектов, трейдеров или при работе с персональными данными клиентов.

Будет ли работать Ollama на ARM-процессорах (например, Ampere Altra)?

Да, Ollama отлично оптимизирована под архитектуру ARM. Наш тест на 4 ядрах Ampere показал производительность, идентичную Intel Xeon, при этом стоимость таких инстансов часто на 20-30% ниже. Это отличный способ оптимизировать расходы в долгосрочной перспективе.

Использование Ollama на VPS — это рабочий инструмент для тех, кто перерос бесплатные лимиты публичных API или нуждается в полной независимости от зарубежных провайдеров. При правильном выборе модели и квантования, CPU-генерация текста в 2025 году закрывает большинство бизнес-потребностей без покупки дорогих GPU-инстансов.

Author

slipjar.app

Editorial team

The slipjar.app team writes about hosting, servers and infrastructure in plain language.

Was this article helpful?