Запуск локальных языковых моделей на виртуальных серверах перестал быть экзотикой: современный vps для llm стоимостью $15-20 в месяц способен выдавать 3-4 токена в секунду на моделях среднего размера. Наш опыт показывает, что для стабильной работы модели Llama-3 8B в квантовании 4-bit требуется минимум 8 ГБ оперативной памяти и 4 ядра современного CPU с поддержкой AVX2. Если объем RAM опускается ниже 6 ГБ, операционная система начинает агрессивно использовать swap, что снижает скорость генерации до катастрофических 0.2-0.5 токена в секунду.
- Минимальный порог входа: VPS с 8 ГБ RAM и NVMe-диском за $12-15/мес (данные на февраль 2025 года) позволяет запускать модели 7B-8B.
- Скорость генерации: На 4-ядерном процессоре AMD EPYC модель Mistral 7B выдает в среднем 180-220 слов в минуту, чего достаточно для чат-ботов и суммаризации текста.
- Критический фактор: Наличие инструкций AVX-512 в процессоре VPS ускоряет инференс на 25-30% по сравнению с устаревшими Xeon Gold.
- Объем диска: Одна модель в формате GGUF занимает от 5 ГБ до 45 ГБ; для комфортной работы с библиотекой моделей (Llama, Mistral, Phi-3) нужно минимум 80 ГБ NVMe.
Реальные требования к ресурсам: RAM решает все
Оперативная память — это основной ограничитель при выборе VPS для работы с LLM. В отличие от видеокарт, где важна VRAM, на виртуальных серверах без GPU мы полагаемся на обычную системную RAM. Большинство современных моделей поставляются в формате GGUF, который позволяет эффективно использовать процессор и память. Мы протестировали популярные веса и определили реальное потребление ресурсов.
Для практики: описанное выше мы тестируем на серверах на Valebyte — VPS с крипто-оплатой и нужными локациями.
Llama-3 8B в квантовании Q4_K_M (наиболее сбалансированный вариант) потребляет около 5.5 ГБ RAM при загрузке. Оставшиеся 2.5 ГБ в 8-гигабайтном инстансе уходят на работу ОС (Ubuntu 24.04) и Docker-контейнера. Если вы планируете использовать контекст более 4096 токенов, потребление памяти вырастет еще на 1-1.5 ГБ. Подробные данные по старшим моделям можно найти в нашем материале сколько RAM нужно для Llama 70B, где мы разбираем работу тяжелых весов.
| Модель | Квантование | Минимум RAM | Рекомендуемый VPS | Скорость (т/с) |
|---|---|---|---|---|
| Phi-3 Mini (3.8B) | Q4_K_M | 4 GB | 2 vCPU / 4 GB RAM | 7-9 |
| Llama-3 (8B) | Q4_K_M | 8 GB | 4 vCPU / 8 GB RAM | 3-5 |
| Mistral (7B) v0.3 | Q5_K_M | 10 GB | 4 vCPU / 12 GB RAM | 2-4 |
| Gemma-2 (9B) | Q4_K_M | 12 GB | 6 vCPU / 16 GB RAM | 2-3 |
Количество ядер CPU напрямую влияет на латентность первого токена (TTFT). В наших тестах переход с 2 до 4 ядер сокращал время ожидания ответа с 4.5 секунд до 1.8 секунды на модели Llama-3. Однако масштабирование выше 8 ядер дает убывающую доходность: прирост скорости между 8 и 16 ядрами составляет всего 10-15%, так как узким местом становится пропускная способность шины памяти (Memory Bandwidth), а не вычислительная мощность.
Выбор процессора: почему не все VPS одинаковы
Архитектура процессора на хостинге определяет, насколько быстро модель будет "думать". Мы сравнили старые Intel Xeon E5-26xx и новые AMD EPYC 7xx3/9xx4 на задачах инференса. Разница в производительности достигает 40% при идентичном количестве ядер. Это связано с поддержкой векторизации данных и объемом кэша L3.
AMD EPYC процессоры показывают лучшие результаты в задачах LLM благодаря более широкой шине памяти. Если хостинг предлагает выбор между "Standard" и "High Performance" (или Dedicated CPU), для нейросетей всегда стоит переплачивать за выделенные ядра. Shared-хостинг с "честными" 2 ядрами может работать медленнее, если соседи по ноде нагружают процессор, так как LLM создает специфическую непрерывную нагрузку на CPU в моменты генерации.
Проверка инструкций CPU перед покупкой: выполните команду grep -o 'avx[^ ]*' /proc/cpuinfo на тестовом сервере. Если в выводе нет avx2 или avx512, этот VPS будет работать с LLM в 2-3 раза медленнее, чем мог бы.
NVMe-накопители обязательны, и это не обсуждается. Скорость чтения модели с диска в память при старте контейнера на обычном SSD составляет около 20-30 секунд, тогда как NVMe справляется за 5-7 секунд. Это критично при использовании инструментов вроде Ollama, которые могут выгружать модели из памяти при простое. О том, как архитектура диска влияет на общую отзывчивость системы, мы писали в статье SSD vs NVMe разница: тесты 2025.
Программный стек: Ollama, Docker и оптимизация
Ollama является стандартом де-факто для запуска LLM на VPS. Она автоматически определяет доступные инструкции процессора и оптимизирует использование RAM. Мы рекомендуем использовать Docker-версию для изоляции зависимостей и упрощения управления ресурсами. Типичная установка занимает 5 минут: скачивание образа (600 МБ) и загрузка модели Llama-3 (4.7 ГБ).
Конфигурация через Docker Compose позволяет жестко ограничить ресурсы, чтобы LLM не "уроcomplex" весь сервер при пиковых нагрузках. Для стабильной работы мы выставляем deploy.resources.limits.memory чуть ниже физического объема RAM, оставляя 1 ГБ для системы. Подробную инструкцию по деплою мы собрали в гайде Ollama Docker Compose: настройка 2025.
Python-библиотеки (llama-cpp-python) требуют компиляции под конкретную архитектуру. Если вы планируете писать свой API-враппер, обязательно собирайте бинарные файлы с поддержкой OpenBLAS или CLBlast. Это позволяет выжать дополнительные 0.5-1 токен в секунду на многоядерных системах. Использование чистого Python без оптимизированных бэкендов замедляет работу в 5-10 раз.
Оптимизация контекста и параметров
Context Window (окно контекста) — это "краткосрочная память" модели. По умолчанию многие модели пытаются использовать 8к или 32к токенов. На VPS с ограниченной RAM каждый дополнительный токен контекста занимает место. Если ваша задача — классификация коротких сообщений или создание простых ответов, ограничьте контекст до 2048 токенов. Это сэкономит около 500-800 МБ оперативной памяти и ускорит обработку запросов.
Что нас удивило: опыт и ошибки
Самым большим сюрпризом стала живучесть моделей при использовании Swap на быстрых NVMe-дисках. Общепринятое мнение гласит, что swap убивает производительность LLM. Однако наши тесты на серверах с NVMe Gen4 показали: если модели не хватает всего 500-700 МБ RAM, она продолжает работать со скоростью около 1.5-2 токенов в секунду. Это медленно, но приемлемо для фоновых задач, таких как парсинг и категоризация данных в n8n.
Второй неожиданный момент — влияние локации сервера на "ощущаемую" скорость. При использовании веб-интерфейсов (например, Open WebUI) задержка сети (latency) добавляет к времени генерации первого токена еще 100-200 мс. Для пользователей из СНГ серверы в Финляндии или Германии показывают себя лучше, чем дешевые инстансы в США, даже если американские серверы имеют чуть более мощный CPU.
Мы ошиблись, когда в начале 2024 года пытались использовать инстансы с 2 ГБ RAM и моделями TinyLlama. Несмотря на малый размер (1.1B параметров), такие модели практически бесполезны для реальных бизнес-задач из-за частых галлюцинаций. Наш вывод: vps для llm начинается только с 8 ГБ памяти. Все, что меньше — пустая трата времени на настройку.
Практические шаги по запуску
Для запуска собственной языковой модели на VPS выполните следующие действия. Весь процесс занимает около 15-20 минут, включая скачивание весов модели.
- Аренда сервера: Выберите VPS с характеристиками: 4 vCPU (AMD EPYC/Ryzen), 8 GB RAM, 80 GB NVMe. Ориентировочная цена — $12-18/мес. (Сложность: низкая, Время: 5 мин).
- Подготовка ОС: Установите Ubuntu 24.04 и обновите пакеты
apt update && apt upgrade. (Сложность: низкая, Время: 3 мин). - Установка Ollama: Используйте официальный скрипт
curl -fsSL https://ollama.com/install.sh | sh. Это самый быстрый способ развернуть окружение. (Сложность: средняя, Время: 2 мин). - Запуск модели: Выполните
ollama run llama3. Система сама скачает 4.7 ГБ данных и запустит интерактивный чат. (Сложность: низкая, Время: 5-10 мин в зависимости от канала связи). - Проверка производительности: Введите сложный запрос и замерьте скорость. Ожидаемый результат для такой конфигурации — 3.5-4.5 токена в секунду.
Если вы планируете использовать сервер для обслуживания внешних запросов, ознакомьтесь с системными требованиями Ollama для продакшн-сред, где мы разбираем вопросы безопасности и конкурентных запросов.
FAQ: Вопросы о VPS для нейросетей
Можно ли запустить LLM на самом дешевом VPS за $5?
Теоретически да, модель Phi-3 Mini (3.8B) запустится на 4 ГБ RAM (с учетом swap), но скорость будет крайне низкой (около 1 т/с), а качество ответов — посредственным. Для работы мы рекомендуем бюджет от $12.
Нужна ли видеокарта (GPU) на VPS?
GPU ускоряет генерацию в 10-50 раз, но стоимость VPS с GPU (например, NVIDIA T4 или A10) начинается от $60-80 в месяц. Для большинства задач автоматизации и простых чат-ботов обычного CPU достаточно.
Какой объем диска реально нужен?
Система занимает 5-7 ГБ, Docker-образы — еще 2-3 ГБ. Модель Llama-3 8B весит около 5 ГБ. Если вы хотите тестировать разные модели (Gemma, Mistral, Command R), берите минимум 80-100 ГБ, так как каждая новая модель "съедает" значительный объем пространства.
Будет ли работать 70B модель на обычном VPS?
Только на очень дорогих инстансах с 48+ ГБ RAM. Даже в квантовании Q2 (сильное сжатие) такая модель требует около 25-30 ГБ памяти и будет работать крайне медленно на CPU — примерно 1 токен в 2-3 секунды. Для таких задач лучше использовать аренду выделенных серверов или специализированные GPU-облака.
Author