Ollama требует минимум 8 ГБ оперативной памяти для запуска моделей класса 7B/8B, однако для стабильной работы без задержек в 1.5–2 секунды на запрос необходима выделенная видеопамять (VRAM) объемом от 6 ГБ. Мы тестируем Ollama с момента её выхода на Linux, и за это время архитектура изменилась: если раньше запуск на CPU считался "костылем", то в 2025 году обновленные движки позволяют получать приемлемые результаты даже на обычных VPS, если правильно подобрать квантование модели.
- Llama 3 8B (Q4_K_M) требует 4.7 ГБ VRAM для полной загрузки в память видеокарты.
- Ollama потребляет всего 150 МБ RAM в режиме ожидания (idle), но мгновенно занимает до 12 ГБ при инференсе моделей 13B на процессоре.
- Скорость генерации на 4-ядерном CPU (Intel Xeon Gold) составляет около 3–5 токенов в секунду, что в 10 раз медленнее бюджетной GPU.
- Минимальный объем дискового пространства для комфортной работы — 40 ГБ (NVMe), учитывая вес моделей и кэш слоев.
Аппаратные требования: GPU решает все
Видеокарта является критическим узлом для работы с LLM через Ollama. Основной параметр здесь — не частота ядра, а объем и пропускная способность видеопамяти. Ollama использует библиотеку llama.cpp, которая умеет разбивать модель на слои. Если ваша видеокарта имеет 4 ГБ VRAM, а модель весит 5 ГБ, Ollama перенесет оставшиеся слои в обычную оперативную память (RAM). Это приводит к падению скорости с 40–50 токенов в секунду до 2–4 токенов.
Для практики: описанное выше мы тестируем на серверах Valebyte — VPS с крипто-оплатой и нужными локациями.
NVIDIA и CUDA
NVIDIA остается стандартом де-факто благодаря зрелости драйверов CUDA. Мы тестировали работу на разных поколениях карт и вывели следующие закономерности. Для моделей 7B/8B (Mistral, Llama 3) идеальным выбором будет карта с 8 ГБ VRAM (например, RTX 3060 или RTX 4060). В облачных окружениях часто предлагают NVIDIA Tesla T4 — она имеет 16 ГБ VRAM, что позволяет запускать модели 13B или даже 14B (например, Qwen 2.5) целиком в видеопамяти.
AMD и ROCm
AMD поддержка в Ollama значительно улучшилась в 2024 году. На картах серии RX 6000 и 7000 производительность сопоставима с NVIDIA, но настройка драйверов ROCm на Ubuntu 22.04/24.04 до сих пор требует больше времени. Если вы планируете использовать потребительские карты AMD, ориентируйтесь на модели с 12+ ГБ памяти, так как софт под AMD потребляет чуть больше накладных ресурсов на управление памятью.
Наш опыт показал: запуск Llama 3 8B на NVIDIA RTX 3060 (12 ГБ) выдает стабильные 48 токенов/сек, в то время как на процессоре AMD Ryzen 9 5900X скорость падает до 6.2 токенов/сек. Разница в 8 раз при сопоставимой стоимости железа.
Оперативная память (RAM) и файл подкачки
Оперативная память сервера используется Ollama в двух случаях: когда нет GPU или когда модель не влезает в VRAM. Если вы планируете запускать Ollama на обычном VPS, забудьте о тарифах с 2 ГБ или 4 ГБ RAM. Система просто "прибьет" процесс по OOM (Out of Memory) еще на этапе загрузки весов модели.
| Размер модели | Минимальная RAM (CPU only) | Рекомендуемая RAM | Типичный вес файла (Q4) |
|---|---|---|---|
| 3B (Phi-3, Llama 3.2) | 4 ГБ | 8 ГБ | 2.2 ГБ |
| 7B / 8B (Mistral, Llama 3) | 8 ГБ | 16 ГБ | 4.7 ГБ |
| 13B / 14B (Llama 2, Qwen) | 16 ГБ | 32 ГБ | 9.1 ГБ |
| 70B (Llama 3) | 64 ГБ | 128 ГБ | 40 ГБ |
RAM сервера должна быть как минимум в 1.5 раза больше размера модели. Это связано с тем, что Ollama требуется место для контекстного окна (Context Window). При стандартном контексте в 4096 токенов накладные расходы невелики, но если вы расширите его до 32k или 128k через параметры Modelfile, потребление памяти вырастет на 4–8 ГБ сверх веса самой модели. Подробнее о выборе между типами серверов можно почитать в нашем материале Shared vs VPS vs Dedicated: честное сравнение производительности 2025.
Требования к процессору (CPU)
Процессор в Ollama выполняет роль диспетчера при наличии GPU и основного вычислителя при его отсутствии. Для эффективного инференса на CPU критически важна поддержка инструкций AVX2. Большинство современных процессоров Intel и AMD на VPS их поддерживают, однако дешевые "обрезанные" ядра на старых хостингах могут стать узким местом.
Intel Xeon Gold или Platinum обеспечивают лучшую многопоточность. Мы зафиксировали, что Ollama эффективно масштабируется до 8–12 ядер. Дальнейшее увеличение количества ядер дает мизерный прирост (менее 5%), так как скорость начинает упираться в пропускную способность шины памяти (Memory Bandwidth). Если вы используете VPS для телеграм бота с интеграцией Ollama, выбирайте тарифы с высокой частотой на ядро (от 3.0 ГГц).
Дисковая подсистема и сеть
Ollama хранит модели в каталоге /usr/share/ollama/.ollama/models (в Linux). Каждая модель — это набор слоев. Если вы часто переключаетесь между моделями, диск должен быть быстрым. Мы рекомендуем только NVMe SSD. На обычных SATA SSD время загрузки модели 70B в память может занимать до 2 минут, тогда как NVMe справляется за 15–20 секунд.
Скорость сети важна только на этапе ollama pull. Популярная модель Llama 3.1 8B весит около 4.7 ГБ. При канале 100 Мбит/с вы будете скачивать её около 7-10 минут. На гигабитном порту это занимает меньше минуты. Учитывая, что в процессе разработки вы скачаете 5–10 разных моделей и их версий, суммарный объем данных быстро превысит 50 ГБ.
Что мы поняли на практике (Our Experience)
Ollama ведет себя непредсказуемо в Docker-контейнерах без проброса GPU. В ходе тестов мы обнаружили, что производительность Ollama внутри Docker на чистом CPU на 12–15% ниже, чем при нативной установке в Ubuntu. Это связано с оверхедом на виртуализацию вызовов инструкций процессора. Если ваша задача — выжать максимум из обычного VPS за $10-15, ставьте Ollama бинарным файлом через curl -fsSL https://ollama.com/install.sh | sh.
Что нас действительно удивило: Ollama очень агрессивно кэширует модели. Если у вас сервер с 64 ГБ RAM и вы запустили модель, а затем остановили запросы, Ollama оставит её в памяти на 5 минут (по умолчанию), чтобы следующий запрос отработал мгновенно. Это "фича", которая часто пугает системных администраторов, видящих 90% загрузку RAM при отсутствии активных процессов. Это настраивается через переменную окружения OLLAMA_KEEP_ALIVE.
Что мы сделали не так
В начале 2024 года мы попытались запустить Ollama на инстансе с 4 ГБ RAM и 2 ГБ Swap для обслуживания простого чат-бота. Мы думали, что файл подкачки на NVMe спасет ситуацию. Результат был катастрофическим: время генерации одного слова составляло 4 секунды, а CPU Load Average подскочил до 45. Вывод: для Ollama "своп" — это смерть производительности. Либо модель влезает в физическую RAM/VRAM, либо вы меняете модель на более легкую (например, Phi-3 Mini 3.8B).
Практические шаги по настройке (Takeaways)
Для развертывания производительного сервера Ollama следуйте этому алгоритму. Сложность: средняя. Время: около 40 минут.
- Выбор железа: Арендуйте сервер с GPU (минимум RTX 3060 12GB или Tesla T4). Если бюджет ограничен, берите выделенный сервер с быстрым RAM (DDR4/DDR5). Для выбора подходящей локации изучите аренду выделенного сервера в Европе.
- Подготовка ОС: Используйте Ubuntu 22.04 LTS. Установите драйверы NVIDIA:
sudo apt install nvidia-driver-535 nvidia-utils-535 -y. - Установка Ollama: Выполните официальный скрипт установки. Проверьте статус через
systemctl status ollama. - Настройка лимитов: Создайте конфигурационный файл для демона, если планируете держать модель в памяти дольше или меньше:
[Service] Environment="OLLAMA_KEEP_ALIVE=24h" Environment="OLLAMA_HOST=0.0.0.0"
Это позволит обращаться к серверу извне и не выгружать модель сутки. - Тестирование: Запустите
ollama run llama3:8bи замерьте скорость. Если вы видите "Error: model requires more VRAM", используйте версии с более сильным квантованием (например,llama3:8b-instruct-q2_K).
FAQ: Вопросы о требованиях Ollama
Можно ли запустить Ollama на Raspberry Pi 4/5?
Да, Ollama работает на ARM64. На Raspberry Pi 5 с 8 ГБ RAM модель Llama 3.2 1B выдает около 10–12 токенов в секунду. Модели 8B работают крайне медленно — около 1 токена в 2 секунды, что непригодно для диалога, но допустимо для фоновой обработки текста.
Сколько места занимают разные квантования?
Модель Llama 3 8B в формате Q4_K_M (стандарт) занимает 4.7 ГБ. Версия Q8_0 (высокая точность) потребует уже 8.5 ГБ, а Q2_K (низкая точность) — всего 3.1 ГБ. Если у вас мало видеопамяти, всегда ищите тег :q4_0 или :q2_K в библиотеке моделей.
Нужен ли интернет для работы Ollama?
Интернет необходим только один раз для скачивания (pull) модели. После этого Ollama работает полностью офлайн. Это критично для безопасности данных в корпоративных сетях или при использовании на удаленных объектах.
Как запустить несколько моделей одновременно?
По умолчанию Ollama запускает одну модель. Чтобы работать с несколькими, вам нужно суммировать их требования к памяти. Если две модели 7B занимают по 5 ГБ, вам нужно 10 ГБ VRAM + запас на контекст. В настройках сервера можно изменить параметр OLLAMA_MAX_LOADED_MODELS, но это требует значительных ресурсов GPU. Для задач визуализации и работы с нейросетями также рекомендуем ознакомиться с ComfyUI VPS setup, где требования к GPU схожи.
Author