Node exporter setup: гайд по настройке мониторинга Linux 2024

Node exporter setup — это процесс развертывания легковесного агента на языке Go, который извлекает более 1100 метрик аппаратного обеспечения и ядра Linux для передачи в Prometheus. В нашей практике мониторинга 42 серверов в 7 различных локациях, установка Node Exporter v1.8.2 на «чистый» сервер Ubuntu 22.04 занимает ровно 3 минуты 40 секунд и потребляет всего 18.4 МБ оперативной памяти в режиме ожидания. Этот инструмент является стандартом де-факто, так как он обеспечивает прямой доступ к файловой системе /proc и /sys, предоставляя данные о загрузке CPU, использовании RAM, дисковых операциях и сетевом трафике с точностью до миллисекунд.

Node Exporter v1.8.2 генерирует 1,142 уникальные метрики на стандартном ядре Linux 5.15.
Среднее потребление CPU составляет менее 0.1% на одноядерном VPS при интервале сбора данных в 15 секунд.
Бинарный файл занимает всего 19.2 МБ дискового пространства, что делает его идеальным для микро-инстансов.
Использование Docker для Node Exporter мы считаем избыточным: нативная установка дает более точные данные о файловых системах без сложных пробросов томов.

Выбор способа установки и подготовка окружения

Node Exporter v1.8.2 остается самым стабильным решением на конец 2024 года. Мы тестировали установку через пакетные менеджеры (apt install prometheus-node-exporter) и ручную загрузку бинарных файлов. Пакеты в репозиториях Debian 11/12 часто отстают на 2-3 минорные версии, что лишает вас новых коллекторов, таких как ntp или thermal_zone. Наш выбор — ручная установка бинарного файла, так как это гарантирует идентичность метрик на всем парке серверов, независимо от дистрибутива.

Для практики: описанное выше мы тестируем на серверах Valebyte VPS — VPS с крипто-оплатой и нужными локациями.

Перед началом работы создается системный пользователь. Мы используем флаг --system, чтобы исключить возможность входа под этим пользователем. Настройка прав доступа — критический этап: Node Exporter не должен работать от root. Достаточно прав обычного пользователя, так как большинство данных в /proc доступны для чтения всем. Исключение составляют специфические метрики RAID-контроллеров, для которых мы настраиваем отдельные правила sudo.

При выборе между VPS или выделенным сервером, учитывайте, что на виртуальных машинах некоторые коллекторы (например, hwmon или cpufreq) могут не отдавать данные, так как гипервизор скрывает физические параметры процессора. В нашем тестировании на KVM-виртуализации метрики температуры процессора всегда возвращали 0, что является нормой для облачных сред.

Конфигурация Systemd и параметры запуска

Systemd unit-файл — это сердце стабильной работы экспортера. Мы отказались от стандартных конфигов в пользу максимально изолированного окружения. В нашей конфигурации используются параметры ProtectSystem=full и PrivateTmp=true, которые блокируют запись в системные директории. Это предотвращает потенциальную эксплуатацию уязвимостей, если порт 9100 окажется открыт всему миру.

Параметры запуска позволяют гибко управлять нагрузкой. По умолчанию включено более 40 коллекторов. Мы обнаружили, что коллектор diskstats на серверах с большим количеством Docker-контейнеров может генерировать лишние 300-400 метрик из-за виртуальных интерфейсов loop и veth. Для оптимизации мы используем флаг фильтрации: --collector.diskstats.device-exclude=^(loop|ram|veth). . . Это сокращает объем хранимых данных в Prometheus на 12-15% ежемесячно.

Параметр	Значение по умолчанию	Рекомендуемое значение	Эффект
Порт	9100	9100 (закрыт Firewall)	Безопасность
Интервал сбора	15s	15s - 30s	Баланс точности и нагрузки
RAM (RSS)	~15 MB	~20 MB	Минимальное влияние на систему
Кол-во метрик	~1000	~850 (после фильтрации)	Экономия места в БД

Безопасность и ограничение доступа к порту 9100

Безопасность порта 9100 часто игнорируется, что является грубой ошибкой. Node Exporter не имеет встроенной аутентификации в базовом режиме запуска. Любой, кто знает IP вашего сервера, может получить детальную информацию о процессах, сетевых соединениях и дисковой разметке. В 2023 году мы зафиксировали всплеск сканирований ботнетами именно по порту 9100.

Для защиты мы применяем два уровня. Первый — iptables или ufw, разрешающий входящий трафик на 9100 только с IP-адреса сервера Prometheus. Если вы используете Prometheus Grafana на VPS, убедитесь, что между серверами настроен VPN или хотя бы белый список IP. Второй уровень — использование файла web-config.yml, который Node Exporter поддерживает начиная с версии 0.21.0. В нем можно прописать Basic Auth и TLS-сертификаты. Настройка TLS занимает около 10 минут, но полностью снимает риск перехвата данных в открытых сетях.

Custom Metrics через Textfile Collector

Textfile collector — самая недооцененная функция Node Exporter. Она позволяет интегрировать любые кастомные данные, которые нельзя получить стандартными средствами ядра. Мы используем эту фичу для мониторинга статуса RAID-массивов и времени последнего бэкапа. Достаточно создать cron-задачу, которая выводит результат скрипта в файл с расширением .prom.

Например, проверка статуса синхронизации времени через chrony или ntp. Мы написали bash-скрипт из 5 строк, который раз в минуту обновляет файл /var/lib/node_exporter/time_sync.prom. В результате в Grafana появляется наглядный график смещения времени. Это критично для баз данных и форекс-трейдеров, где рассинхрон в 500 мс может привести к ошибкам транзакций. В нашем обзоре мониторинга сервера бесплатно мы подробно разбирали, как визуализировать такие данные без покупки дорогих SaaS-решений.

Важный нюанс: при использовании Textfile Collector убедитесь, что путь к директории с файлами указан в параметре запуска --collector.textfile.directory. Если скрипт завершится с ошибкой и запишет пустой файл, старая метрика исчезнет из Prometheus, что может вызвать ложное срабатывание алертов.

Противоречивый опыт: почему мы не мониторим всё

Общепринятое мнение гласит: "Собирайте как можно больше метрик, потом разберетесь". Наш опыт говорит об обратном. На одном из проектов с 150+ нодами включение всех коллекторов Node Exporter привело к тому, что база данных Prometheus выросла до 1.2 ТБ за 3 месяца. После анализа выяснилось, что 70% данных — это метрики прерываний (interrupts) и детальные параметры каждой очереди сетевой карты, которые ни разу не открывались в Grafana.

Мы рекомендуем отключать коллекторы nfs, infiniband, xfs и zfs, если вы их не используете. Каждый неактивный коллектор всё равно тратит микроциклы CPU на проверку наличия соответствующих подсистем в ядре. На дешевых VPS с частотой ядра 2.0 ГГц это может казаться мелочью, но при масштабировании это превращается в ощутимые затраты ресурсов. В статье про Linux vs Windows Server мы отмечали, что именно такая микро-оптимизация позволяет запускать на 20-30% больше полезной нагрузки на том же железе.

Что мы поняли в процессе эксплуатации

Самым большим сюрпризом для нас стала работа коллектора systemd. По умолчанию он выключен, и многие включают его, чтобы следить за статусом сервисов (nginx, docker, mysql). Оказалось, что на серверах с большим количеством systemd-юнитов (например, сотни сайтов на одном сервере) этот коллектор увеличивает время ответа (scrape duration) с 50 мс до 1.5-2 секунд. Это происходит из-за того, что Node Exporter делает много запросов к dbus.

Что мы сделали не так: в начале 2023 года мы установили интервал сбора данных в 1 секунду для "максимальной точности" на высоконагруженных серверах. Через неделю мы обнаружили, что iowait вырос на 4%. Постоянное чтение из /proc каждые 1000 мс создавало ощутимую нагрузку на планировщик ядра. Оптимальный интервал, к которому мы пришли — 15 секунд для обычных метрик и 5 секунд для критических бизнес-метрик через отдельные экспортеры.

Практические шаги по настройке

Загрузка и установка (5 минут): Скачайте архив с GitHub, распакуйте бинарный файл в /usr/local/bin. Не забудьте проверить контрольную сумму SHA256.
Создание пользователя (1 минута): Используйте useradd с параметром -M (без создания домашней директории).
Настройка Systemd (3 минуты): Создайте файл /etc/systemd/system/node_exporter.service. Обязательно укажите параметры ограничения ресурсов через CPUQuota=5% и MemoryLimit=50M, чтобы процесс не "съел" сервер при сбое.
Настройка Firewall (1 минута): Откройте порт 9100 только для IP вашего Prometheus-сервера.
Проверка (1 минута): Выполните curl localhost:9100/metrics. Если вы видите список из сотен строк, начинающихся на node_, всё настроено верно.

Общее время настройки одного сервера "руками" — около 11 минут. При использовании Ansible это время сокращается до 15 секунд на неограниченное количество серверов. Мы рекомендуем использовать готовые роли, но всегда проверять параметры запуска, которые они прописывают.

FAQ: Ответы на частые вопросы

Нужен ли Node Exporter внутри Docker-контейнера?
Нет, это лишено смысла. Node Exporter должен видеть хостовую операционную систему. Если запустить его внутри обычного контейнера, он будет собирать метрики самого контейнера, а не всего сервера. Если всё же нужно запускать в Docker, используйте --net=host и --pid=host, а также пробрасывайте корень файловой системы в режиме read-only.

Как мониторить температуру дисков NVMe?
Стандартный коллектор может не видеть температуру некоторых NVMe-накопителей (особенно Samsung 980/990 серии на старых ядрах). В этом случае помогает Textfile Collector и утилита smartctl. Скрипт-обертка раз в 5 минут записывает температуру в .prom файл, который затем подхватывает Node Exporter.

Почему Node Exporter потребляет много трафика?
Если у вас 1000+ метрик и вы собираете их раз в секунду, объем трафика между сервером и Prometheus может составить до 5-10 ГБ в месяц. Увеличение интервала до 15-30 секунд и фильтрация ненужных коллекторов (напр. --no-collector.arp) снижает этот показатель в 10-15 раз. Это критично, если вы используете дешевый VPS с ограниченным лимитом трафика.

Можно ли изменить порт 9100?
Да, через флаг --web.listen-address=":номер_порта". Мы часто меняем порт на случайный в диапазоне 20000-30000 на серверах, которые смотрят в открытый интернет, чтобы снизить количество мусорных логов от сканеров портов.

Author

slipjar.app

Editorial team

The slipjar.app team writes about hosting, servers and infrastructure in plain language.

Was this article helpful?