2022-01-29 23:43:22 +03:00
|
|
|
|
[Документация](../../README-ru.md#документация) → [Конфигурация](../config.ru.md) → Параметры сетевого протокола
|
|
|
|
|
|
|
|
|
|
-----
|
|
|
|
|
|
|
|
|
|
[Read in English](network.en.md)
|
|
|
|
|
|
|
|
|
|
# Параметры сетевого протокола
|
|
|
|
|
|
|
|
|
|
Данные параметры используются клиентами и OSD и влияют на логику сетевого
|
|
|
|
|
взаимодействия между клиентами, OSD, а также etcd.
|
|
|
|
|
|
|
|
|
|
- [tcp_header_buffer_size](#tcp_header_buffer_size)
|
|
|
|
|
- [use_sync_send_recv](#use_sync_send_recv)
|
|
|
|
|
- [use_rdma](#use_rdma)
|
|
|
|
|
- [rdma_device](#rdma_device)
|
|
|
|
|
- [rdma_port_num](#rdma_port_num)
|
|
|
|
|
- [rdma_gid_index](#rdma_gid_index)
|
|
|
|
|
- [rdma_mtu](#rdma_mtu)
|
|
|
|
|
- [rdma_max_sge](#rdma_max_sge)
|
|
|
|
|
- [rdma_max_msg](#rdma_max_msg)
|
|
|
|
|
- [rdma_max_recv](#rdma_max_recv)
|
2023-02-28 02:58:28 +03:00
|
|
|
|
- [rdma_max_send](#rdma_max_send)
|
2023-08-21 01:10:52 +03:00
|
|
|
|
- [rdma_odp](#rdma_odp)
|
2022-01-29 23:43:22 +03:00
|
|
|
|
- [peer_connect_interval](#peer_connect_interval)
|
|
|
|
|
- [peer_connect_timeout](#peer_connect_timeout)
|
|
|
|
|
- [osd_idle_timeout](#osd_idle_timeout)
|
|
|
|
|
- [osd_ping_timeout](#osd_ping_timeout)
|
|
|
|
|
- [max_etcd_attempts](#max_etcd_attempts)
|
|
|
|
|
- [etcd_quick_timeout](#etcd_quick_timeout)
|
|
|
|
|
- [etcd_slow_timeout](#etcd_slow_timeout)
|
|
|
|
|
- [etcd_keepalive_timeout](#etcd_keepalive_timeout)
|
2024-03-26 01:56:08 +03:00
|
|
|
|
- [etcd_ws_keepalive_interval](#etcd_ws_keepalive_interval)
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
## tcp_header_buffer_size
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 65536
|
|
|
|
|
|
|
|
|
|
Размер буфера для чтения данных с дополнительным копированием. Пакеты
|
|
|
|
|
Vitastor содержат 128-байтные заголовки, за которыми следуют данные размером
|
|
|
|
|
от 4 КБ и для мелких операций ввода-вывода обычно выгодно за 1 вызов читать
|
|
|
|
|
сразу несколько пакетов, даже не смотря на то, что это требует лишний раз
|
|
|
|
|
скопировать данные. Часть каждого пакета за пределами значения данного
|
|
|
|
|
параметра читается без дополнительного копирования. Вы можете попробовать
|
|
|
|
|
поменять этот параметр и посмотреть, как он влияет на производительность
|
|
|
|
|
случайного и линейного доступа.
|
|
|
|
|
|
|
|
|
|
## use_sync_send_recv
|
|
|
|
|
|
|
|
|
|
- Тип: булево (да/нет)
|
|
|
|
|
- Значение по умолчанию: false
|
|
|
|
|
|
|
|
|
|
Если установлено в истину, то вместо io_uring для передачи данных по сети
|
|
|
|
|
будут использоваться обычные синхронные системные вызовы send/recv. Для OSD
|
|
|
|
|
это бессмысленно, так как OSD в любом случае нуждается в io_uring, но, в
|
|
|
|
|
принципе, это может применяться для клиентов со старыми версиями ядра.
|
|
|
|
|
|
|
|
|
|
## use_rdma
|
|
|
|
|
|
|
|
|
|
- Тип: булево (да/нет)
|
|
|
|
|
- Значение по умолчанию: true
|
|
|
|
|
|
|
|
|
|
Пытаться использовать RDMA для связи при наличии доступных устройств.
|
|
|
|
|
Отключите, если вы не хотите, чтобы Vitastor использовал RDMA.
|
|
|
|
|
TCP-клиенты также могут работать с RDMA-кластером, так что отключать
|
|
|
|
|
RDMA может быть нужно только если у клиентов есть RDMA-устройства,
|
|
|
|
|
но они не имеют соединения с кластером Vitastor.
|
|
|
|
|
|
|
|
|
|
## rdma_device
|
|
|
|
|
|
|
|
|
|
- Тип: строка
|
|
|
|
|
|
|
|
|
|
Название RDMA-устройства для связи с Vitastor OSD (например, "rocep5s0f0").
|
2023-08-21 01:10:52 +03:00
|
|
|
|
Сейчас Vitastor поддерживает все модели адаптеров, включая те, у которых
|
|
|
|
|
нет поддержки ODP, то есть вы можете использовать RDMA с ConnectX-3 и
|
|
|
|
|
картами производства не Mellanox.
|
|
|
|
|
|
|
|
|
|
Версии Vitastor до 1.2.0 включительно требовали ODP, который есть только
|
|
|
|
|
на Mellanox ConnectX 4 и более новых. См. также [rdma_odp](#rdma_odp).
|
|
|
|
|
|
|
|
|
|
Запустите `ibv_devinfo -v` от имени суперпользователя, чтобы посмотреть
|
|
|
|
|
список доступных RDMA-устройств, их параметры и возможности.
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
2023-02-28 02:58:28 +03:00
|
|
|
|
Обратите внимание, что если вы используете RoCE/RoCEv2, вам также необходимо
|
|
|
|
|
правильно настроить для него коммутаторы, иначе вы можете столкнуться с
|
|
|
|
|
нестабильной производительностью. Подробную информацию о настройке
|
|
|
|
|
коммутатора для RoCEv2 ищите в документации производителя. Обычно это
|
|
|
|
|
подразумевает настройку сети без потерь на основе PFC (Priority Flow
|
|
|
|
|
Control) и ECN (Explicit Congestion Notification).
|
|
|
|
|
|
2022-01-29 23:43:22 +03:00
|
|
|
|
## rdma_port_num
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 1
|
|
|
|
|
|
|
|
|
|
Номер порта RDMA-устройства, который следует использовать. Имеет смысл
|
|
|
|
|
только для устройств, у которых более 1 порта. Чтобы узнать, сколько портов
|
|
|
|
|
у вашего адаптера, посмотрите `phys_port_cnt` в выводе команды
|
|
|
|
|
`ibv_devinfo -v`.
|
|
|
|
|
|
|
|
|
|
## rdma_gid_index
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 0
|
|
|
|
|
|
|
|
|
|
Номер глобального идентификатора адреса RDMA-устройства, который следует
|
|
|
|
|
использовать. Разным gid_index могут соответствовать разные протоколы связи:
|
|
|
|
|
RoCEv1, RoCEv2, iWARP. Чтобы понять, какой нужен вам - смотрите строчки со
|
|
|
|
|
словом "GID" в выводе команды `ibv_devinfo -v`.
|
|
|
|
|
|
|
|
|
|
**ВАЖНО:** Если вы хотите использовать RoCEv2 (как мы и рекомендуем), то
|
|
|
|
|
правильный rdma_gid_index, как правило, 1 (IPv6) или 3 (IPv4).
|
|
|
|
|
|
|
|
|
|
## rdma_mtu
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 4096
|
|
|
|
|
|
|
|
|
|
Максимальная единица передачи (Path MTU) для RDMA. Должно быть равно 1024,
|
|
|
|
|
2048 или 4096. Обычно нет смысла менять значение по умолчанию, равное 4096.
|
|
|
|
|
|
|
|
|
|
## rdma_max_sge
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 128
|
|
|
|
|
|
|
|
|
|
Максимальное число записей разделения/сборки (scatter/gather) для RDMA.
|
|
|
|
|
OSD в любом случае согласовывают реальное значение при установке соединения,
|
|
|
|
|
так что менять этот параметр обычно не нужно.
|
|
|
|
|
|
|
|
|
|
## rdma_max_msg
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
2023-02-28 02:58:28 +03:00
|
|
|
|
- Значение по умолчанию: 132096
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальный размер одной RDMA-операции отправки или приёма.
|
|
|
|
|
|
|
|
|
|
## rdma_max_recv
|
|
|
|
|
|
2023-02-28 02:58:28 +03:00
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 16
|
|
|
|
|
|
|
|
|
|
Максимальное число буферов для RDMA-приёма данных на одно соединение
|
|
|
|
|
(RDMA требует заранее выделенных буферов для приёма данных). Каждый буфер
|
|
|
|
|
имеет размер `rdma_max_msg` байт. Таким образом, настройка прямо влияет на
|
|
|
|
|
потребление памяти - один Vitastor-клиент с RDMA использует
|
|
|
|
|
`rdma_max_recv * rdma_max_msg * ЧИСЛО_OSD` байт памяти, по умолчанию -
|
|
|
|
|
примерно 2 МБ * число OSD.
|
|
|
|
|
|
|
|
|
|
## rdma_max_send
|
|
|
|
|
|
2022-01-29 23:43:22 +03:00
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 8
|
|
|
|
|
|
2023-02-28 02:58:28 +03:00
|
|
|
|
Максимальное число RDMA-операций отправки, отправляемых в очередь одного
|
|
|
|
|
соединения. Желательно, чтобы оно было меньше `rdma_max_recv`, чтобы
|
|
|
|
|
у принимающей стороны в процессе работы не заканчивались буферы на приём.
|
|
|
|
|
Не влияет на потребление памяти - дополнительная память на операции отправки
|
|
|
|
|
не выделяется.
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
2023-08-21 01:10:52 +03:00
|
|
|
|
## rdma_odp
|
|
|
|
|
|
|
|
|
|
- Тип: булево (да/нет)
|
|
|
|
|
- Значение по умолчанию: false
|
|
|
|
|
|
|
|
|
|
Использовать RDMA с On-Demand Paging. ODP - функция, доступная пока что
|
|
|
|
|
исключительно на адаптерах Mellanox ConnectX-4 и более новых. ODP позволяет
|
|
|
|
|
не регистрировать память для её использования RDMA-картой. Благодаря этому
|
|
|
|
|
можно не копировать данные при отправке их в сеть и, казалось бы, это должно
|
|
|
|
|
улучшать производительность - но **по факту** получается так, что
|
|
|
|
|
производительность только ухудшается, причём сильно. Пример - на 3-узловом
|
|
|
|
|
кластере с 8 NVMe в каждом узле и сетью 2*25 Гбит/с на чтение с RDMA без ODP
|
|
|
|
|
удаётся снять 3950000 iops, а с ODP - всего 239000 iops...
|
|
|
|
|
|
|
|
|
|
Это происходит из-за того, что реализация ODP у Mellanox неоптимальная и
|
|
|
|
|
основана на повторной передаче сообщений, когда карте не известен буфер -
|
|
|
|
|
вероятно, на стандартных "RNR retransmission" (RNR = receiver not ready).
|
|
|
|
|
А данные повторные передачи в RDMA/RoCE - всегда очень медленная штука.
|
|
|
|
|
Презентация на эту тему с конференции ISPASS-2021: https://tkygtr6.github.io/pub/ISPASS21_slides.pdf
|
|
|
|
|
|
|
|
|
|
Возможность использования ODP сохранена в коде на случай, если вдруг в один
|
|
|
|
|
прекрасный день появится хорошая реализация ODP.
|
|
|
|
|
|
2022-01-29 23:43:22 +03:00
|
|
|
|
## peer_connect_interval
|
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: 5
|
|
|
|
|
- Минимальное значение: 1
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Время ожидания перед повторной попыткой соединиться с недоступным OSD.
|
|
|
|
|
|
|
|
|
|
## peer_connect_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: 5
|
|
|
|
|
- Минимальное значение: 1
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальное время ожидания попытки соединения с OSD.
|
|
|
|
|
|
|
|
|
|
## osd_idle_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: 5
|
|
|
|
|
- Минимальное значение: 1
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Время неактивности соединения с OSD, после которого клиенты или другие OSD
|
|
|
|
|
посылают запрос проверки состояния соединения.
|
|
|
|
|
|
|
|
|
|
## osd_ping_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: 5
|
|
|
|
|
- Минимальное значение: 1
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальное время ожидания ответа на запрос проверки состояния соединения.
|
|
|
|
|
Если OSD не отвечает за это время, соединение отключается и производится
|
|
|
|
|
повторная попытка соединения.
|
|
|
|
|
|
|
|
|
|
## max_etcd_attempts
|
|
|
|
|
|
|
|
|
|
- Тип: целое число
|
|
|
|
|
- Значение по умолчанию: 5
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальное число попыток выполнения запросов к etcd для тех запросов,
|
|
|
|
|
которые нельзя повторять бесконечно.
|
|
|
|
|
|
|
|
|
|
## etcd_quick_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: миллисекунды
|
|
|
|
|
- Значение по умолчанию: 1000
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальное время выполнения запросов к etcd, которые должны завершаться
|
|
|
|
|
быстро, таких, как обновление резервации (lease).
|
|
|
|
|
|
|
|
|
|
## etcd_slow_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: миллисекунды
|
|
|
|
|
- Значение по умолчанию: 5000
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Максимальное время выполнения запросов к etcd, для которых не обязательно
|
|
|
|
|
гарантировать быстрое выполнение.
|
|
|
|
|
|
|
|
|
|
## etcd_keepalive_timeout
|
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: max(30, etcd_report_interval*2)
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Таймаут для HTTP Keep-Alive в соединениях к etcd. Должен быть больше, чем
|
|
|
|
|
etcd_report_interval, чтобы keepalive гарантированно работал.
|
|
|
|
|
|
2024-03-26 01:56:08 +03:00
|
|
|
|
## etcd_ws_keepalive_interval
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
- Тип: секунды
|
|
|
|
|
- Значение по умолчанию: 30
|
2023-04-21 02:18:37 +03:00
|
|
|
|
- Можно менять на лету: да
|
2022-01-29 23:43:22 +03:00
|
|
|
|
|
|
|
|
|
Интервал проверки живости вебсокет-подключений к etcd.
|