331 lines
18 KiB
Markdown
331 lines
18 KiB
Markdown
[Документация](../../README-ru.md#документация) → [Конфигурация](../config.ru.md) → Изменяемые параметры OSD
|
||
|
||
-----
|
||
|
||
[Read in English](osd.en.md)
|
||
|
||
# Изменяемые параметры OSD
|
||
|
||
Данные параметры используются только OSD, но, в отличие от дисковых параметров,
|
||
не фиксируются в момент инициализации дисков OSD и могут быть изменены в любой
|
||
момент с перезапуском OSD.
|
||
|
||
- [etcd_report_interval](#etcd_report_interval)
|
||
- [run_primary](#run_primary)
|
||
- [osd_network](#osd_network)
|
||
- [bind_address](#bind_address)
|
||
- [bind_port](#bind_port)
|
||
- [autosync_interval](#autosync_interval)
|
||
- [autosync_writes](#autosync_writes)
|
||
- [recovery_queue_depth](#recovery_queue_depth)
|
||
- [recovery_pg_switch](#recovery_pg_switch)
|
||
- [recovery_sync_batch](#recovery_sync_batch)
|
||
- [readonly](#readonly)
|
||
- [no_recovery](#no_recovery)
|
||
- [no_rebalance](#no_rebalance)
|
||
- [print_stats_interval](#print_stats_interval)
|
||
- [slow_log_interval](#slow_log_interval)
|
||
- [inode_vanish_time](#inode_vanish_time)
|
||
- [max_write_iodepth](#max_write_iodepth)
|
||
- [min_flusher_count](#min_flusher_count)
|
||
- [max_flusher_count](#max_flusher_count)
|
||
- [inmemory_metadata](#inmemory_metadata)
|
||
- [inmemory_journal](#inmemory_journal)
|
||
- [journal_sector_buffer_count](#journal_sector_buffer_count)
|
||
- [journal_no_same_sector_overwrites](#journal_no_same_sector_overwrites)
|
||
- [throttle_small_writes](#throttle_small_writes)
|
||
- [throttle_target_iops](#throttle_target_iops)
|
||
- [throttle_target_mbs](#throttle_target_mbs)
|
||
- [throttle_target_parallelism](#throttle_target_parallelism)
|
||
- [throttle_threshold_us](#throttle_threshold_us)
|
||
- [osd_memlock](#osd_memlock)
|
||
|
||
## etcd_report_interval
|
||
|
||
- Тип: секунды
|
||
- Значение по умолчанию: 5
|
||
|
||
Интервал, с которым OSD обновляет своё состояние в etcd. Значение параметра
|
||
влияет на время резервации (lease) OSD и поэтому на скорость переключения
|
||
при падении OSD. Время lease равняется значению этого параметра плюс
|
||
max_etcd_attempts * etcd_quick_timeout.
|
||
|
||
## run_primary
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: true
|
||
|
||
Запускать логику первичного OSD на данном OSD. На данный момент отключать
|
||
эту опцию может иметь смысл только в целях отладки. В теории, можно
|
||
реализовать дополнительный режим для монитора, который позволит отделять
|
||
первичные OSD от вторичных, но пока не понятно, зачем это может кому-то
|
||
понадобиться, поэтому это не реализовано.
|
||
|
||
## osd_network
|
||
|
||
- Тип: строка или массив строк
|
||
|
||
Маска подсети (IPv4 или IPv6) для использования для соединений с OSD.
|
||
Имейте в виду, что хотя сейчас и можно передать в этот параметр несколько
|
||
подсетей, это не означает, что OSD будут создавать несколько слушающих
|
||
сокетов - они лишь будут выбирать адрес первого поднятого (состояние UP +
|
||
RUNNING), подходящий под заданную маску. Также не реализовано разделение
|
||
кластерной и публичной сетей OSD. Правда, от него обычно всё равно довольно
|
||
мало толку, так что особенной проблемы в этом нет.
|
||
|
||
## bind_address
|
||
|
||
- Тип: строка
|
||
- Значение по умолчанию: 0.0.0.0
|
||
|
||
Этим параметром можно явным образом задать адрес, на котором будет ожидать
|
||
соединений OSD (вместо использования маски подсети). Может быть полезно,
|
||
например, чтобы запускать OSD на неподнятых интерфейсах (не UP + RUNNING).
|
||
|
||
## bind_port
|
||
|
||
- Тип: целое число
|
||
|
||
По умолчанию OSD сами выбирают случайные порты для входящих подключений.
|
||
С помощью данной опции вы можете задать порт для отдельного OSD вручную.
|
||
|
||
## autosync_interval
|
||
|
||
- Тип: секунды
|
||
- Значение по умолчанию: 5
|
||
|
||
Временной интервал отправки автоматических fsync-ов (операций очистки кэша)
|
||
каждым OSD для случая, когда режим immediate_commit отключён. fsync-и нужны
|
||
OSD, чтобы успевать очищать журнал - без них OSD быстро заполняют журналы и
|
||
перестают обрабатывать операции записи. Также эта опция ограничивает объём
|
||
недавних незафиксированных изменений, которые OSD могут терять при
|
||
отключении питания, если клиенты вообще не отправляют fsync.
|
||
|
||
## autosync_writes
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 128
|
||
|
||
Аналогично autosync_interval, но задаёт не временной интервал, а
|
||
максимальное количество незафиксированных операций записи перед
|
||
принудительной отправкой fsync-а.
|
||
|
||
## recovery_queue_depth
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 4
|
||
|
||
Максимальное число операций восстановления на одном первичном OSD в любой
|
||
момент времени. На данный момент единственный параметр, который можно менять
|
||
для ускорения или замедления восстановления и перебалансировки данных, но
|
||
в планах реализация других параметров.
|
||
|
||
## recovery_pg_switch
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 128
|
||
|
||
Число операций восстановления перед переключением на восстановление другой PG.
|
||
Идея заключается в том, чтобы восстанавливать все PG одновременно для более
|
||
равномерного распределения места и нагрузки, но при этом всё равно выигрывать
|
||
от глубины очереди восстановления, большей, чем 1. Деградированные PG в любом
|
||
случае сканируются первыми.
|
||
|
||
## recovery_sync_batch
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 16
|
||
|
||
Максимальное число операций восстановления перед дополнительным fsync.
|
||
|
||
## readonly
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Режим "только чтение". Если включить этот режим, OSD не будет писать ничего
|
||
на диск. Может быть полезно в целях восстановления.
|
||
|
||
## no_recovery
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Отключить автоматическое фоновое восстановление объектов. Обратите внимание,
|
||
что эта опция не отключает восстановление объектов, происходящее при
|
||
записи - запись всегда производится в полный набор из как минимум pg_minsize
|
||
OSD.
|
||
|
||
## no_rebalance
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Отключить фоновое перемещение объектов между разными OSD. Отключение
|
||
означает, что PG, находящиеся в состоянии `has_misplaced`, будут оставлены
|
||
в нём на неопределённый срок.
|
||
|
||
## print_stats_interval
|
||
|
||
- Тип: секунды
|
||
- Значение по умолчанию: 3
|
||
|
||
Временной интервал, с которым OSD печатают простую человекочитаемую
|
||
статистику выполнения операций в стандартный вывод.
|
||
|
||
## slow_log_interval
|
||
|
||
- Тип: секунды
|
||
- Значение по умолчанию: 10
|
||
|
||
Временной интервал, с которым OSD выводят в стандартный вывод список
|
||
медленных или зависших операций, если таковые имеются. Также время, при
|
||
превышении которого операция считается "медленной".
|
||
|
||
## inode_vanish_time
|
||
|
||
- Тип: секунды
|
||
- Значение по умолчанию: 60
|
||
|
||
Число секунд, через которое удалённые инод удаляется и из статистики OSD.
|
||
|
||
## max_write_iodepth
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 128
|
||
|
||
Максимальное число одновременных клиентских операций записи на один OSD.
|
||
Операции, превышающие этот лимит, не исполняются сразу, а сохраняются во
|
||
временной очереди.
|
||
|
||
## min_flusher_count
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 1
|
||
|
||
Flusher - это микро-поток (корутина), которая копирует данные из журнала в
|
||
основную область устройства данных. Их число настраивается динамически между
|
||
минимальным и максимальным значением. Этот параметр задаёт минимальное число.
|
||
|
||
## max_flusher_count
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 256
|
||
|
||
Максимальное число микро-потоков очистки журнала (см. выше min_flusher_count).
|
||
|
||
## inmemory_metadata
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: true
|
||
|
||
Данный параметр заставляет Vitastor всегда держать область метаданных диска
|
||
в памяти. Это нужно, чтобы избегать дополнительных операций чтения с диска
|
||
при записи. Размер области метаданных на данный момент составляет примерно
|
||
224 МБ на 1 ТБ данных. При включении потребление памяти снизится примерно
|
||
на эту величину, но при этом также снизится и производительность. В будущем,
|
||
после обновления схемы хранения метаданных, это ограничение, скорее всего,
|
||
будет ликвидировано.
|
||
|
||
## inmemory_journal
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: true
|
||
|
||
Данный параметр заставляет Vitastor всегда держать в памяти журналы OSD.
|
||
Отключение параметра, опять же, снижает потребление памяти, но ухудшает
|
||
производительность, так как для копирования данных из журнала в основную
|
||
область устройства OSD будут вынуждены читать их обратно с диска. Выигрыш
|
||
по памяти при этом обычно крайне низкий, так как для SSD OSD обычно
|
||
достаточно 16- или 32-мегабайтного журнала. Однако в теории отключение
|
||
параметра может оказаться полезным для гибридных OSD (HDD+SSD) с большими
|
||
журналами, расположенными на быстром по сравнению с HDD устройстве.
|
||
|
||
## journal_sector_buffer_count
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 32
|
||
|
||
Максимальное число буферов, разрешённых для использования под записываемые
|
||
в журнал блоки метаданных. Единственная ситуация, в которой этот параметр
|
||
нужно менять - это если вы включаете journal_no_same_sector_overwrites. В
|
||
этом случае установите данный параметр, например, в 1024.
|
||
|
||
## journal_no_same_sector_overwrites
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Включайте данную опцию для SSD вроде Intel D3-S4510 и D3-S4610, которые
|
||
ОЧЕНЬ не любят, когда ПО перезаписывает один и тот же сектор несколько раз
|
||
подряд. Такие SSD при многократной перезаписи одного и того же сектора
|
||
сильно замедляются - условно, с 25000 и более iops до 3000 iops. Когда
|
||
данная опция установлена, Vitastor всегда переходит к следующему сектору
|
||
журнала после записи вместо потенциально повторной перезаписи того же
|
||
самого сектора.
|
||
|
||
Почти все другие SSD (99% моделей) не требуют данной опции.
|
||
|
||
## throttle_small_writes
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Разрешить мягкое ограничение скорости журналируемой записи. Полезно для
|
||
гибридных OSD с быстрыми устройствами метаданных и медленными устройствами
|
||
данных. Идея заключается в том, что мелкие записи в этой ситуации могут
|
||
завершаться очень быстро, так как они изначально записываются на быстрое
|
||
журнальное устройство (SSD). Но перемещать их потом на основное медленное
|
||
устройство долго. Поэтому если OSD быстро примет от клиентов очень много
|
||
мелких операций записи, он быстро заполнит свой журнал, после чего
|
||
производительность записи резко упадёт практически до нуля. Ограничение
|
||
скорости записи призвано решить эту проблему с помощью искусственного
|
||
замедления операций записи на основании объёма свободного места в журнале.
|
||
Когда эта опция включена, производительность мелких операций записи будет
|
||
снижаться плавно, а не резко в момент окончательного заполнения журнала.
|
||
|
||
## throttle_target_iops
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 100
|
||
|
||
Расчётное максимальное число ограничиваемых операций в секунду при условии
|
||
отсутствия свободного места в журнале. Устанавливайте приблизительно равным
|
||
максимальной производительности случайной записи ваших устройств данных
|
||
(HDD) в операциях в секунду.
|
||
|
||
## throttle_target_mbs
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 100
|
||
|
||
Расчётный максимальный размер в МБ/с ограничиваемых операций в секунду при
|
||
условии отсутствия свободного места в журнале. Устанавливайте приблизительно
|
||
равным максимальной производительности линейной записи ваших устройств
|
||
данных (HDD).
|
||
|
||
## throttle_target_parallelism
|
||
|
||
- Тип: целое число
|
||
- Значение по умолчанию: 1
|
||
|
||
Расчётный максимальный параллелизм ограничиваемых операций в секунду при
|
||
условии отсутствия свободного места в журнале. Устанавливайте приблизительно
|
||
равным внутреннему параллелизму ваших устройств данных (1 для HDD, 4-8
|
||
для SSD).
|
||
|
||
## throttle_threshold_us
|
||
|
||
- Тип: микросекунды
|
||
- Значение по умолчанию: 50
|
||
|
||
Минимальная применимая к ограничиваемым операциям задержка. Обычно не
|
||
требует изменений.
|
||
|
||
## osd_memlock
|
||
|
||
- Тип: булево (да/нет)
|
||
- Значение по умолчанию: false
|
||
|
||
Блокировать всю память OSD с помощью mlockall, чтобы запретить её выгрузку в пространство подкачки. Требует достаточного значения ulimit -l (лимита заблокированной памяти).
|