QHB logo

Документация СУБД «Квант-Гибрид» v.1.3.0

СУБД «Квант-Гибрид» представляет собой цифровую платформу общего назначения, применимую для широкого круга разработчиков государственных информационных систем, приложений, а также для корпоративных отделов по цифровой трансформации предприятий крупного и среднего бизнеса

Документация СУБД «Квант-Гибрид» (Quantum Hybrid Base, далее по тексту QHB) представлена в 3 частях и приложениях:

Часть I - общее знакомство с внутренним строением QHB
Часть II - рассматриваются темы, представляющие интерес для администратора базы данных QHB
Часть III - рассматриваются темы, связанные с формальными знаниями языка SQL
Приложения

Состояние документирования

Мы, разработчики QHB, с признательностью примем от Вас информацию об ошибках в Документации на почтовый адрес qhb.support@granit-concern.ru. Мы не скрываем, что продукт QHB создавался как форк от свободно распространяемого open source продукта PostgreSQL. Вероятные ошибки в документации могут быть связаны именно с этим.

О состоянии Документации и её перевода мы будем регулярно сообщать в сопроводительной документации к каждому релизу. Недостающие и/или непереведённые главы Вы можете найти на официальной странице документации PostgreSQL по адресу: https://www.postgresql.org/docs/.

Версия документации: 1.3.0
Номер ревизии: 38f946b2

Дополнительно

Вы можете скачать полный архив данной документации по ссылкам:

Ознакомьтесь со списком поддерживаемых платформ и замечаниями к релизу QHB.

Подключится к репозиториям бинарных пакетов и установить QHB можно на странице загрузки, воспользовавшись краткой инструкцией по начальной загрузке и установке.

Документация на СУБД «Квант-Гибрид» предыдущих версий:

Юридическое уведомление

Программное обеспечение СУБД «Квант-Гибрид» v.1.3.0

Предоставляются неисключительные права на использование данного Программного обеспечения и его документации исключительно для ознакомительных и учебных целей. Использование данной версии Программного обеспечения в коммерческих целях не допускается.

Программное обеспечение было создано в результате правомерной переработки Системы Управления Базами Данных PostgreSQL, распространяемой Калифорнийским университетом по открытой лицензии, и в отношении такой исходной программы применимы следующие условия ее использования по открытой лицензии:

Предоставляются права на использование, копирование, изменение и распространение данного программного обеспечения и его документации для любых целей, бесплатно и без подписания какого-либо соглашения, при условии, что для каждой копии будут предоставлены данное выше замечание об авторских правах, текущий параграф и два следующих параграфа.

КАЛИФОРНИЙСКИЙ УНИВЕРСИТЕТ НЕ НЕСЕТ НИКАКОЙ ОТВЕТСТВЕННОСТИ ЗА ЛЮБЫЕ ПОВРЕЖДЕНИЯ, ВКЛЮЧАЯ ПОТЕРЮ ДОХОДА, НАНЕСЕННЫЕ ПРЯМЫМ ИЛИ НЕПРЯМЫМ, СПЕЦИАЛЬНЫМ ИЛИ СЛУЧАЙНЫМ ИСПОЛЬЗОВАНИЕМ ДАННОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ИЛИ ЕГО ДОКУМЕНТАЦИИ, ДАЖЕ ЕСЛИ КАЛИФОРНИЙСКИЙ УНИВЕРСИТЕТ БЫЛ ИЗВЕЩЕН О ВОЗМОЖНОСТИ ТАКИХ ПОВРЕЖДЕНИЙ.

КАЛИФОРНИЙСКИЙ УНИВЕРСИТЕТ СПЕЦИАЛЬНО ОТКАЗЫВАЕТСЯ ПРЕДОСТАВЛЯТЬ ЛЮБЫЕ ГАРАНТИИ, ВКЛЮЧАЯ, НО НЕ ОГРАНИЧИВАЯСЬ ТОЛЬКО ЭТИМИ ГАРАНТИЯМИ: НЕЯВНЫЕ ГАРАНТИИ ПРИГОДНОСТИ ТОВАРА ИЛИ ПРИГОДНОСТИ ДЛЯ ОТДЕЛЬНОЙ ЦЕЛИ. ДАННОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРЕДОСТАВЛЯЕТСЯ НА ОСНОВЕ ПРИНЦИПА "КАК ЕСТЬ" И КАЛИФОРНИЙСКИЙ УНИВЕРСИТЕТ НЕ ОБЯЗАН ПРЕДОСТАВЛЯТЬ СОПРОВОЖДЕНИЕ, ПОДДЕРЖКУ, ОБНОВЛЕНИЯ, РАСШИРЕНИЯ ИЛИ ИЗМЕНЕНИЯ.

Кроме того, Программное обеспечение содержит модули собственной разработки:

самобалансирующийся менеджер кэша дисковых блоков с автоматической компенсацией нагрузки на дисковую систему;
QCP (балансировщик сетевой нагрузки предназначенный для оптимального использования серверных подключений);
библиотечный кэш разобранных запросов;
серверный процесс организующий фоновую запись диск;
RBytea (модуль для внешнего хранения больших бинарных объектов с сохранением способа их обработки в прикладных системах);
QSS (прозрачное шифрование данных с использованием алгоритма ГОСТ Р 3412-15 "Кузнечик" для произвольных объектов, включая внешние большие объекты);
подсистема сбора и агрегации метрик;
QSQL (пользовательская консоль для выполнения команд базы данных и запросов на языке SQL);
QDL (модуль для прямой загрузки больших объёмов данных из текстового представления непосредственно в страницы данных);
бинарные утилиты для управления СУБД;
подсистема интернационализации i18n.

Программное обеспечение и все его компоненты предоставляются по принципу «как есть», что подразумевает: Пользователю известны важнейшие свойства Программного обеспечения, Пользователь несет риск соответствия Программного обеспечения его желаниям и потребностям, а также риск объема предоставляемых прав своим потребностям.

Пользователь принимает на себя обязательство не производить следующие действия с Программным обеспечением - эмулировать, декомпилировать, дизассемблировать, дешифровать, модифицировать и иные аналогичные действия.

Настоящее соглашение регулируется действующим законодательством Российской Федерации.

Правила сообщения об ошибках

Если вы найдёте ошибку в QHB, сообщите нам об этом. Ваши отчёты об ошибках играют важную роль в повышении надежности QHB, потому что даже при самом высоком качестве кода нельзя гарантировать, что каждая функция QHB будет работать на любой платформе и при любых обстоятельствах.

Следующие шаги призваны помочь вам в формировании отчётов об ошибках, которые могут быть обработаны эффективно. Мы не предлагаем выполнять их досконально, но лучше им следовать.

Мы не можем обещать немедленного исправления каждой ошибки. Если ошибка очевидна, критична или затрагивает большинство пользователей, то велика вероятность, что кто-то ею займется. Иногда мы рекомендуем вам обновить версию, чтобы увидеть, воспроизводится ли ошибка. Мы также можем решить, что данная ошибка не может быть исправлена до того, как будет выпущено какое-либо серьезное, запланированное обновление. Или, может быть, исправление слишком сложно, и на повестке дня есть более важные вещи. Если вам нужна немедленная помощь, подумайте о заключении договора о коммерческой поддержке.

Выявление ошибок

Прежде чем сообщать об ошибке, перечитайте документацию, чтобы убедиться, что вы действительно делаете, то что хотите. Если из документации не ясно, можете ли вы что-то сделать или нет, сообщите об этом - это ошибка в документации. Если программа делает что-то не так, как написано в документации, то это тоже ошибка.

Далее приведены лишь некоторые примеры возможных ошибок:

Программа завершается аварийным сигналом или сообщением об ошибке операционной системы, указывающем на проблему в программе. (Контрпримером может быть сообщение «Недостаточно места на диске» - эту проблему вы должны решить самостоятельно).
Программа отказывается принимать допустимые (согласно документации) данные.
Программа принимает недопустимые входные данные без предупреждения или сообщения об ошибке. Но имейте в виду, что данные, которые вы считаете некорректными, мы можем считать приемлемым расширением или совместимым с принятой практикой.
Не получается скомпилировать, собрать или установить QHB на поддерживаемых платформах в соответствии с инструкциями.

Здесь под определением «программа» подразумевается любой исполняемый файл, а не только серверный процесс.

Медленная работа - не обязательно ошибка. Прочитайте документацию или обратитесь в один из списков рассылки за помощью в настройке ваших приложений. Несоблюдение SQL-стандарта не обязательно является ошибкой, если соответствие для конкретной функции явно не заявлено.

Что сообщить

Самое важное, что следует помнить о сообщениях об ошибках, - сообщайте все факты и только факты. Не размышляйте о том, что, по вашему мнению, пошло не так, что «казалось, что оно делает» или какая часть программы содержит ошибку. Если вы не знакомы с реализацией, вы, скорее всего, ошибётесь и не поможете нам. Грамотные объяснения являются отличным дополнением к фактам, но не заменяют их. Если мы собираемся исправить ошибку, мы все равно должны будем посмотреть в чём она заключается. Сообщить голые факты относительно просто (можно просто скопировать и вставить текст с экрана), но слишком часто важные детали не упоминаются, потому что считаются незначительными и неважными или кажется, что отчет будет понятен и без них.

В каждом отчете об ошибке следует указать следующую информацию:

Точная последовательность действий начиная с запуска программы, необходимая для воспроизведения проблемы. Она должна быть полной; если вывод зависит от данных в таблицах, то недостаточно указать только SELECT без предшествующих операторов CREATE TABLE и INSERT. У нас не будет времени на восстановление вашей схемы базы данных, и если предполагается, что мы должны создать собственные данные, мы, вероятно, пропустим эту проблему.

Если ваше приложение использует какой-либо другой клиентский интерфейс, например PHP, попробуйте изолировать ошибочные запросы. Вряд ли мы будем устанавливать веб-сервер для воспроизведения вашей ошибки. В любом случае не забудьте предоставить конкретные входные файлы; не гадайте о том, что проблема возникает для «больших файлов» или «баз данных среднего размера» и т. д., поскольку эта информация слишком расплывчата.
Результат выполнения. Пожалуйста, не пишите, что это "не работает" или "сломалось". Если есть сообщение об ошибке, покажите его, даже если оно выглядит непонятным. Если программа завершается ошибкой операционной системы, приведите эту ошибку. Если ничего не происходит, так и напишите. Даже если результатом вашего теста является сбой программы или что-то очевидное - на нашей платформе это может не произойти. Проще всего будет скопировать текст с терминала, если это возможно.
Важно описать результат, который вы ожидали получить. Если вы просто напишете "Эта команда выдает мне такой результат" Или "Это не то, что я ожидал", мы можем запустить ваш пример сами, просмотреть вывод и решить, что все в порядке и результат соответствует ожиданиям. Мы вряд ли будем тратить время на расшифровку точного смысла ваших команд. Особенно воздерживайтесь от простого заявления: "Это не то, что делает SQL/Oracle". Выяснение соответствия SQL-стандартам зачастую трудоёмкое и скучное занятие, а логика работы других реляционных баз данных может быть не полностью документирована или отличаться в нюансах. (Если ваша проблема - сбой программы, то вы, очевидно, можете пропустить этот пункт).
Все параметры командной строки и другие параметры запуска, включая все связанные переменные окружения или файлы конфигурации, которые вы изменяли со значений по умолчанию. Пожалуйста, предоставьте точную информацию. Если вы используете предварительно упакованный дистрибутив, который запускает сервер базы данных во время загрузки, вы должны попытаться выяснить, как это сделать.
Все что вы сделали не так, как написано в инструкции по установке.
Версия QHB. Чтобы узнать версию сервера, к которому вы подключены Вы можете запустить команду, SELECT version();. Большинство исполняемых программ также поддерживает опцию --version; по крайней мере qhb --version и qsql --version должно работать. Если функция или параметры не существуют, значит скорее всего вашу версию пора обновить. Если вы запускаете предварительно упакованную версию, такую как RPM, укажите subversion, которую может иметь пакет. Если вы пишете о снимке Git, укажите это, а также хеш коммита.
Если ваша версия старее актуальной, мы почти наверняка предложим вам её обновить. В каждом новом выпуске содержится много исправлений и улучшений, поэтому вполне возможно, что ошибка, с которой вы столкнулись в более старой версии QHB, уже исправлена. Мы можем предоставить только ограниченную поддержку для программ, использующих старые версии QHB; если вам этого недостаточно - рассмотрите возможность заключения договора о коммерческой поддержке.
Информация о платформе. Включает в себя имя и версию ядра, библиотеку C/RUST, процессор, информацию о памяти и так далее. В большинстве случаев достаточно сообщить поставщика и версию, но не следует предполагать, что все знают, что именно содержит «Debian» или что все работают на x86_64. Если у вас есть проблемы с установкой, то вам также необходима информация о наборе инструментов на вашем компьютере (компилятор, make и т.д.).

Не бойтесь, если ваш отчет об ошибке будет довольно большим. Лучше сообщить обо всем сразу, чем потом уточнять информацию у вас.

Не тратьте все свое время, чтобы выяснить, при каких входных данных ошибка исчезает. Скорее всего это не поможет решить проблему. Если окажется, что вам удалось найти решение раньше нас, пожалуйста, уделите немного времени и поделитесь своими решениями. Кроме того, не тратьте свое время на предположения о причине ошибки. Если ошибка воспроизводится, то мы установим причину.

При написании отчета об ошибке избегайте путаницы в терминологии. Официальное наименование Программного пакета - "КВАНТ-ГИБРИД", для краткости в документации скорее всего будет использовано название "QHB". Если вы говорите о бэкэнд-процессе, отметьте это, а не просто говорите «Сбои QHB». Сбой одного бэкэнд-процесса сильно отличается от сбоя родительского процесса "qhb"; пожалуйста, не пишите, что "процесс упал", когда имеется в виду, что один серверный процесс вышел из строя, или наоборот. Кроме того, клиентские программы, такие как интерактивный интерфейс "QSQL", полностью отделены от бэкэнда. Пожалуйста, постарайтесь указать, является ли проблема на стороне клиента или сервера.

Как сообщать об ошибках

Отправляйте отчёты об ошибках по адресу:

qhb.support@granit-concern.ru

В теме письма желательно указать краткое описание проблемы, возможно, включив в неё часть сообщения об ошибке.

Часть I. Внутреннее устройство

Добро пожаловать в руководство по внутреннему устройству СУБД «Квант-Гибрид» (QHB). Основная цель этой части - познакомить вас на практике с основными аспектами системы QHB, без глубокого погружения в рассматриваемые темы.

Освоив это руководство, вы можете перейти к чтению части II для установки и администрирования своего собственного сервера или части III, для получения информации по использованию языка SQL в QHB.

Основы архитектуры

Прежде чем мы продолжим, необходимо понять основы архитектуры системы QHB.
Понимание того, как взаимодействуют части QHB, сделает эту главу несколько понятнее.

В терминах баз данных QHB использует модель клиент / сервер. Сессия QHB состоит из следующих взаимодействующих процессов (программ):

Процесс сервера, который управляет файлами базы данных, принимает подключения к базе данных от клиентских приложений и выполняет действия с базой данных от имени клиентов. Программа сервера базы данных называется qhb.
Клиентское приложение пользователя, которое будет выполнять операции с базой данных. Клиентские приложения могут быть очень разнообразными по своей природе: клиент может быть текстовым инструментом, графическим приложением, веб-сервером, который обращается к базе данных для отображения веб-страниц, или специализированным инструментом обслуживания базы данных. Некоторые клиентские приложения поставляются с дистрибутивом QHB, но большинство разработано пользователями.

Обычно для клиент-серверных приложений, клиент и сервер находятся на разных хостах. В этом случае они общаются через сетевое соединение по протоколу TCP/IP. Следует помнить об этом, поскольку файлы, к которым можно получить доступ на клиентском компьютере, могут быть недоступны (или могут быть доступны только с использованием другого имени файла) на сервере базы данных.

Сервер QHB может обрабатывать несколько одновременных подключений от клиентов. Для этого запускается (при помощи системного вызова "fork") новый процесс для каждого соединения. С этого момента клиент и новый серверный процесс обмениваются данными без вмешательства главного процесса qhb. Таким образом, главный процесс сервера всегда работает, ожидая клиентских подключений, тогда как процессы клиента и связанных серверов создаются и удаляются. (Все это происходит, конечно, прозрачно для пользователя.)

Модуль безопасного хранения QSS

Описание

Модуль безопасного хранения «КВАНТ-ГИБРИД» (Quantum Secure Storage, QSS) позволяет создавать таблицы, которые шифруются при записи на диск.

При старте сервера СУБД главный процесс QHB читает с диска мастер-ключ шифрования и сохраняет его в общей памяти, доступной дочерним процессам.

При чтении\записи блока\страницы на диск этот ключ используется для расшифровки\шифрования блока

Использование

Использование модуля в SQL: create table t_qss(c1 int, c2 varchar) USING qss;

В qhb.conf добавляется параметр qss_mode: int с возможными режимами:

0 - отключено: попытки создания новых таблиц с using qss или чтение\запись в уже существующие приводит к ошибкам,
1 - включено: при старте сервера считывается qss.toml и производится загрузка актуального мастер-ключа с его расшифровкой, при любых ошибках сервер останавливается

Файлы, используемые в QSS:

.
└── PGDATA
    ├── base
    ├── qhb.conf
    └── qss
        ├── 0.key
        ├── 1.key
        └── qss.toml

В qss.toml хранятся общие настройки qss (например, путь к динамической библиотеке работы с крипто-токеном) и дополнительная информация по ключам, например, режим расшифровки ключа:

не зашифрован,
ключ расшифровки находится в файловой системе, например, на примонтированном usb, с указанием пути
ключ расшифровки находится на криптотокене, с указанием его идентификатора

Бинарная версии ключа (файл .key) состоит из заголовка постоянного размера с информацией: версия (1), режим расшифровки (должен совпадать с записью в файле-конфигурации) и 32 байтов зашифрованного мастер-ключа

Утилита `qss_mgr` и управление ключами

Для управления ключами используется утилита qss_mgr со следующими командами:

bash-4.2$ qss_mgr --help
qss_mgr 1.1.0
qss configures secured storage in QHB database

USAGE:
    qss_mgr [FLAGS] [OPTIONS] <SUBCOMMAND>

FLAGS:
    -h, --help       
            Prints help information

        --new        
            Work with key group for key replacement

    -V, --version    
            Prints version information


OPTIONS:
    -d, --data-dir <data-dir>    
            Specifies the directory with database data [env: PGDATA=/tmp/qhb-data/]


SUBCOMMANDS:
    add        Add new version of master key encrypted with other secret key
    del        Remove key
    help       Prints this message or the help of the given subcommand(s)
    init       Initialize config and first encrypted master key
    use-new    Backup current key set and replace it with new
    verify     Verify key or keys

Общий флаг --new позволяет работать с "новым" набором ключей переключиться на которой можно командой use-new

Инициализация с добавлением первого мастер-ключа

Примечание!!!
в режиме pkcs11 для ввода пин-кода используется утилита qss-pinpad, запущенная на этом же компьютере в другом терминале.

Initialize config and first encrypted master key
USAGE:
    qss_mgr init [OPTIONS] [master-key]

OPTIONS:
    -k, --key <key>                                    Key for encryption
    -f, --key-format <key-format>                      Format of key for encryption: bin, base64, armored [default: bin]
        --master-key-format <master-key-format>        Source master key format: bin, base64, armored [default: bin]
    -m, --mode <mode>                                  Master key encrypt mode: fs, pkcs11 [default: pkcs11]
        --module <pkcs11-module-path>                  PKCS11 module
        --token-key-id <token-key-id>                  User key ID on token for pkcs11
        --token-serial-number <token-serial-number>    Token serial number for pkcs11

ARGS:
    <master-key>    Source master key file

Добавление мастер ключа, зашифрованного ключом другого пользователя

Add new version of master key encrypted with other secret key
USAGE:
    qss_mgr add [OPTIONS] [master-key]

OPTIONS:
    -k, --key <key>                                    Key for encryption
    -f, --key-format <key-format>                      Format of key for encryption: bin, base64, armored [default: bin]
        --master-key-format <master-key-format>        Source master key format: bin, base64, armored [default: bin]
    -m, --mode <mode>                                  Master key encrypt mode: fs, pkcs11 [default: pkcs11]
    -n, --num <num>                                    Previous key index to load master key from
        --token-key-id <token-key-id>                  User key ID on token for pkcs11
        --token-serial-number <token-serial-number>    Token serial number for pkcs11

ARGS:
    <master-key>    Source master key file

Удаление ключа

Remove key

USAGE:
    qss_mgr del [FLAGS] --num <num>

FLAGS:
    -q, --quiet      Quiet mode: don't ask for confirmation

OPTIONS:
    -n, --num <num>    Key index

Переключение на новый набор ключей

Backup current key set and replace it with new

USAGE:
    qss_mgr use-new

Проверка ключей

Verify key or keys. If checking all keys, check that master keys is same
USAGE:
    qss_mgr verify [OPTIONS]

OPTIONS:
    -n, --num <num>              Key index, if not specified, tries to check all keys

Утилита `qss_recrypt` используется для перешифрования таблиц БД новым набором ключей

Список команд

qss_reqcrypt 1.1.0
qss recrypt QHB cluster with new master key

USAGE:
    qss_recrypt [FLAGS] --data-dir <data-dir> <SUBCOMMAND>

FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information
    -v, --verbose    Sets logging level to Debug [default: Info]

OPTIONS:
        --data-dir <data-dir>    Specifies the directory with database data [env: PGDATA=/tmp/qhb-data/]

SUBCOMMANDS:
    add        Scan database and add it to recrypt's config
    help       Prints this message or the help of the given subcommand(s)
    recrypt    Do database reencryption

Сканирование БД и сохранение данных о ее зашифрованных таблицах в файл конфигурации

Scan database and add it to recrypt's config

USAGE:
    qss_recrypt --data-dir <data-dir> add [FLAGS] [OPTIONS]

FLAGS:
        --no-timeout    Run app with no timeout, use instead of -t 0s

OPTIONS:
    -d, --dbname <dbname>        Specifies the name of the database to connect to [env: PGDATABASE=]
    -h, --host <host>            Specifies the host name of the machine on which the server is running. If the value
                                 begins with a slash, it is used as the directory for the Unix-domain socket [env:
                                 PGHOST=/home/evgen/work/db/build/dbsockets]
    -p, --port <port>            Specifies the TCP port or the local Unix-domain socket file extension on which the
                                 server is listening for connections [env: PGPORT=]  [default: 5432]
    -t, --timeout <timeout>      Seconds to wait when attempting connection, supports "human time", -t 3s
    -U, --username <username>    Connect to the database as the user username instead of the default [env: PGUSER=]

Перешифрование кластера (экземпляра QHB)

При старте будет выполнена расшифровка старого мастер ключа (с запросом пина криптотокена при необходимости), а потом нового.

Do database reencryption

USAGE:
    qss_recrypt --data-dir <data-dir> recrypt

Утилита `qss_pinpad` предназначена для ввода пина криптотокена при использовании ключей в режиме pkcs11

Запускать следует в отдельном терминале перед стартом сервера или использованием qss_mgr для добавления или проверки ключей

Утилита `magma_key_gen`

magma_key_gen предназначена для генерации пользовательских ключей QSS на крипто-токенах, поддерживающих аппаратное шифрование по ГОСТ 34.12-2018 и ГОСТ 34.13-2018

Утилита поставляется в пакете qhb-contrib

magma_key_gen принимает следующие аргументы командной строки:

Аргумент	Описание
`--id` `id`	идентификатор создаваемого ключа
`--module` `pkcs11-module-path`	путь к библиотеке крипто-токена. По-умолчанию используется /usr/lib64/librtpkcs11ecp.so

Если ключ с таким идентификатором уже существует, программа выводит об этом сообщение и завершает работу.

Пример создания и включения шифрованной таблицы

Получение тестовых ключей

Создать мастер ключ и ключ пользователя:

head -c 32 /dev/urandom > master_key.bin
head -c 32 /dev/urandom > user1.bin

Инициализация QSS в режиме мастер ключа подписанного пользовательским ключем на файловой системе

qss_mgr init \
  --module=/usr/lib64/librtpkcs11ecp.so \
  --mode fs \
  --key user1.bin \
  master_key.bin

Инициализация QSS в режиме мастер ключа подписанного пользовательскимм ключем на крипто-токене

qss_mgr init \
  --module=/usr/lib64/librtpkcs11ecp.so \
  --mode pkcs11 \
  --token-serial-number 3c4c6444 \
  --token-key-id 1234 \
  master_key.bin

Добавление возможности запуска сервера с другим пользовательским ключем

Должен быть доступен ключ первого пользователя.

qss_mgr add \
  -mode fs \
  -k user2.bin \
  -n 0

Включение QSS на сервере

echo "qss_mode = 1" >> "${PGDATA}/qhb.conf"
qhb-ctl restart

Создание зашифрованной таблицы

create table t_qss(c1 int, c2 varchar) USING qss;

Подготовка к перешифровке БД новым мастер-ключем

Добавление нового мастер-ключа

qss_mgr --new init \
  --module=/usr/lib64/librtpkcs11ecp.so \
  --mode fs \
  --key user1.bin \
  new_master_key.bin

Сбор информации о зашифрованных таблицах в БД

Выполняется при запущенном кластере, надо повторить для всех БД в кластере, содержащих шифрованные таблицы

qss_recrypt --data-dir "${PGDATA}" add \
  --dbname my

Запуск перешифровки кластера

Выполняется на остановленном кластере

qss_recrypt --data-dir "${PGDATA}" recrypt

Переключение на новый мастер-ключ

Выполняется на остановленном кластере. Переносит текущий набор ключей в папку old, заменяя его подготовленным набором ключей из папки new

qss_mgr --data-dir "${PGDATA}" use-new

Индексы

Индексы являются распространенным способом повышения производительности базы данных. Индекс позволяет серверу базы данных находить и извлекать определенные строки гораздо быстрее, чем без индекса. Но индексы также увеличивают нагрузку на систему баз данных в целом, поэтому их следует использовать разумно.

Краткая справка по индексам

Предположим, у нас есть таблица, подобная этой:

CREATE TABLE test1 (
    id integer,
    content varchar
);

и приложение делает много запросов вида

SELECT content FROM test1 WHERE id = constant;

Без предварительной подготовки система должна будет сканировать всю таблицу test1, строка за строкой, чтобы найти все соответствующие записи. Если в test1 есть много строк и только несколько из них (возможно, ноль или одна) будут возвращены таким запросом, то это явно неэффективный метод. Но если система получила указание поддерживать индекс для столбца id, она может использовать более эффективный метод для поиска подходящих строк. Например, достаточно будет пойти на несколько уровней вглубь дерева поиска.

Подобный подход используется в большинстве научно-популярных книг: термины и понятия, которые часто ищут читатели, собраны в алфавитном указателе в конце книги. Заинтересованный читатель может сравнительно быстро просканировать указатель и перейти к соответствующей странице (страницам), а не читать всю книгу целиком, чтобы найти интересующий материал. Подобно тому, как задача автора состоит в том, чтобы предвидеть элементы, которые читатели могут искать, задача программиста базы данных — предвидеть, какие индексы будут полезны.

Следующая команда может использоваться для создания подобного индекса для столбца id:

CREATE INDEX test1_id_index ON test1 (id);

Имя test1_id_index можно выбрать любое, но в идеале оно должно напоминать вам о назначении индекса.

Чтобы удалить индекс, используйте команду DROP INDEX. Индексы могут быть добавлены и удалены из таблиц в любое время.

После создания индекса дальнейшее вмешательство не требуется: система будет обновлять индекс при изменении таблицы и будет использовать индекс в запросах, когда считает, что это будет более эффективно, чем последовательное сканирование таблицы. Но вам, возможно, придется регулярно запускать команду ANALYZE для обновления статистики, чтобы планировщик запросов мог принимать обоснованные решения. См. главу Советы по производительности для получения информации о том, как узнать, используется ли индекс, и когда и почему планировщик может предпочесть не использовать индекс.

Индексы также могут использоваться командами UPDATE и DELETE с условиями фильтрации. Кроме того, индексы могут использоваться при соединении таблиц, поэтому индекс, определенный для столбца, который является частью условия соединения, также может значительно ускорить запросы с соединениями.

Создание индекса для большой таблицы может занять много времени. По умолчанию QHB позволяет выполнять чтение (SELECT) из таблицы параллельно с созданием индекса, но модификации (INSERT, UPDATE, DELETE) блокируются до завершения построения индекса. В нагруженной системе это часто недопустимо. Можно разрешить модификации параллельно с созданием индекса, но следует учитывать несколько моментов — для получения дополнительной информации см. раздел Неблокирующее построение индексов.

После создания индекса система должна постоянно синхронизировать его с таблицей. Это увеличивает накладные расходы на операции с данными. Поэтому индексы, которые редко или никогда не используются в запросах, должны быть удалены.

Типы индексов

QHB предоставляет несколько типов индексов: B-дерево, Hash, GiST, SP-GiST, GIN и BRIN. Каждый тип индекса использует свой алгоритм, который лучше всего подходит для разных типов запросов. По умолчанию команда CREATE INDEX создает B-дерево, потому что оно подходит в наиболее распространенных ситуациях.

B-деревья могут обрабатывать запросы на равенство, неравенство и принадлежность интервалу значений. В частности, планировщик запросов QHB будет рассматривать возможность использования индекса типа B-дерево всякий раз, когда индексированный столбец участвует в условии с одним из этих операторов:

<
<=
=
>=
>

Конструкции, эквивалентные комбинациям этих операторов, такие как BETWEEN и IN, также могут быть реализованы с помощью поиска по B-дереву. Кроме того, B-дерево может быть использовано при запросе условия IS NULL или IS NOT NULL на столбец индекса.

Оптимизатор также может использовать B-дерево для запросов, включающих операторы сопоставления с образцом LIKE и ~, если шаблон является константой и привязан к началу строки; например, col LIKE 'foo%' or col ~ '^foo', но не col LIKE '%bar'. Однако, если ваша база данных использует локаль, отличную от C, вам нужно будет создать индекс со специальным классом операторов для поддержки индексации запросов на сопоставление с образцом; см. раздел Классы операторов и семейства операторов ниже. Также возможно использовать B-дерево для ILIKE и ~*, но только если шаблон начинается с символов, для которых нет верхнего и нижнего регистра, например, цифр.

Индексы типа B-дерево также можно использовать для извлечения данных в отсортированном порядке. Это не всегда быстрее, чем простое сканирование и сортировка, но часто полезно.

Хеш-индексы могут обрабатывать только простые сравнения на равенство. Планировщик запросов рассмотрит возможность использование хеш-индекса, когда индексируемый столбец участвует в сравнении с использованием оператора =. Следующая команда создает хеш-индекс:

CREATE INDEX name ON table USING HASH (column);

Индексы GiST — это не единая категория индексов, а скорее инфраструктура, с помощью которой может быть реализовано множество различных стратегий индексации. Соответственно, конкретные операторы, с которыми может использоваться индекс GiST, варьируются в зависимости от стратегии индексации (класса операторов). Например, стандартный дистрибутив QHB включает классы операторов GiST для нескольких двумерных геометрических типов данных, которые поддерживают индексированные запросы с использованием следующих операторов:

<< &< &> >> <<| &<| |&> |>> @> <@ ~= &&

(Значение этих операторов см. в разделе Геометрические функции и операторы).

Многие другие классы операторов GiST доступны в коллекции contrib или в виде отдельных проектов.

Индексы GiST могут оптимизировать поиск «ближайшего соседа», например, такой запрос

SELECT * FROM places ORDER BY location <-> point '(101,456)' LIMIT 10;

находит десять мест, ближайших к заданной целевой точке. Возможность сделать это зависит от конкретного класса операторов, использованного при построении индекса.

Индексы SP-GiST, так же как и индексы GiST, предлагают инфраструктуру, которая поддерживает различные виды поиска. SP-GiST позволяет реализовать широкий спектр различных несбалансированных дисковых структур данных, таких как дерево квадрантов, k-мерные деревья и префиксные деревья (Tries). Например, стандартный дистрибутив QHB включает классы операторов SP-GiST для точек двумерного пространства, которые позволяют использовать индекс для запросов с использованием следующих операторов:

<< >> ~= <@ <^ >^

(Значение этих операторов см. в разделе Геометрические функции и операторы).

Как и GiST, SP-GiST поддерживает поиск «ближайшего соседа».

Индексы GIN — это «инвертированные индексы», которые подходят для индексации столбцов, значение которых представляет из себя коллекцию элементов, и последующего поиска по отдельным элементам. Инвертированный индекс содержит отдельную запись для каждого элемента и может эффективно обрабатывать запросы, которые проверяют наличие определенных элементов.

Подобно GiST и SP-GiST, GIN может поддерживать множество различных пользовательских стратегий индексирования, и конкретные операторы, с которыми может использоваться индекс GIN, различаются в зависимости от стратегии индексирования. Например, стандартный дистрибутив QHB включает класс операторов GIN для массивов, который поддерживает индексированные запросы с использованием операторов:

<@ @> = &&

Значение этих операторов см. в разделе Функции и операторы массива. Классы операторов GIN, включенные в стандартную поставку, а также входящие в коллекцию contrib, перечислены в разделе Встроенные классы операторов GIN.

Индексы BRIN (сокращение от Block Range INdexes, индекс диапазона блоков) хранят сводные данные о значениях, хранящихся в последовательных диапазонах физических блоков таблицы. Как и GiST, SP-GiST и GIN, BRIN может поддерживать множество различных стратегий индексирования, и конкретные операторы, с которыми может использоваться индекс BRIN, различаются в зависимости от стратегии индексирования. Для типов данных, имеющих линейный порядок сортировки, индекс хранит минимальные и максимальные значения в столбце для каждого диапазона блоков. Это позволяет использовать индекс для запросов, использующих следующие операторы < <= = >= >. Для получения дополнительной информации см. главу Индексы BRIN.

Многоколоночные индексы

Индекс может быть определен для более чем одного столбца таблицы. Например, если у вас есть такая таблица:

CREATE TABLE test2 (
  major int,
  minor int,
  name varchar
);

(предположим, что вы так храните каталог /dev в базе данных), и вы часто делаете запросы вида

SELECT name FROM test2 WHERE major = constant AND minor = constant;

то может быть целесообразно создать индекс по столбцам major и minor вместе, например:

CREATE INDEX test2_mm_idx ON test2 (major, minor);

В настоящее время только индексы типа B-tree, GiST, GIN и BRIN поддерживают многоколоночные индексы. Можно указать до 32 столбцов.

Многоколоночный индекс типа B-дерево может использоваться с условиями запроса, которые включают любое подмножество столбцов индекса, но индекс наиболее эффективен, когда заданы ограничения на ведущие (крайние левые) столбцы.

Точное правило такое: должно быть ограничение равенства для нескольких (0+) первых столбцов индекса, плюс, возможно, ограничение неравенства на 1 следующий столбец — такие условия (т.н. "предикат поиска") позволяют сканировать узкий диапазон индекса.

Ограничения на прочие столбцы индекса ("дополнительный фильтр поиска") проверяются при сканировании индекса прямо в нем, экономя обращения к таблице, но эти ограничения не уменьшают диапазон сканирования индекса. Например, если есть индекс по (a, b, c), а условие запроса WHERE a = 5 AND b <= 50 AND c = 100, то индекс будет сканироваться от первой записи a = 5 до последней записи a = 5 AND b <= 50, и для каждой записи этого диапазона будет проверяться дополнительное условие с = 100. Этот индекс в принципе может быть использован и для запросов, которые имеют ограничения на b и/или c без ограничения на a — но в этом случае будет сканироваться весь индекс, и скорее всего планировщик предпочтет последовательное сканирование таблицы такому использованию индекса.

Многоколоночный индекс GiST может использоваться с условиями запроса, которые включают любое подмножество столбцов индекса. Условия для дополнительных столбцов ограничивают записи, возвращаемые индексом, но условие для первого столбца является наиболее важным для определения того, какую часть индекса необходимо сканировать. Индекс GiST будет относительно неэффективным, если его первый столбец имеет мало вариантов различных значений, даже если в дополнительных столбцах много вариантов значений.

Многоколоночный индекс GIN может использоваться с условиями запроса, которые включают любое подмножество столбцов индекса. В отличие от B-дерева или GiST, эффективность поиска по индексу одинакова независимо от того, какие столбцы индекса входят в условие запроса.

Многоколоночный индекс BRIN может использоваться с условиями запроса, которые включают любое подмножество столбцов индекса. Подобно GIN и в отличие от B-дерева или GiST, эффективность поиска по индексу одинакова независимо от того, какие столбцы индекса входят в условие запроса. Единственная причина иметь несколько индексов BRIN в одной таблице вместо одного многоколоночного индекса BRIN — это задать для нескольких индексов разное значение параметра pages_per_range.

Конечно, каждый столбец должен использоваться с операторами, соответствующими типу индекса; если в условии используется другой оператор, то для него индекс не может быть использован.

Многоколоночные индексы следует использовать с осторожностью. В большинстве случаев достаточно одноколоночного индекса, который занимает меньше места и работает быстрее. Индексы с более чем тремя столбцами понадобятся только в экзотических ситуациях. См. также разделы Объединение нескольких индексов и Сканирование только по индексу и покрывающие индексы, где обсуждаются достоинства различных конфигураций индексов.

Индексы и ORDER BY

В дополнение к просто поиску строк, удовлетворяющих запросу, индекс может выдать их в определенном отсортированном порядке. Это позволяет реализовать указание ORDER BY без отдельного шага сортировки. Из всех типов индексов, поддерживаемых в настоящее время QHB, только B-дерево умеет сортированный вывод — другие типы индексов возвращают строки в неопределенном, зависящем от реализации порядке.

Даже если есть индекс, умеющий выдавать результаты в порядке, требуемом в ORDER BY, у планировщика всегда есть другой вариант: получить выборку другим способом, а потом отсортировать. Например, если в выборку попадает большая часть таблицы, будет выгоднее использовать сканирование таблицы с последующей досортировкой (последовательное чтение таблицы быстрее, чем хождение по ссылкам из индекса).

Важным частным случаем является ORDER BY в сочетании с LIMIT n: использование индекса позволит сразу отсечь n строк в порядке ORDER BY, а при использовании сканирования таблицы придётся достать и отсортировать всю выборку, чтобы получить первые n строк.

По умолчанию индексы B-дерева хранят свои записи в порядке возрастания, значения NULL после всех остальных (в случае равенства ссылка на строку в куче (TID) определяет порядок). Это означает, что прямое сканирование индекса по столбцу x приводит к выводу, удовлетворяющему ORDER BY x (точнее, ORDER BY x ASC NULLS LAST). Тот же индекс также можно сканировать в обратном направлении, получая выходные данные, удовлетворяющие ORDER BY x DESC (или, точнее, ORDER BY x DESC NULLS FIRST, именно такой порядок противоположен предыдущему).

Вы можете настроить порядок индекса B-дерево, включив опции ASC/DESC, NULLS FIRST/NULLS LAST при создании индекса, например:

CREATE INDEX test2_info_nulls_low ON test2 (info NULLS FIRST);
CREATE INDEX test3_desc_index ON test3 (id DESC NULLS LAST);

Индекс, созданный как ASC NULLS FIRST может удовлетворять либо ORDER BY x ASC NULLS FIRST либо ORDER BY x DESC NULLS LAST в зависимости от того, в каком направлении он сканируется.

Вы можете спросить, зачем предлагать все четыре варианта, когда два варианта вместе с возможностью обратного сканирования будут охватывать все варианты ORDER BY. В одноколоночных индексах параметры действительно избыточны, но в многоколоночных индексах они могут быть полезны. Рассмотрим индекс из двух столбцов для (x, y) : он подходит для ORDER BY x, y если мы сканируем вперед, или ORDER BY x DESC, y DESC, если мы сканируем назад. Но он не может поддержать порядок ORDER BY x ASC, y DESC. Для такого порядка годится индекс (x ASC, y DESC) или (x DESC, y ASC)

Очевидно, что индексы с порядками сортировки, отличными от заданных по умолчанию, являются довольно специализированной функцией, но иногда они могут привести к значительному ускорению для определенных запросов. Стоит ли поддерживать такой индекс, зависит от того, как часто вы используете запросы, требующие специального порядка сортировки.

Объединение нескольких индексов

Простое сканирование индекса может использоваться для условий на отдельные столбцы индекса, объединённых по AND. Например, при наличии индекса (a, b) условие запроса WHERE a = 5 AND b = 6 может использовать индекс, но запрос, например, WHERE a = 5 OR b = 6 не может напрямую использовать индекс.

К счастью, QHB имеет возможность комбинировать несколько индексов (включая многократное использование одного и того же индекса) для обработки случаев, которые не могут быть реализованы при сканировании одного индекса. Система может реализовать условия AND и OR за нескольких сканирований индекса. Например, запрос типа WHERE x = 42 OR x = 47 OR x = 53 OR x = 99 можно реализовать через сканирование четырех отдельных диапазонов индекса по x, каждое по одному из условий x = ?. Результаты этих сканирований затем объединяются для получения результата. Другой пример: если у нас есть отдельные индексы для x и y, одна из возможных реализаций запроса WHERE x = 5 AND y = 6 состоит в том, чтобы использовать каждый индекс для соответствующего условия, а затем посчитать пересечение двух множеств строк.

Чтобы объединить несколько индексов, система сканирует каждый необходимый индекс и сохраняет множество строк, подходящий под эту часть условия, в памяти в виде битовой карты. Затем битовые карты можно объединять или пересекать в соответствии с запросом. Наконец, фактические строки таблицы посещаются и возвращаются. Строки таблицы посещаются в физическом порядке, потому что так они лежат в битовой карте; это означает, что любой порядок выдачи исходных индексов потерян, и поэтому потребуется отдельный шаг сортировки, если в запросе есть предложение ORDER BY. По этой причине, а также потому, что каждое дополнительное сканирование индекса добавляет дополнительное время, планировщик иногда предпочитает использовать простое сканирование индекса, даже если доступны дополнительные индексы, которые также можно было бы использовать.

Во всех приложениях, кроме самых простых, могут быть полезны различные комбинации индексов, и разработчик базы данных должен найти компромисс, какие индексы иметь. Иногда лучше использовать многоколоночные индексы, а иногда лучше создавать отдельные индексы и полагаться на функцию комбинирования индексов. Например, если ваша рабочая нагрузка включает в себя набор запросов, которые иногда содержат условие только на столбец x, иногда только на столбец y, а иногда на оба столбца, вы можете создать два отдельных индекса для x и y, полагаясь на комбинацию индексов для обработки запросов, которые используйте оба столбца. Вы также можете создать многоколоночный индекс для (x, y). Этот индекс эффективнее, чем комбинация индексов, для запросов, включающих оба столбца, но, как обсуждалось в разделе Многоколоночные индексы, он почти бесполезен для запросов, включающих только y, поэтому он не должен быть единственным индексом. Комбинация многоколоночного индекса и отдельного индекса по y будет неплохим вариантом. Для запросов, включающих только x, можно использовать многоколонный индекс, хотя он будет больше и, следовательно, медленнее, чем индекс только для x. Третий вариант заключается в создании всех трех индексов, но это разумно, только если поиск в таблице происходит гораздо чаще, чем модификации, и все три типа запросов одинаково частые. Если один из типов запросов встречается значительно реже, чем другие, то лучше создать только два индекса, которые лучше всего соответствуют двум более частым запросам.

Уникальные индексы

Индексы также можно использовать для обеспечения уникальности значения столбца или комбинации из нескольких столбцов.

CREATE UNIQUE INDEX name ON table (column [, ...]);

В настоящее время только индексы типа B-дерево могут быть объявлены уникальными.

Когда индекс объявляется уникальным, несколько строк таблицы с одинаковыми индексируемыми значениями не допускаются. Нулевые значения не считаются равными, т.е. уникальный индекс не мешает иметь несколько строк со значением NULL. Уникальный индекс из нескольких столбцов будет отклонять только те случаи, когда все индексируемые столбцы равны в нескольких строках.

QHB автоматически создает уникальный индекс, когда для таблицы определено уникальное ограничение или первичный ключ. Индекс охватывает столбцы, которые составляют первичный ключ или уникальное ограничение (это может быть многоколонный индекс, если необходимо), и он используется при проверке ограничения.

Заметка
Не надо вручную создавать индексы для уникальных столбцов; это создаст копию автоматически созданного индекса.

Индексы по выражениям

Столбец индекса необязательно должен быть просто столбцом базовой таблицы, но может быть функцией или скалярным выражением, вычисляемым от одного или нескольких столбцов таблицы. Эта опция полезна для быстрого доступа к таблице по результатам вычисления выражения.

Например, распространенный способ сравнения без учета регистра состоит в использовании функции lower:

SELECT * FROM test1 WHERE lower(col1) = 'value';

Этот запрос может использовать индекс, если он был определен по функции lower(col1) :

CREATE INDEX test1_lower_col1_idx ON test1 (lower(col1));

Если объявить этот индекс уникальным, то это не позволит вставить в таблицу несколько строк, значение col1 которых отличается только регистром. Т.о. индексы по выражениям позволяют задавать нетривиальные ограничения уникальности. Например, следующий уникальный индекс предотвращает сохранение чисел с одинаковой целой частью в столбце с действительным числами:

CREATE UNIQUE INDEX test1_uniq_int ON tests ((floor(double_col)));

В качестве другого примера, если вы часто делаете запросы вроде

SELECT * FROM people WHERE (first_name || ' ' || last_name) = 'John Smith';

тогда, возможно, стоит создать такой индекс:

CREATE INDEX people_names ON people ((first_name || ' ' || last_name));

Синтаксис команды CREATE INDEX обычно требует записи круглых скобок вокруг выражения, как показано в последнем примере. Скобки могут быть опущены, когда выражение является просто вызовом функции, как в первом примере.

Индексы по выражениям относительно дороги в обслуживании, поскольку производные выражения должны вычисляться для каждой строки после вставки и каждого изменения. Однако выражения индекса не пересчитываются во время поиска по индексу, поскольку результат вычисления уже хранятся в индексе. В обоих приведенных выше примерах система видит запрос как WHERE indexed_column = ’constant’, поэтому скорость поиска эквивалентна любому другому простому запросу индекса. Таким образом, индексы по выражениям полезны, когда скорость поиска важнее скорости вставки и обновления.

Частичные индексы

Частичный индекс — это индекс, построенный на подмножестве таблицы; подмножество определяется условным выражением (называемым предикатом частичного индекса). Индекс содержит записи только для тех строк таблицы, которые удовлетворяют предикату. Частичные индексы являются специализированной функцией, но есть несколько ситуаций, в которых они полезны.

Одна из основных причин использования частичного индекса — избегать индексации наиболее популярных значений. Поскольку запрос, выполняющий поиск популярного значения (на которое приходится более скольких-то процентов от всей таблицы), все равно будет использовать сканирование таблицы, а не индекс, то нет смысла вообще сохранять эти строки в индексе. Это уменьшает размер индекса, что ускорит те запросы, которые используют индекс. Это также ускорит многие операции обновления таблиц, поскольку индекс нужно обновлять не всегда. Пример ниже показывает возможное применение этой идеи.

Пример. Настройка частичного индекса для исключения частых значений

Предположим, вы храните журналы доступа веб-сервера в базе данных. Большинство обращений происходит из диапазона IP-адресов вашей организации, но некоторые из других источников (например, сотрудники, подключающиеся по телефонной линии). Если вы ищете по IP-адресу в основном для внешних обращений, вам, вероятно, не нужно индексировать диапазон IP-адресов, который соответствует подсети вашей организации.

Предположим, что таблица такая:

CREATE TABLE access_log (
    url varchar,
    client_ip inet,
    ...
);

Чтобы создать частичный индекс, который соответствует нашему примеру, используйте такую команду:

CREATE INDEX access_log_client_ip_ix ON access_log (client_ip)
WHERE NOT (client_ip > inet '192.168.100.0' AND
           client_ip < inet '192.168.100.255');

Типичный запрос, который может использовать этот индекс:

SELECT *
FROM access_log
WHERE url = '/index.html' AND client_ip = inet '212.78.10.32';

Здесь IP-адрес из запроса покрывается частичным индексом. Следующий запрос не может использовать частичный индекс, так как он использует IP-адрес, который исключен из индекса:

SELECT *
FROM access_log
WHERE url = '/index.html' AND client_ip = inet '192.168.100.23';

Заметьте, что этот тип частичного индекса требует, чтобы общие значения были предопределены, поэтому такие частичные индексы лучше всего использовать для данных, распределение которых не меняются. Такие индексы можно время от времени пересоздавать, чтобы приспособиться к новым распределениям данных, но это добавляет усилий на обслуживание.

Другое возможное использование частичного индекса — включение в индекс только тех значений, которые участвуют в типичной рабочей нагрузке (как показано в следующем примере). Это дает преимущества, описанные выше, однако не позволяет использовать индекс при поиске по "нетипичным" значениям. Очевидно, что выбор частичных индексов в таком сценарии потребует большой осторожности и экспериментов.

Пример. Настройка частичного индекса для исключения «неинтересных» значений

Если у вас есть таблица, которая содержит как оплаченные, так и неоплаченные заказы, где неоплаченные заказы занимают небольшую долю в общей таблице, и при этом эти строки являются наиболее востребованными, вы можете повысить производительность, создав индекс только для неоплаченных заказов. Команда создания индекса будет выглядеть так:

CREATE INDEX orders_unbilled_index ON orders (order_nr)
    WHERE billed is not true;

Возможный запрос, использующий этот индекс:

SELECT * FROM orders WHERE billed is not true AND order_nr < 10000;

Однако индекс также может использоваться в запросах, которые вообще не включают order_nr, например:

SELECT * FROM orders WHERE billed is not true AND amount > 5000.00;

Это не так эффективно, как частичный индекс по столбцу amount, поскольку система должна сканировать весь индекс. Тем не менее, если неоплаченных заказов относительно мало, использование этого частичного индекса для того, чтобы найти неоплаченные заказы с любым дополнительным условием может быть выигрышным.

Обратите внимание, что такой запрос не может использовать этот индекс:

SELECT * FROM orders WHERE order_nr = 3501;

Заказ 3501 может быть и оплачен, поэтому нельзя ограничиться поиском в частичном индексе.

Пример 3.2 также иллюстрирует, что индексированный столбец и столбец, используемый в предикате, не обязаны совпадать. QHB поддерживает частичные индексы с произвольными предикатами, при условии, что задействованы только столбцы индексируемой таблицы. Однако имейте в виду, что предикат должен соответствовать условиям, используемым в запросах, которые должны использовать индекс. Чтобы быть точным, частичный индекс может использоваться в запросе, только если система может аналитически распознать, что из условия WHERE всегда следует предикат индекса. QHB не имеет сложного средства проверки теорем, способного распознавать математически эквивалентные выражения, написанные в разных формах. (Мало того, что такое средство чрезвычайно трудно создать, оно, вероятно, будет работать слишком медленно, чтобы использоваться в планировщике запросов.) Система может распознавать простые следствия из неравенства, например, x < 1 подразумевает x < 2 . А в общем случае, лучше бы предиката индекса точно соответствовал части WHERE, иначе индекс не будет признан пригодным для использования. Сопоставление происходит во время планирования запроса, а не во время выполнения. Как следствие, параметризованные запросы могут не работать с частичным индексом. Например, подготовленный запрос с параметром может иметь условие WHERE x < ?, а предикат индекса x < 2 — индекс не будет использоваться для этого запроса, т.к. для некоторых значений параметра это приводило бы к неправильным результатам.

Третье возможное использование для частичных индексов — не для запросов, а для поддержания уникальности. Идея заключается в том, чтобы создать уникальный индекс для подмножества таблицы, как в следующем примере. Это обеспечивает уникальность среди строк, которые удовлетворяют предикату индекса, без ограничения для тех, которые не удовлетворяют.

Пример. Настройка частичного уникального индекса

Предположим, у нас есть таблица с описанием результатов теста. Мы хотим убедиться, что для данной комбинации субъекта и цели хранится только одна «успешная» запись, а записей о «неудачных» испытаниях может храниться много. Вот один из способов сделать это:

CREATE TABLE tests (
    subject text,
    target text,
    success boolean,
    ...
);

CREATE UNIQUE INDEX tests_success_constraint ON tests (subject, target)
    WHERE success;

Это особенно эффективный подход, когда мало успешных тестов и много неудачных.

Следующий индекс запрещает создание более одной строки со значением NULL в данном столбце, используя предложение частичного индекса для обработки только значений нулевого столбца и используя выражение для перевода NULL в true:

CREATE UNIQUE INDEX tests_target_one_null ON tests ((target IS NULL)) WHERE target IS NULL;

Наконец, частичный индекс также можно использовать, чтобы запретить планировщику использовать этот индекс для конкретных запросов. Иногда особое распределение данных может привести к тому, что система будет использовать индекс, когда это на самом деле не нужно. В этом случае индекс можно настроить таким образом, чтобы он не был доступен для некорректного запроса. Обычно QHB делает разумный выбор в отношении использования индекса (например, он не использует при низкоселективной выборке, поэтому предыдущие примеры в первую очередь экономят место, занимаемое индексом, а не отваживают планировщик от использования индекса), а крайне неправильный выбор плана является, вероятно, ошибкой в системе.

Имейте в виду, что создание частичного индекса подразумевает, что вы знаете больше, чем планировщик запросов, в частности, вы знаете, когда использование индекса будет выгодным. Формирование этих знаний требует опыта и понимания того, как работают индексы в QHB. В большинстве случаев преимущество частичного индекса над обычным индексом будет минимальным.

Более подробную информацию о частичных индексах можно найти у Stonebraker, Seshadri.

Сканирование только по индексу и покрывающие индексы

Все индексы в QHB являются вторичными, то есть каждый индекс хранится отдельно от основной области данных таблицы (которая в терминологии QHB называется кучей(heap) таблицы). Это означает, что при обычном сканировании индекса каждый поиск строки требует извлечения данных как из индекса, так и из кучи. Кроме того, хотя записи индекса, которые соответствуют заданному индексируемому условию WHERE, обычно близки друг к другу в индексе, строки таблицы, на которые они ссылаются, могут находиться где угодно в куче. И та часть доступа по индексу, которая состоит из обращения к строкам в куче, включает в себя много произвольного доступа, который может быть медленным, особенно на традиционных вращающихся носителях. (Как описано в Разделе Объединение нескольких индексов, сканирования-на-битовых-картах пытаются уменьшить эту стоимость, делая доступ к куче последовательным, но он все равно производится.)

Чтобы решить эту проблему производительности, QHB поддерживает сканирование только по индексу, которое может реализовывать запросы только на основании индекса без какого-либо доступа к куче. Основная идея состоит в том, чтобы возвращать значения непосредственно из записи индекса, а не обращаться к соответствующей записи кучи. Существуют два фундаментальных ограничения на использование этого метода:

Тип индекса должен поддерживать сканирование только по индексу. Индексы B-дерева поддерживают. Индексы GiST и SP-GiST поддерживают сканирование только по индексу для некоторых классов операторов, но не для всех. Остальные типы индексов не поддерживают. Основным требованием является то, что индекс должен физически хранить или иметь возможность восстановить исходное значение данных для каждой записи индекса. В качестве контрпримера, индексы GIN не могут поддерживать сканирование только по индексу, поскольку каждая запись индекса содержит только часть исходного значения столбца.
Запрос должен ссылаться только на столбцы, хранящиеся в индексе. Например, предполагая индекс по столбцам x и y таблицы, которая также имеет столбец z, эти запросы могут использовать сканирование только по индексу:
```
SELECT x, y FROM tab WHERE x = 'key';
SELECT x FROM tab WHERE x = 'key' AND y < 42;
```
а эти запросы не могут:
```
SELECT x, z FROM tab WHERE x = 'key';
SELECT x FROM tab WHERE x = 'key' AND z < 42;
```
(Для индексов по выражению и частичных индексов все сложнее, см. ниже.)

Если эти два фундаментальных требования выполнены, то все значения данных, требуемые запросом, доступны из индекса, поэтому физически возможно сканирование только по индексу. Но для любого сканирования таблицы в QHB есть дополнительное требование: система должна убедиться, что каждая извлеченная строка «видима» для MVCC-снимка текущего запроса, как описано в главе Параллельный контроль. Информация о видимости не хранится в записях индекса, а только в записях кучи; так что на первый взгляд может показаться, что для любого поиска в любом случае потребуется доступ к куче. И это действительно так, если строка таблицы была недавно изменена. Однако для редко меняющихся данных есть способ обойти эту проблему. QHB отслеживает для каждой страницы в куче таблицы, все ли строки, хранящиеся на этой странице, достаточно стары, чтобы быть видимыми для всех текущих и будущих транзакций. Эта информация сохраняется в виде одного бита в карте видимости таблицы. Сканирование только по индексу после нахождения подходящей записи индекса проверяет бит видимости для соответствующей страницы кучи. Если он установлен, строка определенно видимая, и поэтому данные могут быть возвращены без обращения к куче. Если он не установлен, запись кучи должна быть посещена, чтобы выяснить, видна ли строка, поэтому никакого преимущества в производительности по сравнению со стандартным сканированием индекса не достигается. Даже в успешном случае этот подход требует обращения к карте видимости; но поскольку карта видимости на четыре порядка меньше описываемой ею кучи, для доступа к ней требуется гораздо меньше операций ввода-вывода. В большинстве случаев карта видимости постоянно хранится в памяти.

Короче говоря, хотя сканирование только по индексу возможно с учетом двух фундаментальных требований, оно будет выигрышным, только если для значительной части страниц кучи таблицы установлены биты видимости. Такие таблицы, в которых большая часть строк неизменна, достаточно распространены, чтобы сделать этот тип сканирования очень полезным на практике.

Чтобы эффективно использовать функцию сканирования только по индексу, вы можете создать покрывающий индекс, т.е. индекс, специально включающий лишние столбцы, которые требуются конкретному запросу, который вы часто выполняете. Поскольку запросам обычно требуется получать больше столбцов, чем только те, по которым они осуществляют поиск, QHB позволяет создавать индекс, в котором некоторые столбцы являются просто «дополнительной нагрузкой», а не частью ключа поиска. Это делается путем добавления указания INCLUDE со списком дополнительных столбцов. Допустим, вы часто делаете запрос вида

SELECT z FROM tab WHERE x = 'key';

Традиционный подход к ускорению таких запросов заключается в создании индекса только по x. Тем не менее, индекс, заданный как

CREATE INDEX tab_x_z ON tab(x) INCLUDE (z);

может обрабатывать эти запросы как сканирование только по индексу, потому что z можно получить из индекса, не посещая кучу.

Поскольку столбец z не является частью ключа поиска индекса, он не обязательно должен иметь тип данных, который может обрабатывать индекс; он просто хранится в индексе и не обрабатывается механизмом индекса. Кроме того, если индекс является уникальным, то есть

CREATE UNIQUE INDEX tab_x_z ON tab(x) INCLUDE (z);

условие уникальности применяется только к столбцу x, а не к комбинации x и z. (При описании UNIQUE и PRIMARY KEY тоже можно задать INCLUDE, это альтернативный синтаксис для создания такого индекса.)

Добавлять в индекс неключевые столбцы дополнительной нагрузки следует обдуманно, особенно если эти столбцы широкие. Если кортеж индекса превысит максимально допустимый размер для данного типа индекса, вставка данных завершится неудачно. В любом случае неключевые столбцы дублируют данные из таблицы и увеличивают размер индекса, что потенциально замедляет поиск. И помните, что нет никакого смысла включать столбцы полезной нагрузки в индекс, если таблица изменяется часто, т.к. все равно потребуется обращаться к куче. Если есть обращение к строке в куче, получить значение всех столбцов столбца можно оттуда, и это ничего не стоит. Другие ограничения заключаются в том, что в качестве дополнительных столбцов нельзя включать выражения, и что только B-деревья и GiST в настоящее время поддерживают включенные столбцы.

До того, как в QHB появилась функция INCLUDE, люди иногда создавали покрывающие индексы, записывая столбцы полезной нагрузки как обычные столбцы индекса, то есть

CREATE INDEX tab_x_y ON tab(x, y);

даже если они не собирались использовать y как часть WHERE. Это прекрасно работает, если дополнительные столбцы являются конечными столбцами; делать их ведущими столбцами неразумно по причинам, изложенным в разделе Многоколоночные индексы. Однако этот метод не подходит для уникальных индексов.

Усечение суффиксов всегда удаляет неключевые столбцы с верхних уровней B-Дерева. Как столбцы дополнительной нагрузки, они никогда не используются при сканировании индекса. Процесс усечения в принципе удаляет один или несколько конечных столбцов ключа из не-листьев B-Дерева, когда они не требуются для обхода дерева. Поэтому на практике покрытие индексов даже без предложения INCLUDE часто позволяет избежать хранения столбцов, которые являются дополнительной нагрузкой, на верхних уровнях. Однако явное определение столбцов дополнительной нагрузки в качестве неключевых столбцов надежно сохраняет кортежи на верхних уровнях небольшими.

Теоретически, сканирование только по индексу может использоваться с индексами по выражениям. Например, имея индекс по f(x), где x — столбец таблицы, можно выполнить запрос

SELECT f(x) FROM tab WHERE f(x) < 1;

как сканирование только по индексу; и это очень привлекательно, если f() дорогая для вычисления функция. Однако планировщик QHB в настоящее время не очень разбирается в таких случаях. Он считает, что запрос потенциально может быть выполнен при сканировании только по индексу, только когда из индекса доступны все столбцы, необходимые для запроса. В этом примере x не требуется, кроме как в контексте f(x), но планировщик этого не замечает и приходит к выводу, что сканирование только по индексу невозможно. Если очень надо, то это ограничение можно обойти, добавив x в качестве включенного столбца, например

CREATE INDEX tab_f_x ON tab (f(x)) INCLUDE (x);

Дополнительное предостережение. Если цель состоит в том, чтобы избежать повторного вычисления f(x), то есть ещё одна проблема. Не факт, что планировщик додумается использовать значение, взятое из индекса, для всех вхождений f(x). Например, в запросе

SELECT B.name FROM tab join B on B.id = f(x) WHERE f(x) < 1;

даже если будет использовано сканирование только по индексу, значение f(x) для соединения будет вычислено заново (x возьмут из дополнительной колонки индекса). Этот недостаток может быть исправлен в будущих версиях QHB.

Частичные индексы также интересны при сканировании только по индексам. Рассмотрим частичный индекс из примера выше:

CREATE UNIQUE INDEX tests_success_constraint ON tests (subject, target)
    WHERE success;

Можем ли мы выполнить сканирование только по индексу, чтобы удовлетворить следующий запрос?

SELECT target FROM tests WHERE subject = 'some-subject' AND success;

Есть проблема: WHERE содержит success, который не является столбцом индекса. Тем не менее, сканирование только по индексу возможно, потому что плану не нужно перепроверять эту часть WHERE во время выполнения: все записи, найденные в индексе, обязательно имеют success = true поэтому в плане это не нужно явно проверять.

Классы операторов и семейства операторов

Определение индекса может указывать класс оператора для каждого столбца индекса.

CREATE INDEX name ON table (column opclass [sort options] [, ...]);

Класс операторов определяет операторы, которые будут использоваться индексом для этого столбца. Например, индекс B-дерева для типа int4 будет использовать класс int4_ops ; этот класс операторов включает функции сравнения для значений типа int4. На практике класс операторов по умолчанию для типа данных столбца обычно достаточен. Основная причина наличия классов операторов заключается в том, что для некоторых типов данных может быть более одного осмысленного поведения индекса. Например, мы могли бы захотеть отсортировать тип данных комплексного числа или по абсолютному значению или по реальной части. Мы могли бы сделать это, определив два класса операторов для типа данных, а затем выбрав подходящий класс при создании индекса. Класс оператора определяет основной порядок сортировки (который затем можно изменить, добавив параметры сортировки COLLATE, ASC/DESC, NULLS FIRST/NULLS LAST).

Есть также несколько встроенных классов операторов, кроме классов по умолчанию:

Классы операторов text_pattern_ops, varchar_pattern_ops и bpchar_pattern_ops поддерживают индексы B-дерева для типов text, varchar и char соответственно. Отличие от классов операторов по умолчанию состоит в том, что значения сравниваются строго символ за символом, а не в соответствии с правилами сортировки, специфичными для локали. Это делает эти классы операторов пригодными для использования в запросах, включающих выражения сопоставления с образцом (регулярные выражения LIKE или POSIX), когда база данных использует локаль, отличную от «C». Например, вы можете проиндексировать столбец varchar следующим образом:
```
CREATE INDEX test_index ON test_table (col varchar_pattern_ops);
```
Обратите внимание, что вам придется создать еще и индекс с классом операторов по умолчанию, если вы хотите, чтобы запросы, включающие обычные сравнения <, <=, > или >= использовали индекс. Такие запросы не могут использовать операторы класса xxx_pattern_ops (сравнения на равенство — могут). Можно создать несколько индексов про один столбец, но с разными классами операторов. Если вы используете локаль C, вам не нужен индекс с операторами класса xxx_pattern_ops, т.к. в локали C индекс с операторами по умолчанию можно использовать и для запросов сопоставления с образцом.

Следующий запрос показывает все известные классы операторов:

SELECT am.amname AS index_method,
       opc.opcname AS opclass_name,
       opc.opcintype::regtype AS indexed_type,
       opc.opcdefault AS is_default
    FROM pg_am am, pg_opclass opc
    WHERE opc.opcmethod = am.oid
    ORDER BY index_method, opclass_name;

Класс операторов — это просто подмножество более крупной структуры, называемой семейством операторов. В тех случаях, когда несколько типов данных имеют сходное поведение, часто бывает полезно определить операторы над семейством типов данных и разрешить им работать с индексами. Для этого классы операторов для каждого из типов должны быть сгруппированы в одно и то же семейство операторов. Операторы семейства типов являются членами семейства, но не привязаны к конкретному классу в семействе.

Эта расширенная версия предыдущего запроса показывает семейство операторов, к которому принадлежит каждый класс операторов:

SELECT am.amname AS index_method,
       opc.opcname AS opclass_name,
       opf.opfname AS opfamily_name,
       opc.opcintype::regtype AS indexed_type,
       opc.opcdefault AS is_default
    FROM pg_am am, pg_opclass opc, pg_opfamily opf
    WHERE opc.opcmethod = am.oid AND
          opc.opcfamily = opf.oid
    ORDER BY index_method, opclass_name;

Этот запрос показывает все определенные семейства операторов и все операторы, включенные в каждое семейство:

SELECT am.amname AS index_method,
       opf.opfname AS opfamily_name,
       amop.amopopr::regoperator AS opfamily_operator
    FROM pg_am am, pg_opfamily opf, pg_amop amop
    WHERE opf.opfmethod = am.oid AND
          amop.amopfamily = opf.oid
    ORDER BY index_method, opfamily_name, opfamily_operator;

Индексы и правила сортировки

Индекс может использовать только одно правило сортировки (COLLATION) на столбец индекса. Если требуется поиск по столбцу с разными правилами сортировки, придется создать несколько индексов.

Рассмотрим следующие команды:

CREATE TABLE test1c (
    id integer,
    content varchar COLLATE "x"
);

CREATE INDEX test1c_content_index ON test1c (content);

Индекс унаследует правила сортировки от базового столбца content. Так что запрос вида

SELECT * FROM test1c WHERE content > constant;

может использовать индекс, потому что сравнение столбца с константой по умолчанию использует правило сортировки столбца, и это соответствует индексу. Однако этот индекс не может ускорить запросы, в которых задано другое правило сортировки, например, такой:

SELECT * FROM test1c WHERE content > constant COLLATE "y";

Если такие запросы тоже нужны, то можно создать дополнительный индекс, который будет поддерживать правило сортировки "y", например:

CREATE INDEX test1c_content_y_index ON test1c (content COLLATE "y");

Анализ использования индексов

Хотя индексы в QHB не нуждаются в обслуживании или настройке, все же важно проверить, какие индексы действительно используются реальной рабочей нагрузкой запросов. Изучение использования индекса для отдельного запроса выполняется командой EXPLAIN; его применение для этой цели иллюстрируется в разделе Использование EXPLAIN. Также возможно собрать общую статистику об использовании индекса на работающем сервере, как описано в разделе Сборщик статистики.

Сложно сформулировать общую процедуру выбора индексов для создания. Существует ряд типичных случаев, которые были показаны в примерах в предыдущих разделах. Часто требуется много экспериментов. Остаток этого раздела содержит несколько советов на эту тему:

В первую очередь запустите ANALYZE. Эта команда собирает статистику о распределении значений в таблице. Эта информация необходима для оценки количества строк, возвращаемых запросом, которое необходимо планировщику для реалистичной оценки затрат для каждого возможного плана запроса. При отсутствии какой-либо реальной статистики предполагаются некоторые значения по умолчанию, которые почти наверняка будут неточными. Поэтому изучение планов выполнения без запуска ANALYZE является заведомо бесперспективным. См. разделы Обновление статистики планировщика и Процесс «Автовакуум» для получения дополнительной информации.
Используйте реальные данные для экспериментов. Использование тестовых данных для настройки индексов скажет вам, какие индексы вам нужны для тестовых данных, но не более того.

Особенно фатально использовать очень маленькие наборы тестовых данных. Выборка 1000 из 100000 строк может быть кандидатом на использование индекса, но если на тестовых данных вы выбираете 1 из 100 строк, то вы получите совсем другой результат. Все 100 строк, вероятно, помещаются на одной странице, и последовательное чтение всей таблицы будет безусловно быстрее на таком объеме,

Также будьте осторожны при генерации синтетических тестовых данных (это часто неизбежно, когда приложение еще не работает). Однородные значения, полностью случайные значения или значения, вставленные в порядке возрастания, исказят статистику по сравнению с реальными данными.
Когда индексы не используются, для тестирования может быть полезно форсировать их использование. Существуют параметры времени выполнения, которые могут отключать различные типы планов (см. раздел Конфигурация метода планирования). Например, отключение последовательного сканирования (enable_seqscan) и последовательных соединений (enable_nestloop), которые являются наиболее простыми планами, заставит систему использовать другой план. Если система все еще выбирает последовательное сканирование или последовательное соединение, то, вероятно, существует более фундаментальная причина, по которой индекс не используется, например, условие запроса не соответствует индексу. (Какой запрос можно использовать какой тип индекса объясняется в предыдущих разделах.)
Если искусственными ограничениями удалось заставить планировщик использовать индекс, то есть две варианта: либо планировщик прав, и использование индекса плохо подходит, либо оценки затрат планов запросов не отражают реальность. Посмотрите оценки стоимости планов с индексом и без индекса командой EXPLAIN ANALYZE, а также сравните реальное время выполнения.
Если окажется, что оценки затрат ошибочны, опять-таки есть несколько вариантов. Общая стоимость вычисляется умножением оценки количества строк на стоимость операций, производимых с каждой строкой. Стоимость операций можно скорректированы с помощью параметров (описано в разделе Константы стоимости планировщика). Неточная оценка количества строк(селективности) обычно связана с неточной статистикой. Это можно исправить, настроив параметры сбора статистики (см. ALTER TABLE).

Если вам не удастся скорректировать оценки стоимостей, чтобы они соответствовали реальности, вам, возможно, придется силой заставить планировщик использовать индекс. Вы также можете связаться с разработчиками QHB для изучения проблемы.

Индексы B-деревья

QHB включает в себя реализацию стандартной структуры данных индекса B-дерева (многонаправленного сбалансированного дерева — btree). Любой тип данных, который можно отсортировать в четком линейном порядке, может быть загружен в индекс B-дерево. Единственное ограничение заключается в том, что запись индекса не может превышать приблизительно одной трети страницы (после сжатия TOAST, если применимо).

Поскольку любой класс операторов B-дерева определяет порядок сортировки на своем типе данных, классы операторов B-дерева (точнее, на самом деле семейства операторов) стали использоваться в QHB для общего представления и понимания семантики сортировки. Поэтому они приобрели некоторые функции, которые выходят за рамки того, что было бы необходимо только для поддержки индексов B-деревьев, и их используют части системы, которые довольно далеки от методов доступа B-дерева.

Поведение классов операторов B-дерева

Класс операторов B-дерева должен предоставлять пять операторов сравнения: <, <=, =, >= и >. Можно было бы ожидать, что в эти операторы также должен входить <>, но это не так, потому что практически никогда не имеет смысл использовать <> в предложении WHERE для поиска по индексу. (Для некоторых целей планировщик обрабатывает <> как связанный с классом операторов B-дерева; но он находит данный оператор через отрицание оператора =, а не обращаясь к pg_amop).

Если несколько типов данных имеют почти одинаковую семантику сортировки, их классы операторов можно сгруппировать в семейство операторов. Это выгодно, потому что позволяет планировщику делать выводы о межтиповых сравнениях. Каждый класс операторов в семействе должен содержать однотиповые операторы (и связанные с ними вспомогательные функции) для своего типа входных данных, в то время как межтиповые операторы и вспомогательные функции «слабо» связаны с семейством. Рекомендуется включать в семейство полный набор межтиповых операторов, таким образом гарантируя, что планировщик сможет вызвать любые условия сравнения, которые выведет из транзитивности.

Существует несколько основных предположений, которым должно удовлетворять семейство операторов для B-деревьев:

Оператор = должен быть отношением эквивалентности, то есть для любых отличных от NULL значений A, B, C определенного типа данных:
- A = A истинно (рефлексивность)
- A = B влечет B = A (симметричность)
- если A = B и B = C, то A = C (транзитивность)
Оператор < должен представлять из себя отношение строгого порядка, то есть для любых отличных от NULL значений A, B, C:
- A < A ложно (антирефлексивность)
- если A < B и B < C, то A < C (транзитивность)
Более того, порядок должен быть полным; то есть для любых отличных от NULL значений A, B должно быть верно ровно 1 утверждение из 3: A < B, либо B < A, либо A = B (закон трихотомии)

(Конечно, закон трихотомии обосновывает определение вспомогательной функции сравнения.)

Остальные три оператора определяются через операторы = и < очевидным образом и должны работать согласованно с последними.

Для семейства операторов, поддерживающих несколько типов данных, вышеуказанные законы должны выполняться, когда A, B, C берутся из любых типов данных в семействе. Закон транзитивности обеспечить сложнее всего, поскольку в ситуациях с разными типами это зависит от согласованности поведения двух или трех различных операторов. Для примера, нельзя поместить операторы для float8 и numeric в одно семейство, по крайней мере, не в сегодняшней ситуации, когда для сравнения с float8 значения numeric тоже преобразуются в тип float8. Из-за ограничения точности типа float8 различные значения numeric при приведении к float8 превращаются в одно и то же число, тем самым нарушая закон транзитивности.

Другое требование для семейства с несколькими типами данных заключается в том, что любые существующие неявные преобразования между типами данных, входящими в семейство операторов, должны сохранять результат сравнения.

Должно быть достаточно очевидно, почему индекс B-дерево требует выполнения вышеприведенных законов внутри одного типа данных: без этого просто не будет четкого упорядочивания ключей. Кроме того, индексный поиск, использующий сравнение с ключом другого типа данных, требует, чтобы сравнения вели себя разумно между двумя типами данных. Расширение семейства до трех или более типов данных не является обязательным для самого механизма индекса B-дерево, но планировщик полагается на них в целях оптимизации.

Вспомогательные функции B-дерева

B-дерево определяет одну обязательную и четыре факультативные вспомогательные функции:

order

Для каждой комбинации типов данных, для которых семейство операторов
B-дерева предоставляет операторы сравнения, оно должно предоставить и
вспомогательную функцию сравнения, зарегистрированную в ***pg\_amproc*** как вспомогательная функция номер 1
со свойствами *amproclefttype/amprocrighttype*, равными левому и правому
типу данных сравнения (т. е. тем же типам данных, с которыми
зарегистрированы соответствующие операторы в ***pg\_amop***). Функция
сравнения должна принимать отличные от *NULL* значения **A** и **B** и возвращать
целое число, которое < 0, 0 или > 0, когда **A < B**, **A = B** или **A > B** соответственно.
Результат *NULL* не допускается: все значения типа данных должны быть
сравнимы.

Если сравниваемые значения имеют сортируемый тип данных, то во
вспомогательную функцию сравнения будет передан соответствующий OID сортировки,
используя стандартный механизм **PG\_GET\_COLLATION()**.

<!-- not open source
Примеры реализации order ищите в файле *src/backend/access/nbtree/nbtcompare.c* -->

sortsupport

Опционально семейство операторов B-дерева может предоставлять *вспомогательную(ые) функцию(и) сортировки*, регистрируемую как
вспомогательная функция номер 2. Эти функции позволяют
реализовывать сравнения для целей сортировки более эффективно, чем
при простом вызове вспомогательной функции сравнения.

<!-- not open source
API, участвующие в этом, определены в: *src/include/utils/sortsupport.h*.
-->
<!--  "(или несколько функций)" как их различает система, если они все №2 ?! -->

in_range

Опционально семейство операторов B-дерева может предоставлять вспомогательную(ые) функцию(и) *in\_range*, регистрируемую как
вспомогательная функция номер 3.
Такие функции не используется при операциях B-дерева; они
расширяют семантику семейства операторов, чтобы оно могло поддерживать оконные предложения, содержащие типы границ рамки **RANGE *смещение* PRECEDING** и
**RANGE *смещение* FOLLOWING** (см. раздел [Вызовы оконных функций]). По сути, дополнительная информация позволяет добавлять или вычитать значение ***смещения*** способом, соответствующим принятому в семействе порядку сортировки.

Функция *in\_range* должна иметь сигнатуру

```sql
in_range(значение type1, база type1, смещение type2, вычитание bool, меньше bool)
returns bool
```

***Значение*** и ***база*** должны быть одинакового типа, одного из поддерживаемых семейством операторов
(т. е. типом, для которого задается порядок). Однако ***смещение*** может быть другого типа,
который никаким другим образом данным семейством может и не поддерживаться.
Например, встроенное семейство операторов *time\_ops*  предоставляет
функцию *in\_range* которая имеет параметр ***смещение*** типа *interval*. Семейство может
иметь функцию *in\_range* для любого поддерживаемого типа и одного или нескольких типов ***смещения***.
Каждая вспомогательная функция *in\_range* должна быть
зарегистрирована в ***pg\_amproc*** с *amproclefttype* равным *type1* и *amprocrighttype*
равным *type2*.

Основополагающая семантика функции *in\_range* зависит от двух логических флаговых параметров. Она должна прибавить или вычесть   из ***базы смещение*** и после этого сравнить результат со ***значением*** следующим образом:

-   если !***вычитание*** и !***меньше***, возвращается ***значение*** >= (***база + смещение***)

-   если !***вычитание*** и ***меньше***, возвращается ***значение*** <= (***база + смещение***)

-   если ***вычитание*** и !***меньше***, возвращается ***значение*** >= (***база - смещение***)

-   если ***вычитание*** и ***меньше***, возвращается ***значение*** <= (***база - смещение***)

Прежде чем делать это, функция должна проверить знак ***смещения***:
если оно отрицательное, выдавать ошибку *ERRCODE\_INVALID\_PRECEDING\_OR\_FOLLOWING\_SIZE* (22013) с текстом ошибки «invalid preceding or following size in window function». (Этого требует стандарт SQL, хотя нестандартные семейства операторов, вероятно, могут проигнорировать это ограничение, т. к., по-видимому, в нем нет особой семантической необходимости.)
Эта проверка возложена на *in_range*, чтобы основному коду не нужно было понимать, что для конкретного типа данных означает «отрицательное».

Дополнительно ожидается, что функции *in_range* должны, в частности, избегать возникновения ошибки в случае переполнения при вычислении ***база + смещение*** или ***база - смещение***. Правильный результат сравнения можно получить, даже если это значение выходит за границы диапазона типа данных.
Обратите внимание, что если тип данных включает такие понятия, как «бесконечность» или «NaN», может понадобиться повышенная осторожность для обеспечения согласованности результатов *in_range*
с обычным порядком сортировки этого семейства операторов.

Результаты функции *in_range* должны соответствовать порядку сортировки, установленному семейством операторов. Выражаясь точнее,
при любых фиксированных значениях ***смещения*** и ***вычитания*** справедливо следующее:

- Если *in_range* с ***меньше*** = true возвращает *true* для некоторого ***значения1*** и ***базы***, *true* должно возвращаться
для каждого ***значения2*** <= ***значению1*** с той же ***базой***.

- Если *in_range* с ***меньше*** = true возвращает *false* для некоторого ***значения1*** и ***базы***, *false* должно возвращаться
для каждого ***значения2*** >= ***значению1*** с той же ***базой***.

- Если *in_range* с ***меньше*** = true возвращает *true* для некоторого ***значения*** и ***базы1***, *true* должно возвращаться
для каждой ***базы2*** >= ***базе1*** с тем же ***значением***.

- Если *in_range* с ***меньше*** = true возвращает *false* для некоторого ***значения*** и ***базы1***, *false* должно возвращаться
для каждой ***базы2*** <= ***базе1*** с тем же ***значением***.

При ***меньше*** = false должны выполнятся аналогичные утверждения с противоположными условиями.

Если упорядочиваемый тип (*type1*) является сортируемым, функции *in_range* с помощью стандартного механизма *PG\_GET\_COLLATION()* будет передан OID соответствующего правила сортировки.

Функции *in_range* не обязаны обрабатывать значение аргументов *NULL* и обычно помечаются как строгие.

equalimage

Опционально семейство операторов В-дерева может предоставить вспомогательные функции *equalimage* («равенство подразумевает равенство образов»), регистрируемые как вспомогательная функция номер 4. Эти функции позволяют основному коду определять, безопасно ли применять оптимизацию с дедупликацией в В-дереве. На данный момент функции *equalimage* вызываются только при построении или перестроении индекса.

Функция *equalimage* должна иметь сигнатуру

```SQL
equalimage(opcintype oid) returns bool
```

Возвращаемое значение является статической информацией о классе операторов и правиле сортировки. Результат *true* показывает, что функция *order* для класса операторов гарантирует возвращать 0 («аргументы равны»), только когда его аргументы ***А*** и ***В*** также взаимозаменяемы без потери семантической информации. Если функция *equalimage* не зарегистрирована или возвращает *false*, это означает, что нельзя предполагать выполнение данного условия.

Аргумент ***opcintype*** является *pg_type.oid* типа данных, который индексируется данным классом операторов. Это удобство позволяет повторно использовать в разных классах операторов одну и ту же нижележащую функцию *equalimage*. Если ***opcintype*** относится к сортируемому типу данных, функции *equalimage* с помощью стандартного механизма *PG\_GET\_COLLATION()* будет передан OID соответствующего правила сортировки.

С точки зрения класса операторов результат *true* означает, что дедупликация безопасна (или безопасна для правила сортировки, чей OID был передан его функции *equalimage*). Однако основной код будет считать дедупликацию безопасной для индекса, только если **каждый** индексируемый столбец использует класс операторов, регистрирующий функцию *equalimage*, и все эти функции при вызове действительно возвращают *true*.

Равенство образов является условием, **почти** равнозначным простому битовому равенству. Есть лишь одно небольшое различие: при индексировании типа данных *valerna* представление двух равных образов на диске может отличаться в битовом отношении вследствие несогласованного применения сжатия TOAST к входным данным. Строго говоря, когда функция *equalimage* класса операторов возвращает *true*, безопасно предположить, что функция на С *datum_image_eq()* всегда будет согласована с функцией *order* класса операторов (при условии, что обеим функциям передан одинаковый OID правила сортировки).

Основной код совершенно не способен сделать какие-либо выводы относительно статуса класса операторов «равенство подразумевает равенство образов» в семействе операторов для множества типов данных на основе сведений о других классах операторов в том же семействе. Также семейству операторов нет смысла регистрировать межтиповую функцию *equalimage*, а попытка сделать это приведет к ошибке. Причина этого в том, что статус «равенство подразумевает равенство образов» зависит не только от семантик сортировки/равенства, которые более или менее определены на уровне семейства операторов. В целом, эти семантики, которые реализует один конкретный тип данных, должны рассматриваться по отдельности.

Для классов операторов, включенных в базовый продукт QHB, принято соглашение регистрировать стандартную универсальную функцию *equalimage*. Большинство классов операторов регистрирует функцию *btequalimage()*, которая указывает, что дедупликация безопасна без каких-либо условий. Классы операторов для сортируемых типов данных, таких как *text*, регистрируют функцию *btvarstrequalimage()*, которая указывает, что дедупликация безопасна с детерминированными правилами сортировки. Для сохранения контроля в сторонних расширениях наилучшим решением будет регистрировать их собственные специальные функции *equalimage*.

options

Опционально семейство операторов В-дерево может предоставлять вспомогательные функции *options* («параметры класса операторов»), регистрируемые как вспомогательная функция номер 5. Эти функции определяют набор видимых пользователю параметров, которые управляют поведением класса операторов.

Вспомогательная функция *options* должна иметь сигнатуру

```sql
options(relopts local_relopts *) returns void
```

Эта функция передает указатель на структуру ***local_relopts***, в которую нужно внести набор параметров класса операторов. К этим параметрам можно обращаться из других вспомогательных функций при помощи макросов *PG_HAS_OPCLASS_OPTIONS()* и *PG_GET_OPCLASS_OPTIONS()*.

На данный момент ни у одного класса операторов В-дерево нет вспомогательной функции *options*. В отличие от GiST, SP-GiST, GIN и BRIN, В-дерево не допускает гибкое представление ключей. Так что, вероятно, в актуальном методе доступа к индексу В-дереву у функции *options* нет практического применения. Тем не менее, эта вспомогательная функция была добавлена в В-дерево в целях единообразия и, возможно, станет полезной при дальнейшем развитии реализации В-дерева в QHB.

Реализация

В этом разделе изложена подробная информация о реализации индекса В-дерева, которая может быть полезна для специалистов.

Структура В-дерева

В QHB индексы В-деревья — это многоуровневые древовидные структуры, где каждый уровень дерева можно использовать в качестве двусвязного списка страниц. Единственная метастраница хранится в фиксированном положении в начале первого файла сегмента индекса. Все остальные страницы делятся на листовые и внутренние. Листовые страницы находятся на самом нижнем уровне дерева. Все остальные уровни состоят из внутренних страниц. Каждая листовая страница содержит кортежи, которые указывают на строки таблицы. Каждая внутренняя страница содержит кортежи, которые указывают на следующий уровень вниз по дереву. Обычно листовые страницы составляют более 99% всех страниц. Как внутренние, так и листовые страницы используют стандартный формат страницы, описанный в разделе Внутренняя структура страницы базы данных.

Новые листовые страницы добавляются в индекс В-дерево, когда существующая листовая страница не может вместить поступающий кортеж. Операция разделения страницы освобождает место для элементов, которые изначально принадлежали переполнившейся странице, перенося какую-то их часть на новую страницу. Разделение страницы также вставляет в родительскую страницу новую ссылку вниз, на новую страницу, что, в свою очередь, может вызвать разделение родительской страницы. Страницы разделяются «каскадно вверх» рекурсивным образом. Когда же в итоге и корневая страница не может вместить новую ссылку вниз, выполняется операция разделения корневой страницы. Это добавляет к структуре дерева новый уровень путем создания новой корневой страницы, которая находится на уровень выше исходной корневой страницы.

Дедупликация

Дубликат — это кортеж листовой страницы (кортеж, который указывает на строку таблицы), в котором все ключевые столбцы индекса содержат значения, совпадающие с соответствующими значениями столбца из по крайней мере еще одного кортежа листовой страницы в том же индексе. На практике дублирующиеся кортежи встречаются довольно часто. Индексы В-деревья могут использовать для дубликатов особое экономящее пространство представление при включении факультативного механизма — дедупликации.

Действие механизма дедупликации заключается в периодическом объединении групп дублирующихся кортежей с образованием одного кортежа со списком идентификаторов для каждой группы. В таком представлении ключевое(ые) значение(я) столбца находятся в единственном экземпляре. Затем идет отсортированный массив идентификаторов TID, которые указывают на строки в таблице. Это значительно уменьшает размер хранимых индексов, где каждое значение (или каждая отдельная комбинация значений столбца) появляется, в среднем, несколько раз. Это может значительно сократить время отклика запросов и в целом существенно повысить скорость их обработки. Также могут сильно снизиться издержки на регулярную очистку индекса.

Примечание
Дедупликация В-дерева также эффективна при работе с «дубликатами», которые содержат значение NULL, несмотря на то, что значения NULL, согласно операторам = из любого класса операторов В-дерева, не считаются равными друг другу. С точки зрения любой части реализации, которая понимает дисковую структуру В-дерева, NULL — это просто еще одно значение из домена значений индекса.

Процесс дедупликации запускается только по необходимости, когда вставляется новый элемент, который не помещается на существующую листовую страницу. Это предотвращает (или, по крайней мере, откладывает) разделение листовой страницы. В отличие от кортежей со списком идентификаторов GIN, в B-дереве этим кортежам не нужно расширяться всякий раз, когда вставляется новый дубликат; они просто являются альтернативным физическим представлением исходного логического содержимого листовой страницы. При смешанной нагрузке типа чтение/запись такая модель ставит во главу угла согласованную производительность. Для большинства клиентских приложений дедупликация должна обеспечить как минимум удовлетворительное увеличение производительности. По умолчанию она включена.

Команды CREATE INDEX и REINDEX используют дедупликацию, чтобы создать кортежи со списком идентификаторов, хотя применяемая ими стратегия слегка отличается. Каждая группа обычных дублирующихся кортежей, обнаруженных во взятых из таблицы отсортированных входных данных, объединяется в кортеж со списком идентификаторов до того, как добавляется на текущую ожидающую листовую страницу. В каждый такой кортеж упаковывается максимально возможное количество идентификаторов TID. Листовые страницы записываются обычным способом, без каких-либо отдельных проходов для исключения дубликатов. Эта стратегия очень подходит командам CREATE INDEX и REINDEX, поскольку они относятся к разовым групповым операциям.

При рабочих нагрузках с преобладанием записи, которые не получают преимуществ от дедупликации из-за малого количества или отсутствия дублированных значений в индексах, ее применение приведет к небольшому постоянному снижению производительности (если только она явно не отключена). Чтобы отключить дедупликацию в отдельных индексах, можно воспользоваться параметром хранения deduplicate_items. При рабочих нагрузках только на чтение производственных издержек не возникает, поскольку кортежи со списком идентификаторов читаются по меньшей мере так же эффективно, как и кортежи в стандартном представлении. Поэтому обычно в таких случаях отключать дедупликацию бесполезно.

Непосредственно индексы В-деревья не учитывают, что в среде MVCC может быть несколько сохранившихся версий одной логической строки таблицы; для индекса каждый кортеж является независимым объектом, которому требуется отдельный элемент индекса. Иногда «версионные дубликаты» могут накапливаться и негативно влиять на время отклика и скорость обработки запросов. Обычно это случается при нагрузках с преобладанием UPDATE, где большая часть отдельных обновлений не может применить оптимизацию HOT (обычно вследствие того, что как минимум один столбец индекса подвергается изменению, требующему новый набор версий индексного кортежа — по одному новому кортежу для каждого индекса). В действительности дедупликация В-дерева устраняет разбухание индекса, вызванное тиражированием версий. Обратите внимание, что из-за тиражирования версий даже кортежи уникального индекса не обязательно физически уникальны при хранении на диске. К уникальным индексам оптимизация путем дедупликации применяется выборочно и нацеливается на те страницы, на которых могут содержаться версионные дубликаты. Глобальная же цель — дать команде VACUUM больше времени на выполнение, прежде чем из-за тиражирования версий произойдет «ненужное» разделение страницы.

Совет
Для определения того, следует ли дедупликации выполняться в уникальном индексе, применяется специальный эвристический алгоритм. Зачастую он может перейти напрямую к разделению листовой страницы без расходов на лишние циклы холостых проходов дедупликации. Если вас беспокоят издержки на бесполезную дедупликацию, можете выборочно задать значение deduplicate_items = off для отдельных индексов. В уникальных же индексах дедупликацию вполне можно оставить включенной — потери от этого будут невелики.

Из-за ограничений на уровне реализации дедупликацию можно использовать не везде. Безопасность ее применения определяется при выполнении команды CREATE INDEX или REINDEX.

Обратите внимание, что дедупликация считается небезопасной и не может применяться в следующих случаях, при которых имеются значительные семантические различия между равными значениями:

Дедупликация не может применяться с типами text, varchar и char при использовании недетерменированного правила сортировки, т. к. среди равных значений должны сохраняться различия в регистре и диакритических знаках.
Дедупликация не может применяться с типом numeric, т. к. среди равных значений должен сохраняться масштаб числового отображения.
Дедупликация не может применяться с типом jsonb, т. к. внутри класса операторов В-дерева jsonb используется тип numeric.
Дедупликация не может применяться с типами float4 и float8, т. к. у этих типов разное представление для значений -0 и 0, которые при этом все равно считаются равными. Это различие должно быть сохранено.

Есть еще одно дополнительное ограничение на уровне реализации, которое может быть убрано в будущих версиях QHB:

Дедупликация не может применяться с типами-контейнерами (такими как составные или диапазонные типы или массивы).

Есть еще одно дополнительное ограничение на уровне реализации, которое действует независимо от используемого класса оператора или правила сортировки:

Дедупликация не может применяться в индексах с INCLUDE.

Индексы GiST

Введение

GiST означает "обобщенное поисковое дерево" (Generalized Search Tree). Это сбалансированный, древовидный метод доступа, который работает как основа для произвольной схемы индексирования. B-деревья, R-деревья и многие другие схемы индексирования могут быть реализованы с помощью GiST.

Одним из преимуществ GiST является то, что он позволяет разрабатывать пользовательские типы данных вместе с соответствующими методами доступа эксперту предметной области без участия специалиста по базам данных.

Встроенные классы операторов

Основной дистрибутив QHB включает классы операторов GiST, показанные в следующей таблице:

Имя	Индексируемый тип данных	Индексируемые операторы	Операторы сортировки
box_ops	box	&& &> &< &<\| >> << <<\| <@ @> @ \|&> \| >> ~ ~=	<->
circle_ops	circ	&& &> &< &<\| >> << <<\| <@ @> @ \|&> \| >> ~ ~=	<->
inet_ops	inet, cidr	&& >> >>= > >= <> << <<= < <= =
point_ops	point	>> >^ << <@ <@ <@ <^ ~=	<->
poly_ops	polygon	&& &> &< &<\| >> << <<\| <@ @> @ \|&> \| >> ~ ~=	<->
range_ops	любой диапазонный тип	&& &> &< >> << <@ -\|- = @> @>
tsquery_ops	tsquery	<@ @>
tsvector_ops	tsvector	@@

По историческим причинам, класс операторов inet_ops не является классом по умолчанию для типов inet и cidr. Чтобы использовать его, указывайте имя класса явно в CREATE INDEX, например

CREATE INDEX ON my_table USING GIST (my_inet_column inet_ops);

Расширяемость

Традиционно, внедрение нового метода доступа к индексам означало много сложной работы. Необходимо было разобраться во внутренней работе базы данных: принципах работы менеджера блокировок и журнала упреждающей записи. Интерфейс GiST имеет высокий уровень абстракции, требующий от автора метода доступа только реализации семантики типа данных, к которому происходит обращение. Сам слой GiST заботится о параллелизме, журналировании и поиске в древовидной структуре.

Эту расширяемость не следует путать с расширяемостью других стандартных поисковых деревьев в плане типов данных, которые они могут обрабатывать. Например, QHB поддерживает расширяемые B-деревья и хэш-индексы. Это означает, что в QHB вы можете построить B-дерево или хэш-индекс над любым типом данных, каким захотите. Но B-деревья поддерживают только предикаты диапазона (<, =, >), а хэш-индексы только равенства.

Таким образом, если вы проиндексируете, скажем, коллекцию изображений с помощью B-дерева, вы сможете делать только запросы вида “изображение А равно изображению Б?”, “изображение А меньше изображения Б?” и т.п. В зависимости от того, как вы определяете “равно”, “меньше” и “больше” в этом контексте, это может иметь какой-то смысл. Однако, используя индекс на основе GiST, вы можете поддержать запросы, специфичные для предметной области, например "найти все изображения лошадей” или "найти все засвеченные фотографии".

Все, что требуется для запуска метода доступа GiST, — это реализовать несколько пользовательских методов, которые определяют поведение ключей в дереве. Конечно, эти методы должны быть довольно причудливыми, чтобы поддерживать причудливые запросы, но для всех стандартных запросов (B-деревья, R-деревья и т. д.) они довольно прямолинейны. Короче говоря, GiST сочетает в себе расширяемость с универсальностью, переиспользованием кода и чистым интерфейсом.

Существует пять методов, которые должен предоставить класс оператора индекса для GiST, и четыре, которые являются необязательными. Корректность индекса обеспечивается правильной реализацией методов same, consistent и union, а эффективность (размер и скорость работы) определяется методами penalty и picksplit.

Два из опциональных методов: compress и decompress позволяют индексу хранить во внутренних (т.е. нелистовых) вершинах дерева данные другого типа, нежели индексируемый тип. Листья в любом случае будут хранить данные такого же типа, как и индексируемый столбец, а другие узлы могут хранить произвольную структуру (C-style-struct), но все же в рамках общих ограничений QHB на типы данных (про данные переменной длины см. varlena). Если тот тип данных, что будет лежать в промежуточных вершинах дерева, существует на уровне SQL, то можно задать ему свойство STORAGE в команде CREATE OPERATOR CLASS. На самом деле, можно иметь много разных типов содержимого вершин. Есть главный тип, в котором производятся все вычисления при построении и навигации индекса, а при сохранении в вершины индекса вызывается compress, и в compress можно преобразовать в любой бинарный формат, в том числе с потерей информации. Если compress нет, то главный тип и содержимое всех вершин совпадает с индексируемым типом.

Необязательный метод №8 — distance, который нужен, если класс операторов хочет поддержать упорядоченные сканирования (поиск N ближайших соседей). Девятый метод fetch нужен, если класс операторов хочет поддерживать сканирование только по индексу, но при этом хранит альтернативный тип в промежуточных вершинах (использует compress/decompress).

consistent

Для значения p в вершине индекса и поискового значения q, эта функция возвращает, является ли запрос q "согласованным" cо значением p. Для листовых записей индекса это эквивалентно проверке индексируемого условия, а для внутренних вершин дерева это определяет, необходимо ли сканировать соответствующее поддерево. Когда функция возвращает истину, она должна также заполнить флаг перепроверки recheck. Это указывает, является ли q безусловно подходящим или только возможно подходящим. Выставьте recheck = false, когда индекс полностью проверил условие предиката, а если recheck = true, то эта строка является только кандидатом на совпадение. В этом случае система будет перепроверять запрос на значении, взятом из строки. Такое соглашение позволяет GiST поддерживать как точные (lossless) так и грубые (lossy) индексы.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_consistent(internal, data_type, smallint, oid, internal)
RETURNS bool
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Примерный шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_consistent);

Datum
my_consistent(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type  *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid subtype = PG_GETARG_OID(3); */
    bool       *recheck = (bool *) PG_GETARG_POINTER(4);
    data_type  *key = DatumGetDataType(entry->key);
    bool        retval;

    /*
    * Рассчитать возвращаемое значение как функцию от стратегии, ключа и запроса.
    *
    * Используйте GIST_LEAF(entry) чтобы понять, в каком месте дерева вас вызвали.
    * Это очень полезно. Например, при реализации оператора =
    *  вы можете во внутренних вершинах проверять, что пересечение не пусто,
    *  а в листьях проверять на точное равенство.
    */

    *recheck = true;        /* ну или false, если проверка была 100%-ная */

    PG_RETURN_BOOL(retval);
}
```
Здесь, key является элементом в индексе, а query — значение, которое ищут. Параметр StrategyNumber указывает, какой из операторов вашего класса применяется: он соответствует номер одного из оператора из команды CREATE OPERATOR CLASS.

В зависимости от того, какие операторы вы включили в класс, тип данных query может быть разными, в том числе разным для разных операторов. В любом случае, он будет соответствовать типу второго аргумента оператора, а первый аргумент оператора будет главного типа содержимого индекса. (Приведенная выше заготовка кода предполагает, что все запросы будет одинакового типа data_type; если это не так, то сначала надо узнать тип второго параметра оператора, а потом доставать значение из query.) В SQL-объявлении функции consistent рекомендуется указывать тип данных query совпадающим с индексируемым типом данных, даже если реально передаваемый тип данных может быть другим в зависимости от оператора.
union

Этот метод объединяет информацию в дереве: получает на вход содержимое нескольких вершин, и создаёт подходящее содержимое для их общей родительской вершины.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_union(internal, internal)
RETURNS storage_type
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Примерный шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_union);

Datum
my_union(PG_FUNCTION_ARGS)
{
    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GISTENTRY  *ent = entryvec->vector;
    data_type  *out,
            *tmp,
            *old;
    int         numranges,
                i = 0;

    numranges = entryvec->n;
    tmp = DatumGetDataType(ent[0].key);
    out = tmp;

    if (numranges == 1)
    {
        out = data_type_deep_copy(tmp);

        PG_RETURN_DATA_TYPE_P(out);
    }

    for (i = 1; i < numranges; i++)
    {
        old = out;
        tmp = DatumGetDataType(ent[i].key);
        out = my_union_implementation(out, tmp);
    }

    PG_RETURN_DATA_TYPE_P(out);
}
```
Как вы можете видеть, в этой заготовке мы считаем, что для нашего типа данных union (X, Y, Z) = union(union(X, Y), Z). Но поддержать типы данных, для которых это не так, тоже будет несложно.

Результатом функции объединения должно быть значение главного типа содержимого индекса (как говорилось выше, он может отличаться или не отличаться от индексируемого типа). Функция union должна возвращать указатель на кусок памяти, выделенной с помощью palloc. Даже если результат совпадает с одним из входных аргументов, вы не может просто вернуть на него указатель, вы должны склонировать содержимое.

Как видно из примера, первый внутренний (internal) аргумент функции union — это указатель GistEntryVector. Второй аргумент является указателем на целочисленную переменную, которую можно игнорировать.

compress

Преобразует элемент данных в формат, подходящий для физического хранения на странице индекса. Если метод отсутствует, то элементы данных хранятся в индексе без изменений.

SQL-объявление функции должно выглядеть следующим образом:

CREATE OR REPLACE FUNCTION my_compress(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

Примерный шаблон реализации на C:

PG_FUNCTION_INFO_V1(my_compress);

Datum
my_compress(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY  *retval;

    if (entry->leafkey)
    {
        // заменить entry->key заархивированной версией

        compressed_data_type *compressed_data = palloc(sizeof(compressed_data_type));

        /* здесь заполнить *compressed_data на основании entry->key ... */

        retval = palloc(sizeof(GISTENTRY));
        gistentryinit(*retval, PointerGetDatum(compressed_data),
                    entry->rel, entry->page, entry->offset, FALSE);
    }
    else
    {
        // Как правило, для нелистовых вершин ничего не надо делать
        retval = entry;
    }

    PG_RETURN_POINTER(retval);
}

В этом коде нужно заменить compressed_data_type на индексируемый тип, так как содержимое листовых узлов должно быть такого типа.

decompress

Преобразует сохраненное представление данных в главный тип содержимого, которым могут манипулировать другие методы GiST в классе операторов. Если метод декомпрессии отсутствует, предполагается, что другие методы GiST могут работать непосредственно на сохраненном формате данных. Декомпрессия не обязательно противоположна компрессии; в частности, если сжатие с потерями, для декомпрессии невозможно точно восстановить исходные данные. Поведение decompress и fetch также могут различаться т.к. первое возвращает главный тип содержимого индекса (например, тип первого аргумента consistent), а второе — индексируемый тип, и эти типы могут различаться.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_decompress(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Тривиальная реализация на C:
```
PG_FUNCTION_INFO_V1(my_decompress);

Datum
my_decompress(PG_FUNCTION_ARGS)
{
    PG_RETURN_POINTER(PG_GETARG_POINTER(0));
}
```
Приведенный выше пример подходит для случая, когда никакая декомпрессия не требуется. (Но в таком случае лучше, конечно, вообще отказаться от этого метода.)
penalty

Возвращает "штраф" за вставку новой записи в данную ветвь дерева. При вставке элемента его будут пихать по пути с наименьшим штрафом. Значение штрафа должно быть неотрицательным. Если вернуть отрицательное значение, оно будет рассматриваться как ноль.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_penalty(internal, internal, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;  -- в некоторых случаях у вас получится нестрогая функция
```
Шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_penalty);

Datum
my_penalty(PG_FUNCTION_ARGS)
{
    GISTENTRY  *origentry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY  *newentry = (GISTENTRY *) PG_GETARG_POINTER(1);
    float      *penalty = (float *) PG_GETARG_POINTER(2);
    data_type  *orig = DatumGetDataType(origentry->key);
    data_type  *new = DatumGetDataType(newentry->key);

    *penalty = my_penalty_implementation(orig, new);
    PG_RETURN_POINTER(penalty);
}
```
По историческим причинам, penalty не возвращает результат типа float, а кладет его по указателю, переданному третьим аргументом. А собственно возвращаемое значение функции игнорируется; но принято возвращать указатель на результат как в примере.

Функция penalty имеет решающее значение для хорошей работы индекса. Она используется во время вставки, чтобы определить, в какую ветвь пойти при выборе места для добавления новой записи в дереве. Во время выполнения запроса, чем больше сбалансирован индекс, тем быстрее выполняется поиск.

picksplit

При необходимости разбиения страницы индекса эта функция решает, какие записи на странице должны оставаться на старой странице, а какие должны быть перемещены на новую страницу.

SQL-объявление функции должно выглядеть следующим образом:

CREATE OR REPLACE FUNCTION my_picksplit(internal, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

Шаблон реализации на C:

PG_FUNCTION_INFO_V1(my_picksplit);

Datum
my_picksplit(PG_FUNCTION_ARGS)
{
    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GIST_SPLITVEC *v = (GIST_SPLITVEC *) PG_GETARG_POINTER(1);
    OffsetNumber maxoff = entryvec->n - 1;
    GISTENTRY  *ent = entryvec->vector;
    int         i,
                nbytes;
    OffsetNumber *left,
            *right;
    data_type  *tmp_union;
    data_type  *unionL;
    data_type  *unionR;
    GISTENTRY **raw_entryvec;

    maxoff = entryvec->n - 1;
    nbytes = (maxoff + 1) * sizeof(OffsetNumber);

    v->spl_left = (OffsetNumber *) palloc(nbytes);
    left = v->spl_left;
    v->spl_nleft = 0;

    v->spl_right = (OffsetNumber *) palloc(nbytes);
    right = v->spl_right;
    v->spl_nright = 0;

    unionL = NULL;
    unionR = NULL;

    /* Initialize the raw entry vector. */
    raw_entryvec = (GISTENTRY **) palloc(entryvec->n * sizeof(void *));
    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
        raw_entryvec[i] = &(entryvec->vector[i]);

    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
    {
        int         real_index = raw_entryvec[i] - entryvec->vector;

        tmp_union = DatumGetDataType(entryvec->vector[real_index].key);
        Assert(tmp_union != NULL);

        /*
        * Выбрать, куда положить элемент индекса и соответственно изменить unionL и unionR
        * Добавить его в v->spl_left, либо в v->spl_right, и счетчики тоже изменить соответственно.
        */

        if (my_choice_is_left(unionL, curl, unionR, curr))
        {
            if (unionL == NULL)
                unionL = tmp_union;
            else
                unionL = my_union_implementation(unionL, tmp_union);

            *left = real_index;
            ++left;
            ++(v->spl_nleft);
        }
        else
        {
            // то же самое для направо...
        }
    }

    v->spl_ldatum = DataTypeGetDatum(unionL);
    v->spl_rdatum = DataTypeGetDatum(unionR);
    PG_RETURN_POINTER(v);
}

Обратите внимание, что результатом работы функции picksplit является изменение GIST_SPLITVEC-структуры, пришедшей параметром. Возвращаемое значение функции игнорируется, но принято возвращать указатель на эту структуру как в примере.

Как и penalty, функция picksplit имеет решающее значение для хорошей работы индекса. Придумать, как будут работать penalty и picksplit — самое сложное в дизайне GiST-индекса.

same

Возвращает true, если две записи индекса идентичны, в противном случае false.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_same(storage_type, storage_type, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_same);

Datum
my_same(PG_FUNCTION_ARGS)
{
    prefix_range *v1 = PG_GETARG_PREFIX_RANGE_P(0);
    prefix_range *v2 = PG_GETARG_PREFIX_RANGE_P(1);
    bool       *result = (bool *) PG_GETARG_POINTER(2);

    *result = my_eq(v1, v2);
    PG_RETURN_POINTER(result);
}
```
По историческим причинам, функция same не просто возвращает логический результат, а помещает его по указателю, переданному третьим аргументом. Возвращаемое значение функции игнорируется, но принято возвращать этот же указатель как показано в примере.
distance

Для значения p в вершине индекса и поискового значения q, эта функция возвращает "расстояние" от q до p. Для листовой вершины это скорее всего точное расстояние между двумя точками, а для нелистовой вершины следует понимать это как расстояние от q до ближайшего элемента из поддерева (возможно, заниженное, но не завышенное). Эта функция должна быть предоставлена, если класс операторов содержит какие-либо операторы упорядочивания. Запрос, использующий оператор упорядочивания, будет реализован путем возврата записей индекса с наименьшими значениями "расстояния", поэтому работа distance должна быть согласованы с семантикой этого оператора.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_distance(internal, data_type, smallint, oid, internal)
RETURNS float8
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Примерный шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_distance);

Datum
my_distance(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type  *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid subtype = PG_GETARG_OID(3); */
    /* bool *recheck = (bool *) PG_GETARG_POINTER(4); */
    data_type  *key = DatumGetDataType(entry->key);
    double      retval;

    /*
    * Вычисление результата как функции от стратегии(оператора), ключа и поискового значения
    */

    PG_RETURN_FLOAT8(retval);
}
```
Аргументы у distance такие же, как и у consistent.

Допускаются неточности при вычислении расстояния, главное вернуть не больше, чем реальное расстояние. Например, в геометрических приложениях расстояние до группы обычно считают как расстояние до ограничивающего группу параллелипипеда. Для внутренней вершины дерева возвращаемое расстояние не должно быть больше расстояния до любого из дочерних вершин. Если возвращенное расстояние не является точным, функция должна установить *recheck в true. (Это не обязательно для внутренних вершин дерева; для них вычисление всегда предполагается неточным). В этом случае движок вычислит точное расстояние после извлечения строки из кучи и при необходимости пересортирует строки.

Если функция расстояния хотя бы иногда возвращает *recheck = true, то тип (float8/float4) и масштаб значений должны быть такие же как и у исходного оператора упорядочивания, потому что будут сортировать результаты distance с результатами оператора вперемешку. А если всегда *recheck = false, то результаты distance могут быть любыми float8 значениями, несогласованными с оператором, т.к. их будут сравнивать только между собой. (Бесконечность и минус бесконечность зарезервированы для обработки специальных случаев, таких как NULL, поэтому не надо возвращать такие значения).
fetch

Преобразует сжатое индексное представление элемента данных в индексируемый тип данных для сканирования только по индексу. Возвращаемые данные должны быть точной копией исходного индексированного значения без искажений.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE OR REPLACE FUNCTION my_fetch(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;
```
Аргумент является указателем на структуру GISTENTRY. На входе, поле key — содержимое листа дерева в сжатом виде (т.е. результат работы compress), NOT NULL. Возвращаемое значение — другая GISTENTRY, чье поле key содержит те же данные в исходном, несжатом виде. Если функция compress класса операторов предостаелена, но ничего не делает для листовых записей, то метод fetch может возвращать аргумент без изменений. Если же функции compress вообще нет, тогда и fetch не нужна.

Шаблон реализации на C:
```
PG_FUNCTION_INFO_V1(my_fetch);

Datum
my_fetch(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    input_data_type *in = DatumGetPointer(entry->key);
    fetched_data_type *fetched_data;
    GISTENTRY  *retval;

    retval = palloc(sizeof(GISTENTRY));
    fetched_data = palloc(sizeof(fetched_data_type));

    /*
    * Собственно преобразовать fetched_data в Datum исходного индексируемого типа
    */

    /* fill *retval from fetched_data. */
    gistentryinit(*retval, PointerGetDatum(converted_datum),
                entry->rel, entry->page, entry->offset, FALSE);

    PG_RETURN_POINTER(retval);
}
```
Если функция compress сохраняет данные в листах с искажением (с потерей информации), то класс оператора не может поддерживать сканирование только по индексу и не должен определять функцию fetch.

Все методы поддержки GiST обычно вызываются в короткоживущих контекстах памяти, то есть CurrentMemoryContext сбрасывается после обработки каждого кортежа. Это позволяет не беспокоиться о вызовах pfree. Однако в некоторых случаях хотелось бы иметь долгоживущий объект для кэширования данных при повторных вызовах. Чтобы сделать это, выделите память в контексте fcinfo->flinfo->fn_mcxt, и положите указатель в fcinfo->flinfo->fn_extra. Время жизни такого объекта — одна индексная операция (одно сканирование, одна вставка или построение индекса). Если вы заменяете fcinfo->flinfo->fn_extra, а там было ненулевое значение, то вы должны его освободить, иначе будут утечки.

Реализация

Построение больших индексов GiST путем простой последовательной вставки всех кортежей бывает медленным, потому что, когда индекс большой и вытесняется из памяти на диск, вставка очередного кортежа происходит в случайное место индекса и вызывает чтение/запись на диск случайных страниц. QHB поддерживает более эффективный, буферизованный метод построения индексов GiST, что может значительно уменьшить количество операций ввода-вывода при обработке неупорядоченного набора данных. Для упорядоченных наборов данных преимущество меньше или отсутствует, т.к. для них последовательная вставка тоже прекрасно работает (в каждый момент времени работа ведется только в нескольких страницах, которые влезают в память).

Однако для построения индекса с буферизацией будет больше вызовов penalty, т.е. больше нагрузка на процессор. Кроме того, требуется дополнительное временное пространство на диске, примерно равное итоговому размеру индекса. Также построение с буферизацией и без может приводить к разным по качеству индексам. Это зависит от реализации penalty, picksplit и операторов. Более качественный (сбалансированный) индекс может получиться как при одном, так и при другом алгоритме построения индекса.

Глобально поведение управляется параметром effective_cache_size: когда размер индекса превышает или явно собирается превысить effective_cache_size, построение GiST-индекса переключается на буферизованный метод. Также буферизацию можно включить/выключить явно для конкретного индекса. Для этого используется опция buffering команды CREATE INDEX. Поведение по умолчанию подходит для большинства случаев, но отключение буферизации может ускорить построение, если вам известно, что входные данные упорядочены.

Примеры

Исходный дистрибутив QHB содержит несколько примеров индексных методов, реализованных на основе GiST. В основной дистрибутив входит полнотекстовый поиск (типы tsvector и tsquery), а также R-Деревья для некоторых встроенных типов геометрических данных.

Следующие модули из contrib также содержат классы операторов GiST:

Модуль	Описание функционала
btree_gist	Функциональность, эквивалентная B-дереву для некоторых типов данных
cube	Индексация многомерных кубов
hstore	Модуль для хранения пар (ключ, значение)
intarray	RD-дерево для одномерного массива int4
ltree	Индексирование древовидных путей
pg_trgm	Степень сходства текстов в метрике триграмм
seg	Индексирование интервалов действительных чисел

Индексы SP-GiST

Введение

SP-GiST — это сокращение от Space-partitioned GiST (обобщённое дерево по разбитому на партиции пространству). SP-GiST представляет собой дерево поиска, ветви которого не пересекаются (в отличие от GiST). В таком виде представимы многие несбалансированные структуры данных, в том числе деревья квадрантов, K-мерные деревья и префиксное деревья (Tries). Общая особенность этих структур заключается в том, что они многократно разбивают пространство поиска на непересекающиеся партиции, которые не обязательно должны быть одинакового размера. Поиск, хорошо соответствующий правилу разбиения, может быть очень быстрым.

Эти популярные структуры данных были первоначально разработаны для использования в оперативной памяти. В основной памяти они обычно проектируются как множество динамически выделенных узлов, связанных указателями. В отличие от B-Дерева у каждой вершины бывает всего по 2-4 дочерних, а высота дерева получается соответственно большая; большая высота — это проход большого количества вершин при поиске. Если хранить это прямо в таком виде на диске, то будет много чтений произвольного доступа. Для хранения на диске деревья должны наоборот сильно ветвиться. Основная задача, решаемая SP-GiST, заключается в размещении вершин поискового дерева на дисковых страницах таким образом, чтобы поиск требовал доступа только к нескольким дисковым страницам, даже если он проходит через много вершин.

Как и GiST, SP-GiST предназначена для разработки пользовательских типов данных с соответствующими методами доступа экспертом в прикладной области типа данных.

Встроенные классы операторов

Основной дистрибутив QHB включает классы операторов SP-GiST, показанные в таблице.

Имя	Индексированный Тип Данных	Индексируемые Операторы	Операторы сортировки
kd_point_ops	point	<< <@ <^ >> >^ ~=	<->
quad_point_ops	point	<< <@ <^ >> >^ ~=	<->
range_ops	любой диапазонный тип	&& &< &> -\|- << <@ = >> @>
box_ops	box	<< &< && &> >> ~= @> <@ &<\| <<\| \|>> \|&>	<->
poly_ops	polygon	<< &< && &> >> ~= @> <@ &<\| <<\| \|>> \|&>	<->
text_ops	text	< <= = > >= ~<=~ ~<~ ~>=~ ~>~ ^@
inet_ops	inet, cidr	&& >> >>= > >= <> << <<= < <= =

Из двух классов операторов для типа point, quad_point_ops — это класс по умолчанию. kd_point_ops поддерживает те же операторы, но использует другую структуру данных индекса, которая может обеспечить лучшую производительность в некоторых приложениях.

Классы операторов quad_point_ops, kd_point_ops и poly_ops поддерживают оператор упорядочения <->, который позволяет выполнять поиск k ближайших соседей (k-NN search) среди проиндексированных точек или многоугольников.

Расширяемость

SP-GiST предлагает интерфейс с высоким уровнем абстракции, требующий от разработчика реализовать только методы, специфичные для данного типа данных. Ядро SP-GiST обеспечивает эффективное хранение на диске и движок поиска в древовидной структуре, а также решает вопросы конкурентного доступа и логирования.

Листовые вершины SP-GiST-дерева содержат значения того же типа данных, что и индексируемый столбец. Однако они могут хранить значение не целиком, а только суффикс. В этом случае вспомогательные функции класса операторов должны уметь восстанавливать полное значение, собирая значения в родительских вершинах при проходе через них от корня к листу.

Содержимое внутренние вершин более сложное. Каждая внутренняя вершина содержит набор из одного или нескольких узлов (nodes), каждый из которых является ветвью дерева (= областью пространства). Узел содержит либо ссылку на внутреннюю вершину (если ветвь дерева большая), либо короткий список листьев, все из которых располагаются на одной странице индекса (если ветвь маленькая). Каждый узел обычно имеет метку (label) которая описывает его; например, в префиксном дереве метка узла может быть следующей буквой строкового значения. (Класс оператора может опустить метки узлов, если он работает с фиксированным набором узлов для всех внутренних вершин, см. SP-GiST без меток узлов).

Внутренняя вершина опционально может иметь префикс (prefix), описывающее все его члены. В префиксном дереве это может быть общий префикс представленных строк. Значение prefix не обязательно является действительно префиксом, но может быть любыми данными, необходимыми классу операторов; например, в дереве квадрантов в prefix хранится центральная точка, по которой происходит разбиение на квадранты. (А 4 узла соответствуют 4-ем областям пространства после разбиения.). Зачем существуют и префиксы, и метки? Метка нужна для того, чтобы решить, в какую из дочерних вершин пойти, не обращаясь к этим вершинам; метки хранятся в родительской вершине. Префикс наоборот хранится в самой вершине, и позволяет делать некоторые операции к ней, не обращаясь к родителю.

Некоторые алгоритмы работы с деревом требуют знания уровня ("глубины") текущей вершины, поэтому ядро SP-GiST предоставляет классам операторов возможность управлять подсчетом уровней при спуске по дереву. Как говорилось выше, есть поддержка восстановления значений по кусочкам, если это необходимо. И наконец, при спуске по дереву можно передавать дополнительный объект любого типа, он называется traverse value.

Примечание
Ядро SP-GiST берет на себя заботу о NULL-значения. Хотя индексы SP-GiST хранят записи для проиндексированных NULL'ов, это скрыто от кода класса оператора индекса: индексируемые NULL-значения никогда не будут переданы методам класса оператора, равно как и NULL-запросы. (Предполагается, что операторы SP-GiST являются строгими (STRICT), и NULL-значения заведомо не подходят под условия.) По этой причине NULL-значения больше не будут обсуждаться в этом разделе.

Существует пять пользовательских методов, которые должен предоставить класс оператора индекса для SP-GiST, и один необязательный. Все пять обязательных методов принимают 2 аргумента типа internal, это указатели на структуры, в первой расположены все входные значения, а во вторую надо поместить выходные значения. Возвращаемое значение из 4-ех методов void, а метод leaf_consistent возвращает bool. Методы не должны изменять какие-либо поля своих входных структур. Во всех случаях выходная структура инициализируется нулями перед вызовом пользовательского метода. Необязательный шестой метод compress принимает единственный аргумент datum — значение, которое индексируем, и возвращает его же в формате для хранения в листовой вершине.

Пять обязательных пользовательских методов:

config

Возвращает статическую информацию о реализации индекса, включая OID'ы типа данных префикса и типа данных меток узлов.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE FUNCTION my_config(internal, internal) RETURNS void ...
```
Первый аргумент — это указатель на структуру spgConfigIn, содержащую входные данные для функции. Второй аргумент является указателем на структуру spgConfigOut, которую функция должна заполнить результирующими данными.
```
typedef struct spgConfigIn
{
    Oid         attType;        /* Индексируемый тип данных*/
} spgConfigIn;

typedef struct spgConfigOut
{
    Oid         prefixType;     /* Какой будет тип данных префикса */
    Oid         labelType;      /* Какой будет тип данных метки */
    Oid         leafType;       /* Какой будет тип данных значений в листах */
    bool        canReturnData;  /* Умеет реконструировать значения */
    bool        longValuesOK;   /* Умеет обрабатывать длинные значения */
} spgConfigOut;
```
Значение attType будет вам интересно, если ваш класс операторов умеет работать с несколькими типами данных.

Для классов операторов, которые не используют префиксы, prefixType следует задать VOIDOID. Аналогично, для классов операторов, которые не используют метки узлов, labelType следует задать VOIDOID. canReturnData должно быть установлено в true, если класс оператора способен восстанавливать исходное значение проиндексированного поля (для сканирования только по индексу). longValuesOK должно быть установлено true, только если attType имеет переменную длину, и класс оператора умеет нарезать длинные значения для размещения в нескольких узлах (см. Ограничения SP-GiST).

leafType обычно используют равный attType (оставить leafType нулевым работает так же, но лучше явно выставьте leafType = attType). Если attType и leafType различаются, должен быть предоставлен необязательный метод compress. Метод compress переводит индексируемые значения из attType в leafType. Примечание: leaf_consistent и inner_consistent получают в качестве аргументов attType, leafType на них не влияет.
choose

Решает, как именно будем вставлять новое значение в ветку дерева.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE FUNCTION my_choose(internal, internal) RETURNS void ...
```
Первый аргумент — это указатель на структуру spgConfigIn, содержащую входные данные для функции. Второй аргумент является указателем на структуру spgConfigOut, которую функция должна заполнить результирующими данными.
```
typedef struct spgChooseIn
{
    Datum       datum;          /* индексируемое значение */
    Datum       leafDatum;      /* данные для записи в лист (все или суффикс) */
    int         level;          /* текущая глубина в дереве, считая с 0 */

    /* Содержимое текущей вершины */
    bool        allTheSame;     /* вершина помечена all-the-same? */
    bool        hasPrefix;      /* у вершины есть prefix? */
    Datum       prefixDatum;    /* если да, то значение prefix */
    int         nNodes;         /* количество дочерних узлов */
    Datum      *nodeLabels;     /* label'ы дочерних узлов в виде линейного массива */
} spgChooseIn;

typedef enum spgChooseResultType
{
    spgMatchNode = 1,           /* давайте спустимся в один из дочерних узлов */
    spgAddNode,                 /* давайте добавим новый дочерний узел этой вершине */
    spgSplitTuple               /* давайте разобьем текущую вершину (поменяет ее prefix) */
} spgChooseResultType;

typedef struct spgChooseOut
{
    spgChooseResultType resultType;     /* тип действия, 3 варианта, см. выше */
    union
    {
        struct                  /* если тип spgMatchNode */
        {
            int         nodeN;      /* номер узла, в который пойдем (от 0) */
            int         levelAdd;   /* прибавить вот столько к глубине */
            Datum       restDatum;  /* новое значение leafDatum */
        }           matchNode;
        struct                  /* если тип spgAddNode */
        {
            Datum       nodeLabel;  /* label нового узла */
            int         nodeN;      /* позиция вставки (от 0) */
        }           addNode;
        struct                  /* если тип spgSplitTuple */
        {
            /* Информация для создания верхней из 2 вершин после разбиения */
            bool        prefixHasPrefix;    /* вершина будет иметь prefix? */
            Datum       prefixPrefixDatum;  /* если да, то значение prefix */
            int         prefixNNodes;       /* число дочерних узлов */
            Datum      *prefixNodeLabels;   /* их label'ы */
            int         childNodeN;         /* номер дочернего узла, куда класть вторую вершину,
                                            *   образующуюся при разбиении (от 0)
                                            */

            /* Информация для создания нижней из 2 вершин (делается из текущей вершины и получает ее содержимое) */
            bool        postfixHasPrefix;   /* вершина будет иметь prefix? */
            Datum       postfixPrefixDatum; /* если да, то значение prefix */
        }           splitTuple;
    }           result;
} spgChooseOut;
```
datum — это исходное значение типа attType, которое должно был быть вставлено в индекс. Если есть метод compress, то leafDatum — это значение типа leafType, которое сперва получают вызовом compress, а потом при спуске по дереву методы choose или picksplit меняют его; когда процесс вставки достигает конечной страницы, текущее значение параметра leafDatum это то, что будет сохранено во вновь созданной листовой вершине. Если нет метода compress, то leafDatum не меняется при спуске по дереву и совпадает с datum. level — текущая глубина в дереве (прибавляется не всегда на +1, а вы ее меняете по своему усмотрению), для корня дерева 0. allTheSame имеет значение true, если текущая внутренняя вершина помечена как содержащая несколько эквивалентных узлов (см. Внутренние вершины "all-the-same"). hasPrefix имеет значение true, если текущая внутренняя вершина содержит префикс; и если содержит, то prefixDatum является его значением. nNodes — это число дочерних узлов, содержащихся в вершине, а nodeLabels — это массив значений их меток, или NULL, если нет никаких меток.

Функция choose может решить, что новое значение соответствует одному из существующих дочерних узлов, или что новый дочерний узел должен быть добавлен, или что новое значение несовместимо с префиксом вершины, и поэтому над ней нужно добавить родительскую вершину с менее ограничительным префиксом.

Если новое значение соответствует одному из существующих дочерних узлов, установите resultType равным spgMatchNode. Установите nodeN равным индексу (с нуля) этого узла в массиве узлов. levelAdd — сколько прибавить к глубине, например, если вашим методам глубина не интересна, то оставляйте ноль, и ее не будут считать. Если ваши методы реализуют хранение только суффикса, то в restDatum положите остаток суффикса, а если нет, то положите туда тоже, что и пришло (leafDatum).

Если необходимо добавить новый дочерний узел, установите resultType равным spgAddNode. Положите в nodeLabel метку, которая будет использоваться для нового узла, а в nodeN индекс (от нуля), в который необходимо вставить узел в массив узлов. После добавления узла метод choose будет вызван снова для той же самой вершины, и на этот раз должен привести к результату spgMatchNode.

Если новое значение не соответствует префиксу вершины, установите resultType равным spgSplitTuple. Это действие перемещает все существующие узлы в новую внутреннюю вершину более низкого уровня, а текущую вершину превращает в вершину, имеющую одну нисходящую ссылку, указывающую на новую вершину более низкого уровня. Установите prefixHasPrefix, чтобы указать, должна ли новая верхняя вершина иметь префикс, и если да, то заполните prefixPrefixDatum значением префикса. Это новое значение префикса должно быть менее строгим, чем исходное, достаточно нестрогим, чтобы новое значение подходило. Установите prefixNNodes равным числу узлов, необходимых в новой вершине, и сразу же задайте им всем метки: в prefixNodeLabels поместите указатель на массив, выделенный с помощью palloc, содержащий их метки, или, если метки не требуются, то prefixNodeLabels = NULL. Обратите внимание, что общий размер новой верхней вершины не должен превышать общего размера вершины, которую он замещает; это ограничивает длину нового префикса и новых меток. Задайте childNodeN — номер дочернего узла, соответствующего нижней вершине, образовавшейся при разбиении. Для нижнего узла нужно задать только postfixHasPrefix и postfixPrefixDatum. Сочетание префиксов двух вершин и, возможно, метки узла должно иметь такое же семантическое значение, что и префикс вершины до её разбиения, потому что нет возможности пойти в дочерние узлы и там что-то поправить. После того, как узел был разделен, то функция choose будет вызвана снова для верхней из двух вершин. Этот вызов скорее всего вернет результат spgAddNode: раз старая вершина не годилась для вставки, то после разбиения вы захотите создать ей сестринскую.

Итого, вы можете строить дерево, либо добавляя детей в текущую вершину, либо вставляя вершину над текущей, и добавлять детей уже к ней. Перебалансировку сделать нельзя.
picksplit

Решает, как создать новую внутреннюю вершину над набором листовых вершин. Вызывается, когда узел, содержащий листовые вершины, переполнился, и надо превратить его во внутреннюю вершину, содержащую несколько узлов с тем же контентом.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE FUNCTION my_picksplit(internal, internal) RETURNS void ...
```
Первый аргумент — это указатель на структуру spgConfigIn, содержащую входные данные для функции. Второй аргумент является указателем на структуру spgConfigOut, которую функция должна заполнить результирующими данными.
```
typedef struct spgPickSplitIn
{
    int         nTuples;        /* кол-во листовых вершин */
    Datum      *datums;         /* их значения (линейный массив длины nTuples) */
    int         level;          /* текущая глубина (считая от 0) */
} spgPickSplitIn;

typedef struct spgPickSplitOut
{
    bool        hasPrefix;      /* нужен ли prefix? */
    Datum       prefixDatum;    /* если да, то значение prefix'а */

    int         nNodes;         /* кол-во дочерних узлов */
    Datum      *nodeLabels;     /* их label'ы (или NULL, если не надо меток) */

    int        *mapTuplesToNodes;   /* раскладка листьев по дочерним узлам */
    Datum      *leafTupleDatums;    /* новые значения листовых узлов */
} spgPickSplitOut;
```
nTuples — количество листовых вершин, которые сейчас раскладываем. datums — это массив их значений типа leafType level это текущий уровень (глубина), одинаковый у всех листовых вершин, и у новой внутренней вершины, предположительно, будет такой же.

Установите hasPrefix, чтобы указать, должна ли новая внутренняя вершина иметь префикс, и если да, то заполните prefixDatum значением префикса. Поместите в nNodes количество дочерних узлов у новой вершины, а в nodeLabels массив их меток или NULL, если метки узлов не требуются. Задайте, в какой узел поместить каждую из листовых вершин — mapTuplesToNodes, длина равна nTuples, каждый элемент — номер узла (от 0). Заполните leafTupleDatums значениями, хранимыми в листах (если вы не храните только суффиксы для компактности, это будет тоже самое, что и входные данные datums, но все равно надо сделать копию). Обратите внимание, что picksplit должна выделить память под nodeLabels, mapTuplesToNodes и leafTupleDatums с помощью palloc.

Если во входных аргументах больше одного листа, то ожидается, что picksplit их как-то отклассифицирует и разделит на несколько узлов (picksplit вызывают с этой целью). Если picksplit поместит все предложенные листы в один узел, то ядро SP-GiST делает вывод, что они условно одинаковые, разделит их на узлы случайным образом (делить всё-таки надо из-за ограничения на количество дочерних листов). Эти несколько узлов все получат одинаковую метку (ту, которую вернула picksplit) и флаг allTheSame чтобы показать, что это произошло. Функции choose и inner_consistent должны проявлять надлежащую осторожность с такими внутренними вершинами. Дополнительную информацию смотрите в Внутренние вершины "all-the-same".

Функция picksplit может быть запущена для 1 листа только в том случае, если функция config установила longValuesOK = true, и встретилось значение длиннее, чем влезает на страницу. В этом случае смысл операции состоит в том, чтобы побить значение на префикс (который сохранят во внутренней вершине) и суффикс, который сохранят в листе или, если он всё ещё слишком длинный, снова вызовут picksplit. Дополнительную информацию смотрите в Ограничения SP-GiST.
inner_consistent

Возвращает набор ветвей, в которые следует сходить при поиске.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE FUNCTION my_inner_consistent(internal, internal) RETURNS void ...
```
Первый аргумент — это указатель на структуру spgConfigIn, содержащую входные данные для функции. Второй аргумент является указателем на структуру spgConfigOut, которую функция должна заполнить результирующими данными.
```
typedef struct spgInnerConsistentIn
{
    /* Свойства исходного поискового запроса */
    ScanKey     scankeys;       /* массив значений, которые ищем, и предикатов (операторов) */
    ScanKey     orderbys;       /* массив операторов упорядочивания и значений для них */
    int         nkeys;          /* длина массива scankeys */
    int         norderbys;      /* длина массива orderbys */

    /* Состояние алгоритма обхода дерева */
    Datum       reconstructedValue;     /* кумулятивный префикс родителей */
    void       *traversalValue; /* накопительный объект класса операторов */
    MemoryContext traversalMemoryContext;   /* контекст памяти, на котором аллокировать traversalValue */
    int         level;          /* текущая глубина (от 0) */
    bool        returnData;     /* нужно ли восстанавливать оригинальное значение? */

    /* Свойства текущей внутренней вершины */
    bool        allTheSame;     /* она помечена all-the-same? */
    bool        hasPrefix;      /* у нее есть prefix? */
    Datum       prefixDatum;    /* если да, то какой */
    int         nNodes;         /* количество дочерних узлов */
    Datum      *nodeLabels;     /* метки дочерних узлов (NULL, если нет меток) */
} spgInnerConsistentIn;

typedef struct spgInnerConsistentOut
{
    int         nNodes;         /* в сколько узлов (веток) надо сходить */
    int        *nodeNumbers;    /* массив с номерами узлов длины nNodes */
    int        *levelAdds;      /* на сколько увеличить глубину при входе в узел (массив длины nNodes) */
    Datum      *reconstructedValues;    /* кумулятивный префикс при входе в узел (массив длины nNodes)*/
    void      **traversalValues;        /* накопительные объекты (массив длины nNodes) */
    double    **distances;      /* массив из nNodes массивов из norderbys расстояний до выбранных узлов */
} spgInnerConsistentOut;
```
Массив scankeys длины nkeys описывает условия поиска в индексе. Эти условия объединяются по И(AND) — только строки, удовлетворяющие всем из них считаются подходящими. (Обратите внимание, что возможен вариант nkeys = 0, и это означает, что условия нет, и нужны просто все записи индекса). Обычно inner_consistent волнуют только поля sk_strategy и sk_argument каждой записи массива scankeys, которые соответственно дают оператор и значение сравнения. В частности, нет необходимости проверять sk_flags на предмет, является ли значение сравнения NULL, потому что основной код SP-GiST отфильтрует такие условия. Массив orderbys длины norderbys описывает операторы упорядочивания (если таковые имеются) аналогичным образом.

reconstructedValue — аккумулятор префикса, накапливаемый при проходе от корня (из префиксов вершин и, возможно, меток узлов). При заходе в корень это 0, а дальше зависит от выходных значений inner_consistent. Если ваш класс операторов не использует восстановление значений по префиксам внутренних вершин, то используйте 0 на всех уровнях. reconstructedValue всегда типа leafType.

traversalValue — указатель на любой ваш объект, который вы вернули из inner_consistent при заходе в родителя; для корня traversalValue == NULL. traversalMemoryContext — это контекст памяти, в котором надо аллокировать элементы traversalValues (см. ниже). level — текущая глубина. returnData имеет значение true, если в рамках запроса требуются восстановленные данные (если config вернула !canReturnData, то их не затребуют). allTheSame — свойство текущей вершины, в этом случае все узлы имеют одинаковую метку (если таковая имеется), и поэтому либо все, либо ни один из них не соответствует запросу (см. Внутренние вершины "all-the-same" ). hasPrefix + prefixDatum — префикс текущей вершины. nNodes — это число дочерних узлов, а nodeLabels — их метки.

В результате работы nNodes устанавливается в число дочерних узлов (ветвей дерева), которые надо посетить, потому что там могут быть результаты, подходящем под запрос. Часто это всего один узел, но потенциально может быть много, и это усложняет интерфейс: все выходные результаты являются массивами из nNodes элементов, индекс в которых — это номер узла среди рекомендуемых. nodeNumbers — номера рекомендуемых узлов среди дочерних узлов вершины. levelAdds — приращение глубины при спуске в данный узел; обычно это +1 для всех узлов, но вы можете решить, что какие-то узлы "особо заглубленные", например, на основании метки; если никакие методы вашего класса операторов не интересуется глубиной, то можете оставить указатель levelAdds нулевым. Если ваш класс операторов использует восстановление значений по префиксам внутренних вершин, то вам нужно заполнить reconstructedValues для передачи в дочерние вершины. Если происходит поиск ближайших соседей, заполните distances расстояниями до узлов, которые рекомендуете посетить (внешний массив по номеру узла, внутренний по номеру метрики из orderbys), если нет, то оставьте указатель distances нулевым; узлы с меньшим расстоянием будут посещены в первую очередь.

Если вам нужно передать какую-то дополнительную информацию в методы вашего класса операторов, заполните traversalValues, иначе оставьте его нулевым. Учтите, что массивы nodeNumbers, levelAdds, distances, reconstructedValues, и traversalValues надо выделять palloc'ом в текущем контексте, а элементы traversalValues надо выделять в контексте аллокации traversalMemoryContext, при этом каждый элемент должен быть отдельной единицей аллокации (нельзя использовать 1 единицу аллокации и положить в массив traversalValues указатель на ее середину).
leaf_consistent

Возвращает true, если листовая вершина удовлетворяет запросу.

SQL-объявление функции должно выглядеть следующим образом:
```
CREATE FUNCTION my_leaf_consistent(internal, internal) RETURNS bool ...
```
Первый аргумент — это указатель на структуру spgConfigIn, содержащую входные данные для функции. Второй аргумент является указателем на структуру spgConfigOut, которую функция должна заполнить результирующими данными.
```
typedef struct spgLeafConsistentIn
{
    /* Свойства исходного поискового запроса */
    ScanKey     scankeys;       /* массив значений, которые ищем, и предикатов (операторов) */
    ScanKey     orderbys;       /* массив операторов упорядочивания и значений для них */
    int         nkeys;          /* длина массива scankeys */
    int         norderbys;      /* длина массива orderbys */

    /* Состояние алгоритма обхода дерева */
    Datum       reconstructedValue;     /* кумулятивный префикс родителей */
    void       *traversalValue; /* накопительный объект класса операторов */
    int         level;          /* текущая глубина (от 0) */
    bool        returnData;     /* нужно ли возвращать оригинальное значение столбца? */

    /* Свойства текущей листовой вершины */
    Datum       leafDatum;      /* данные, хранящиеся в листе */
} spgLeafConsistentIn;

typedef struct spgLeafConsistentOut
{
    Datum       leafValue;        /* оригинальное значение столбца, если надо */
    bool        recheck;          /* true, если надо перепроверить условие по значению из строки кучи */
    bool        recheckDistances; /* true, если расстояние надо уточнить по значению из строки кучи */
    double     *distances;        /* массив из norderbys расстояний до данного листа  */
} spgLeafConsistentOut;
```
Массив scankeys длины nkeys описывает условия поиска в индексе. Эти условия объединяются по И(AND) — только строки, удовлетворяющие всем из них считаются подходящими. (Обратите внимание, что возможен вариант nkeys = 0, и это означает, что любой лист подходит). Обычно leaf_consistent волнуют только поля sk_strategy и sk_argument каждой записи массива scankeys, которые соответственно дают оператор и значение сравнения. В частности, нет необходимости проверять sk_flags на предмет, является ли значение сравнения NULL, потому что основной код SP-GiST отфильтрует такие условия. Массив orderbys длины norderbys описывает операторы упорядочивания (если таковые имеются) аналогичным образом.

reconstructedValue — аккумулятор префикса, накопленный при проходе от корня. Может быть NULL, если префикс не собирали; имеет тип leafType. traversalValue указатель на любой ваш объект, который вы вернули из inner_consistent при заходе в родителя. level — глубина листа (если вы ее считали). returnData имеет значение true, если нужно восстановить исходные данные столбца (если config вернула !canReturnData, то их не затребуют). leafDatum — это значение в листовой вершине типа leafType.

Функция должна возвращать true, если лист соответствует запросу, иначе false. Если результат true, и returnData true, тогда надо заполнить leafValue значением столбца (типа attType). Это может быть в точности leafDatum или комбинация из reconstructedValue и leafDatum. Также, recheck может быть установлено в true, если соответствие является не стопроцентным, и надо перепроверить условие на значении, взятом из строки кучи. Если выполняется упорядоченный поиск, заполните массив distances для массива значений расстояний в соответствии с массивом orderbys. В противном случае оставьте его NULL. Если хотя бы одно из возвращенных расстояний не является точным, установите recheckDistances в true; в этом случае исполнитель вычислит точные расстояния после извлечения строки из кучи и при необходимости переупорядочит строки.

Необязательный пользовательский метод:

compress

Преобразует индексируемое значение (типа attType) в формат для физического хранения в листовой вершине индекса (типа leafType). Выходное значение не должно быть помещенным в TOAST.

SQL-объявление функции может выглядеть следующим образом:
```
CREATE FUNCTION my_compress(internal) RETURNS internal ...
```

Все вспомогательные методы SP-GiST обычно вызываются в контексте кратковременной памяти; то есть, CurrentMemoryContext сбрасывается после обработки каждой вершины, поэтому можно не освобождать память. Метод config является исключением: он должен стараться избегать утечки памяти. Но обычно методу config незачем выделять память.

Если к типу индексируемого столбца применимы правила сортировки, то действующее для индекса правило сортировки будет передано всем вспомогательным методам через стандартный механизм PG_GET_COLLATION().

Реализация

В этом разделе рассматриваются детали реализации и другие хитрости, которые могут быть полезны для разработчиков классов операторов SP-GiST.

Ограничения SP-GiST

Ограничения вытекают из того, что любая листовая или внутренняя вершина должна помещаться на одной странице индекса (по умолчанию 8кБ). При индексировании столбцов переменной длины это может вызывать ошибку, когда встретится конкретное особо длинное значение. Ваш класс операторов может поддержать хранение длинных значений, если устроит что-то вроде префиксного дерева: исходное значение столбца делится между всеми вершинами на пути от корня до листа, при этом каждый отдельный кусок достаточно короткий, чтобы влезть на страницу; для этого можно искусственно создать цепочку из вершин с единственным потомком. Если ваш класс операторов готов всё это делать, то верните longValuesOK из config.

Для промежуточных вершин это ограничение означает, что не может быть слишком много дочерних узлов, и у них не могут быть слишком длинные префиксы. Далее, если узел внутренней вершины указывает на набор листов, эти листы должны находиться на одной странице (такое проектное решение принято для экономии места и более кучного размещения ветви в дисковой странице). Если набор дочерних узлов становится слишком большим, то добавляется новая внутренняя вершина, а листы разбиваются на несколько узлов этой вершины. На этом шаге вызывается picksplit для набора листов, которая должна их разбить, иначе ядро SP-GiST прибегает к чрезвычайным мерам, описанным в Внутренние вершины "all-the-same".

SP-GiST без меток узлов

Некоторые древовидные алгоритмы используют фиксированный набор узлов для каждой внутренней вершины; например, в дереве квадрантов всегда есть ровно четыре узла, соответствующие четырем квадрантам вокруг центральной точки внутренней вершины. В таком случае код обычно работает с узлами по номеру, и нет необходимости в явных метках узлов. Чтобы подавить метки узлов (и тем самым сэкономить место), функция picksplit может возвращать значение NULL для массива nodeLabels, и аналогично функция choose может возвращать значение NULL для массива prefixNodeLabels во время действия spgSplitTuple. Это, в свою очередь, приведет к тому, что nodeLabels станет NULL во время последующих вызовов choose и inner_consistent. Теоретически можно иметь часть внутренних вершин с метками узлов, а часть без.

Если у внутренней вершины нет меток узлов, то метод choose не должен возвращать spgAddNode, поскольку предполагается, что набор узлов в таких случаях является фиксированным.

Внутренние вершины "all-the-same"

Ядро SP-GiST может переопределять результаты вызова функции picksplit, если picksplit не удается разделить предоставленные листовые значения по крайней мере на две категории узлов. Когда это происходит, создается новая внутрення вершина с несколькими узлами, каждый из которых имеет ту же метку, что picksplit дал одному узлу, который он вернул, а конечные значения делятся случайным образом между этими эквивалентными узлами. Во внутренней вершине устанавливается флаг allTheSame, чтобы предупредить функции choose и inner_consistent о том, что разбиение внутренней вершины на узлы не такое, как они ожидают.

При работе choose с allTheSame-вершиной результат выбора spgMatchNode интерпретируется как "вставить в любой из узлов", значение nodeN игнорируется. Выбор spgAddNode вообще не допустим и вызовет ошибку (т.к. получилось бы, что часть узлов "all-the-same", а новый узел особенный).

При работе inner_consistent с allTheSame-вершиной она должна выбирать все узлы или не одного (т.к. формально они все одинаковые). Для этого может потребоваться или не потребоваться какой-либо специальный код.

Индексы GIN

Введение

GIN расшифровывается как «Generalized Inverted Index» (Обобщённый инвертированный индекс). GIN предназначается для случаев, когда индексируемые значения являются составными, а запросы, на обработку которых рассчитан индекс, ищут по наличию элементов в этих составных объектах. Например, такими объектами могут быть документы, а запросы могут выполнять поиск документов, содержащих определённые слова.

В этом разделе мы используем термин объект или элемент, говоря о составном значении, которое индексируется, и термин ключ, говоря о включённом в него элементе. GIN всегда хранит и ищет ключи, а не объекты как таковые.

Индекс GIN хранит пары (ключ => набор-строк), где набор-строк содержит идентификаторы строк, в которых есть данный ключ. Один и тот же идентификатор строки может фигурировать в нескольких списках, так как объект может содержать больше одного ключа. Значение каждого ключа хранится только один раз, так что индекс GIN очень компактен в случаях, когда один ключ встречается много раз.

GIN является обобщённым в том смысле, что ядро GIN не знает о конкретных операциях, которые он ускоряет. Конкретная семантика определяется вспомогательными методами (стратегиями), которые управляют тем, как извлекаются ключи из индексируемых объектов и условий запросов, и как установить, действительно ли удовлетворяет запросу строка, содержащая некоторые значения ключей. Как и GiST, GIN позволяет разрабатывать дополнительные типы данных с соответствующими методами доступа экспертам в предметной области типа данных.

Встроенные классы операторов

Основной дистрибутив QHB включает классы операторов GIN, показанные в следующей таблице. Некоторые из расширений, перечисленные в примерах, предоставляют дополнительные классы операторов GIN.

Имя	Индексированный Тип Данных	Индексируемые Операторы
array_ops	anyarray	`&& = @<`
jsonb_ops	jsonb	`? ?& ? @> @? @@`
jsonb_path_ops	jsonb	`@> @? @@`
tsvector_ops	tsvector	`@@ @@@`

Из двух классов операторов для типа jsonb, jsonb_ops это значение по умолчанию. jsonb_path_ops поддерживает меньшее количество операторов, но обеспечивает лучшую производительность для этих операторов. Дополнительную информацию смотрите в разделе Индексация jsonb.

Расширяемость

Интерфейс GIN имеет высокий уровень абстракции, требующий от автора метода доступа только реализации семантики типа данных, с которым происходит работа. Слой GIN сам заботится о параллелизме, журналировании и поиске в древовидной структуре.

Все, что требуется для работы метода доступа GIN — это реализовать несколько пользовательских методов, которые определяют поведение ключей в дереве и отношения между ключами, индексируемыми элементами и индексируемыми запросами. Короче говоря, GIN сочетает расширяемость с универсальностью, повторным использованием кода и чистым интерфейсом.

Два метода, которые обязан предоставить класс операторов для GIN:

extractValue

Прототип метода на C:
```
Datum *extractValue(Datum itemValue, int32 *nkeys, bool **nullFlags)
```
Возвращает массив ключей (выделенный с помощью palloc) индексируемого объекта. Количество возвращаемых ключей должно быть сохранено в *nkeys. Если какой-то из ключей может быть NULL, то необходимо также заполнить nullFlags (это массив типа bool длиной *nkeys, true означает, что этот ключ NULL; аллокировать тоже palloc'ом). Если все ключи не NULL, то можно оставить *nullFlags нулевым. Возвращаемое значение тоже может быть нулевым, если объект вообще не содержит ключей.
extractQuery

Прототип метода на C:
```
Datum *extractQuery(Datum query, int32 *nkeys, StrategyNumber n, bool **pmatch,
                    Pointer **extra_data, bool **nullFlags, int32 *searchMode)
```
Возвращает массив ключей (выделенный с помощью palloc) для запроса. query — это правый аргумент индексируемого оператора, где левый аргумент — это индексируемый столбец. Аргумент n задаёт номер стратегии оператора в классе операторов (см. раздел Стратегии методов индексов). Разные операторы могут иметь разный тип правой части, и, соответственно, query может быть разного типа — и даже при одинаковом типе запрос может интерпретироваться по-разному для разных операторов. Для различения и нужен параметр n.

Количество возвращаемых ключей должно быть записано в *nkeys. Если какой-то из ключей может быть NULL, то необходимо также заполнить nullFlags (это массив типа bool длиной *nkeys, true означает, что этот ключ NULL; аллокировать тоже palloc'ом). Если все ключи не NULL, то можно оставить *nullFlags нулевым. Возвращаемое значение тоже может быть нулевым, если объект вообще не содержит ключей.

Выходной аргумент searchMode позволяет функции extractQuery выбрать режим, в котором должен выполняться поиск. Если *searchMode установить в GIN_SEARCH_MODE_DEFAULT (это значение уже установлено перед вызовом), подходящими кандидатами считаются объекты, которые соответствуют хотя бы одному из возвращённых ключей. Если *searchMode установить в GIN_SEARCH_MODE_INCLUDE_EMPTY, то в дополнение к объектам с минимум одним совпадением ключа, подходящими кандидатами будут считаться и объекты, вообще не содержащие ключей. (Этот режим полезен для реализации, например, оператора является-подмножеством). Если *searchMode установить в GIN_SEARCH_MODE_ALL, подходящими кандидатами считаются все отличные от NULL объекты в индексе, независимо от того, встречаются ли в них возвращаемые ключи. (Этот режим намного медленнее других, так как он по сути требует сканирования всего индекса, но он может быть необходим для корректной обработки крайних случаев. Оператор, который часто выбирает этот режим, скорее всего не подходит для реализации в классе операторов GIN).

Выходной аргумент pmatch используется, когда поддерживаются частичные ключи в запросах. Выделите массив из *nkeys элементов типа bool и задайте значение true для тех ключей, для которых выделенный ключ является частичным. Если *pmatch нулевой (а он нулевой перед вызовом), GIN полагает, что все ключи точные, а не частичные.

Выходной аргумент extra_data используется, чтобы привязать к каждому ключу дополнительную информацию, которая будет передана в методы consistent и comparePartial. Поместите в *extra_data массив из из *nkeys указателей на объекты производного типа. Перед вызовом указатель *extra_data нулевой, поэтому просто игнорируйте его, если не надо никакой дополнительной информации. Если массив *extra_data задан, то он передаётся в метод consistent целиком, а в comparePartial передаётся один соответствующий элемент.

Класс операторов должен также предоставить функцию для проверки, соответствует ли индексированный объект запросу. Поддерживаются две её вариации: булевская consistent и triConsistent с трехзначным результатом. Если предоставлена только consistent, то некоторые оптимизации, построенные на отбраковывании объектов до выборки всех ключей, отключаются. Если предоставлена только triConsistent, то она будет использоваться и вместо consistent, т.к. является более общей. Однако, если вычисление булевской вариации дешевле, то имеет смысл реализовать обе.

consistent

Прототип метода на C:
```
bool consistent(bool check[], StrategyNumber n, Datum query, int32 nkeys,
                Pointer extra_data[], bool *recheck, Datum queryKeys[], bool nullFlags[])
```
Возвращает true, если индексированный элемент удовлетворяет оператору запроса с номером стратегии n (или "возможно удовлетворяет", если дополнительно ставится флаг перепроверки). Проиндексированное значение в этом методе не доступно (GIN их нигде не хранит), есть только информация, какие из ключей запроса встретились в данном кортеже индекса. В метод передаётся всё, что вернула extractQuery при разборе запроса: массив ключей queryKeys, какие из них NULL — nullFlags, дополнительную информацию extra_data, но главное — какие из этих ключей присутствуют в текущем кортеже индекса: check. Все эти массивы имеют длину nkeys, если ненулевые. На всякий случай передаётся и оригинальный запрос query.

Если extractQuery выдала NULL-ключ, и в кортеже тоже есть NULL-ключ, то считается, что ключ найден (что является нетипичным при обработке NULL-значений, и похоже на семантику IS NOT DISTINCT FROM). Если с точки зрения вашего класса операторов это особенная ситуация, то, встретив check[i] == true, вы можете проверить nullFlags[i], чтобы понять, было ли это попадание в NULL-ключ. В случае положительного результата флаг *recheck следует оставить false, если вы уверены, что строка подходит, или выставить true, чтобы оператор перепроверили на данных, взятых из строки таблицы из кучи.
triConsistent

Прототип метода на C:
```
GinTernaryValue triConsistent(GinTernaryValue check[], StrategyNumber n, Datum query,
                            int32 nkeys, Pointer extra_data[], Datum queryKeys[],
                            bool nullFlags[])
```
Метод похож на consistent, но результат и входной аргумент check имеют тип GinTernaryValue, который состоит из 3-х вариантов: GIN_TRUE, GIN_FALSE и GIN_MAYBE. GIN_MAYBE означает "может быть подходит". Вы должны руководствоваться общими правилами тернарной логики: возвращать GIN_TRUE, только если строка подходит под запрос в предположении "худшего случая" для ключей, которые GIN_MAYBE, т.е. предполагая, что они все не подходят. И наоборот, возвращать GIN_FALSE, только если строка не подходит, даже в "лучшем случае" для GIN_MAYBE-ключей.

Выходного параметра recheck нет, вместо этого результат GIN_MAYBE трактуется как "надо перепроверить", а GIN_TRUE как "точно подходит".

Далее, ядру GIN нужно уметь сортировать ключи. Вы можете предоставить функцию сортировки compare. Если вы этого не сделаете, то GIN будет использовать сортировку по умолчанию для соответствующего типа данных.

compare

Прототип метода на C:
```
int compare(Datum a, Datum b)
```
Сравнивать два ключа (а не исходных индексируемых значения) и вернуть целое число < 0/0/> 0, когда первый ключ меньше/равен/больше второго. NULL-ключи никогда не передаются в эту функцию.

И ещё один необязательный метод:

comparePartial

Прототип метода на C:
```
int comparePartial(Datum partial_key, Datum key, StrategyNumber n, Pointer extra_data)
```
Осуществляет проверку соответствия ключа индекса частичному ключу запроса. Результат 0 означает, что ключ подходит; меньше нуля — не подходит, но следует продолжить сканировать ключи; больше нуля — следует прекратить сканирование набора ключей, т.к. все остальные точно не подходят. NULL-ключи никогда не передаются в эту функцию.

Частичный ключ не обязательно является префиксом ключа, но так или иначе согласован с порядком сортировки, что позволяет выполнять не полное сканирование всех ключей, а только сканирование диапазона. Зная порядок сканирования ключей, вы можете прекратить сканирование досрочно, вернув положительное значение.

Для поддержки нечётких запросов класс операторов должен предоставлять comparePartial, а extractQuery должен выставлять флаг pmatch для частичных ключей. Дополнительную информацию смотрите в разделе Алгоритм нечёткого поиска.

Фактические типы переменных типа Datum, указанных выше, варьируются для разных классов операторов. Входное значение extractValue всегда имеет тип индексируемого столбца, а значения всех ключей имеют тип STORAGE класса операторов. Параметр query, передаваемый в extractQuery, consistent, triConsistent, будет такого типа, как правый аргумент поискового оператора; это не обязательно такой же тип, как у индексируемого столбца, главное, чтобы из него можно было извлечь ключи для поиска. Однако в SQL-объявлениях функций extractQuery, consistent, triConsistent рекомендуется указывать тип query совпадающим с типом столбца, если для разных операторов разный тип правой части.

Реализация

Внутри индекс GIN содержит B-дерево, построенное по ключам, где каждый ключ является элементом одного или нескольких проиндексированных объектов (например, элемент массива), и где каждая листовая вершина содержит либо массив("posting list") указателей на строки в куче (если этот массив достаточно маленький, чтобы поместиться в вершине индекса), либо указатель на B-дерево указателей кучи ("posting tree", “дерево рассылки”). На рис. 1 показаны эти компоненты индекса GIN.

В индекс может быть явно включён ключ со значением NULL. Кроме того, ключ NULL считается содержащимся во всех строках, в которых индексируемый столбец имеет значение NULL, либо если ExtractValue не выделила из значения ни одного ключа. Это сделано, чтобы можно было искать пустые значения.

Многоколоночные индексы GIN реализуются путем построения единого B-дерева, значения которого — пары (номер столбца, ключ), причём тип ключа может быть разным для разных столбцов.

Рисунок 1. Внутренняя структура GIN

Быстрое обновление GIN

Обновление индекса GIN, как правило, происходит медленно, и это неотъемлемое свойство инвертированных индексов: вставка или обновление одной строки таблицы может вызвать множество вставок в индекс (по одной для каждого ключа, извлеченного из индексируемого элемента). Ядро GIN способно отложить большую часть этой работы, вставляя новые кортежи во временный, несортированный список ожидающих записей. Когда происходит VACUUM или VACUUM ANALYZE, или когда явно вызывается функция gin_clean_pending_list, или когда длина списка ожидания превышает значение параметра gin_pending_list_limit, все кортежи из списка ожидания помещаются в основное дерево, используя метод групповой вставки, такой же как и при первичном построении индекса. Это значительно увеличивает скорость обновления индекса GIN, даже считая дополнительные накладные расходы на вакуум. Кроме того, перестроение индекса можно вынести в отдельный фоновый процесс, чтобы избежать подвисания клиента во время вставки.

Главным недостатком этого подхода является замедление поиска. Кроме обычного поиска в индексе требуется также сканировать список ожидания, поэтому большой список ожидания значительно замедлит поиск. Еще один недостаток заключается в том, что, хотя амортизированное время модификации снижается, некоторое конкретное обновление может вызывать переполнение списка ожидания и подвиснуть надолго. Обе проблемы можно свести к минимуму, правильно настроив автовакуум, или вовремя запуская gin_clean_pending_list из другого служебного процесса.

Если максимальное время модификации важнее, чем среднее, использование отложенных записей можно отключить, изменив параметр fastupdate индекса GIN. Дополнительные сведения см. в разделе Параметры хранения индекса.

Алгоритм нечёткого поиска

GIN может поддерживать запросы "нечёткого поиска", в которых вместо конкретного ключа указывается диапазон ключей для поиска. Диапазон всегда согласованный с порядком сортировки ключей (определяемым методом compare, либо сортировкой по умолчанию для типа ключа), и, желательно, чтобы он не был слишком широким. Как бы ни звучало указание нечёткого поиска в исходном запросе, extractQuery должна установить флаг pmatch, а в значение ключа поместить нижнюю границу диапазона ключей. Одновременно это должно быть поддержано методом comparePartial, который должен определить верхнюю границу диапазона поиска (например, её можно передать через extra_data). Дерево ключей сканируется начиная с нижней границы, и пока comparePartial не вернёт > 0; все ключи, отобранные comparePartial, считаются подходящими.

Пример для поиска ключа по префиксу очень понятный: нижняя граница диапазона ключей совпадает с префиксом, метод comparePartial получает partial_key, равный этому префиксу, и его реализация тривиальна. В общем случае нижняя и верхняя граница, и условие поиска — разные вещи, и надо как-то их все передать в comparePartial. Например, поиск слов, получающихся из 'спорт' перестановкой двух соседних букв, может потребовать сканирования диапазона ['опрст'; 'тсрпо'] или ['о'; 'у').

GIN советы и хитрости

Создание или вставка

Если вы собираетесь вставить много данных, рассмотрите вариант удаления индекса и построения его с нуля. Этот совет верен для большинства индексов, но вставка в GIN-индекс может быть особенно медленной. См. также раздел Быстрое обновление GIN.

maintenance_work_mem

Время построения GIN-индекса сильно зависит от параметра maintenance_work_mem; рассмотрите вариант увеличения этого параметра в сессии, где выполняется создание индекса.

gin_pending_list_limit

Как уже было сказано в разделе Быстрое обновление GIN, параметр gin_pending_list_limit является основным средством настройки производительности GIN-индекса (вторым по значимости средством является частота запуска автовакуума). Параметр gin_pending_list_limit можно задать отдельно для каждого индекса, изменив его параметры хранения. Общее правило, что для редко меняющихся таблиц gin_pending_list_limit должен быть меньше.

gin_fuzzy_search_limit

Основной целью разработки GIN-индексов был полнотекстовый поиск. Полнотекстовый поиск часто возвращает огромное количество строк, особенно если искать частые слова. Прочитать такое количество строк с диска и отсортировать (отранжировать) их в памяти обычно неприемлемо в нагруженной системе. Чтобы облегчить контроль таких запросов, GIN имеет настраиваемый верхний предел на количество возвращаемых строк: параметр gin_fuzzy_search_limit. По умолчанию он установлен в 0 (то есть без ограничений). Если задано ненулевое ограничение, то все результаты поиска после заданного количества молча отбрасываются. Ограничение на количество результатов является "мягким" в том смысле, что фактическое число возвращаемых результатов может несколько отличаться от указанного предела в зависимости от запроса и качества генератора случайных чисел системы.

По опыту, значения в тысячах (например, 5000 — 20000) работают хорошо.

Ограничения

GIN предполагает, что индексируемые операторы являются строгими(STRICT). Это означает, что если значение столбца NULL, то extractValue не вызывается (но создаётся запись индекса, что эта строка содержит NULL-ключ); если поисковое значение NULL, то extractQuery не вызывается и результат поиска считается пустым. Однако запрос может содержать в себе что-то, что класс операторов истолкует как поиск NULL-ключа, например, пустую строку.

Примеры

Основной дистрибутив QHB включает классы операторов GIN, ранее перечисленные в таблице в разделе Встроенные классы операторов. Следующие расширения из contrib также содержат классы операторов GIN:

btree_gin

Функциональность B-дерева для некоторых типов данных
hstore

Расширение для хранения пар (ключ, значение)
intarray

Расширенная поддержка для int[ ]
pg_trgm

Сходство текста, основанное на сопоставлении триграмм

Индексы BRIN

Введение

BRIN обозначает индекс диапазона блоков (Block Range Index). BRIN предназначен для обработки очень больших таблиц, в которых некоторые столбцы имеют естественную корреляцию с их физическим расположением в таблице. Диапазон блоков — это группа страниц, которые физически соседствуют в таблице; для каждого диапазона блоков в индексе хранится некоторая сводная информация. Например, таблица, хранящая заказы на поставку, может иметь столбец даты, в который был помещен каждый заказ, и в большинстве случаев записи для более ранних заказов лежат раньше в таблице. Таблица, хранящая адреса, и имеющая столбец почтового индекса, будет хранить адреса одного города подряд, и почтовые индексы строк тоже окажутся сгруппированными.

Индексы BRIN отвечают на запросы посредством сканирования-на-битовых-картах, возвращая все строки всех страниц диапазона, если диапазон целиком был признан совместимым с условиями запросом. Исполнитель запроса (query executor) отвечает за перепроверку всех строк и удаление тех, которые не соответствуют условиям запроса — другими словами, эти индексы являются очень грубыми (большая ошибка первого рода). Но поскольку индекс BRIN очень мал, сканирование индекса добавляет лишь немного накладных расходов по сравнению с последовательным сканированием, при этом помогая избежать сканирования каких-то частей таблицы, если по BRIN-индексу понятно, что они точно не содержат подходящих строк.

Конкретные данные, которые будет хранить индекс BRIN, а также конкретные запросы, которые индекс сможет удовлетворить, зависят от класса оператора, выбранного для каждого столбца индекса. Например, типы данных, имеющие линейный порядок сортировки, могут иметь классы операторов, которые хранят минимальное и максимальное значение в каждом диапазоне блоков. Геометрические типы могут хранить ограничивающую рамку для всех объектов в диапазоне блоков.

Размер диапазона блоков определяется во время создания индекса параметром pages_per_range. Количество записей индекса будет равно размеру таблицы в страницах, деленному на выбранное значение pages_per_range. Чем меньше число, тем больше размер индекса, но и тем выше его точность.

Обслуживание индекса

В момент создания все существующие страницы кучи сканируются, и для каждого диапазона (включая неполный диапазон в конце) создается кортеж в индексе, содержащий сводку по этому диапазону.

При вставке новых строк требуется обновление сводной информации в BRIN-индексе. При вставке в "старые" диапазоны обновление происходит немедленно, а при вставке в "новые" диапазоны обновление индекса откладывается (в эти диапазоны вставляют постоянно, и пересчитывать кортеж индекса после каждой новой строчки было бы накладно). При поиске "новые" необсчитанные диапазоны считаются потенциально содержащими все что угодно.

Обсчёт "новых" диапазонов происходит при работе VACUUM. Вакуум можно запустить вручную, также обсчёт можно инициировать вызовом функции brin_summarize_new_values(regclass). Если включить параметр autosummarize, то "новые" диапазоны будут пересчитываться в фоне процессом Автовакуума. Если он не успевает это делать, то в журнале сервера могут появиться сообщения вида

LOG:  request for BRIN range summarization for index "brin_wi_idx" page 128 was not recorded

По умолчанию параметр autosummarize выключен, т.к. это увеличивает нагрузку системы.

При удалении строк из таблицы не происходит пересчёта BRIN-индекса (это было бы слишком долго). После массовых удалений можно пересчитать BRIN-индекс по конкретным диапазонам, выполнив brin_desummarize_range (regclass, bigint) + brin_summarize_range (regclass, bigint), или по всей таблице, перестроив индекс целиком. Если этого не сделать, индекс будет говорить, что в таком-то диапазоне возможно есть такие-то данные даже после того, как вы удалите все такие данные.

Встроенные классы операторов

Основной дистрибутив QHB включает классы операторов BRIN, показанные в следующей таблице.

Классы операторов minmax хранят минимальные и максимальные значения среди значений индексируемого столбца по всем строкам диапазона. Классы операторов inclusion хранят значение, которое включает("обрамляет") все значения столбца в пределах диапазона.

Имя	Индексируемый тип данных	Поддерживаемые операторы при поиске
int8_minmax_ops	bigint	`< <= = >= >`
bit_minmax_ops	bit	`< <= = >= >`
varbit_minmax_ops	bit varying	`< <= = >= >`
bytea_minmax_ops	bytea	`< <= = >= >`
bpchar_minmax_ops	character	`< <= = >= >`
char_minmax_ops	"char"	`< <= = >= >`
date_minmax_ops	date	`< <= = >= >`
float8_minmax_ops	double precision	`< <= = >= >`
inet_minmax_ops	inet	`< <= = >= >`
int4_minmax_ops	integer	`< <= = >= >`
interval_minmax_ops	interval	`< <= = >= >`
macaddr_minmax_ops	macaddr	`< <= = >= >`
macaddr8_minmax_ops	macaddr8	`< <= = >= >`
name_minmax_ops	name	`< <= = >= >`
numeric_minmax_ops	numeric	`< <= = >= >`
pg_lsn_minmax_ops	pg_lsn	`< <= = >= >`
oid_minmax_ops	oid	`< <= = >= >`
float4_minmax_ops	real	`< <= = >= >`
int2_minmax_ops	smallint	`< <= = >= >`
text_minmax_ops	text	`< <= = >= >`
tid_minmax_ops	tid	`< <= = >= >`
date_minmax_ops	date	`< <= = >= >`
timestamp_minmax_ops	timestamp without time zone	`< <= = >= >`
timestamptz_minmax_ops	timestamp with time zone	`< <= = >= >`
time_minmax_ops	time without time zone	`< <= = >= >`
timetz_minmax_ops	time with time zone	`< <= = >= >`
uuid_minmax_ops	uuid	`< <= = >= >`
box_inclusion_ops	box	<< &< && &> >> ~= @> <@ &<\| <<\| \|>> \|&>
network_inclusion_ops	inet	`&& >>= <<= = >> <<`
range_inclusion_ops	любой тип-диапазон	<< &< && &> >> @> <@ -\|- = < <= = > >=

Расширяемость

Интерфейс BRIN имеет высокий уровень абстракции, требующий от разработчика описать только семантику данных. Большую часть работы выполняют универсальная реализация BRIN.

Все, что требуется, чтобы BRIN-индекс заработал, - это реализовать несколько пользовательских методов, которые определят поведение сводных значений, хранящихся в индексе, и их взаимодействие с ключами сканирования (= значениями в столбце таблицы). У BRIN-индексов четкий интерфейс, дающий хорошую расширяемость и переиспользование кода.

Существует четыре метода, которые должен предоставить класс оператора для использования в BRIN:

```
BrinOpcInfo *opcInfo(Oid type_oid)
```
Возвращает внутреннюю информацию о сводных данных индексированных столбцов. Конкретнее, должна вернуть указатель на структуру BrinOpcInfo, выделенную с помощью palloc. Определение структуры такое:
```
typedef struct BrinOpcInfo
{
    /* Количество совместно проиндексированных столбцов */
    uint16      oi_nstored;

    /* Приватные данные класса оператора */
    void       *oi_opaque;

    /* Элементы кеша типов для проиндексированных столбцов */
    TypeCacheEntry *oi_typcache[FLEXIBLE_ARRAY_MEMBER];
} BrinOpcInfo;
```
Brinpcinfo::oi_opaque используется для передачи информации между методами класса операторов во время сканирования индекса.
```
bool consistent(BrinDesc *bdesc, BrinValues *column, ScanKey key)
```
Вернуть, входит ли key (то, что ищут) в сводное значение column из индекса. key->sk_attno содержит номер столбца — это важно, если у вас многоколоночный индекс
```
bool addValue(BrinDesc *bdesc, BrinValues *column, Datum newval, bool isnull)
```
Обновить сводную информацию диапазона column с учетом нового значения столбца newval. Вернуть true, если column изменилось
```
bool unionTuples(BrinDesc *bdesc, BrinValues *a, BrinValues *b)
```
Объединить две сводки: изменить сводку a, включив в нее сводку b. Не надо менять сводку b! Вернуть false, если не потребовалось менять a (т.к. уже a полностью включало b).

Способы создания нового класса операторов, совместимого с BRIN:

Стандартный дистрибутив включает поддержку двух семейств классов операторов: minmax и inclusion. Есть реализация соответствующих классов операторов для всех встроенных типов данных. Аналогичные классы операторов для других типов могут быть выведены без написания какого-либо кода. Достаточно просто объявить этот класс в системном каталоге. Обратите внимание, что в код вспомогательных функций этих семейств встроены некоторые предположения о семантике стратегий операторов.
Вы можете создать классы операторов с совершенно другой семантикой, реализовав четыре основных вспомогательные функции, описанных выше. Обратите внимание, что обратная совместимость между мажорными релизами не гарантируется: в следующих версиях может измениться интерфейс этих функций.

Использовать вспомогательные функции от семейства minmax, вместе с набором операторов для типа данных.

Для создания класса операторов для типа данных, на котором определен полный порядок, можно использовать вспомогательные функции от minmax совместно с соответствующими операторами, как показано в следующей таблице. Все члены класса операторов (функции и операторы) являются обязательными.

Член класса операторов	Какой объект использовать
Вспомогательная функция 1	внутренняя функция brin_minmax_opcinfo()
Вспомогательная функция 2	внутренняя функция brin_minmax_add_value()
Вспомогательная функция 3	внутренняя функция brin_minmax_consistent()
Вспомогательная функция 4	внутренняя функция brin_minmax_union()
Стратегия 1	оператор меньше
Стратегия 2	оператор меньше-или-равно
Стратегия 3	оператор равно
Стратегия 4	оператор больше-или-равно
Стратегия 5	оператор больше

Для создания класса оператора для сложного типа данных, наборы значений которого "обрамляются" "рамками" некоторого другого типа, можно использовать вспомогательные функции от семейства inclusion совместно с соответствующими операторами и дополнительными функциями, как показано в следующей таблице. Из них только одна дополнительная функция, которая может быть написана на любом языке, является обязательной. Реализация необязательных дополнительных функций позволяет некоторые оптимизации при работе индекса. Все операторы необязательные, но для некоторых операторов нужно реализовать другой для комплектности, как показано в таблице

Член класса операторов	Какой объект использовать	Требует наличия
Вспомогательная функция 1	внутренняя функция brin_inclusion_opcinfo()
Вспомогательная функция 2	внутренняя функция brin_inclusion_add_value()
Вспомогательная функция 3	внутренняя функция brin_inclusion_consistent()
Вспомогательная функция 4	внутренняя функция brin_inclusion_union()
Вспомогательная функция 11	функция для объединения двух элементов (обязательная)
Вспомогательная функция 12	дополнительная функция для проверки возможности слияния двух элементов
Вспомогательная функция 13	дополнительная функция, чтобы проверить, если элемент содержится в другом
Вспомогательная функция 14	необязательная функция для проверки, является ли элемент пустым
Стратегия 1	оператор левее	Стратегия 4
Стратегия 2	оператор не-выпирает-справа	Стратегия 5
Стратегия 3	оператор перекрывается
Стратегия 4	оператор не-выпирает-слева	Стратегия 1
Стратегия 5	оператор правее	Стратегия 2
Стратегия 6, 18	оператор такой-же-или-равен	Стратегия 7
Стратегия 7, 13, 16, 24, 25	оператор охватывает-или-равен
Стратегия 8, 14, 26, 27	оператор содержится-в-или-равен	Стратегия 3
Стратегия 9	оператор не-выпирает-сверху	Стратегия 11
Стратегия 10	оператор ниже	Стратегия 12
Стратегия 11	оператор выше	Стратегия 9
Стратегия 12	оператор не-выпирает-снизу	Стратегия 10
Стратегия 20	оператор меньше	Стратегия 5
Стратегия 21	оператор меньше-или-равно	Стратегия 5
Стратегия 22	оператор больше	Стратегия 1
Стратегия 23	оператор больше-или-равно	Стратегия 1

Номера вспомогательных функций 1-10 зарезервированы для внутренних функций BRIN, поэтому функции уровня SQL начинаются с числа 11. Вспомогательная функция номер 11 является главной, обязательной для построения индекса. Она принимает два аргумента того же типа, что и класс оператора, и возвращать их объединение. Класс оператора семейства inclusion может хранить результат объединения в другом типа данных, он задается параметром STORAGE. Возвращаемое значение функции №11 должно быть типа STORAGE.

Вспомогательные функции №№ 12 и 14 введены для обработки неравномерностей во встроенных типах данных. Функция № 12 используется для поддержки сетевых адресов из различных семейств, которые нельзя объединять. Функция № 14 нужна для обработки пустых диапазонов. Функция № 13 необязательна, но ее реализация желательна, т.к. позволяет пропустить ряд шагов при построении индекса, если очередное значение не меняет сводку, хранящуюся в индексе.

И minmax, и inclusion поддерживают операторы, работающие с разными типами данных, хотя с ними зависимости становятся более сложными. Класс операторов minmax требует, чтобы был определен полный набор операторов с обоими аргументами, имеющими один и тот же тип. Это позволяет поддерживать дополнительные типы данных путем определения дополнительных наборов операторов. Стратегии класса операторов inclusion требуют, чтобы оператор принимал первый аргумент типа STORAGE, а второй аргумент типа данных столбца таблицы. Смотрите float4_minmax_ops в качестве примера расширения minmax, а также box_inclusion_ops в качестве примера расширения inclusion.

Параллельный контроль

В этой главе описывается поведение СУБД QHB, когда две или более сессий пытаются одновременно обратиться к одним и тем же данным. Задачи, стоящие перед СУБД в такой ситуации: обеспечить высокопроизводительный доступ к данным и сохранить их целостность. Материал данной статьи будет полезен всем разработчикам приложений баз данных.

Многоверсионная модель

QHB предоставляет разработчикам богатый набор инструментов для управления конкурентным доступом к данным. Внутренняя согласованность данных поддерживается с помощью многоверсионной модели (Multiversion Concurrency Control, MVCC). Она устроена таким образом, что в ходе исполнения каждой SQL-команды СУБД видит данные базы как бы "замороженными", определённой версии. Из этого следует, что те данные, которые были изменены или добавлены в ходе параллельной работы других транзакций, не нарушают целостности нашего представления о данных. MVCC, отказываясь от методологий блокировки традиционных систем баз данных, сводит к минимуму конфликты блокировок, чтобы обеспечить разумную производительность в многопользовательских средах.

Основное преимущество использования MVCC-модели управления параллелизмом, а не блокировок, состоит в том, что в MVCC блокировки, полученные для чтения данных, не конфликтуют с блокировками, взятыми для записи данных, а потому чтение никогда не блокирует запись, а запись чтение. QHB обеспечивает эту гарантию даже при использовании самого строгого уровня изоляции транзакций за счет использования Serializable Snapshot Isolation (SSI).

Средства блокировки на уровне таблиц и строк также доступны в QHB для приложений, которые обычно не нуждаются в полной изоляции транзакций и предпочитают явно управлять конкретными точками конфликта. Однако правильное использование MVCC обычно обеспечивает лучшую производительность, чем блокировки. Кроме того, определяемые приложением консультативные блокировки предоставляют механизм для получения блокировок, которые не привязаны к одной транзакции.

Изоляция транзакций

Стандарт SQL определяет четыре уровня изоляции транзакций. Наиболее строгим является Serializable, который определяется таким образом, что любое одновременное выполнение набора из нескольких Serializable транзакций гарантированно даст тот же эффект, что и запуск их по одному. Три других уровня определены в терминах явлений, возникающих в результате взаимодействия между параллельными транзакциями, которые не должны происходить на каждом уровне. Стандарт отмечает, что из-за определения Serializable, ни одно из этих явлений невозможно на этом уровне. (В этом нет ничего удивительного -- если эффект транзакций должен соответствовать тому, что они выполнялись по одному, как вы можете наблюдать какие-либо явления, вызванные их взаимодействием?)

Явления, которые запрещены на разных уровнях:

Грязное чтение (Dirty read). Транзакция считывает данные, которые были записаны в результате выполнения параллельной незафиксированной транзакции.
Неповторяемое чтение (Non-repeatable read). Транзакция считывает ранее прочитанные данные и замечает, что данные были изменены другой транзакцией (завершённой после первого чтения).
Фантомное чтение (Phantom read). Транзакция повторно выполняет запрос, возвращающий набор строк для некоторого условия и обнаруживает, что набор строк, удовлетворяющих условию, изменился из-за транзакции, завершившейся за это время.
Аномалии сериализации (Serialization anomaly). Результат успешной фиксации (commiting) группы транзакций оказывается несогласованным (inconsistent), отличающимся от результата полученного в ходе последовательного выполнения этих транзакций, независимо от порядка их выполнения. Результат успешной фиксации (commiting) группы транзакций конкурентно оказывается отличным от результата успешной фиксации группы транзаций выполнявшихся последовательно.

Уровни изолияции транзакций, описанные в стандарте SQL и реализованные в QHB:

Уровень изоляции	Грязное чтение	Неповторимое чтение	Фантомное чтение	Аномалия сериализации
Read uncommitted	Разрешено, но не в QHB	Возможно	Возможно	Возможно
Read committed	Невозможно	Возможно	Возможно	Возможно
Repeatable read	Невозможно	Невозможно	Разрешено, но не в QHB	Возможно
Serializable	Невозможно	Невозможно	Невозможно	Невозможно

В QHB вы можете запросить любой из четырех стандартных уровней изоляции транзакций, но внутренне реализованы только три различных уровня изоляции, то есть режим Read Uncommitted в QHB ведет себя как Read Committed. Это связано с тем, что это единственный разумный способ сопоставить стандартные уровни изоляции с архитектурой многоверсионного управления QHB.

Из таблицы также видно, что реализация Repeatable Read в QHB не позволяет выполнять фантомные чтения. Стандарт SQL допускает более строгое поведение: четыре уровня изоляции определяют только то, какие явления не должны происходить, а какие нет. Поведение доступных уровней изоляции подробно описано в следующих подразделах.

Чтобы установить уровень изоляции транзакции, используйте команду SET TRANSACTION.

Важно
Некоторые типы данных и функции QHB имеют специальные правила, касающиеся поведения транзакций. В частности, изменения, внесенные в последовательность (и, следовательно, счетчик столбца, объявленного с использованием serial), сразу видны всем другим транзакциям и не отменяются, если транзакция, которая внесла изменения, прерывается. См. главы Функции управления последовательностями и Серийные типы.

Уровень изоляции Read Committed

Read Committed - уровень изоляции по умолчанию в QHB. Когда транзакция использует этот уровень изоляции, запрос SELECT (без предложения FOR UPDATE/SHARE) видит только данные, зафиксированные до начала запроса; он никогда не видит ни незафиксированные данные, ни изменения, зафиксированные во время выполнения запроса параллельными транзакциями. По сути, запрос SELECT видит снимок базы в моменте, данные с начала выполнения запроса. Однако SELECT видит результаты предыдущих обновлений, выполненных в его собственной транзакции, даже если они еще не зафиксированы (commited). Также обратите внимание, что две последовательные команды SELECT могут видеть разные данные, даже если они находятся в пределах одной транзакции, если другие транзакции производят изменения данных после запуска первого SELECT и до запуска второго SELECT.

Команды UPDATE, DELETE, SELECT FOR UPDATE и SELECT FOR SHARE ведут себя так же, как и SELECT, в плане поиска целевых строк: они будут находить только те целевые строки, которые были зафиксированы на момент запуска команды. Однако такая целевая строка, возможно, уже была обновлена, удалена или заблокирована другой параллельной транзакцией к моменту ее обнаружения. В этом случае запланированное изменение будет дожидаться фиксации (commit) конкурентной трнзакции или отмены (rollback) если та ещё выполняется. Если конкурирующая транзакция откатывается (rollback), текущая транзакция может продолжить изменения полученной строки (конкурирующая её не изменила). Если конкурирующая транзакция зафиксировалась, но в результате её работы строка была удалена -- она будет проигнорирована; в противном случае она будет получена заново с повторной проверкой условия WHERE. Применительно к SELECT FOR UPDATE и SELECT FOR SHARE это означает, что обновлённая версия строки блокируется и возвращается клиенту.

INSERT с предложением ON CONFLICT DO UPDATE ведёт себя схожим образом: в режиме Read Commited каждая строка, предлагаемая для вставки, будет либо вставлена, либо изменена. Если не возникает несвязных ошибок, гарантируется один из двух исходов: если конфликт вызван конкурирующей транзакцией, результат который пока недоступен INSERT, UPDATE подействует на эту строку несмотря на то, что эта команда не должна видеть никакую версию этой строки.

INSERT с предложением ON CONFLICT DO NOTHING может привести к тому, что вставка не будет продолжена для строки из-за результата другой транзакции, эффекты которой не видны для снимка INSERT. Опять же, это характерно только для уровня Read Committed.

В силу вышеприведенных правил, команда обновления может увидеть несогласованное (inconsistent) состояние: она может видеть результаты выполнения конкурирующей команды. Вследствие этого, уровень Read Commited не подходит для команд со сложным сценарием поиска; однако, он вполне пригоден для простых случаев:

BEGIN;
UPDATE accounts SET balance = balance + 100.00 WHERE acctnum = 12345;
UPDATE accounts SET balance = balance - 100.00 WHERE acctnum = 7534;
COMMIT;

Если две такие транзакции одновременно пытаются изменить остаток на счете 12345, мы явно хотим, чтобы вторая транзакция началась с обновленной версии строки счета. Поскольку каждая команда влияет только на заранее определенную строку, ее отображение в обновленной версии строки не создает несогласованности.

Более сложное использование может привести к нежелательным результатам в режиме Read Committed. Например, рассмотрим команду DELETE работающую с данными, которые добавляются и удаляются согласно условиям другой командой, например, предположим, что website представляет собой таблицу из двух строк, где website.hits равны 9 и 10 :

BEGIN;
UPDATE website SET hits = hits + 1;
-- run from another session:  DELETE FROM website WHERE hits = 10;
COMMIT;

DELETE не сможет произвести удаление записей до момента фиксации транзакции. Запись с website.hits = 9 до выполнения UPDATE не будет подходить под условие DELETE, а вторая запись, с website.hits = 10 будет заблокирована до момента фиксации. После фиксации первой транзакции, первая запись получит website.hits = 10 и будет удалена во второй транзации.

Поскольку режим Read Committed запускает каждую команду с новым моментальным снимком, который включает в себя все транзакции, зафиксированные до этого момента, последующие команды в той же транзакции в любом случае будут видеть результаты совершенной параллельной транзакции.

Частичная изоляция транзакций, обеспечиваемая режимом Read Committed, подходит для многих приложений, и этот режим быстр и прост в использовании; однако, этого недостаточно для всех случаев. Приложениям, которые выполняют сложные запросы и обновления, может потребоваться более строго согласованное представление базы данных, чем обеспечивает режим Read Committed.

Уровень изоляции Repeatable Read

Уровень изоляции Repeatable Read видит только данные, зафиксированные до начала транзакции; он никогда не видит ни незафиксированные данные, ни изменения, зафиксированные во время выполнения транзакций параллельными транзакциями. (Тем не менее, запрос видит результаты предыдущих обновлений, выполненных в его собственной транзакции, даже если эти изменения еще не зафиксированы.) Это более надежная гарантия, чем требуется стандартом SQL для этого уровня изоляции, и предотвращает все явления описано в таблице 1 за исключением аномалий сериализации. Как упомянуто выше, это специально разрешено стандартом, который описывает только минимальную защиту, которую должен обеспечивать каждый уровень изоляции.

Этот уровень отличается от Read Committed тем, что запрос в повторяемой транзакции чтения видит моментальный снимок в начале первого оператора, не являющегося элементом управления транзакцией в транзакции, а не в начале текущего оператора в транзакции. Таким образом, последовательные команды SELECT в одной транзакции видят одни и те же данные, т.е. они не видят изменений, внесенных другими транзакциями, зафиксированными после запуска их собственной транзакции.

Приложения, использующие этот уровень, должны быть готовы повторить транзакции из-за ошибок сериализации.

Команды UPDATE, DELETE, SELECT FOR UPDATE и SELECT FOR SHARE ведут себя так же, как и команды SELECT с точки зрения поиска целевых строк: они найдут только целевые строки, которые были зафиксированы на момент начала транзакции. Однако такая целевая строка, возможно, уже была обновлена (или удалена, или заблокирована) другой параллельной транзакцией к моменту ее обнаружения. В этом случае повторяемая транзакция чтения будет ожидать, когда первая обновляющая транзакция будет зафиксирована или откатана (если она все еще выполняется). Если первый модуль обновления откатывается назад, то его эффекты сводятся на нет, и повторяемая транзакция чтения может продолжить обновление первоначально найденной строки. Но если первый обновитель фиксирует (и фактически обновил или удалил строку, а не просто заблокировал ее), то повторяемая транзакция чтения будет откатана с сообщением

ERROR:  could not serialize access due to concurrent update

потому что повторяемая транзакция чтения не может изменять или блокировать строки, измененные другими транзакциями после начала повторяемой транзакции чтения.

Когда приложение получает это сообщение об ошибке, оно должно прервать текущую транзакцию и повторить всю транзакцию с самого начала. Во второй раз транзакция увидит ранее зафиксированное изменение как часть своего начального представления базы данных, поэтому нет логического конфликта при использовании новой версии строки в качестве отправной точки для обновления новой транзакции.

Обратите внимание, что только обновление транзакций может потребоваться повторить; Транзакции только для чтения никогда не будут иметь конфликтов сериализации.

Режим повторяемого чтения обеспечивает строгую гарантию того, что каждая транзакция видит полностью стабильное представление базы данных. Тем не менее, это представление не всегда будет соответствовать последовательному (по одному) выполнению параллельных транзакций одного и того же уровня. Например, даже транзакция только для чтения на этом уровне может видеть контрольную запись, обновленную, чтобы показать, что пакет был завершен, но не увидеть одну из подробных записей, которая логически является частью пакета, потому что она прочитала более раннюю версию контрольной записи., Попытки обеспечить выполнение бизнес-правил транзакциями, выполняющимися на этом уровне изоляции, вряд ли будут работать правильно без осторожного использования явных блокировок для блокировки конфликтующих транзакций.

Уровень изоляции Serializable

Уровень изоляции Serializable обеспечивает самую строгую изоляцию транзакций. Этот уровень эмулирует выполнение последовательных транзакций для всех зафиксированных транзакций; как если бы транзакции были выполнены одна за другой, поочередно, а не одновременно. Однако, как и уровень повторяемого чтения, приложения, использующие этот уровень, должны быть готовы повторить транзакции из-за сбоев сериализации. Фактически, этот уровень изоляции работает точно так же, как и Repeatable Read, за исключением того, что он отслеживает условия, которые могут привести к тому, что выполнение параллельного набора сериализуемых транзакций будет вести себя не так, как все возможные последовательные (по одному) выполнения этих транзакций. Этот мониторинг не вводит каких-либо блокировок, кроме присутствующих в повторяющемся чтении, но есть некоторые накладные расходы на мониторинг, и обнаружение условий, которые могут вызвать аномалию сериализации, вызовет сбой сериализации .

В качестве примера рассмотрим таблицу mytab, изначально содержащую:

class | value
------+-------
    1 |    10
    1 |    20
    2 |   100
    2 |   200

Предположим, что сериализуемая транзакция A вычисляет:

SELECT SUM(value) FROM mytab WHERE class = 1;

а затем вставляет результат 30 в качестве value в новую строку с class = 2. Одновременно сериализуемая транзакция B вычисляет:

SELECT SUM(value) FROM mytab WHERE class = 2;

и получает результат 300, который он вставляет в новую строку с class = 1. Затем обе транзакции пытаются зафиксировать. Если какая-либо транзакция выполняется на уровне изоляции Repeatable Read, обеим будет разрешено зафиксировать; но поскольку последовательный порядок выполнения не согласуется с результатом, использование сериализуемых транзакций позволит зафиксировать одну транзакцию и откатит другую с этим сообщением:

ERROR:  could not serialize access due to read/write dependencies among transactions

Это потому, что если бы A выполнилась до B, B вычислила бы сумму 330, а не 300, и аналогично другой порядок привел бы к другой сумме, вычисленной A.

Если для предотвращения аномалий Вы используете уровень изоляции Serializable, то важно помнить, что данные постоянной(persistant) пользовательской таблицы не явлются валидными до того момента, пока не произойдёт фиксация транзакцией. Это верно в том числе и для транзакций, которые выполняют только чтение, за исключением ситуаций, когда данные читаются отложенной(deffer)

Если вы используете уровень изоляции Serializable для предотвращения аномалий, важно, чтобы любые данные, считанные из постоянной пользовательской таблицы, не считались действительными до тех пор, пока производящая их транзакция не была успешно зафиксирована. Это верно даже для read-only транзакций, за исключением того, что данные, считанные в отложенной транзакции только для чтения, как известно, действительны, как только они прочитаны, потому что такая транзакция ожидает, пока она не сможет получить моментальный снимок, гарантированный свободный от такого проблемы, прежде чем начать читать какие-либо данные. Во всех других случаях приложения не должны зависеть от результатов, прочитанных во время транзакции, которая впоследствии была прервана; вместо этого они должны повторить транзакцию, пока она не завершится успешно.

Чтобы гарантировать истинную сериализуемость, QHB использует блокировку предикатов, что означает, что он сохраняет блокировки, которые позволяют ему определять, когда запись повлияла бы на результат предыдущего чтения из параллельной транзакции, если бы она выполнялась первой. В QHB эти блокировки не вызывают блокировку и, следовательно, не могут играть какую-либо роль в возникновении тупика. Они используются для идентификации и пометки зависимостей между параллельными сериализуемыми транзакциями, которые в определенных комбинациях могут привести к аномалиям сериализации. В отличие от транзакции Read Committed или Repeatable Read, которая хочет обеспечить согласованность данных, может потребоваться снять блокировку всей таблицы, что может заблокировать других пользователей, пытающихся использовать эту таблицу, или использовать SELECT FOR UPDATE или SELECT FOR SHARE который не только может заблокировать другие транзакции, но и вызвать доступ к диску.

Блокировки предикатов в QHB, как и в большинстве других систем баз данных, основаны на данных, фактически доступных транзакции. Они будут отображаться в системном представлении pg_locks в mode SIReadLock . Конкретные блокировки, полученные во время выполнения запроса, будут зависеть от плана, используемого запросом, и несколько более мелких блокировок (например, блокировок кортежей) могут быть объединены в меньшее количество более грубых блокировок (например, блокировок страниц) в течение транзакция для предотвращения исчерпания памяти, используемой для отслеживания блокировок. Транзакция READ ONLY может освободить свои блокировки SIRead до завершения, если обнаружит, что по-прежнему не может возникнуть конфликтов, которые могут привести к аномалии сериализации. Фактически транзакции READ ONLY часто могут установить этот факт при запуске и избежать каких-либо предикатных блокировок. Если вы явно запросите SERIALIZABLE READ ONLY DEFERRABLE, она будет блокирована, пока не сможет установить этот факт. (Это единственный случай, когда сериализуемые транзакции блокируют, а повторяющиеся транзакции чтения не делают.) С другой стороны, блокировки SIRead часто необходимо сохранять после принятия транзакции до тех пор, пока не завершатся перекрывающиеся транзакции чтения-записи.

Последовательное использование сериализуемых транзакций может упростить разработку. Гарантия того, что любой набор успешно совершенных параллельных сериализуемых транзакций будет иметь такой же эффект, как если бы они выполнялись по одной за раз, означает, что если вы сможете продемонстрировать, что отдельная транзакция, как написано, будет работать правильно при запуске сама по себе, вы может быть уверен, что он будет действовать правильно в любой комбинации сериализуемых транзакций, даже без какой-либо информации о том, что эти другие транзакции могут сделать, или он не будет успешно зафиксирован. Важно, чтобы среда, в которой используется этот метод, имела обобщенный способ обработки ошибок сериализации (которые всегда возвращаются со значением SQLSTATE ’40001’), поскольку будет очень сложно предсказать, какие именно транзакции могут способствовать чтению / записи. зависимости и необходимо откатить, чтобы предотвратить сериализацию аномалий. Мониторинг зависимостей чтения / записи имеет свою стоимость, также как и перезапуск транзакций, которые завершаются с ошибкой сериализации, но сбалансированы с затратами и блокировками, связанными с использованием явных блокировок и SELECT FOR UPDATE или SELECT FOR SHARE Сериализуемые транзакции лучший выбор производительности для некоторых сред.

Хотя уровень изоляции Sergizable в QHB позволяет фиксировать параллельные транзакции только в том случае, если он может доказать, что существует последовательный порядок выполнения, который даст тот же эффект, он не всегда предотвращает возникновение ошибок, которые не возникнут при истинном последовательном выполнении., В частности, можно увидеть уникальные нарушения ограничений, вызванные конфликтами с перекрывающимися сериализуемыми транзакциями, даже после явной проверки отсутствия ключа перед попыткой его вставки. Этого можно избежать, убедившись, что все сериализуемые транзакции, которые вставляют потенциально конфликтующие ключи, явно проверяют, могут ли они сделать это в первую очередь. Например, представьте приложение, которое запрашивает у пользователя новый ключ, а затем проверяет, что его еще не существует, сначала пытаясь выбрать его, или генерирует новый ключ, выбирая максимально существующий ключ и добавляя его. Если некоторые сериализуемые транзакции вставляют новые ключи напрямую, не следуя этому протоколу, нарушения уникальных ограничений могут быть зарегистрированы даже в тех случаях, когда они не могут произойти при последовательном выполнении параллельных транзакций.

Для обеспечения оптимальной производительности при использовании параллельных транзакций для управления параллелизмом следует учитывать следующие проблемы:

Объявите транзакции READ ONLY когда это возможно.
Управляйте количеством активных соединений, используя пул соединений, если это необходимо. Это всегда важный фактор производительности, но он может быть особенно важен в загруженной системе с использованием сериализуемых транзакций.
Не вкладывайте в одну транзакцию больше, чем необходимо для обеспечения целостности.
Не оставляйте соединения висящими « бездействующими в транзакции » дольше, чем это необходимо. Параметр конфигурации idle_in_transaction_session_timeout может использоваться для автоматического отключения длительных сеансов.
Устраните явные блокировки, SELECT FOR UPDATE и SELECT FOR SHARE где они больше не нужны, благодаря защитам, автоматически предоставляемым сериализуемыми транзакциями.
Когда система вынуждена объединять несколько блокировок предикатов на уровне страниц в одну блокировку предикатов на уровне отношений, поскольку в таблице блокировок предикатов не хватает памяти, может произойти увеличение частоты сбоев сериализации. Вы можете избежать этого, увеличив max_pred_locks_per_transaction, max_pred_locks_per_relation и / или max_pred_locks_per_page.
Последовательное сканирование всегда требует блокировки предиката на уровне отношений. Это может привести к увеличению частоты сбоев сериализации. Может быть полезно поощрять использование сканирования индекса путем уменьшения random_page_cost и / или увеличения cpu_tuple_cost. Обязательно сопоставьте любое уменьшение откатов транзакций и перезапусков с любым общим изменением времени выполнения запроса.

Явная блокировка

QHB предоставляет различные режимы блокировки для управления одновременным доступом к данным в таблицах. Эти режимы могут использоваться для управляемой приложением блокировки в ситуациях, когда MVCC не дает желаемого поведения. Кроме того, большинство команд QHB автоматически получают блокировки соответствующих режимов, чтобы гарантировать, что ссылочные таблицы не будут удалены или изменены несовместимыми способами во время выполнения команды. (Например, TRUNCATE не может безопасно выполняться одновременно с другими операциями в той же таблице, поэтому он получает эксклюзивную блокировку для таблицы, чтобы обеспечить это.)

Чтобы просмотреть список текущих незавершенных блокировок на сервере базы данных, используйте системное представление pg_locks. Для получения дополнительной информации о мониторинге состояния подсистемы диспетчера блокировки см. Главу 27 .

Блокировки на уровне таблицы

В приведенном ниже списке показаны доступные режимы блокировки и контексты, в которых они автоматически используются QHB. Вы также можете получить любую из этих блокировок явно с помощью команды LOCK. Помните, что все эти режимы блокировки являются блокировками на уровне таблицы, даже если имя содержит слово « строка » ; Названия режимов блокировки являются историческими. В некоторой степени имена отражают типичное использование каждого режима блокировки - но семантика все та же. Единственное реальное различие между одним режимом блокировки и другим - это набор режимов блокировки, с которыми конфликтует каждый (см. Таблицу 2). Две транзакции не могут одновременно удерживать блокировки конфликтующих режимов на одной и той же таблице. (Однако транзакция никогда не конфликтует сама с собой. Например, она может получить блокировку ACCESS EXCLUSIVE а затем получить блокировку ACCESS SHARE для той же таблицы.) Бесконфликтные режимы блокировки могут одновременно поддерживаться многими транзакциями. Обратите внимание, в частности, на то, что некоторые режимы блокировки являются конфликтующими друг с другом (например, блокировка ACCESS EXCLUSIVE не может удерживаться более чем одной транзакцией одновременно), в то время как другие не являются конфликтующими друг с другом (например, блокировка ACCESS SHARE может удерживаться несколько транзакций).

Режимы блокировки на уровне таблицы

ACCESS SHARE

Конфликтует только с режимом блокировки ACCESS EXCLUSIVE .

Команда SELECT получает блокировку этого режима для ссылочных таблиц. В общем, любой запрос, который только читает таблицу и не изменяет ее, получает этот режим блокировки.

ROW SHARE

Конфликты с режимами блокировки EXCLUSIVE и ACCESS EXCLUSIVE .

Команды SELECT FOR UPDATE и SELECT FOR SHARE получают блокировку этого режима для целевых таблиц (в дополнение к блокировкам ACCESS SHARE для любых других таблиц, на которые есть ссылки, но не выбранных FOR UPDATE/FOR SHARE ).

ROW EXCLUSIVE

Конфликты с режимами блокировки SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE .

Команды UPDATE, DELETE и INSERT получают этот режим блокировки для целевой таблицы (в дополнение к блокировкам ACCESS SHARE для любых других ссылочных таблиц). В общем, этот режим блокировки будет активирован любой командой, которая изменяет данные в таблице.

SHARE UPDATE EXCLUSIVE

Конфликты с режимами блокировки SHARE UPDATE EXCLUSIVE, SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE. Этот режим защищает таблицу от одновременных изменений схемы и VACUUM .

Приобретен VACUUM (без FULL ), CREATE INDEX CONCURRENTLY, REINDEX CONCURRENTLY CREATE INDEX CONCURRENTLY, REINDEX CONCURRENTLY CREATE STATISTICS, а также некоторые варианты ALTER INDEX и ALTER TABLE (для полной информации см. ALTER INDEX и ALTER TABLE ).

SHARE

Конфликты с режимами блокировки ROW EXCLUSIVE, SHARE UPDATE EXCLUSIVE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE. Этот режим защищает таблицу от одновременных изменений данных.

Приобретен по CREATE INDEX (без одновременного CONCURRENTLY ).

SHARE ROW EXCLUSIVE

Конфликты с режимами блокировки ROW EXCLUSIVE, SHARE UPDATE EXCLUSIVE, SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE. Этот режим защищает таблицу от одновременных изменений данных и является самоисключающим, так что только один сеанс может удерживать его одновременно.

Приобретено CREATE TRIGGER и некоторыми формами ALTER TABLE (см. ALTER TABLE ).

EXCLUSIVE

Конфликты с режимами блокировки ROW SHARE, ROW EXCLUSIVE, SHARE UPDATE EXCLUSIVE, SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE. Этот режим допускает только одновременные блокировки ACCESS SHARE, т. ACCESS SHARE Только чтение из таблицы может выполняться параллельно с транзакцией, удерживающей этот режим блокировки.

Приобретен REFRESH MATERIALIZED VIEW CONCURRENTLY .

ACCESS EXCLUSIVE

Конфликтует с блокировками всех режимов ( ACCESS SHARE, ROW SHARE, ROW EXCLUSIVE, SHARE UPDATE EXCLUSIVE, SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE и ACCESS EXCLUSIVE ). Этот режим гарантирует, что держатель является единственной транзакцией, которая имеет доступ к таблице любым способом.

Получено REINDEX DROP TABLE, TRUNCATE, REINDEX, CLUSTER, VACUUM FULL и REFRESH MATERIALIZED VIEW (без CONCURRENTLY ). Многие формы ALTER INDEX и ALTER TABLE также получают блокировку на этом уровне. Это также режим блокировки по умолчанию для операторов LOCK TABLE которые не указывают режим явно.

Заметка
Только блокировка ACCESS EXCLUSIVE блокирует SELECT (без FOR UPDATE/SHARE).

После получения блокировка обычно удерживается до конца транзакции. Но если блокировка получена после установления точки сохранения, блокировка снимается немедленно, если точка отката возвращается к. Это согласуется с принципом, что ROLLBACK отменяет все эффекты команд, начиная с точки сохранения. То же самое относится и к блокировкам, полученным в блоке исключений PL/pgSQL: сбой ошибки из блока освобождает блокировки, полученные внутри него.

Таблица 2. Конфликтующие режимы блокировки

Запрошенный режим блокировки	Текущий режим блокировки
Запрошенный режим блокировки	ACCESS SHARE	ROW SHARE	ROW EXCLUSIVE	SHARE UPDATE EXCLUSIVE	SHARE	SHARE ROW EXCLUSIVE	EXCLUSIVE	ACCESS EXCLUSIVE
ACCESS SHARE								X
ROW SHARE							X	X
ROW EXCLUSIVE					X	X	X	X
SHARE UPDATE EXCLUSIVE				X	X	X	X	X
SHARE			X	X		X	X	X
SHARE ROW EXCLUSIVE			X	X	X	X	X	X
EXCLUSIVE		X	X	X	X	X	X	X
ACCESS EXCLUSIVE	X	X	X	X	X	X	X	X

Блокировки на уровне строк

В дополнение к блокировкам на уровне таблиц существуют блокировки на уровне строк, которые перечислены ниже с контекстами, в которых они автоматически используются QHB. См. Таблицу 3 для полной таблицы конфликтов блокировки на уровне строк. Обратите внимание, что транзакция может содержать конфликтующие блокировки в одной и той же строке, даже в разных субтранзакциях; но кроме этого, две транзакции не могут содержать конфликтующие блокировки в одной строке. Блокировки на уровне строк не влияют на запросы данных; они блокируют только писателей и шкафчиков в одном ряду.

Режимы блокировки на уровне строк

FOR UPDATE

FOR UPDATE блокирует строки, извлеченные SELECT как если бы они были обновлены. Это предотвращает их блокировку, изменение или удаление другими транзакциями до завершения текущей транзакции. То есть другие транзакции, в которых предпринимаются попытки UPDATE, DELETE, SELECT FOR UPDATE, SELECT FOR NO KEY UPDATE, SELECT FOR SHARE или SELECT FOR KEY SHARE этих строк, будут заблокированы до завершения текущей транзакции; и наоборот, SELECT FOR UPDATE будет ожидать параллельной транзакции, которая выполнила любую из этих команд в той же строке, а затем заблокирует и вернет обновленную строку (или не строку, если строка была удалена). Однако в REPEATABLE READ или SERIALIZABLE сообщение об ошибке, если строка, подлежащая блокировке, изменилась с момента запуска транзакции. Для дальнейшего обсуждения см. Раздел "Проверка согласованности данных на уровне приложения".

Режим блокировки FOR UPDATE также вызывается любым DELETE в строке, а также UPDATE который изменяет значения в определенных столбцах. В настоящее время для случая UPDATE рассматривается набор столбцов с уникальным индексом, который можно использовать во внешнем ключе (поэтому частичные индексы и экспрессивные индексы не учитываются), но это может измениться в будущем.

FOR NO KEY UPDATE

Ведет себя аналогично FOR UPDATE, за исключением того, что полученная блокировка слабее: эта блокировка не будет блокировать команды SELECT FOR KEY SHARE которые пытаются получить блокировку в тех же строках. Этот режим блокировки также активируется любым UPDATE которое не получает блокировку FOR UPDATE .

FOR SHARE

Ведет себя аналогично FOR NO KEY UPDATE, за исключением того, что он получает общую блокировку, а не монопольную блокировку для каждой извлеченной строки. Общая блокировка блокирует выполнение другими транзакциями UPDATE, DELETE, SELECT FOR UPDATE или SELECT FOR NO KEY UPDATE в этих строках, но не мешает им выполнять SELECT FOR SHARE или SELECT FOR KEY SHARE .

FOR KEY SHARE

Ведет себя аналогично FOR SHARE, за исключением того, что блокировка слабее: SELECT FOR UPDATE заблокирован, но не SELECT FOR NO KEY UPDATE. Совместная блокировка ключом блокирует выполнение другими транзакциями DELETE или любого UPDATE который изменяет значения ключа, но не другого UPDATE, и это также не предотвращает SELECT FOR NO KEY UPDATE, SELECT FOR SHARE или SELECT FOR KEY SHARE .

QHB не запоминает какую-либо информацию об измененных строках в памяти, поэтому не существует ограничений на количество строк, заблокированных за один раз. Однако блокировка строки может привести к записи на диск, например, SELECT FOR UPDATE изменяет выбранные строки, чтобы пометить их как заблокированные, и, следовательно, приведет к записи на диск.

Таблица 3. Конфликтующие блокировки на уровне строк

Запрошенный режим блокировки	Текущий режим блокировки
Запрошенный режим блокировки	FOR KEY SHARE	FOR SHARE	FOR NO KEY UPDATE	FOR UPDATE
FOR KEY SHARE				X
FOR SHARE			X	X
FOR NO KEY UPDATE		X	X	X
FOR UPDATE	X	X	X	X

Блокировки на уровне страницы

В дополнение к блокировкам таблиц и строк, общие / эксклюзивные блокировки на уровне страниц используются для управления доступом на чтение / запись к страницам таблицы в общем пуле буферов. Эти блокировки снимаются сразу после извлечения или обновления строки. Разработчикам приложений обычно не нужно беспокоиться о блокировках на уровне страниц, но они упомянуты здесь для полноты.

Взаимные блокировки

Использование явной блокировки может увеличить вероятность взаимоблокировок, при этом каждая из двух (или более) транзакций удерживает блокировки, которые нужны другой. Например, если транзакция 1 получает эксклюзивную блокировку для таблицы A, а затем пытается получить эксклюзивную блокировку для таблицы B, в то время как транзакция 2 уже имеет эксклюзивную блокировку таблицы B и теперь хочет получить эксклюзивную блокировку для таблицы A, ни одна из них не может продолжить, QHB автоматически обнаруживает тупиковые ситуации и разрешает их, прерывая одну из задействованных транзакций, позволяя другим завершить. (Точно, какая транзакция будет прервана, трудно предсказать, и на нее не следует полагаться.)

Обратите внимание, что взаимные блокировки также могут возникать в результате блокировок на уровне строк (и, следовательно, они могут возникать, даже если явная блокировка не используется). Рассмотрим случай, когда две параллельные транзакции изменяют таблицу. Первая транзакция выполняет:

UPDATE accounts SET balance = balance + 100.00 WHERE acctnum = 11111;

Это получает блокировку на уровне строк в строке с указанным номером учетной записи. Затем вторая транзакция выполняет:

UPDATE accounts SET balance = balance + 100.00 WHERE acctnum = 22222;
UPDATE accounts SET balance = balance - 100.00 WHERE acctnum = 11111;

Первый оператор UPDATE успешно получает блокировку на уровне строк в указанной строке, поэтому он успешно обновляет эту строку. Однако второй оператор UPDATE обнаруживает, что строка, которую он пытается обновить, уже заблокирована, поэтому он ожидает завершения транзакции, получившей блокировку. Вторая транзакция теперь ожидает завершения первой транзакции, прежде чем продолжить выполнение. Теперь транзакция 1 выполняет:

UPDATE accounts SET balance = balance - 100.00 WHERE acctnum = 22222;

Транзакция 1 пытается получить блокировку на уровне строки в указанной строке, но не может: транзакция 2 уже удерживает такую блокировку. Поэтому он ожидает завершения транзакции 2. Таким образом, транзакция 1 блокируется в транзакции 2, а транзакция 2 блокируется в транзакции 1: условие взаимоблокировки. QHB обнаружит эту ситуацию и прервет одну из транзакций.

Лучшая защита от взаимных блокировок, как правило, состоит в том, чтобы избежать их, будучи уверенным, что все приложения, использующие базу данных, получают блокировки для нескольких объектов в согласованном порядке. В приведенном выше примере, если обе транзакции обновили строки в одном и том же порядке, тупиковая ситуация не возникла бы. Следует также убедиться, что первая блокировка, полученная для объекта в транзакции, является наиболее ограничительным режимом, который будет необходим для этого объекта. Если это невозможно проверить заранее, то взаимные блокировки могут быть обработаны на лету, повторяя транзакции, которые прерываются из-за взаимных блокировок.

До тех пор, пока не будет обнаружена ситуация взаимоблокировки, транзакция, ищущая блокировку на уровне таблицы или на уровне строки, будет бесконечно долго ожидать освобождения конфликтующих блокировок. Это означает, что для приложений плохая идея держать транзакции открытыми в течение длительных периодов времени (например, во время ожидания ввода данных пользователем).

Консультативные блокировки

QHB предоставляет средства для создания блокировок, которые имеют значения, определенные приложением. Они называются консультативными блокировками, потому что система не навязывает их использование - это зависит от приложения, чтобы использовать их правильно. Консультативные блокировки могут быть полезны для стратегий блокировки, которые неудобно подходят для модели MVCC. Например, обычное использование консультативных блокировок состоит в том, чтобы эмулировать стратегии пессимистической блокировки, типичные для так называемых систем управления данными « плоских файлов ». Хотя флаг, хранящийся в таблице, можно использовать для той же цели, консультативные блокировки быстрее, избегают раздувания таблиц и автоматически очищаются сервером в конце сеанса.

Есть два способа получить консультативную блокировку в QHB : на уровне сеанса или на уровне транзакции. После получения на уровне сеанса консультативная блокировка удерживается до тех пор, пока явно не будет снята или сеанс не завершится. В отличие от стандартных запросов на блокировку, запросы на консультативную блокировку на уровне сеанса не учитывают семантику транзакции: блокировка, полученная во время обратной транзакции, будет по-прежнему удерживаться после отката, и аналогично разблокировка эффективна, даже если вызывающая транзакция завершится неудачей позже. Блокировка может быть получена несколько раз в процессе ее владения; для каждого выполненного запроса на блокировку должен быть соответствующий запрос на разблокировку до фактического снятия блокировки. С другой стороны, запросы на блокировку на уровне транзакции ведут себя больше как обычные запросы на блокировку: они автоматически освобождаются в конце транзакции и явной операции разблокировки не выполняется. Такое поведение часто более удобно, чем поведение на уровне сеанса, для кратковременного использования консультативной блокировки. Запросы на уровне сеанса и на уровне транзакции для одного и того же идентификатора консультативной блокировки будут блокировать друг друга ожидаемым образом. Если сеанс уже удерживает данную консультативную блокировку, дополнительные запросы от него всегда будут успешными, даже если другие сеансы ожидают блокировки; это утверждение верно независимо от того, находится ли существующая блокировка блокировки и новый запрос на уровне сеанса или уровне транзакции.

Как и все блокировки в QHB, полный список консультативных блокировок, удерживаемых в настоящее время любым сеансом, можно найти в системном представлении pg_locks .

Как консультативные, так и обычные блокировки хранятся в пуле общей памяти, размер которой определяется переменными конфигурации max_locks_per_transaction и max_connections. Необходимо соблюдать осторожность, чтобы не исчерпать эту память, иначе сервер вообще не сможет предоставить никаких блокировок. Это накладывает верхний предел на количество консультативных блокировок, предоставляемых сервером, обычно в пределах от десятков до сотен тысяч в зависимости от того, как настроен сервер.

В некоторых случаях, используя рекомендательные методы блокировки, особенно в запросах, включающих явное упорядочение и предложения LIMIT, необходимо соблюдать осторожность, чтобы контролировать блокировки, полученные из-за порядка, в котором оцениваются выражения SQL. Например:

SELECT pg_advisory_lock(id) FROM foo WHERE id = 12345; -- ok
SELECT pg_advisory_lock(id) FROM foo WHERE id > 12345 LIMIT 100; -- danger!
SELECT pg_advisory_lock(q.id) FROM
(
  SELECT id FROM foo WHERE id > 12345 LIMIT 100
) q; -- ok

В приведенных выше запросах вторая форма опасна, поскольку не гарантируется применение LIMIT до выполнения функции блокировки. Это может привести к получению некоторых блокировок, которые приложение не ожидает, и, следовательно, не сможет освободить (пока не завершится сеанс). С точки зрения приложения, такие блокировки были бы висячими, хотя все еще видимыми в pg_locks.

Функции, предоставляемые для управления консультативными блокировками, описаны в разделе Функции консультативных блокировок.

Проверка согласованности данных на уровне приложения

Очень сложно обеспечить соблюдение бизнес-правил в отношении целостности данных с использованием транзакций Read Committed, поскольку представление данных смещается с каждым оператором, и даже один оператор не может ограничиваться снимком оператора, если возникает конфликт записи.

Хотя транзакция Repeatable Read имеет стабильное представление данных на протяжении всего своего выполнения, существует небольшая проблема с использованием моментальных снимков MVCC для проверок согласованности данных, связанных с так называемыми конфликтами чтения / записи. Если одна транзакция записывает данные, а параллельная транзакция пытается прочитать те же данные (до или после записи), она не может увидеть работу другой транзакции. Читатель тогда, кажется, выполнил сначала независимо от того, который начался первым или который совершил первым. Если это так далеко, это не проблема, но если считыватель также записывает данные, которые считываются параллельной транзакцией, то теперь есть транзакция, которая, кажется, выполнялась перед любой из ранее упомянутых транзакций. Если транзакция, которая, по-видимому, выполнила последнюю, на самом деле фиксируется первой, цикл очень легко отобразить на графике порядка выполнения транзакций. Когда появляется такой цикл, проверки целостности не будут работать правильно без посторонней помощи.

Как показано в разделе Подзапросы, сериализуемые транзакции - это просто повторяющиеся транзакции чтения, которые добавляют неблокирующий мониторинг опасных шаблонов конфликтов чтения / записи. Когда обнаружен шаблон, который может вызвать цикл в видимом порядке выполнения, одна из задействованных транзакций откатывается, чтобы прервать цикл.

Обеспечение согласованности с сериализуемыми транзакциями

Если уровень изоляции Сериализуемой транзакции используется для всех записей и для всех операций чтения, которые требуют согласованного просмотра данных, никаких других усилий не требуется для обеспечения согласованности. Программное обеспечение из других сред, написанное для использования сериализуемых транзакций для обеспечения согласованности, должно « просто работать » в этом отношении в QHB .

При использовании этого метода, это позволит избежать ненужной нагрузки для прикладных программистов, если прикладное программное обеспечение проходит через среду, которая автоматически повторяет транзакции, которые откатываются с ошибкой сериализации. Это может быть хорошей идеей, чтобы установить default_transaction_isolation в serializable. Также было бы целесообразно предпринять некоторые действия, чтобы гарантировать, что никакой другой уровень изоляции транзакции не используется, либо непреднамеренно, либо для подрыва проверок целостности, посредством проверок уровня изоляции транзакции в триггерах.

Смотрите главу Подзапросы для предложений по производительности.

!!! Предупреждение

Этот уровень защиты целостности с использованием сериализуемых
транзакций еще не распространяется на режим горячего резервирования.
Из-за этого те, кто использует горячее резервирование,
могут хотеть использовать *Repeatable Read* и явную блокировку на главном.

Обеспечение согласованности с помощью явных блокирующих блокировок

Когда возможны несериализуемые записи, чтобы обеспечить текущую достоверность строки и защитить ее от одновременных обновлений, необходимо использовать SELECT FOR UPDATE, SELECT FOR SHARE или соответствующую инструкцию LOCK TABLE. ( SELECT FOR UPDATE и SELECT FOR SHARE блокируют только возвращенные строки от одновременных обновлений, в то время как LOCK TABLE блокирует всю таблицу.) Это следует учитывать при переносе приложений на QHB из других сред.

Для тех, кто конвертирует из других сред, также следует отметить тот факт, что SELECT FOR UPDATE не гарантирует, что параллельная транзакция не будет обновлять или удалять выбранную строку. Для этого в QHB вы должны обновить строку, даже если значения не нужно менять. SELECT FOR UPDATE временно блокирует другие транзакции от получения той же блокировки или выполнения UPDATE или DELETE которые могут повлиять на заблокированную строку, но как только транзакция, удерживающая эту блокировку, фиксирует или откатывает назад, заблокированная транзакция продолжит конфликтующую операцию, если только фактическое UPDATE ряда был выполнен, пока замок удерживался.

Глобальные проверки достоверности требуют дополнительного внимания при несериализуемых MVCC. Например, банковское приложение может захотеть проверить, что сумма всех кредитов в одной таблице равна сумме дебетов в другой таблице, когда обе таблицы активно обновляются. Сравнение результатов двух последовательных команд SELECT sum(...) не будет надежно работать в режиме Read Committed, поскольку второй запрос, скорее всего, будет включать результаты транзакций, не учитываемые первой. Выполнение двух сумм в одной повторяемой транзакции чтения даст точную картину только последствий транзакций, совершенных до начала повторяемой транзакции чтения, но можно с полным основанием задаться вопросом, актуален ли ответ к моменту его доставки. Если повторяемая транзакция чтения сама применила некоторые изменения перед попыткой проверки согласованности, полезность проверки становится еще более дискуссионной, поскольку теперь она включает некоторые, но не все изменения после запуска транзакции. В таких случаях осторожный человек может захотеть заблокировать все таблицы, необходимые для проверки, чтобы получить бесспорную картину текущей реальности. Блокировка в режиме SHARE (или выше) гарантирует отсутствие незафиксированных изменений в заблокированной таблице, кроме изменений в текущей транзакции.

Также обратите внимание, что если кто-то полагается на явную блокировку для предотвращения одновременных изменений, следует либо использовать режим Read Committed, либо в режиме Repeatable Read, будьте осторожны, чтобы получить блокировки перед выполнением запросов. Блокировка, полученная повторяемой транзакцией чтения, гарантирует, что никакие другие транзакции, модифицирующие таблицу, все еще не запущены, но если моментальный снимок, видимый транзакцией, предшествует получению блокировки, он может предшествовать некоторым уже зафиксированным изменениям в таблице. Снимок повторяющейся транзакции чтения фактически замораживается в начале первого запроса или команды изменения данных ( SELECT, INSERT, UPDATE или DELETE), поэтому можно явно получить блокировки до того, как моментальный снимок будет заморожен.

Ограничения

Некоторые команды DDL, в настоящее время только TRUNCATE и формы переписывания таблиц ALTER TABLE, не являются безопасными для MVCC. Это означает, что после фиксации усечения или перезаписи таблица будет отображаться пустой для одновременных транзакций, если они используют снимок, сделанный до принятия команды DDL. Это будет проблемой только для транзакции, которая не обращалась к рассматриваемой таблице до запуска команды DDL - любая сделавшая транзакция содержала бы по меньшей мере блокировку таблицы ACCESS SHARE, которая блокировала бы команду DDL до завершения этой транзакции. Таким образом, эти команды не вызовут каких-либо явных несоответствий в содержании таблицы для последовательных запросов к целевой таблице, но они могут вызвать видимое несоответствие между содержимым целевой таблицы и другими таблицами в базе данных.

Поддержка уровня изоляции Serializable транзакций еще не была добавлена к целям репликации с горячим резервированием. Самым строгим уровнем изоляции, поддерживаемым в настоящее время в режиме горячего резервирования, является Repeatable Read. Хотя выполнение всех постоянных операций записи в базу данных в рамках сериализуемых транзакций на главном сервере гарантирует, что все резервные серверы в конечном итоге достигнут согласованного состояния, транзакция повторного чтения, выполняемая в режиме ожидания, может иногда видеть переходное состояние, несовместимое с любым последовательным выполнением транзакций на мастере.

Блокировка и индексы

Хотя QHB обеспечивает блокирующий доступ на чтение / запись к данным таблицы, блокирующему доступ на чтение / записи в настоящее время не предлагаются для каждого метода доступа индекса осуществляется в QHB. Различные типы индексов обрабатываются следующим образом:

Индексы	Описание
Индексы	Краткосрочные блокировки / эксклюзивные блокировки на уровне страниц используются для доступа на чтение / запись. Блокировки снимаются сразу после извлечения или вставки каждой строки индекса. Эти типы индексов обеспечивают максимальный параллелизм без условий взаимоблокировки.
Хеш-индексы	Совместно используемые / эксклюзивные блокировки на уровне хеш-сегмента используются для доступа на чтение / запись. Замки снимаются после обработки всего ведра. Блокировки уровня сегмента обеспечивают лучший параллелизм, чем блокировки уровня индекса, но возможна взаимоблокировка, так как блокировки удерживаются дольше, чем одна операция индекса.
GIN индексы	Краткосрочные блокировки / эксклюзивные блокировки на уровне страниц используются для доступа на чтение / запись. Блокировки снимаются сразу после извлечения или вставки каждой строки индекса. Но обратите внимание, что вставка GIN-индексированного значения обычно приводит к нескольким вставкам индексного ключа на строку, поэтому GIN может выполнять существенную работу для вставки одного значения.

В настоящее время B-деревья предлагают лучшую производительность для параллельных приложений; поскольку они также имеют больше возможностей, чем хеш-индексы, они являются рекомендуемым типом индекса для параллельных приложений, которым необходимо индексировать скалярные данные. При работе с нескалярными данными B-деревья бесполезны, и вместо них следует использовать индексы GiST, SP-GiST или GIN.

Большие объекты

QHB имеет функцию больших объектов, которая обеспечивает потоковый доступ к пользовательским данным, хранящимся в специальной структуре больших объектов. Потоковый доступ полезен при работе со значениями данных, которые слишком велики, чтобы удобно манипулировать ими в целом.

В этой главе описываются реализация и интерфейсы языка программирования и запросов к данным больших объектов в QHB. Мы используем библиотеку libpq, которая написана на языке C для примеров в этой главе, но большинство программных интерфейсов, родных для QHB, поддерживают эквивалентную функциональность. Другие интерфейсы могут использовать интерфейс больших объектов для обеспечения универсальной поддержки больших значений. Это здесь не описано.

Краткая справка по большим объектам

Все большие объекты хранятся в одной системной таблице с именем pg_largeobject. Каждый крупный объект также имеет запись в системной таблице pg_largeobject_metadata. Большие объекты можно создавать, изменять и удалять с помощью API чтения и записи, аналогичного стандартным операциям с файлами.

QHB также поддерживает систему хранения под названием TOAST, которая автоматически сохраняет значения, превышающие одну страницу базы данных, во вторичную область хранения для каждой таблицы. Это делает систему больших объектов частично устаревшими. Одно из оставшихся преимуществ больших объектов заключается в том, что они позволяют использовать значения размером до 4 ТБ, в то время как TOAST поля могут быть не более 1 ГБ. Кроме того, чтение и обновление частей большого объекта может быть выполнено эффективно, в то время как большинство операций над поджаренным полем будут читать или записывать все значение как единицу измерения.

Особенности реализации

Реализация больших объектов разбивает большие объекты на "куски" и сохраняет их в строках таблиц в базе данных. B-дерево гарантирует быстрый поиск правильного номера чанка при выполнении операций чтения и записи с произвольным доступом.

Куски сохраненного большого объекта необязательно должны быть смежными. Например, если приложение открывает новый большой объект и запишет несколько байт по смещению 1000000 байт, это не приводит к выделению дополнительных 1000000 байт; изменятся только куски, охватывающие диапазон фактически записанных байтов данных. Однако операция чтения будет считывать нули для любых нераспределенных местоположений, предшествующих последнему существующему фрагменту. Это соответствует обычному поведению "разреженных" файлов в файловых системах Unix.

Клиентские интерфейсы

В этом разделе описываются средства, которые библиотека клиентского интерфейса libpq QHB предоставляет для доступа к большим объектам. Интерфейс больших объектов QHB похож на интерфейс файловой системы Unix, с аналогами open, read, write, lseek и прочим.

Все манипуляции с большими объектами, использующие эти функции, должны выполняться в блоке транзакций SQL, поскольку дескрипторы файлов больших объектов действительны только в течение транзакции.

Если при выполнении какой-либо функции возникает ошибка, то функция возвращает значение, в противном случае невозможное, обычно это 0 или -1. Сообщение, описывающее ошибку, хранится в объекте connection и может быть извлечено с помощью PQerrorMessage.

Клиентские приложения, использующие эти функции, должны включать файл заголовка libpq/libpq-fs.h и поставляться с библиотекой libpq.

Создание большого объекта

Функция

Oid lo_creat(PGconn *conn, int mode);

создает новый большой объект. Возвращаемое значение - это OID, присвоенный новому крупному объекту, или InvalidOid (ноль) при сбое (failure). Битовый аргумент mode определяет, будет ли объект открыт для чтения (INV_READ), записи (INV_WRITE), или и то и другое. (Эти символьные константы определены в заголовочном файле libpq/libpq-fs.х.)

Пример:

inv_oid = lo_creat(conn, INV_READ|INV_WRITE);

Функция

Oid lo_create(PGconn *conn, Oid lobjId);

также создает новый крупный объект. Назначаемый OID может быть задан с помощью lobjId; если этот OID уже используется для некоторого большого объекта, то происходит ошибка. Если lobjId является InvalidOid (ноль), тогда lo_create назначает неиспользуемый OID (это – то же самое поведение, что и lo_creat). Возвращаемое значение - это OID, присвоенный новому крупному объекту, или InvalidOid (ноль) при ошибке.

Пример:

inv_oid = lo_create(conn, desired_oid);

Импорт большого объекта

Чтобы импортировать файл из операционной системы в качестве большого объекта, вызовите:

Oid lo_import(PGconn *conn, const char *filename);

в filename указывается имя файла операционной системы, который будет импортирован как большой объект. Возвращаемое значение - это OID, присвоенный новому крупному объекту, или InvalidOid (ноль) при ошибке. Обратите внимание, что файл считывается библиотекой клиентского интерфейса, а не сервером; поэтому он должен существовать в файловой системе клиента и быть доступен для чтения клиентским приложением.

Функция

Oid lo_import_with_oid(PGconn *conn, const char *filename, Oid lobjId);

также импортирует новый крупный объект. Назначаемый OID может быть задан с помощью lobjId; если этот OID уже используется для некоторого большого объекта, то происходит ошибка. Если lobjId является InvalidOid (ноль) тогда lo_import_with_oid назначает неиспользуемый OID (это - то же самое поведение, что и lo_import). Возвращаемое значение - это OID, присвоенный новому крупному объекту, или InvalidOid (ноль) при ошибке.

Экспорт большого объекта

Чтобы экспортировать большой объект в файл операционной системы, вызовите

int lo_export(PGconn *conn, Oid lobjId, const char *filename);

в аргументе lobjId указывается идентификатор OID большого объекта для экспорта, а также имя файла аргумент указывает имя операционной системы файла. Обратите внимание, что файл записывается библиотекой клиентского интерфейса, а не сервером. Возвращает 1 при успешном выполнении, -1 при ошибке.

Открытие существующего большого объекта

Чтобы открыть существующий большой объект для чтения или записи, вызовите

int lo_open(PGconn *conn, Oid lobjId, int mode);

в аргументе lobjId указывается OID большого объекта для открытия. Битовый аргумент mode определяет, будет ли объект открыт для чтения (INV_READ), записи (INV_WRITE), или и то и другое. (Эти символьные константы определены в заголовочном файле libpq/libpq-fs.х.) lo_open возвращает дескриптор объекта (неотрицательный) для последующего использования в lo_read, lo_write, lo_lseek, lo_lseek64, lo_tell, lo_tell64, lo_truncate, lo_truncate64, и lo_close. Дескриптор действителен только в течение срока действия текущей транзакции. При ошибке возвращается значение -1.

В настоящее время сервер не различает режимы работы и INV_READ и INV_WRITE: вы можете читать из дескриптора в любом случае. Однако есть существенная разница между этими режимами. С INV_READ вы не можете записать дескриптор, и данные, считанные из него, будут отражать содержимое большого объекта во время моментального снимка транзакции, который был активен, когда lo_open была выполнена, независимо от последующих записей по тем или иным транзакциям. Чтение из дескриптора, открытого с помощью INV_WRITE возвращает данные, отражающие все операции записи других зафиксированных транзакций, а также операции записи текущей транзакции. Это похоже на отличия режимов REPEATABLE READ и READ COMMITTED для обычных команд SQL SELECT.

Вызов lo_open потерпит неудачу, если SELECT привилегия недоступна для большого объекта или параметр INV_WRITE не задан или UPDATE привилегии не представлены. Эти проверки привилегий можно отключить с помощью параметра времени выполнения lo_compat_privileges.

Пример:

inv_fd = lo_open(conn, inv_oid, INV_READ|INV_WRITE);

Запись данных в большой объект

Функция

int lo_write(PGconn *conn, int fd, const char *buf, size_t len);

пишет len байт из buf (который должен иметь размер len) к дескриптору большого объекта fd. Аргумент fd должен быть возвращен предыдущим lo_open. Количество фактически записанных байтов возвращается (в текущей реализации это всегда будет равно len если только нет ошибки). В случае ошибки возвращаемое значение равно -1.

Хотя len параметр объявляется как size_t, эта функция будет отклонять значения длины больше, чем INT_MAX. На практике, лучше всего передавать данные в кусках не более нескольких мегабайт в любом случае.

Чтение данных из большого объекта

Функция

int lo_read(PGconn *conn, int fd, char *buf, size_t len);

читает len байт из дескриптора большого объекта fd в buf (который должен иметь размер len). Аргумент fd должен быть возвращен предыдущим lo_open. Количество фактически прочитанных байт возвращается; это будет меньше, чем len если конец большого объекта достигнут первым. В случае ошибки возвращаемое значение равно -1.

Перемещение в большом объекте

Чтобы изменить текущее местоположение чтения или записи, связанное с дескриптором большого объекта, вызовите

int lo_lseek(PGconn *conn, int fd, int offset, int whence);

Эта функция перемещает указатель текущего местоположения для большого дескриптора объекта, идентифицированного с помощью fd к новому местоположению, указанному с помощью offset. Допустимые значения для whence являются SEEK_SET (перемещение от начала объекта), SEEK_CUR (перемещение с текущей позиции), и SEEK_END (перемещение от конца объекта). Возвращаемое значение - это новый указатель местоположения, или -1 при ошибке.

При работе с большими объектами, размер которых может превышать 2 ГБ, вместо этого используйте

pg_int64 lo_lseek64(PGconn *conn, int fd, pg_int64 offset, int whence);

Эта функция имеет то же поведение, что и lo_lseek, но она может принять offset больше, чем 2 ГБ и/или доставить результат больше, чем 2 ГБ. Обратите внимание, что lo_lseek произойдет ошибка, если новый указатель местоположения будет больше, чем 2 ГБ.

Получение текущего положения крупного объекта

Чтобы получить текущее расположение для чтения или записи дескриптора большого объекта, вызовите

int lo_tell(PGconn *conn, int fd);

Если есть ошибка, возвращаемое значение равно -1.

При работе с большими объектами, размер которых может превышать 2 ГБ, вместо этого используйте

pg_int64 lo_tell64(PGconn *conn, int fd);

Эта функция имеет то же поведение, что и lo_tell, но она может доставить результат больше, чем 2 ГБ. Обратите внимание, что lo_tell произойдет ошибка, если текущее местоположение для чтения / записи больше 2 ГБ.

Усечение большого объекта

Чтобы обрезать большой объект до заданной длины, вызовите

int lo_truncate(PGcon *conn, int fd, size_t len);

Эта функция усекает дескриптор большого объекта fd по длине len. Аргумент fd должен быть возвращен предыдущим lo_open. Если len больше, чем текущая длина большого объекта, большой объект расширяется до указанной длины с нулевыми байтами (’\0’). При успехе, lo_truncate возвращать нуль. При ошибке возвращается значение -1.

Место чтения / записи, связанное с дескриптором fd не изменяется.

Хотя len параметр объявляется как size_t, lo_truncate будет отклонять значения длины больше, чем INT_MAX.

При работе с большими объектами, размер которых может превышать 2 ГБ, вместо этого используйте

int lo_truncate64(PGcon *conn, int fd, pg_int64 len);

Эта функция имеет то же поведение, что и lo_truncate, но он может принять a len значение, превышающее 2 ГБ.

Закрытие дескриптора большого объекта

Дескриптор большого объекта можно закрыть вызовом

int lo_close(PGconn *conn, int fd);

где fd является дескриптором большого объекта, возвращаемый lo_open. При успехе, lo_close возвращать нуль. При ошибке возвращается значение -1.

Все дескрипторы больших объектов, которые остаются открытыми в конце транзакции, будут закрыты автоматически.

Удаление большого объекта

Чтобы удалить большой объект из базы данных, вызовите

int lo_unlink(PGconn *conn, Oid lobjId);

Аргумент lobjId указывает OID большого объекта для удаления. Возвращает 1 в случае успеха, -1 при ошибке.

Серверные функции

Серверные функции, предназначенные для работы с большими объектами из SQL, перечислены в таблице 5.1.

Таблица 5.1. SQL-ориентированные функции больших объектов

Функция	возвращаемый тип	Описание	Пример	Результат
lo_from_bytea(oid oid, string bytea)	oid	Создайте большой объект и храните там данные, возвращая его OID. Проходить 0 чтобы система могла выбрать OID.	lo_from_bytea(0, ’\xffffff00’)	24528
lo_put(loid oid, offset bigint, str bytea)	void	Запишите данные с заданным смещением.	lo_put(24528, 1, ’\xaa’)
lo_get(loid oid [, from bigint, for int])	bytea	Извлеките содержимое или его подстроку.	lo_get(24528, 0, 3)	\xffaaff

Существуют дополнительные серверные функции, соответствующие каждой из описанных ранее клиентских функций; действительно, в большинстве случаев клиентские функции являются просто интерфейсами к эквивалентным серверным функциям. Те, которые так же удобно вызывать с помощью команд SQL являются lo_creat, lo_create, lo_unlink, lo_import, и lo_export. Вот примеры их использования:

CREATE TABLE image (
    name            text,
    raster          oid
);

SELECT lo_creat(-1);       -- returns OID of new, empty large object

SELECT lo_create(43213);   -- attempts to create large object with OID 43213

SELECT lo_unlink(173454);  -- deletes large object with OID 173454

INSERT INTO image (name, raster)
    VALUES ('beautiful image', lo_import('/etc/motd'));

INSERT INTO image (name, raster)  -- same as above, but specify OID to use
    VALUES ('beautiful image', lo_import('/etc/motd', 68583));

SELECT lo_export(image.raster, '/tmp/motd') FROM image
    WHERE name = 'beautiful image';

Серверные функции lo_import и lo_export функции ведут себя значительно иначе, чем их клиентские аналоги. Эти две функции читают и записывают файлы в файловой системе сервера, используя разрешения пользователя-владельца базы данных. Поэтому по умолчанию их использование ограничено суперпользователями. Напротив, функции импорта и экспорта на стороне клиента считывают и записывают файлы в файловой системе клиента, используя разрешения клиентской программы. Клиентские функции не требуют никаких прав доступа к базе данных, за исключением права на чтение или запись большого объекта, о котором идет речь.

Примечание!!!
Можно предоставить использование серверной части lo_import и lo_export функции к non-superusers, но тщательное рассмотрение последствий обеспеченностью необходимо. Злонамеренный пользователь с такими привилегиями может легко использовать их в качестве суперпользователя (например, путем перезаписи файлов конфигурации сервера) или может атаковать остальную файловую систему сервера, не беспокоясь о получении привилегий суперпользователя базы данных как таковых. Доступ к ролям, имеющим такие привилегии, должен поэтому охраняться так же тщательно, как и доступ к ролям суперпользователя. Тем не менее, при использовании серверной части lo_import или lo_export это необходимо для некоторых рутинных задач, поэтому безопаснее использовать роль с такими привилегиями, чем с полными привилегиями суперпользователя, так как это помогает уменьшить риск повреждения от случайных ошибок.

Функциональные возможности: lo_read и lo_write также доступны через вызовы на стороне сервера, но имена функций на стороне сервера отличаются от интерфейсов на стороне клиента тем, что они не содержат подчеркиваний. Вы должны вызвать эти функции как loread и lowrite.

Пример программы

Пример 5.1 - это пример программы, которая показывает, как можно использовать интерфейс больших объектов в libpq. Части программы закомментированы, но оставлены в источнике для удобства читателя. Эта программа также может быть найдена в src/test/примеры/testlo.с в исходном дистрибутиве.

Пример 5.1. Большие объекты с примером программы libpq

/*-------------------------------------------------------------------------
 *
 * testlo.c
 *    test using large objects with libpq
 *
 * Portions Copyright (c) 1996-2019, PostgreSQL Global Development Group
 * Portions Copyright (c) 1994, Regents of the University of California
 *
 *
 * IDENTIFICATION
 *    src/test/examples/testlo.c
 *
 *-------------------------------------------------------------------------
 */
#include <stdio.h>
#include <stdlib.h>

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>

#include "libpq-fe.h"
#include "libpq/libpq-fs.h"

#define BUFSIZE         1024

/*
 * importFile -
 *    import file "in_filename" into database as large object "lobjOid"
 *
 */
static Oid
importFile(PGconn *conn, char *filename)
{
    Oid         lobjId;
    int         lobj_fd;
    char        buf[BUFSIZE];
    int         nbytes,
                tmp;
    int         fd;

    /*
     * open the file to be read in
     */
    fd = open(filename, O_RDONLY, 0666);
    if (fd < 0)
    {                           /* error */
        fprintf(stderr, "cannot open unix file\"%s\"\n", filename);
    }

    /*
     * create the large object
     */
    lobjId = lo_creat(conn, INV_READ | INV_WRITE);
    if (lobjId == 0)
        fprintf(stderr, "cannot create large object");

    lobj_fd = lo_open(conn, lobjId, INV_WRITE);

    /*
     * read in from the Unix file and write to the inversion file
     */
    while ((nbytes = read(fd, buf, BUFSIZE)) > 0)
    {
        tmp = lo_write(conn, lobj_fd, buf, nbytes);
        if (tmp < nbytes)
            fprintf(stderr, "error while reading \"%s\"", filename);
    }

    close(fd);
    lo_close(conn, lobj_fd);

    return lobjId;
}

static void
pickout(PGconn *conn, Oid lobjId, int start, int len)
{
    int         lobj_fd;
    char       *buf;
    int         nbytes;
    int         nread;

    lobj_fd = lo_open(conn, lobjId, INV_READ);
    if (lobj_fd < 0)
        fprintf(stderr, "cannot open large object %u", lobjId);

    lo_lseek(conn, lobj_fd, start, SEEK_SET);
    buf = malloc(len + 1);

    nread = 0;
    while (len - nread > 0)
    {
        nbytes = lo_read(conn, lobj_fd, buf, len - nread);
        buf[nbytes] = '\0';
        fprintf(stderr, ">>> %s", buf);
        nread += nbytes;
        if (nbytes <= 0)
            break;              /* no more data? */
    }
    free(buf);
    fprintf(stderr, "\n");
    lo_close(conn, lobj_fd);
}

static void
overwrite(PGconn *conn, Oid lobjId, int start, int len)
{
    int         lobj_fd;
    char       *buf;
    int         nbytes;
    int         nwritten;
    int         i;

    lobj_fd = lo_open(conn, lobjId, INV_WRITE);
    if (lobj_fd < 0)
        fprintf(stderr, "cannot open large object %u", lobjId);

    lo_lseek(conn, lobj_fd, start, SEEK_SET);
    buf = malloc(len + 1);

    for (i = 0; i < len; i++)
        buf[i] = 'X';
    buf[i] = '\0';

    nwritten = 0;
    while (len - nwritten > 0)
    {
        nbytes = lo_write(conn, lobj_fd, buf + nwritten, len - nwritten);
        nwritten += nbytes;
        if (nbytes <= 0)
        {
            fprintf(stderr, "\nWRITE FAILED!\n");
            break;
        }
    }
    free(buf);
    fprintf(stderr, "\n");
    lo_close(conn, lobj_fd);
}


/*
 * exportFile -
 *    export large object "lobjOid" to file "out_filename"
 *
 */
static void
exportFile(PGconn *conn, Oid lobjId, char *filename)
{
    int         lobj_fd;
    char        buf[BUFSIZE];
    int         nbytes,
                tmp;
    int         fd;

    /*
     * open the large object
     */
    lobj_fd = lo_open(conn, lobjId, INV_READ);
    if (lobj_fd < 0)
        fprintf(stderr, "cannot open large object %u", lobjId);

    /*
     * open the file to be written to
     */
    fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0666);
    if (fd < 0)
    {                           /* error */
        fprintf(stderr, "cannot open unix file\"%s\"",
                filename);
    }

    /*
     * read in from the inversion file and write to the Unix file
     */
    while ((nbytes = lo_read(conn, lobj_fd, buf, BUFSIZE)) > 0)
    {
        tmp = write(fd, buf, nbytes);
        if (tmp < nbytes)
        {
            fprintf(stderr, "error while writing \"%s\"",
                    filename);
        }
    }

    lo_close(conn, lobj_fd);
    close(fd);

    return;
}

static void
exit_nicely(PGconn *conn)
{
    PQfinish(conn);
    exit(1);
}

int
main(int argc, char **argv)
{
    char       *in_filename,
               *out_filename;
    char       *database;
    Oid         lobjOid;
    PGconn     *conn;
    PGresult   *res;

    if (argc != 4)
    {
        fprintf(stderr, "Usage: %s database_name in_filename out_filename\n",
                argv[0]);
        exit(1);
    }

    database = argv[1];
    in_filename = argv[2];
    out_filename = argv[3];

    /*
     * set up the connection
     */
    conn = PQsetdb(NULL, NULL, NULL, NULL, database);

    /* check to see that the backend connection was successfully made */
    if (PQstatus(conn) != CONNECTION_OK)
    {
        fprintf(stderr, "Connection to database failed: %s",
                PQerrorMessage(conn));
        exit_nicely(conn);
    }

    /* Set always-secure search path, so malicious users can't take control. */
    res = PQexec(conn,
                 "SELECT pg_catalog.set_config('search_path', '', false)");
    if (PQresultStatus(res) != PGRES_TUPLES_OK)
    {
        fprintf(stderr, "SET failed: %s", PQerrorMessage(conn));
        PQclear(res);
        exit_nicely(conn);
    }
    PQclear(res);

    res = PQexec(conn, "begin");
    PQclear(res);
    printf("importing file \"%s\" ...\n", in_filename);
/*  lobjOid = importFile(conn, in_filename); */
    lobjOid = lo_import(conn, in_filename);
    if (lobjOid == 0)
        fprintf(stderr, "%s\n", PQerrorMessage(conn));
    else
    {
        printf("\tas large object %u.\n", lobjOid);

        printf("picking out bytes 1000-2000 of the large object\n");
        pickout(conn, lobjOid, 1000, 1000);

        printf("overwriting bytes 1000-2000 of the large object with X's\n");
        overwrite(conn, lobjOid, 1000, 1000);

        printf("exporting large object to file \"%s\" ...\n", out_filename);
/*      exportFile(conn, lobjOid, out_filename); */
        if (lo_export(conn, lobjOid, out_filename) < 0)
            fprintf(stderr, "%s\n", PQerrorMessage(conn));
    }

    res = PQexec(conn, "end");
    PQclear(res);
    PQfinish(conn);
    return 0;
}

Расширение SQL

В следующих разделах мы обсудим, как вы можете расширить язык запросов SQL, добавив:

функции (начиная с раздела Пользовательские функции)
агрегаты (начиная с раздела Пользовательские агрегаты)
типы данных (начиная с раздела Пользовательские типы)
операторы (начиная с раздела Пользовательские операторы)
операторные классы для индексов (начиная с раздела Интерфейсные расширения для индексов)
пакеты связанных объектов (начиная с раздела Упаковка связанных объектов в расширение)

Как работает расширяемость

QHB хорошо расширяем, потому что его работа основана на каталоге. Если вы знакомы со стандартными системами реляционных баз данных, вы знаете, что они хранят информацию о базах данных, таблицах, столбцах и т. д. в так называемых системных каталогах (иногда называемых словарём базы данных). Каталоги доступны пользователю в виде таблиц, похожих на любые другие таблицы, но СУБД хранит в них свою внутреннюю бухгалтерию. Одним из ключевых отличий между QHB и большинством систем баз данных является то, что QHB хранит гораздо больше информации в своих каталогах: не только информацию о таблицах и столбцах, но также информацию о всех существующих типах данных, функциях, методах доступа и так далее. Эти таблицы могут быть изменены пользователем, а поскольку QHB основывает свою работу на этих таблицах, то это означает, что QHB может быть расширен пользователями. Для сравнения, большинство систем баз данных могут быть расширены только путем изменения жестко закодированных процедур в их исходном коде или путем загрузки модулей, специально написанных поставщиком СУБД.

Кроме того, сервер QHB может включать в себя написанный пользователем код посредством динамической загрузки. То есть пользователь может указать файл с исполняемым кодом (например, разделяемую библиотеку), который реализует новый тип или функцию, и QHB загрузит его при необходимости. Код, написанный на SQL, еще проще добавить на сервер. Эта способность изменять свою работу «на лету» делает QHB прекрасно подходящим для быстрого создания прототипов новых приложений и систем хранения.

Система типов QHB

Типы данных QHB можно разделить на базовые, контейнерные, доменные типы и псевдотипы.

Базовые типы

Базовые типы, такие как integer, реализуются ниже уровня языка SQL (на низкоуровневом языке, например, C, Rust). Они обычно соответствуют тому, что называют абстрактными типами данных.

Встроенные базовые типы описаны в главе Типы данных.

Перечисления (enum) могут рассматриваться как подкатегория базовых типов. Но они могут быть созданы с использованием только SQL, без какого-либо низкоуровневого программирования. Обратитесь к разделу Перечисляемые типы за дополнительной информацией.

Контейнерные типы

QHB имеет три «контейнерных» типа, т.е. типа, который содержат внутри себя несколько значений другого типа. Это массивы, составные типы и диапазоны.

Массивы могут содержать несколько значений одного типа. Тип массива создается автоматически для каждого базового, составного, диапазонного и доменного типов. А вот массивов массивов нет. С точки зрения системы типов, многомерные массивы не отличаются от одномерных. Обратитесь к разделу Массивы за дополнительной информацией.

Составные типы(composite type), или кортежи — такой тип имеет одна строка таблицы. Для каждой таблицы автоматически создаётся тип её строки (его имя совпадает с именем таблицы), но составной тип может существовать и без привязки к таблице, его можно создать командой CREATE TYPE. Составной тип — это набор именованых полей некоторых других типов. Значением составного типа является строка или кортеж. Обратитесь к разделу Составные типы за дополнительной информацией.

Диапазонный тип состоит из двух значений одного типа, которые являются нижней и верхней границами диапазона. Диапазонные типы создаются пользователем, хотя существует несколько встроенных. Обратитесь к разделу Диапазонные типы за дополнительной информацией.

Доменные типы

Доменный тип основывается на конкретном базовом типе и во многих случаях взаимозаменяем с его базовым типом. Однако у домена могут быть ограничения, ограничивающие его допустимые значения подмножеством того, что допускает базовый тип. Домены создаются с помощью команды SQL CREATE DOMAIN. Обратитесь к разделу Доменные типы за дополнительной информацией.

Псевдо-типы

Есть несколько «псевдотипов» для специальных целей. Псевдотипы не могут быть столбцами таблиц или компонентами контейнерных типов, но их можно использовать для объявления аргументов и типов результатов функций. Это обеспечивает механизм в системе типов для идентификации особенного поведения функций. В таблице 27 перечислены существующие псевдотипы.

Полиморфные типы

Пять псевдотипов, представляющих особый интерес: anyelement, anyarray, anynonarray, anyenum и anyrange, которые в совокупности называются полиморфными типами. Любая функция, объявленная с использованием этих типов, называется полиморфной функцией. Полиморфная функция может работать со многими различными типами данных, причем конкретный тип выводится из данных, фактически переданных ей в конкретном вызове.

Полиморфные аргументы и результаты разрешаются в конкретный тип данных при разборе запроса, вызывающего полиморфную функцию. Они связаны друг с другом следующим образом: хотя anyelement может быть любого типа, все anyelement в конкретной функции должны быть того же типа. Аргументы и результаты, объявленные как anyarray/anyrange должны быть массивом/диапазоном, базовый тип (тип элементов) которых такой же, как и anyelement других аргументов.

anynonarray обрабатывается точно так же, как anyelement, но добавляет дополнительное ограничение, что фактический тип не должен быть типом массива. anyenum обрабатывается точно так же, как anyelement, но добавляет дополнительное ограничение, что фактический тип должен быть типом enum.

Таким образом, когда несколько аргументов объявлены с полиморфным типом, выбирается только 1 конкретный тип, и все anyelement/anyenum/anynonarray будут этого типа, а все anyarray будут массивами этого типа. Например, функция, объявленная как equal(anyelement, anyelement) будет принимать любые два входных значения, но одинакового типа. Функция equal2(anyelement, anyenum) тоже принимает два аргумента одинакового типа, а значит оба из них должны быть одинаковыми перечислениями (enum).

Если возвращаемое значение функции объявляется как полиморфный тип, должен быть хотя бы один входной аргумента полиморфного типа, чтобы была возможность вывести конкретный тип из входных аргументов при вызове функции. Например, мы можем написать функцию индексирования массива (получение i-го элемента), её заголовок будет таким:

my_subscript(anyarray, integer) returns anyelement

Это объявление требует, чтобы первый аргумент был массивом и позволяет анализатору выводить правильный тип результата из фактического типа первого аргумента. А если объявить функцию как f(anyarray) returns anyenum, то она будет принимать только массивы перечисляемых типов.

Функция с переменным числом аргументов (которая принимает переменное число аргументов, см. Функции SQL с переменным числом аргументов) тоже может быть полиморфной: для этого надо объявить ее последний параметр как VARIADIC anyarray. При сопоставлении аргументов и определения фактического типа такая функция ведет себя так же, как если бы вы записали соответствующее число параметров типа anynonarray.

Пользовательские функции

В QHB есть четыре вида функций:

функции на языке запросов (Функции на языке запросов (SQL))
функции на скриптовом языке (например, на PL/pgSQL или PL/Tcl, см. Функции на процедурном языке)
внутренние функции
функции на нативном языке, см. Функции на нативном языке

Каждый тип функции может принимать базовые типы, составные типы или их комбинации в качестве аргументов (параметров). Кроме того, каждый тип функции может возвращать базовый тип, или составной тип, или множество базовых/составных типов (т.е. много строк, фактически таблицу).

Многие виды функций могут принимать или возвращать определенные псевдотипы (например, полиморфные типы); поддержка псевдотипов зависит от языка программирования, на котором написана функция, обратитесь к описанию каждого вида функций для более подробной информации.

Писать функции SQL проще всего, поэтому мы начнем с их обсуждения. Большинство концепций, представленных для функций SQL, переносятся и на другие типы функций. При чтении этой главе может быть полезно параллельно смотреть страницу команды CREATE FUNCTION, чтобы лучше понять примеры.

Пользовательские процедуры

Процедура — это объект базы данных, похожий на функцию. Различия следующие:

процедура не может возвращать значения (функция тоже может не возвращать, если не хочет);
функции вызываются как часть запроса или вообще любого DML, а процедура вызывается явно с помощью оператора CALL, также есть API для вызова именно процедуры, отдельное от API для выполнения произвольного DML;
в процедуре можно начать/зафиксировать/откатить транзакцию;
кроме этих моментов, функции можно использовать вместо процедур: в QHB функции могут иметь почти любые побочные эффекты.

Рекомендации по созданию пользовательских функций в оставшейся части этой главы также применимы к процедурам, за исключением того, что надо использовать команду CREATE PROCEDURE, нет возвращаемого значения и некоторые другие опции, такие как STRICT, неприменимы.

Функции и процедуры вместе также называются рутинами (ROUTINE). Существуют команды ALTER ROUTINE и DROP ROUTINE, которые можно применить, даже когда неизвестно, процедура это или функция. А команды CREATE ROUTINE нет, нужно выбрать, что именно хотите создать.

Функции на языке запросов (SQL)

Функции SQL выполняют произвольный список операторов SQL, возвращая результат последней выборки (SELECT) в списке. Если функция не помечена как возвращающая множество (SETOF), то будет возвращена только первая строка результата последней выборки. (Если не задан ORDER BY, то порядок строк не определён, и первая строка может выбираться недетерминировано.) Если последний запрос вообще не вернул строк, то результатом функции будет NULL. Также последняя команда может быть модификацией (INSERT, UPDATE или DELETE) с указанием RETURNING, опять же будет возвращена одна первая строка.

Второй вариант — функции, возвращающие SETOF sometype или, что тоже самое, TABLE(columns). В этом случае возвращаются все строки результата последней выборки (или модификации с указанием RETURNING). Более подробная информация приведена ниже.

Тело функции SQL должно быть списком операторов SQL, разделенных точкой с запятой. Точка с запятой после последнего оператора является необязательной. Если не объявлено, что функция возвращает void, последним оператором должен быть SELECT или INSERT, UPDATE или DELETE с указанием RETURNING.

Любой набор команд на языке SQL можно собрать вместе и объявить функцией. Помимо выборок SELECT, команды могут включать модификации (INSERT, UPDATE и DELETE), а также другие команды SQL. (В SQL-функциях вы не можете использовать команды управления транзакциями, например, COMMIT, SAVEPOINT и некоторые служебные команды, например, VACUUM). Однако последняя команда должна быть командой SELECT или иметь указание RETURNING, и что вернёт эта команд, то и будет возвращаемым значением функции. Можно сделать функцию, которая что-то делает, но ничего не возвращает, в этом случае объявите её как возвращающую void. Например, эта функция удаляет строки с отрицательными зарплатами из таблицы emp:

CREATE FUNCTION clean_emp() RETURNS void AS '
    DELETE FROM emp
        WHERE salary < 0;
' LANGUAGE SQL;

SELECT clean_emp();

 clean_emp
-----------
(1 row)

Замечание
Тело SQL-функции анализируется целиком, прежде чем выполнить что-либо. Хотя функция SQL может содержать команды, которые изменяют системные каталоги (например, CREATE TABLE), эффекты таких команд не будут видны во время парсинга последующих команд в функции. Так, например, если функция начинается так:
CREATE TABLE foo (...);
INSERT INTO foo VALUES(...);
— она не запустится, потому что она содержит обращение к несуществующей таблице foo, а таблица не создастся, потому что функция невалидна целиком и не запускается. В такой ситуации рекомендуется переписать функцию на PL/pgSQL.

Синтаксис команды CREATE FUNCTION требует, чтобы тело функции было записано как строковая константа. Обычно для строковой константы наиболее удобно использовать знаки доллара (см. раздел Строковые константы с экранированием знаками доллара). Если вы решите использовать обычный синтаксис строковой константы с одинарными кавычками, следует удваивать одинарные кавычки (’) и обратную косую черту (\) в теле функции (согласно правилам экранирования, см. раздел Строковые константы).

Аргументы для функций SQL

На аргументы функции SQL можно ссылаться в теле функции, используя имена или номера. Примеры обоих методов приведены ниже.

Чтобы использовать имя, объявите аргумент функции с именем, а затем просто напишите это имя в теле функции. Если имя аргумента совпадает с именем любого столбца в текущей команде SQL, имя столбца будет иметь приоритет. Чтобы победить это, укажите имя аргумента с именем самой функции в качестве префикса, то есть function_name.argument_name. Если такое квалифицированное имя будет всё ещё конфликтовать с квалифицированным именем столбца, снова выберется столбец, а не аргумент. Чтобы преодолеть и это, присвойте алиас таблице, чтобы у столбца стало другое квалифицированное имя.

В более старом "нумерованном" подходе на аргументы ссылаются с использованием синтаксиса $n; тогда $1 относится к первому входному аргументу, $2 ко второму и т. д. Это будет работать независимо от того, был ли конкретный аргумент объявлен с именем.

Если аргумент имеет составной тип, то к полям можно обратиться через точку (т.н. dot notation), например, argname.fieldname или $1.fieldname. Здесь опять могут быть проблемы с совпадением имени, и может потребоваться указать имя аргумента с именем функции в качестве префикса, чтобы однозначно сослаться на поле аргумента.

Аргументы функции SQL могут использоваться только как значения данных, но не как идентификаторы. Так, например, это разумно:

INSERT INTO mytable VALUES ($1);

а это не сработает

INSERT INTO $1 VALUES (42);

Функции SQL c базовыми типами

Простейшая возможная функция SQL не имеет аргументов и просто возвращает значение базового типа, например, integer:

CREATE FUNCTION one() RETURNS integer AS $$
    SELECT 1 AS rrres;
$$ LANGUAGE SQL;

-- Альтернативный синтаксис строкового литерала:
CREATE FUNCTION one() RETURNS integer AS '
    SELECT 1 AS rrres;
' LANGUAGE SQL;

SELECT one();

 one
-----
   1

Обратите внимание, что внутри функции мы определили псевдоним rrres для столбца результата, но этот псевдоним не виден вне функции, и результат обозначен как one вместо rrres.

SQL-функции, которые принимают базовые типы в качестве аргументов тоже легко писать:

-- Вариант с именованными аргументами:
CREATE FUNCTION add_em(x integer, y integer) RETURNS integer AS $$
    SELECT x + y;
$$ LANGUAGE SQL;

-- Альтернативый вариант с нумерованными аргументами:
CREATE FUNCTION add_em(integer, integer) RETURNS integer AS $$
    SELECT $1 + $2;
$$ LANGUAGE SQL;

SELECT add_em(1, 2) AS answer;

 answer
--------
      3

Вот более полезная функция, которая может использоваться для дебетования банковского счета:

CREATE FUNCTION tf1 (accountno integer, debit numeric) RETURNS numeric AS $$
    UPDATE bank
        SET balance = balance - debit
        WHERE accountno = tf1.accountno;
    SELECT 1;
$$ LANGUAGE SQL;

Пользователь может выполнить эту функцию для дебетования счета 17 на 100 рублей следующим образом:

SELECT tf1(17, 100.0);

В этом примере мы выбрали имя accountno для первого аргумента, но оно совпадает с именем столбца в таблице bank. В команде UPDATE accountno ссылается на столбец bank.accountno, а для ссылки на аргумент необходимо использовать tf1.accountno. Конечно, мы могли бы избежать этого, использовав другое имя для аргумента.

На практике, вероятно, хотелось бы вернуть из функции что-то более полезное, чем константа 1, поэтому более вероятное определение:

CREATE FUNCTION tf1 (accountno integer, debit numeric) RETURNS numeric AS $$
    UPDATE bank
        SET balance = balance - debit
        WHERE accountno = tf1.accountno;
    SELECT balance FROM bank WHERE accountno = tf1.accountno;
$$ LANGUAGE SQL;

Функция корректирует баланс и возвращает новый баланс. То же самое можно сделать одной командой, используя RETURNING:

CREATE FUNCTION tf1 (accountno integer, debit numeric) RETURNS numeric AS $$
    UPDATE bank
        SET balance = balance - debit
        WHERE accountno = tf1.accountno
    RETURNING balance;
$$ LANGUAGE SQL;

Результат последнего SELECT или RETURNING не обязан в точности соответствовать типу результата. QHB может автоматически привести результат к нужному типу, если это можно сделать неявным преобразованием (implicit cast) или присваивающим преобразованием (assignment cast). Либо вы можете использовать явное преобразование типа. Например, предположим, что мы хотим, чтобы предыдущая функция add_em возвращала тип float8. Это не сработает:

CREATE FUNCTION add_em(integer, integer) RETURNS float8 AS $$
    SELECT $1 + $2;
$$ LANGUAGE SQL;

потому что нет неявного преобразования integer во float. Нужно добавить явное преобразование:

CREATE FUNCTION add_em(integer, integer) RETURNS float8 AS $$
    SELECT ($1 + $2)::float8;
$$ LANGUAGE SQL;

Функции SQL с составными типами

При написании функций, работающих с аргументами составных типов, нам придётся обращаться к конкретным полям аргумента. Например, предположим, что emp является таблицей, содержащей данные о сотрудниках и, следовательно, имя составного типа строки таблицы тоже emp. Вот функция double_salary которая вычисляет, какой была бы чья-то зарплата, если её удвоить:

CREATE TABLE emp (
    name        text,
    salary      numeric,
    age         integer,
    cubicle     point
);

INSERT INTO emp VALUES ('Bill', 4200, 45, '(2,1)');

CREATE FUNCTION double_salary(emp) RETURNS numeric AS $$
    SELECT $1.salary * 2 AS salary;
$$ LANGUAGE SQL;

SELECT name, double_salary(emp.*) AS dream
    FROM emp
    WHERE emp.cubicle ~= point '(2,1)';

 name | dream
------+-------
 Bill |  8400

Обратите внимание на использование синтаксиса $1.salary для выбора одного поля из аргумента-строки. Также обратите внимание, как вызывающая команда SELECT использует table_name.*, чтобы взять всю текущую строку таблицы в качестве значения составного типа. На строку таблицы можно сослаться, используя только имя таблицы, например так:

SELECT name, double_salary(emp) AS dream
    FROM emp
    WHERE emp.cubicle ~= point '(2,1)';

но этот альтернативный способ не рекомендуется. Вариант table_name.* лучше читается, сразу видно, что передаётся строка таблицы, а не какая-то колонка. (См. раздел Использование составных типов в запросах для получения подробной информации об этих двух обозначениях для составного значения строки таблицы).

Иногда удобно создавать значение составного аргумента на лету. Это можно сделать с помощью конструктора типа ROW. Например, мы можем подправить данные перед передачей в функцию:

SELECT name, double_salary(ROW(name, salary * 1.1, age, cubicle)) AS dream
    FROM emp;

Можно создать функцию, которая возвращает составной тип. Вот пример функции, которая возвращает одну строку emp:

CREATE FUNCTION new_emp() RETURNS emp AS $$
    SELECT text 'None' AS name,
        1000.0 AS salary,
        25 AS age,
        point '(2,2)' AS cubicle;
$$ LANGUAGE SQL;

В этом примере мы заполняем все поля константами, но вместо них могли быть произвольные вычисления.

Обратите внимание на две важные вещи в реализации функции:

Порядок значений в списке выборки должен точно соответствовать порядку полей составного типа (= порядку столбцов в таблице). Алиасы, которые мы дали константам в new_emp(), ни на что не влияют.
Мы должны убедиться, что тип каждого выражения соответствует соответствующему столбцу составного типа, при необходимости вставляя преобразование типа. В противном случае мы получим такие ошибки:

ERROR:  function declared to return emp returns varchar instead of text at column 1

Как и в случае с базовым типом, функция будет автоматически
применять только неявные и присваивающие преобразования.

Другой способ определить ту же функцию:

CREATE FUNCTION new_emp() RETURNS emp AS $$
    SELECT ROW('None', 1000.0, 25, '(2,2)')::emp;
$$ LANGUAGE SQL;

Здесь мы создали значение анонимного составного типа, а потом привели его к нужному типу emp. В данном примере это ни чем не лучше, но в некоторых случаях это удобная альтернатива — например, если мы возвращаем кортеж, который нам вернула другая функция. Другой пример: если возвращаемое значение нашей функции — доменный тип на основе составного, то мы обязаны сделать выброрку 1 составного значения, а не отдельных полей, т.к. в последнем случае не пройдёт преобразование в доменный тип.

Функцию, возвращающую составное значение, можно использовать как значение, и как таблицу:

-- Кортеж как значение
SELECT new_emp();

         new_emp
--------------------------
 (None,1000.0,25,"(2,2)")

-- Кортеж как таблица
SELECT * FROM new_emp();

 name | salary | age | cubicle
------+--------+-----+---------
 None | 1000.0 |  25 | (2,2)

Второй способ более подробно описан в разделе Использование результата функции как таблицы.

Когда вы вызываете функцию, которая возвращает составной тип, вам может потребоваться взять одно поле из ее результата. Вы можете сделать это с помощью следующего синтаксиса:

SELECT (new_emp()).name;

 name
------
 None

Дополнительные скобки необходимы, чтобы не запутать парсер. Без скобок вы получите что-то вроде этого:

SELECT new_emp().name;
ERROR:  syntax error at or near "."
LINE 1: SELECT new_emp().name;
                        ^

Другой вариант — использовать функциональную нотацию для извлечения поля:

SELECT name(new_emp());

 name
------
 None

Как объяснено в разделе Использование составных типов в запросах, эти две нотации эквивалентны.

Что ещё можно сделать с результатом работы такой функции? Можно передать его в другую функцию, которая как раз ожидает аргумент подходящего составного типа:

CREATE FUNCTION getname(emp) RETURNS text AS $$
    SELECT $1.name;
$$ LANGUAGE SQL;

SELECT getname(new_emp());
 getname
---------
 None
(1 row)

Функции SQL с выходными параметрами

Альтернативный способ описания результатов функции — с помощью выходных параметров, как в этом примере:

CREATE FUNCTION add_em (IN x int, IN y int, OUT sum int)
AS 'SELECT x + y'
LANGUAGE SQL;

SELECT add_em(3,7);
 add_em
--------
     10
(1 row)

Это существенно не отличается от версии add_em показанной в предыдущем разделе. Реальное назначение выходных параметров заключается в том, чтобы предоставлять удобный способ определения функций, которые возвращают несколько значений. Например,

CREATE FUNCTION sum_n_product (x int, y int, OUT sum int, OUT product int)
AS 'SELECT x + y, x * y'
LANGUAGE SQL;

 SELECT * FROM sum_n_product(11,42);
 sum | product
-----+---------
  53 |     462
(1 row)

По сути, мы здесь создали анонимный составной тип для результата функции. Приведенный выше пример имеет тот же конечный результат, что и

CREATE TYPE sum_prod AS (sum int, product int);

CREATE FUNCTION sum_n_product (int, int) RETURNS sum_prod
AS 'SELECT $1 + $2, $1 * $2'
LANGUAGE SQL;

но только без мороки с определением отдельного составного типа. Обратите внимание, что имена выходных параметров определяют имена столбцов анонимного составного типа. (Если вы опустите имя для выходного параметра, система выберет имя самостоятельно).

Также обратите внимание, что выходные параметры не указываются при вызове такой функции из SQL; cнаружи функции выходные параметры ведут себя в точности как возвращаемые значения. Сигнатура функции в QHB определяется только входными параметрами, поэтому, например, вы можете удалить функцию sum_n_product любым из следующих вариантов:

DROP FUNCTION sum_n_product (x int, y int, OUT sum int, OUT product int);
DROP FUNCTION sum_n_product (int, int);

Параметры могут быть помечены как IN (по умолчанию), OUT, INOUT или VARIADIC. INOUT-параметр служит как входным параметром (частью списка входных аргументов), так и выходным параметром (частью кортежа результата). VARIADIC-параметр являются входными параметром, но обрабатываются особым образом, это описано в следующем разделе.

Замечание
Если у функции есть OUT- или INOUT-параметры, то у неё не может быть возвращаемого значения (RETURNS) и наоборот. Это два разных стиля описания возвращаемых значений; OUT-параметры — универсальный способ, а RETURNS — более красивый и наглядный.

Функции SQL с переменным числом аргументов

Функции SQL могут быть объявлены так, чтобы принимать переменное число аргументов, при условии, что все «необязательные» аргументы имеют один и тот же тип. Необязательные аргументы будут переданы функции в виде массива. Для этого последний аргумент функции должен быть массивом и помечен как VARIADIC. Например:

CREATE FUNCTION mleast(VARIADIC arr numeric[]) RETURNS numeric AS $$
    SELECT min($1[i]) FROM generate_subscripts($1, 1) g(i);
$$ LANGUAGE SQL;

SELECT mleast(10, -1, 5, 4.4);
 mleast
--------
     -1
(1 row)

Технически все предоставленные аргументы от позиции VARIADIC и дальше собираются в одномерный массив, как если бы вы написали

SELECT mleast(ARRAY[10, -1, 5, 4.4]);    -- прямо в таком виде не сработает

Однако вы не можете написать так — или, по крайней мере, это не будет соответствовать определению этой функции. VARIADIC-параметр ожидает один или несколько элементов базового типа массива, а не значение-массив.

Иногда полезно иметь возможность передавать уже имеющий массив в функцию с переменным числом аргументов; это особенно удобно, когда одна функция с переменным числом аргументов хочет передать свой переменный аргумент другой такой функции. Это можно сделать, воспользовавшись тем же ключевым словом VARIADIC:

SELECT mleast(VARIADIC ARRAY[10, -1, 5, 4.4]);

Массив, помеченный как VARIADIC может быть только последним аргументом вызова функции, и он сопоставится только с VARIADIC-аргументом функции, передавая массив. Указание VARIADIC в вызове также является единственным способом передачи пустого массива в функцию с переменным числом аргументов:

SELECT mleast(VARIADIC ARRAY[]::numeric[]);

Простое написание SELECT mleast() не работает, поскольку VARIADIC-аргумент должен соответствовать хотя бы одному фактическому значению. (Вы можете определить вторую функцию с именем mleast без параметров, если хотите разрешить такие вызовы).

Замечание по безопасности
Если есть схема в которой несознательные пользователи могут создавать функции, и вы вызываете функцию из этой схемы, и у неё есть VARIADIC-параметр, то всегда вызывайте её с использование синтаксиса VARIADIC ARRAY[...]. Так вы можете быть уверены, что вызываете именно эту функцию (если её не удалят, конечно). Если вы передаёте просто несколько чисел через запятую в VARIADIC-параметр, то злоумышленник может создать функцию с тем же именем, но с конкретным набором параметров, и ваш код начнёт вызывать эту функцию.

Даже если у VARIADIC-параметра есть имя, это имя не просто использовать для сопоставления параметров по именам при вызове функции (см. раздел Вызов функции). Например, следующие варианты все не работают:

SELECT mleast(arr => 10);
SELECT mleast(arr => 10, arr => 20);
SELECT mleast(arr => ARRAY[10, -1, 5, 4.4]);

Единственный работающий вариант опять использует ключевое слово VARIADIC:

SELECT mleast(VARIADIC arr => ARRAY[10, -1, 5, 4.4]);

Функции SQL со значениями аргументов по умолчанию

Функции могут быть объявлены со значениями по умолчанию для некоторых или всех входных аргументов. Значения по умолчанию подставляются, когда функция вызывается с недостаточным количеством фактических аргументов. Поскольку аргументы могут быть пропущены с конца списка, все параметры после параметра со значением по умолчанию также должны иметь значения по умолчанию. (Хотя при использовании связывания аргументов по именам при вызове функции можно задать любое подмножество аргументов, не только с конца, но надо всё-таки, чтобы позиционное задание аргументов тоже работало.)

QHB разрешает создание функций, у которых совпадает набор обязательных входных аргументов, а различается только набор факультативных (имеющих значение по умолчанию)! При вызове неоднозначности разрешаются определённым образом. Из-за этого нужно соблюдать меры предосторожности при вызове функций в базе данных, где несознательные пользователи могут создавать функции.

Примеры:

CREATE FUNCTION foo(a int, b int DEFAULT 2, c int DEFAULT 3)
RETURNS int
LANGUAGE SQL
AS $$
    SELECT $1 + $2 + $3;
$$;

SELECT foo(10, 20, 30);
 foo
-----
  60
(1 row)

SELECT foo(10, 20);
 foo
-----
  33
(1 row)

SELECT foo(10);
 foo
-----
  15
(1 row)

SELECT foo();  -- не работает, потому что для первого аргумента нет умолчания
ERROR:  function foo() does not exist

Вместо ключевого слова DEFAULT можно также использовать =:

CREATE FUNCTION foo(a int, b int = 2, c int = 3)

Использование результата функции как таблицы

Все функции SQL можно использовать в предложении FROM запроса, но это особенно полезно для функций, возвращающих составные типы. Если функция определена как возвращающая базовый тип, функция создает таблицу из одного столбца. Если функция определена для возврата составного типа, она создает столбец для каждого поля составного типа.

Вот пример:

CREATE TABLE foo (fooid int, foosubid int, fooname text);
INSERT INTO foo VALUES (1, 1, 'Joe');
INSERT INTO foo VALUES (1, 2, 'Ed');
INSERT INTO foo VALUES (2, 1, 'Mary');

CREATE FUNCTION getfoo(int) RETURNS foo AS $$
    SELECT * FROM foo WHERE fooid = $1;
$$ LANGUAGE SQL;

SELECT *, upper(fooname) FROM getfoo(1) AS t1;

 fooid | foosubid | fooname | upper
-------+----------+---------+-------
     1 |        1 | Joe     | JOE
(1 row)

Как показывает пример, мы можем работать со столбцами результата функции так же, как если бы они были столбцами обычной таблицы.

Обратите внимание, что мы получили только одну строку из функции. Это потому, что мы не использовали SETOF. Это описано в следующем разделе.

Функции SQL, возвращающие множество строк

Когда функция SQL объявляется как возвращающая SETOF sometype, последня выборка функции выполняется полностью, и каждая строка, которую она выводит, возвращается как элемент набора результатов.

Такие функции обычно используется в предложении FROM. В этом случае каждая строка, возвращаемая функцией, становится строкой псевдотаблицы, обрабатываемой запросом. Например, предположим, что таблица foo имеет то же содержимое, что и выше, и мы говорим:

CREATE FUNCTION getfoo(int) RETURNS SETOF foo AS $$
    SELECT * FROM foo WHERE fooid = $1;
$$ LANGUAGE SQL;

SELECT * FROM getfoo(1) AS t1;

fooid | foosubid | fooname
-------+----------+---------
    1 |        1 | Joe
    1 |        2 | Ed
(2 rows)

Если функция возвращает результат посредством выходных параметров, тоже можно вернуть много строк:

CREATE TABLE tab (y int, z int);
INSERT INTO tab VALUES (1, 2), (3, 4), (5, 6), (7, 8);

CREATE FUNCTION sum_n_product_with_tab (x int, OUT sum int, OUT product int)
RETURNS SETOF record
AS $$
    SELECT $1 + tab.y, $1 * tab.y FROM tab;
$$ LANGUAGE SQL;

SELECT * FROM sum_n_product_with_tab(10);
 sum | product
-----+---------
  11 |      10
  13 |      30
  15 |      50
  17 |      70
(4 rows)

Ключевым моментом здесь является то, что вы должны написать RETURNS SETOF record, чтобы указать, что функция возвращает несколько строк, а не одну. Если имеется только один выходной параметр, то вместо record напишите его тип.

Часто бывает полезно сконструировать результат выборки, вызывая функцию, возвращающую таблицу, несколько раз, подставляя её аргументы из результатов подзапроса. Предпочтительный способ сделать это - использовать ключевое слово LATERAL, которое описано в разделе Подзапросы LATERAL. Вот пример использования возвращающей таблицу функции для перечисления элементов древовидной структуры:

SELECT * FROM nodes;
   name    | parent
-----------+--------
 Top       |
 Child1    | Top
 Child2    | Top
 Child3    | Top
 SubChild1 | Child1
 SubChild2 | Child1
(6 rows)

CREATE FUNCTION listchildren(text) RETURNS SETOF text AS $$
    SELECT name FROM nodes WHERE parent = $1
$$ LANGUAGE SQL STABLE;

SELECT * FROM listchildren('Top');
 listchildren
--------------
 Child1
 Child2
 Child3
(3 rows)

SELECT name, child FROM nodes, LATERAL listchildren(name) AS child;
  name  |   child
--------+-----------
 Top    | Child1
 Top    | Child2
 Top    | Child3
 Child1 | SubChild1
 Child1 | SubChild2
(5 rows)

Этот пример не делает ничего такого, чего мы не могли бы сделать LATERAL-соединением без функции, но в более сложных случаях, когда для соединения требуются сложные вычисления, удобно поместить их в функцию.

Функции, возвращающие табличные результаты, также можно вызывать в списке выборки. Для каждой строки, которую запрос генерирует сам по себе, вызывается функция, возвращающая множество строк, и для каждого элемента этого множества генерируется выходная строка. Предыдущий пример также можно выполнить с помощью таких запросов:

SELECT listchildren('Top');
 listchildren
--------------
 Child1
 Child2
 Child3
(3 rows)

SELECT name, listchildren(name) FROM nodes;
  name  | listchildren
--------+--------------
 Top    | Child1
 Top    | Child2
 Top    | Child3
 Child1 | SubChild1
 Child1 | SubChild2
(5 rows)

В последнем SELECT обратите внимание, что для Child2, Child3 и т.д. нет выходных строк. Это происходит потому, что listchildren возвращает 0 строк для этих аргументов, поэтому строки результата не генерируются. Это такое же поведение, которое мы имели бы при внутреннем соединении с результатом функции при использовании синтаксиса LATERAL.

Поведение QHB для функции, возвращающей множество в списке выбора запроса, почти такое же, как если бы функция, возвращающая множество, была в LATERAL FROM. Например,

SELECT x, generate_series(1,5) AS g FROM tab;

почти эквивалентно

SELECT x, g FROM tab, LATERAL generate_series(1,5) AS g;

Разница проявляется только в свободе выбора планировщика. Во втором варианте планировщик может поместить g во внешнюю цикл соединения вложенными циклами, поскольку g на самом деле не зависит от tab. Это приведет к другому порядку строк в итоговом результате. Табличные функции в списке выборки всегда будут выполнятся самым внутренним циклом соединения, т.е. результат функции (функций) пробегается до конца, а только потом переходят к следующей строке FROM.

Если в списке выбора запроса несколько функций, возвращающих множество строк, то мы получим не декартово произведение их результатов, как можно было подумать, а совмещение результатов функций по номерам: для каждой строки из базового запроса есть выходная строка, использующая первый результат из каждой функции, затем выходная строка, использующая второй результат из каждой функции и так далее; если результаты какой-то функция кончились раньше, вместо них будут NULL, и так пока не кончится самая "результативная" функция. Для каждой строки из базового запроса будет столько строк, сколько строк в самом большом из результатов функций. Такое поведение аналогично тому, что вы получите, поместив эти функции в один LATERAL ROWS FROM( ... )

Табличные функции могут вызывать друг друга в списке выборки, хотя это не разрешено в секции FROM. В таких случаях каждый уровень вложенности обрабатывается отдельно, генерируя отдельные внутренний цикл, как если бы это был отдельный LATERAL ROWS FROM( ... ). Например, в

SELECT srf1(srf2(x), srf3(y)), srf4(srf5(z)) FROM tab;

функции возврата srf2, srf3 и srf5 будут запускаться в первом шаге для каждой строки tab, а затем для каждой строки того, что получилось, будут запускаться srf1 и srf4.

Функции, возвращающие множество, нельзя использовать в конструкциях условного вычисления, таких как CASE или COALESCE. Например, рассмотрим

SELECT x, CASE WHEN x > 0 THEN generate_series(1, 5) ELSE 0 END FROM tab;

Может показаться, что это должно привести к пяти повторениям входных строк, которые имеют x > 0, и одному повторению прочих; но на самом деле, поскольку generate_series(1, 5) будет выполняться в неявном элементе LATERAL FROM до того, как выражение CASE начнёт вычислять, запрос выдаст пять повторений каждой строки из tab. Чтобы избежать путаницы, такие конструкции запрещены, и вызывают ошибку разбора.

Заметка
Если последней командой функции является INSERT, UPDATE или DELETE с RETURNING, эта команда всегда будет выполняться до конца, даже если функция не объявлена с помощью SETOF или вызывающий запрос не извлечёт все строки результата (например, у него есть LIMIT). Любые дополнительные строки, созданные указанием RETURNING отбрасываются, но изменения в заданной таблице производятся (и все завершаются до возврата из функции).

Функции SQL, возвращающие таблицы

Есть еще один способ объявить функцию как возвращающую набор: использовать синтаксис RETURNS TABLE(columns). Это эквивалентно использованию одного или нескольких OUT-параметров плюс маркировке функции как возвращающей SETOF record (или, если столбец единственный, SETOF тип-столбца). Нотация RETURNS TABLE(columns) указана в последних версиях стандарта SQL и, следовательно, может быть более переносимой, чем использование SETOF.

Например, предыдущий пример суммы и произведения может быть переписан так:

CREATE FUNCTION sum_n_product_with_tab (x int)
RETURNS TABLE(sum int, product int) AS $$
    SELECT $1 + tab.y, $1 * tab.y FROM tab;
$$ LANGUAGE SQL;

Не допускается использование явных параметров OUT или INOUT с указанием RETURNS TABLE, надо выбрать один из вариантов нотации.

Полиморфные функции SQL

SQL-функции могут принимать и возвращать полиморфные типы anyelement, anyarray, anynonarray, anyenum и anyrange, обсуждавшиеся в разделе Полиморфные типы. Вот пример полиморфной функции make_array, которая создает массив из двух элементов произвольного типа данных:

CREATE FUNCTION make_array(anyelement, anyelement) RETURNS anyarray AS $$
    SELECT ARRAY[$1, $2];
$$ LANGUAGE SQL;

SELECT make_array(1, 2) AS intarray, make_array('a'::text, 'b') AS textarray;
 intarray | textarray
----------+-----------
 {1,2}    | {a,b}
(1 row)

Обратите внимание на использование приведения типа 'a'::text чтобы указать, что аргумент имеет тип text. Это необходимо, потому что строковый литерал по умолчанию не относится к какому-то конкретному строковому типу (имеет тип unknown). Без приведения типа вы получите такую ошибку:

ERROR:  could not determine polymorphic type because input has type "unknown"

Разрешается иметь полиморфные аргументы и фиксированный тип результата, но не наоборот:

CREATE FUNCTION is_greater(anyelement, anyelement) RETURNS boolean AS $$
    SELECT $1 > $2;
$$ LANGUAGE SQL;

SELECT is_greater(1, 2);
 is_greater
------------
 f
(1 row)

CREATE FUNCTION invalid_func() RETURNS anyelement AS $$
    SELECT 1;
$$ LANGUAGE SQL;
ERROR:  cannot determine result data type
DETAIL:  A function returning a polymorphic type must have at least one polymorphic argument.

Функции с выходными аргументами вполне могут использовать полиморфизм:

CREATE FUNCTION dup (f1 anyelement, OUT f2 anyelement, OUT f3 anyarray)
AS 'select $1, array[$1,$1]' LANGUAGE SQL;

SELECT * FROM dup(22);
 f2 |   f3
----+---------
 22 | {22,22}
(1 row)

Полиморфизм может также использоваться функциями с переменным числом аргументов:

CREATE FUNCTION anyleast (VARIADIC anyarray) RETURNS anyelement AS $$
    SELECT min($1[i]) FROM generate_subscripts($1, 1) g(i);
$$ LANGUAGE SQL;

SELECT anyleast(10, -1, 5, 4);
 anyleast
----------
       -1
(1 row)

SELECT anyleast('abc'::text, 'def');
 anyleast
----------
 abc
(1 row)

CREATE FUNCTION concat_values(text, VARIADIC anyarray) RETURNS text AS $$
    SELECT array_to_string($2, $1);
$$ LANGUAGE SQL;

SELECT concat_values('|', 1, 4, 2);
 concat_values
---------------
 1|4|2
(1 row)

Функции SQL и правила сортировки

Когда SQL-функция имеет один или несколько параметров такого типа, для которого применимы правила сортировки (COLLATION), правила сортировки выбираются при каждом вызове на основании фактических аргументов функции. Алгоритм выбора описан в разделе Поддержка сортировки. Если правила сортировки успешно выбраны (т.е. нет конфликтов между неявно установленными правилами сортировки аргументов), то все параметры функции считаются имеющими такое правило сортировки, и обрабатываются соответственно. Это повлияет на поведение операций, связанных со сравнением и сортировкой, внутри функции. Например, для функции anyleast описанной выше, результат

SELECT anyleast('abc'::text, 'ABC');

будет зависеть от правил сортировки базы данных по умолчанию. В локали C результат будет ABC, но во многих других локалях это будет abc.

Правило сортировки можно установить принудительно при вызове функции, добавив указание COLLATE к любому из аргументов, например:

SELECT anyleast('abc'::text, 'ABC' COLLATE "C");

Либо, если вы хотите, чтобы функция работала по конкретным правилам, независимо от свойств аргументов, можно задавать правила сортировки внутри функции: при выполнении операции, а не при объявлении аргумента. Следующая версия anyleast всегда будет использовать локаль en_US для сравнения строк:

CREATE FUNCTION anyleast (VARIADIC anyarray) RETURNS anyelement AS $$
    SELECT min($1[i] COLLATE "en_US") FROM generate_subscripts($1, 1) g(i);
$$ LANGUAGE SQL;

К сожалению, при вызове такой функций для не текстового типа будет ошибка при попытке применить к нему COLLATE...

Если среди фактических аргументов не могут быть выбраны общие правила сортировки, то параметры будут считаться имеющими правила сортировки по умолчанию для своих типов данных (которые обычно являются правилами сортировки по умолчанию базы данных, но могут отличаться для параметров доменных типов).

Поведение сопоставляемых параметров можно рассматривать как ограниченную форму полиморфизма, применяющуюся только к текстовым типам данных.

Перегрузка функций

С одним и тем же SQL-именем может быть определено несколько функций, если они принимают разные наборы входных аргументов. Другими словами, имена функций могут быть перегружены.

Это требует дополнительных мер предосторожности при работе в базах данных, где несознательные пользователи могут создавать функции. Например, вы можете вызвать совсем другую функцию, ошибившись в типе аргумента.

При выполнении запроса, сервер выбирает, какую именно функцию вызывать, исходя из количества и типов данных предоставленных аргументов. Перегрузка может также использоваться для эмуляции функций с переменным числом аргументов, вплоть до конечного максимального числа.

При создании семейства перегруженных функций следует соблюдать осторожность, чтобы не создавать двусмысленности выбора. Например, если есть функции

CREATE FUNCTION test(int, real) RETURNS ...
CREATE FUNCTION test(smallint, double precision) RETURNS ...

то не понятно, какая функция вызовется при тривиальном запросе SELECT test(1, 1.5).

Конечно, есть конкретные правила выбора, но они могут измениться в следующей версии, и вообще не стоит полагаться на такие зыбкие механизмы. Какая функция вызовется, должно быть очевидно для человека, читающего код.

Имя функции, принимающей один аргумент составного типа, не должно совпадать с одним из полей этого составного типа! Дело в том, что если кортеж типа T имеет поле attribute, то attribute(t) означает тоже самое, что и t.attribute. Если вы создадите свою функцию attribute(T), то вместо вашей функции будет молча вызываться t.attribute. Пользовательскую функцию всё-таки можно вызвать, используя квалифицированное имя schema.attribute(t), но лучше в такое не ввязываться.

Другой возможный конфликт — между вариативной и невариативной функциями. Например, можно создать foo(numeric) и foo(VARIADIC numeric[]). В этом случае неясно, какая из них должна вызываться в случае foo(10.1). Правило состоит в том, что используется функция, появляющаяся ранее в пути поиска, или, если две функции находятся в одной и той же схеме, выбирается невариативная.

При перегрузке функций на нативном языке существует дополнительное ограничение: имена связывания нативных функций не должны повторяться, и не должны совпадать с именами внутренних функций QHB, иначе это приведёт к неоднозначности при вызове функции, получится платформозависимое поведение: вы либо получите ошибку подгрузки библиотеки во время работы, либо вызовется не та функция (при совпадение с именем внутренней функции, скорее всего, вызовется внутренняя). По умолчанию имя связывания совпадает с именем функции, но это можно переопределить альтернативной формой указания AS команды CREATE FUNCTION:

CREATE FUNCTION test(int) RETURNS int
    AS 'filename', 'test_1arg'
    LANGUAGE C;
CREATE FUNCTION test(int, int) RETURNS int
    AS 'filename', 'test_2arg'
    LANGUAGE C;

test_2arg — имя нативной функции; такой формат имени — лишь одно из многих возможных соглашений, нет чётких правил на этот счёт.

Категории изменчивости функций

Каждая функция имеет категорию изменчивости с возможными вариантами VOLATILE, STABLE или IMMUTABLE. VOLATILE является значением по умолчанию, если в CREATE FUNCTION не указать явно другую категорию. Категория изменчивости — это обещания оптимизатору касательно поведения функции:

Функция VOLATILE может делать все, что угодно, включая изменение базы данных. Она может возвращать разные результаты при последовательных вызовах с одинаковыми аргументами. Оптимизатор не делает никаких предположений о поведении таких функций. Запрос, использующий изменчивую функцию, выполняет функцию для каждой строки, каждый раз, где она встречается.
Функция STABLE не может изменить данные и гарантированно возвращает одинаковые результаты при одинаковых входных значения — в рамках одного запроса. Эта категория позволяет оптимизатору заменить несколько вызовов функции с одними и теми же аргументами на один вызов. В частности, если стабильная функция содержится в "правой части" условия фильтрации, то можно вычислить функцию один раз, и потом искать результат в индексе. (Для изменчивых функций это недопустимо, потому что значение условия потенциально может меняться, и надо его вычислять для каждой строки).
Функция IMMUTABLE не может изменять данные и гарантированно будет возвращать одни и те же результаты, если всегда будут одни и те же аргументы. Эта категория позволяет оптимизатору предварительно оценить функцию, когда запрос вызывает ее с постоянными аргументами. Например, запрос типа SELECT ... WHERE x = 2 + 2 может быть упрощен на вид до SELECT ... WHERE x = 4, потому что функция, лежащая в основе оператора сложения целых чисел, помечена как IMMUTABLE.

Для достижения наилучших результатов оптимизации вы должны пометить свои функции категорией самой строгой изменчивости, какая для них выполняется.

Любая функция с побочными эффектами должна быть помечена как VOLATILE, чтобы оптимизатор не мог убрать ее вызов. Даже функция без побочных эффектов должна быть помечена как VOLATILE если ее значение может измениться в течение выполнения одного запроса: например, random(), currval(), timeofday(). Другим важным примером является то, что семейство функций current_timestamp квалифицируется как STABLE, поскольку их значения не изменяются в пределах транзакции.

Разница между категориями STABLE и IMMUTABLE почти незаметна, если рассуждать о простых интерактивных запросах, которые планируются и выполняются немедленно: не имеет большого значения, выполняется ли функция один раз во время планирования или один раз во время запуска запроса. Разница, если план будет сохранён и использован позже. Обозначение функции IMMUTABLE, когда это неправда, может привести к преждевременной оптимизации вызова на этапе планирования, а потом к повторному использованию устаревшего значения при использовании плана. Это опасно при использовании подготовленных операторов или внутри процедур, план которых кешируется (например, процедуры на PL/pgSQL).

Для функций, написанных на SQL или на одном из стандартных процедурных языков, существует еще одно важное свойство, определяемое категорией изменчивости, а именно видимость любых изменений данных, которые уже были внесены командой SQL, вызывающей функцию. Функция VOLATILE увидит такие изменения, функция STABLE или IMMUTABLE нет. Это поведение реализовано с использованием моментальных снимков MVCC: функции STABLE и IMMUTABLE используют моментальный снимок, созданный в начале вызывающего запроса, тогда как функции VOLATILE получают новый снимок в начале запроса, который они выполняют внутри себя.

Примечание
Если нативные функции обращаются к базе, им было бы неплохо вести себя так же, как описано выше, в плане видимости изменений, но обеспечить это сложно...

Из-за такого поведения моментального снимка функция, результат которой зависит от данных в таблицах, может считаться стабильной, даже если она берёт данные из таблиц, которые могут правиться параллельно выполняющимися запросами (если, конечно, нет других причин, почему она нестабильная). QHB будет выполнять все команды STABLE-функции, используя снимок, созданный для вызывающего запроса, и, таким образом, функция будет видеть фиксированное состояние базы данных в течение всего этого запроса.

Такое же поведение снимка используется для IMMUTABLE-функций. Однако, если результат вашей функции зависит от содержимого таблиц, то она, по-видимому, не IMMUTABLE! (Результат изменится, когда поменяют содержимое таблицы). Однако QHB не запретит вам объявить такую функцию IMMUTABLE.

Распространенной ошибкой является пометка функции IMMUTABLE когда ее результаты зависят от параметра конфигурации. Например, функция, которая манипулирует временем, вполне может выдавать результаты, которые зависят от настройки TimeZone. В целях безопасности такие функции должны быть помечены как STABLE.

Замечание
QHB проверяет, чтобы функции, помеченные STABLE или IMMUTABLE, не содержали никаких команд SQL, кроме SELECT, т.к. функции, меняющие данные явно нестабильные. Однако не проверят и не предотвращает вызвать изменчивую функцию (формально, если функция вызывает изменчивую, то она тоже волатильная). Если вы попробуете сделать это, то заметите, что изменения данных, сделанные вызванной волатильной функцией, не видны внешней стабильной функции: она работает с моментальным снимком базы.

Функции на процедурном языке

QHB позволяет писать пользовательские функции на различных интерпретируемых("скриптовых") языках. Эти языки обычно называются процедурными языками (PL). Процедурные языки не встроены в сервер QHB; они реализованы в подгружаемых модулях. См. главу Процедурные языки и последующие главы для получения дополнительной информации.

Внутренние функции

Внутренние функции - это функции, написанные на C или на Rust, которые статически скомпонованы в сервер QHB. Определение функции состоит из её имени на C, которое не обязательно совпадает с именем, объявленным для использования в SQL. (Из соображений обратной совместимости пустое "тело" функции воспринимается как то, что имя функции на C совпадает с SQL-именем).

Обычно все внутренние функции, присутствующие на сервере, объявляются во время инициализации кластера базы данных (см. раздел Создание кластера базы данных), но пользователь может использовать CREATE FUNCTION для создания дополнительного псевдонима внутренней функции. Внутренние функции объявляются в CREATE FUNCTION с LANGUAGE internal. Например, создадим псевдоним для функции sqrt:

CREATE FUNCTION square_root(double precision) RETURNS double precision
    AS 'dsqrt'
    LANGUAGE internal
    STRICT;

Большинство внутренних функций «строгие» (STRICT).

Замечание
Не все предопределенные функции являются «внутренними» в вышеописанном смысле. Некоторые предопределенные функции написаны на SQL.

Функции на нативном языке

Пользовательские нативные функции могут быть написаны на C, Rust, С++ или других компилируемых unmanaged языках. Функции должны следовать соглашению о вызове C ("extern C", все означенные языки имеют возможность следовать такому соглашению) и соглашению QHB об именах функций, экспортируемых из библиотек. Это соглашение об именах называется "Version 1", и для разработки на языке C предоставляется макрос PG_FUNCTION_INFO_V1() для правильного оформления вашей функции (см. ниже).

Пользовательские функции компилируются в динамически загружаемые объекты (также называемые разделяемыми библиотеками) и загружаются сервером по требованию. Функция динамической загрузки — это то, что отличает «нативные» функции от «внутренних», а сами функции устроены одинаково.

Динамическая загрузка

При первом вызове пользовательской функции в конкретном загружаемом объектном файле в сеансе динамический загрузчик загружает этот объектный файл в память, чтобы вызвать функцию. Поэтому функция CREATE FUNCTION для пользовательской функции C должна указывать две части информации для функции: имя загружаемого объектного файла и C-имя (символ ссылки) конкретной функции, вызываемой в этом объектном файле. Если C-имя не указано явно, предполагается, что оно совпадает с именем функции SQL.

Следующий алгоритм используется для поиска файла общего объекта на основе имени, указанного в команде CREATE FUNCTION:

Если имя является абсолютным путем, данный файл загружается.
Если имя начинается со строки $libdir, эта часть заменяется именем каталога библиотеки пакетов QHB, которое определяется во время сборки.
Если имя не содержит часть каталога, поиск файла производится по пути, указанному в переменной конфигурации dynamic_library_path, см. dynamic_library_path.
В противном случае (файл не найден в пути или он содержит не абсолютную часть каталога), динамический загрузчик попытается принять имя, как указано, что, скорее всего, не удастся. (Ненадежно зависеть от текущего рабочего каталога).

Если эта последовательность не работает, к указанному имени добавляется расширение имени файла общей библиотеки для конкретной платформы (часто .so), и эта последовательность повторяется. Если это также не удается, загрузка не удастся.

Рекомендуется размещать разделяемые библиотеки относительно $libdir или по пути динамической библиотеки. Это упрощает обновление версий, если новая установка находится в другом месте. Действительный каталог, $libdir стоит $libdir можно узнать с помощью команды pg_config --pkglibdir.

Идентификатор пользователя, на котором работает сервер QHB, должен проходить путь к файлу, который вы собираетесь загрузить. Создание файла или каталога более высокого уровня нечитабельным и/или не исполняемым пользователем qhb является распространенной ошибкой.

В любом случае имя файла, указанное в команде CREATE FUNCTION записывается буквально в системных каталогах, поэтому, если файл необходимо загрузить снова, применяется та же процедура.

Заметка
QHB не будет компилировать функцию C/Rust автоматически. Объектный файл должен быть скомпилирован перед тем, как на него будет ссылаться команда CREATE FUNCTION. См. раздел Компиляция и связывание динамически загружаемых функций для получения дополнительной информации.

Чтобы гарантировать, что динамически загружаемый объектный файл не загружается на несовместимый сервер, QHB проверяет, что файл содержит «магический блок» с соответствующим содержимым. Это позволяет серверу обнаруживать очевидные несовместимости, такие как код, скомпилированный для другой основной версии QHB. Чтобы включить магический блок, запишите это в один (и только один) из исходных файлов модуля после включения заголовка fmgr.h:

PG_MODULE_MAGIC;

После первого использования динамически загруженный объектный файл сохраняется в памяти. Будущие вызовы в том же сеансе к функциям в этом файле приведут только к небольшим накладным расходам поиска таблицы символов. Если вам необходимо принудительно перезагрузить объектный файл, например, после его перекомпиляции, начните новый сеанс.

При желании динамически загружаемый файл может содержать функции инициализации и финализации. Если файл содержит функцию с именем _PG_init, эта функция будет вызываться сразу после загрузки файла. Функция не получает параметров и должна возвращать void. Если файл содержит функцию с именем _PG_fini, эта функция будет вызвана непосредственно перед выгрузкой файла. Аналогично, функция не получает параметров и должна возвращать void. Обратите внимание, что _PG_fini будет вызываться только во время выгрузки файла, а не во время завершения процесса. (В настоящее время выгрузки отключены и никогда не произойдут, но это может измениться в будущем).

Базовые типы в функциях языка C/RUST

Чтобы знать, как писать функции на языке C/RUST, вам необходимо знать, как QHB внутренне представляет базовые типы данных и как их можно передавать в функции и из функций. Внутри QHB рассматривает базовый тип как «блок памяти». Пользовательские функции, которые вы определяете для типа, в свою очередь, определяют способ работы QHB с ним. То есть QHB будет хранить и извлекать данные только с диска и использовать ваши пользовательские функции для ввода, обработки и вывода данных.

Базовые типы могут иметь один из трех внутренних форматов:

передача по значению с фиксированной длиной
передача по ссылке, фиксированной длины
передача по ссылке, переменной длины

Типы по значению могут иметь длину только 1, 2 или 4 байта (также 8 байтов, если sizeof(Datum) равен 8 на вашем сервере). Вы должны быть осторожны, чтобы определить ваши типы так, чтобы они были одинакового размера (в байтах) на всех архитектурах. Например, тип long опасен, потому что на одних машинах он составляет 4 байта, а на других - 8 байтов, тогда как тип int на большинстве машин Unix составляет 4 байта. int4 реализация типа int4 на машинах Unix может быть:

/* 4-byte integer, passed by value */
typedef int int4;

(Фактический код QHB C вызывает этот тип int32, потому что в C существует соглашение, согласно которому int XX означает XX бит . Поэтому обратите внимание также на то, что тип C int8 имеет размер 1 байт. SQL-тип int8 называется int64 в C. См. также таблицу 1).

С другой стороны, типы фиксированной длины любого размера могут передаваться по ссылке. Например, вот пример реализации типа QHB:

/* 16-byte structure, passed by reference */
typedef struct
{
    double  x, y;
} Point;

Только указатели на такие типы могут использоваться при передаче их в и из функций QHB. Чтобы вернуть значение такого типа, выделите правильный объем памяти с помощью palloc, заполните выделенную память и верните указатель на нее. (Также, если вы просто хотите вернуть то же значение, что и один из ваших входных аргументов того же типа данных, вы можете пропустить лишний palloc и просто вернуть указатель на входное значение).

Наконец, все типы переменной длины также должны передаваться по ссылке. Все типы переменной длины должны начинаться с непрозрачного поля длины ровно 4 байта, которое будет установлено SET_VARSIZE; никогда не устанавливайте это поле напрямую! Все данные, которые должны быть сохранены в этом типе, должны быть расположены в памяти сразу после этого поля длины. Поле длины содержит общую длину структуры, то есть включает в себя размер самого поля длины.

Еще один важный момент - избегать оставления неинициализированных битов в значениях типа данных; например, позаботьтесь об обнулении любых байтов заполнения выравнивания, которые могут присутствовать в структурах. Без этого планировщик может рассматривать логически эквивалентные константы вашего типа данных как неравные, что приводит к неэффективным (хотя и не неправильным) планам.

!!! Предупреждение

Никогда не изменяйте содержимое входного значения передачи по ссылке. Если вы это сделаете, вы, скорее всего, повредите данные на диске, поскольку указанный вами указатель может указывать прямо на буфер диска. Единственное исключение из этого правила объясняется в разделе Пользовательские агрегаты.

В качестве примера мы можем определить тип text следующим образом:

typedef struct {
    int32 length;
    char data[FLEXIBLE_ARRAY_MEMBER];
} text;

Нотация [FLEXIBLE_ARRAY_MEMBER] означает, что фактическая длина части данных не указана в этом объявлении.

При манипулировании типами переменной длины мы должны быть осторожны, чтобы правильно распределить объем памяти и правильно задать поле длины. Например, если мы хотим сохранить 40 байтов в text структуре, мы можем использовать фрагмент кода, подобный этому:

#include "postgres.h"
...
char buffer[40]; /* our source data */
...
text *destination = (text *) palloc(VARHDRSZ + 40);
SET_VARSIZE(destination, VARHDRSZ + 40);
memcpy(destination->data, buffer, 40);
...

VARHDRSZ - это то же самое, что и sizeof(int32), но считается хорошим стилем использовать макрос VARHDRSZ для ссылки на размер служебной информации для типа переменной длины. Кроме того, поле длины должно быть установлено с SET_VARSIZE макроса SET_VARSIZE, а не путем простого присваивания.

Таблица 1 указывает, какой тип C/RUST соответствует какому типу SQL при написании функции на языке C/RUST, использующей встроенный тип QHB. В столбце «Определено в» указан заголовочный файл, который необходимо включить, чтобы получить определение типа. (Фактическое определение может быть в другом файле, который включен в указанный файл. Рекомендуется, чтобы пользователи придерживались определенного интерфейса). Обратите внимание, что вы всегда должны сначала включать postgres.h в любой исходный файл, поскольку он объявляет ряд вещей, которые вам понадобятся в любом случае.

Таблица 1. Эквивалентные типы C для встроенных типов SQL

Тип SQL	Тип C	Определено в
boolean	bool	postgres.h (возможно встроенный компилятор)
box	BOX*	utils/geo_decls.h
bytea	bytea*	postgres.h
"char"	char	(встроенный компилятор)
character	BpChar*	postgres.h
cid	CommandId	postgres.h
date	DateADT	utils/date.h
smallint ( int2 )	int16	postgres.h
int2vector	int2vector*	postgres.h
integer ( int4 )	int32	postgres.h
real ( float4 )	float4*	postgres.h
double precision ( float8 )	float8*	postgres.h
interval	Interval*	datatype/timestamp.h
lseg	LSEG*	utils/geo_decls.h
name	Name	postgres.h
oid	Oid	postgres.h
oidvector	oidvector*	postgres.h
path	PATH*	utils/geo_decls.h
point	POINT*	utils/geo_decls.h
regproc	regproc	postgres.h
text	text*	postgres.h
tid	ItemPointer	storage/itemptr.h
time	TimeADT	utils/date.h
time with time zone	TimeTzADT	utils/date.h
timestamp	Timestamp*	datatype/timestamp.h
varchar	VarChar*	postgres.h
xid	TransactionId	postgres.h

Теперь, когда мы рассмотрели все возможные структуры для базовых типов, мы можем показать некоторые примеры реальных функций.

Версия 1 Соглашение о вызовах

Соглашение о вызовах версии 1 опирается на макросы, которые подавляют большую часть сложности передачи аргументов и результатов. Объявление C функции версии-1 всегда:

Datum funcname(PG_FUNCTION_ARGS)

Кроме того, вызов макроса:

PG_FUNCTION_INFO_V1(funcname);

должен появиться в том же исходном файле. (Обычно он написан непосредственно перед самой функцией). Этот вызов макроса не требуется для внутренних функций языка, поскольку QHB предполагает, что все внутренние функции используют соглашение версии 1. Это, однако, требуется для динамически загружаемых функций.

В функции версии 1 каждый фактический аргумент выбирается с помощью PG_GETARG_ xxx () который соответствует типу данных аргумента. В нестрогих функциях необходимо предварительно проверить нулевой аргумент, используя PG_ARGNULL_ xxx (). Результат возвращается с использованием PG_RETURN_ xxx () для возвращаемого типа. PG_GETARG_ xxx () принимает в качестве аргумента номер аргумента функции для выборки, где счет начинается с 0. PG_RETURN_ xxx () принимает в качестве аргумента фактическое значение, которое нужно вернуть.

Вот несколько примеров использования соглашения о вызовах версии 1:

#include "postgres.h"
#include <string.h>
#include "fmgr.h"
#include "utils/geo_decls.h"

PG_MODULE_MAGIC;

/* by value */

PG_FUNCTION_INFO_V1(add_one);

Datum
add_one(PG_FUNCTION_ARGS)
{
    int32   arg = PG_GETARG_INT32(0);

    PG_RETURN_INT32(arg + 1);
}

/* by reference, fixed length */

PG_FUNCTION_INFO_V1(add_one_float8);

Datum
add_one_float8(PG_FUNCTION_ARGS)
{
    /* The macros for FLOAT8 hide its pass-by-reference nature. */
    float8   arg = PG_GETARG_FLOAT8(0);

    PG_RETURN_FLOAT8(arg + 1.0);
}

PG_FUNCTION_INFO_V1(makepoint);

Datum
makepoint(PG_FUNCTION_ARGS)
{
    /* Here, the pass-by-reference nature of Point is not hidden. */
    Point     *pointx = PG_GETARG_POINT_P(0);
    Point     *pointy = PG_GETARG_POINT_P(1);
    Point     *new_point = (Point *) palloc(sizeof(Point));

    new_point->x = pointx->x;
    new_point->y = pointy->y;

    PG_RETURN_POINT_P(new_point);
}

/* by reference, variable length */

PG_FUNCTION_INFO_V1(copytext);

Datum
copytext(PG_FUNCTION_ARGS)
{
    text     *t = PG_GETARG_TEXT_PP(0);

    /*
     * VARSIZE_ANY_EXHDR is the size of the struct in bytes, minus the
     * VARHDRSZ or VARHDRSZ_SHORT of its header.  Construct the copy with a
     * full-length header.
     */
    text     *new_t = (text *) palloc(VARSIZE_ANY_EXHDR(t) + VARHDRSZ);
    SET_VARSIZE(new_t, VARSIZE_ANY_EXHDR(t) + VARHDRSZ);

    /*
     * VARDATA is a pointer to the data region of the new struct.  The source
     * could be a short datum, so retrieve its data through VARDATA_ANY.
     */
    memcpy((void *) VARDATA(new_t), /* destination */
           (void *) VARDATA_ANY(t), /* source */
           VARSIZE_ANY_EXHDR(t));   /* how many bytes */
    PG_RETURN_TEXT_P(new_t);
}

PG_FUNCTION_INFO_V1(concat_text);

Datum
concat_text(PG_FUNCTION_ARGS)
{
    text  *arg1 = PG_GETARG_TEXT_PP(0);
    text  *arg2 = PG_GETARG_TEXT_PP(1);
    int32 arg1_size = VARSIZE_ANY_EXHDR(arg1);
    int32 arg2_size = VARSIZE_ANY_EXHDR(arg2);
    int32 new_text_size = arg1_size + arg2_size + VARHDRSZ;
    text *new_text = (text *) palloc(new_text_size);

    SET_VARSIZE(new_text, new_text_size);
    memcpy(VARDATA(new_text), VARDATA_ANY(arg1), arg1_size);
    memcpy(VARDATA(new_text) + arg1_size, VARDATA_ANY(arg2), arg2_size);
    PG_RETURN_TEXT_P(new_text);
}

Предполагая, что приведенный выше код был подготовлен в файле funcs.c и скомпилирован в общий объект, мы могли бы определить функции для QHB с помощью таких команд:

CREATE FUNCTION add_one(integer) RETURNS integer
     AS 'DIRECTORY/funcs', 'add_one'
     LANGUAGE C STRICT;

-- note overloading of SQL function name "add_one"
CREATE FUNCTION add_one(double precision) RETURNS double precision
     AS 'DIRECTORY/funcs', 'add_one_float8'
     LANGUAGE C STRICT;

CREATE FUNCTION makepoint(point, point) RETURNS point
     AS 'DIRECTORY/funcs', 'makepoint'
     LANGUAGE C STRICT;

CREATE FUNCTION copytext(text) RETURNS text
     AS 'DIRECTORY/funcs', 'copytext'
     LANGUAGE C STRICT;

CREATE FUNCTION concat_text(text, text) RETURNS text
     AS 'DIRECTORY/funcs', 'concat_text'
     LANGUAGE C STRICT;

Здесь DIRECTORY обозначает каталог файла общей библиотеки (например, каталог учебника по QHB, который содержит код для примеров, используемых в этом разделе). (Лучше было бы использовать просто 'funcs' в предложении AS после добавления DIRECTORY в путь поиска. В любом случае мы можем опустить системное расширение для общей библиотеки, обычно .so ).

Обратите внимание, что мы указали функции как «строгие», что означает, что система должна автоматически принимать нулевой результат, если любое входное значение равно нулю. Делая это, мы избегаем необходимости проверять нулевые входы в коде функции. Без этого нам пришлось бы явно проверять нулевые значения, используя PG_ARGISNULL().

На первый взгляд, соглашения о кодировании в версии 1 могут показаться просто бессмысленным мракобесием по сравнению с использованием простых соглашений о вызовах языка C/RUST. Тем не менее, они позволяют работать с NULL аргументами / возвращаемыми значениями и «поджаренными» (сжатыми или вне строки) значениями.

Макрос PG_ARGISNULL(n) позволяет функции проверять, является ли каждый вход нулевым. (Конечно, делать это необходимо только в функциях, не объявленных как «строгие»). Как и в PG_GETARG_ xxx (), входные аргументы считаются начиная с нуля. Обратите внимание, что следует воздерживаться от выполнения PG_GETARG_ xxx () пока не убедитесь что аргумент не является нулевым. Чтобы вернуть нулевой результат, выполните PG_RETURN_NULL(); это работает как в строгих, так и в нестрогих функциях.

Другие опции, предоставляемые интерфейсом версии 1, - это два варианта PG_GETARG_ xxx (). Первый из них, PG_GETARG_ xxx _COPY(), гарантирует возврат копии указанного аргумента, который является безопасным для записи. (Обычные макросы иногда возвращают указатель на значение, которое физически хранится в таблице, в которую нельзя записывать. Использование PG_GETARG_ xxx _COPY() гарантирует доступный для записи результат). Второй вариант состоит из PG_GETARG_ xxx _SLICE() макроса, который принимает три аргумента. Первый - это номер аргумента функции (как указано выше). Второе и третье - это смещение и длина возвращаемого сегмента. Смещения отсчитываются от нуля, а отрицательная длина требует возврата оставшейся части значения. Эти макросы обеспечивают более эффективный доступ к частям больших значений в том случае, если они имеют тип хранения «внешний». (Тип хранения столбца может быть указан с помощью ALTER TABLE tablename ALTER COLUMN colname SET STORAGE storagetype. storagetype - один из plain, external, extended или main).

Наконец, соглашения о вызовах функций версии 1 позволяют возвращать заданные результаты (раздел Возврат наборов) и реализовывать функции триггера (глава Триггеры)

Написание кода

Прежде чем перейти к более сложным темам, мы должны обсудить некоторые правила кодирования для функций языка C/RUST QHB. Хотя может быть возможно загрузить функции, написанные на языках, отличных от C, в QHB, это обычно сложно (когда это вообще возможно), потому что другие языки, такие как C++, FORTRAN или Pascal, часто не следуют тому же соглашению о вызовах, что и C. То есть другие языки не передают аргумент и возвращают значения между функциями одинаковым образом. По этой причине мы будем предполагать, что ваши функции языка C на самом деле написаны на C/RUST.

Основные правила написания и построения функций C/RUST следующие:

Используйте pg_config --includedir-server чтобы узнать, где установлены файлы заголовков сервера QHB в вашей системе (или системе, на которой будут работать ваши пользователи).
Компиляция и компоновка вашего кода для его динамической загрузки в QHB всегда требует специальных флагов. См. раздел Компиляция и связывание динамически загружаемых функций для подробного объяснения того, как это сделать для вашей конкретной операционной системы.
Не забудьте определить «магический блок» для вашей общей библиотеки, как описано в разделе 6.10.1.
При выделении памяти используйте функции QHB palloc и pfree вместо соответствующих библиотек C функции malloc и free. Память, выделенная palloc будет автоматически освобождаться в конце каждой транзакции, предотвращая утечки памяти.
Всегда обнуляйте байты ваших структур, используя memset (или выделяйте их сначала с помощью palloc0). Даже если вы назначите каждому полю вашей структуры, могут быть отступы выравнивания (отверстия в структуре), которые содержат значения мусора. Без этого трудно поддерживать хеш-индексы или хеш-объединения, так как для вычисления хеша необходимо выделить только значимые биты вашей структуры данных. Планировщик также иногда полагается на сравнение констант с помощью побитового равенства, поэтому вы можете получить нежелательные результаты планирования, если логически эквивалентные значения не являются побитовыми.
Большинство внутренних типов QHB объявлены в postgres.h, в то время как интерфейсы диспетчера функций ( PG_FUNCTION_ARGS и т. д.) Находятся в fmgr.h, поэтому вам нужно будет включить как минимум эти два файла. По причинам переносимости лучше сначала включить postgres.h, а не файлы заголовков других систем или пользователей. В том числе postgres.h также будет включать elog.h и palloc.h для вас.
Имена символов, определенные в объектных файлах, не должны конфликтовать друг с другом или с символами, определенными в исполняемом файле сервера QHB. Вам придется переименовать ваши функции или переменные, если вы получите сообщения об ошибках по этому поводу.

Компиляция и связывание динамически загружаемых функций

Прежде чем вы сможете использовать свои функции расширения QHB, написанные на C/RUST, они должны быть скомпилированы и связаны особым образом для создания файла, который может быть динамически загружен сервером. Чтобы быть точным, необходимо создать общую библиотеку .

Для получения информации, выходящей за рамки этого раздела, вам следует прочитать документацию по вашей операционной системе, в частности страницы руководства для компилятора C/RUST, cc и редактора ссылок, ld. Кроме того, исходный код QHB содержит несколько рабочих примеров в каталоге contrib. Однако, если вы будете полагаться на эти примеры, вы сделаете свои модули зависимыми от доступности исходного кода QHB.

Создание общих библиотек обычно аналогично связыванию исполняемых файлов: сначала исходные файлы компилируются в объектные файлы, затем объектные файлы связываются вместе. Объектные файлы должны быть созданы как позиционно-независимый код (PIC), что концептуально означает, что они могут быть размещены в произвольном месте в памяти, когда они загружаются исполняемым файлом. (Объектные файлы, предназначенные для исполняемых файлов, обычно не компилируются таким образом). Команда для связи общей библиотеки содержит специальные флаги, чтобы отличать ее от ссылки на исполняемый файл (по крайней мере, теоретически - в некоторых системах эта практика намного уродливее).

В следующих примерах мы предполагаем, что ваш исходный код находится в файле foo.c и мы создадим общую библиотеку foo.so Промежуточный объектный файл будет называться foo.o если не указано иное. Общая библиотека может содержать более одного объектного файла, но здесь мы используем только один.

Linux

Флаг компилятора для создания PIC - -fPIC. Флаг компилятора для создания разделяемой библиотеки - -shared. Полный пример выглядит так:

cc -fPIC -c foo.c
cc -shared -o foo.so foo.o

Полученный файл общей библиотеки затем можно загрузить в QHB . При указании имени файла для команды CREATE FUNCTIONнеобходимо указать имя файла общей библиотеки, а не файла промежуточных объектов. Обратите внимание, что стандартное расширение разделяемой библиотеки системы (обычно .so или .sl ) может быть опущено в команде CREATE FUNCTION и обычно должно быть опущено для лучшей переносимости.

Обратитесь к разделу 6.10.1 о том, где сервер ожидает найти файлы общей библиотеки.

Составные аргументы

Составные типы не имеют фиксированного макета, как структуры C. Экземпляры составного типа могут содержать пустые поля. Кроме того, составные типы, являющиеся частью иерархии наследования, могут иметь поля, отличные от других членов той же иерархии наследования. Следовательно, QHB предоставляет функциональный интерфейс для доступа к полям составных типов из C.

Предположим, мы хотим написать функцию для ответа на запрос:

SELECT name, c_overpaid(emp, 1500) AS overpaid
    FROM emp
    WHERE name = 'Bill' OR name = 'Sam';

Используя соглашения о вызовах версии-1, мы можем определить c_overpaid как:

#include "postgres.h"
#include "executor/executor.h"  /* for GetAttributeByName() */

PG_MODULE_MAGIC;

PG_FUNCTION_INFO_V1(c_overpaid);

Datum
c_overpaid(PG_FUNCTION_ARGS)
{
    HeapTupleHeader  t = PG_GETARG_HEAPTUPLEHEADER(0);
    int32            limit = PG_GETARG_INT32(1);
    bool isnull;
    Datum salary;

    salary = GetAttributeByName(t, "salary", &isnull);
    if (isnull)
        PG_RETURN_BOOL(false);
    /* Alternatively, we might prefer to do PG_RETURN_NULL() for null salary. */

    PG_RETURN_BOOL(DatumGetInt32(salary) > limit);
}

GetAttributeByName - системная функция QHB, которая возвращает атрибуты из указанной строки. Он имеет три аргумента: аргумент типа HeapTupleHeader передаваемый в функцию, имя требуемого атрибута и возвращаемый параметр, который сообщает, является ли атрибут null. GetAttributeByName возвращает значение Datum которое можно преобразовать в правильный тип данных с помощью соответствующего DatumGetXXX(). Обратите внимание, что возвращаемое значение не имеет смысла, если установлен null флаг; всегда проверяйте null флаг, прежде чем пытаться что-либо сделать с результатом.

Существует также GetAttributeByNum, который выбирает целевой атрибут по номеру столбца, а не по имени.

Следующая команда объявляет функцию c_overpaid в SQL:

CREATE FUNCTION c_overpaid(emp, integer) RETURNS boolean
    AS 'DIRECTORY/funcs', 'c_overpaid'
    LANGUAGE C STRICT;

Обратите внимание, что мы использовали STRICT чтобы нам не нужно было проверять, были ли входные аргументы NULL.

Возвращающиеся строки (составные типы)

Чтобы вернуть значение строки или составного типа из функции языка C/RUST, вы можете использовать специальный API, который предоставляет макросы и функции, чтобы скрыть большую часть сложности построения составных типов данных. Чтобы использовать этот API, исходный файл должен включать:

#include "funcapi.h"

Существует два способа создания составного значения данных (далее «кортеж»): вы можете построить его из массива значений Datum или из массива строк C/RUST, которые можно передать во входные функции преобразования столбца кортежа типы данных. В любом случае сначала необходимо получить или создать дескриптор TupleDesc для структуры кортежа. При работе с Datums вы передаете TupleDesc в BlessTupleDesc, а затем вызываете heap_form_tuple для каждой строки. При работе со строками C вы передаете TupleDesc в TupleDescGetAttInMetadata, а затем вызываете BuildTupleFromCStrings для каждой строки. В случае если функция возвращает набор кортежей, все шаги настройки могут быть выполнены один раз во время первого вызова функции.

Несколько вспомогательных функций доступны для настройки необходимого TupleDesc. Рекомендуемый способ сделать это в большинстве функций, возвращающих составные значения, это вызвать:

TypeFuncClass get_call_result_type(FunctionCallInfo fcinfo,
                                   Oid *resultTypeId,
                                   TupleDesc *resultTupleDesc)

передача той же самой структуры fcinfo переданной самой вызывающей функции. (Это, конечно, требует использования соглашений о вызовах версии-1). resultTypeId может быть задан как NULL или как адрес локальной переменной для получения OID типа результата функции. resultTupleDesc должен быть адресом локальной переменной TupleDesc. Убедитесь, что результатом является TYPEFUNC_COMPOSITE; если это так, resultTupleDesc был заполнен необходимым TupleDesc. (Если это не так, вы можете сообщить об ошибке в соответствии с «function returning record called in context that cannot accept type record» ).

Заметка
get_call_result_type может разрешить фактический тип результата полиморфной функции; так что это полезно в функциях, которые возвращают скалярные полиморфные результаты, а не только в функциях, которые возвращают композиты. Вывод resultTypeId в первую очередь полезен для функций, возвращающих полиморфные скаляры.

Заметка
get_call_result_type имеет одноуровневый get_expr_result_type, который можно использовать для разрешения ожидаемого выходного типа для вызова функции, представленного деревом выражений. Это может быть использовано при попытке определить тип результата вне самой функции. Существует также get_func_result_type, который можно использовать, когда доступен только OID функции. Однако эти функции не могут работать с функциями, объявленными для возврата record, и get_func_result_type не может разрешать полиморфные типы, поэтому вы должны преимущественно использовать get_call_result_type.

Старые устаревшие функции для получения TupleDesc:

TupleDesc RelationNameGetTupleDesc(const char *relname)

чтобы получить TupleDesc для типа строки именованного отношения, и:

TupleDesc TypeGetTupleDesc(Oid typeoid, List *colaliases)

чтобы получить TupleDesc на основе типа OID. Это может быть использовано для получения TupleDesc для базового или составного типа. Однако она не будет работать для функции, которая возвращает record, и не может разрешать полиморфные типы.

Когда у вас есть TupleDesc, вызовите:

TupleDesc BlessTupleDesc(TupleDesc tupdesc)

если вы планируете работать с Datums, или:

AttInMetadata *TupleDescGetAttInMetadata(TupleDesc tupdesc)

если вы планируете работать со строками C. Если вы пишете функцию, возвращающую набор, вы можете сохранить результаты этих функций в структуре FuncCallContext - используйте поле tuple_desc или attinmeta соответственно.

При работе с Datums используйте:

HeapTuple heap_form_tuple(TupleDesc tupdesc, Datum *values, bool *isnull)

построить HeapTuple заданных пользовательских данных в форме Datum.

При работе со строками Си используйте:

HeapTuple BuildTupleFromCStrings(AttInMetadata *attinmeta, char **values)

построить HeapTuple данных пользовательских данных в форме строки C. values это массив строк C, по одному на каждый атрибут возвращаемой строки. Каждая строка C должна иметь форму, ожидаемую функцией ввода типа данных атрибута. Чтобы вернуть null значение для одного из атрибутов, соответствующий указатель в массиве values должен быть установлен в NULL. Эту функцию нужно будет вызывать снова для каждой возвращаемой строки.

Как только вы построите кортеж для возврата из своей функции, он должен быть преобразован в элемент Datum. Использование:

HeapTupleGetDatum(HeapTuple tuple)

преобразовать HeapTuple в действительный элемент данных. Этот Datum может быть возвращен напрямую, если вы намереваетесь вернуть только одну строку, или он может использоваться как текущее возвращаемое значение в функции, возвращающей множество.

Пример появится в следующем разделе.

Возврат наборов

Существует также специальный API, который обеспечивает поддержку возврата наборов (нескольких строк) из функции языка Си. Функция, возвращающая множество, должна следовать соглашениям о вызовах версии-1. Кроме того, исходные файлы должны включать funcapi.h, как указано выше.

Функция возврата набора (SRF) вызывается один раз для каждого возвращаемого элемента. Поэтому SRF должен сохранять достаточно состояния, чтобы помнить, что он делал, и возвращать следующий элемент при каждом вызове. Структура FuncCallContext предназначена для управления этим процессом. Внутри функции fcinfo->flinfo->fn_extra используется для хранения указателя на FuncCallContext во всех вызовах.

typedef struct FuncCallContext
{
    /*
     * Number of times we've been called before
     *
     * call_cntr is initialized to 0 for you by SRF_FIRSTCALL_INIT(), and
     * incremented for you every time SRF_RETURN_NEXT() is called.
     */
    uint64 call_cntr;

    /*
     * OPTIONAL maximum number of calls
     *
     * max_calls is here for convenience only and setting it is optional.
     * If not set, you must provide alternative means to know when the
     * function is done.
     */
    uint64 max_calls;

    /*
     * OPTIONAL pointer to miscellaneous user-provided context information
     *
     * user_fctx is for use as a pointer to your own data to retain
     * arbitrary context information between calls of your function.
     */
    void *user_fctx;

    /*
     * OPTIONAL pointer to struct containing attribute type input metadata
     *
     * attinmeta is for use when returning tuples (i.e., composite data types)
     * and is not used when returning base data types. It is only needed
     * if you intend to use BuildTupleFromCStrings() to create the return
     * tuple.
     */
    AttInMetadata *attinmeta;

    /*
     * memory context used for structures that must live for multiple calls
     *
     * multi_call_memory_ctx is set by SRF_FIRSTCALL_INIT() for you, and used
     * by SRF_RETURN_DONE() for cleanup. It is the most appropriate memory
     * context for any memory that is to be reused across multiple calls
     * of the SRF.
     */
    MemoryContext multi_call_memory_ctx;

    /*
     * OPTIONAL pointer to struct containing tuple description
     *
     * tuple_desc is for use when returning tuples (i.e., composite data types)
     * and is only needed if you are going to build the tuples with
     * heap_form_tuple() rather than with BuildTupleFromCStrings().  Note that
     * the TupleDesc pointer stored here should usually have been run through
     * BlessTupleDesc() first.
     */
    TupleDesc tuple_desc;

} FuncCallContext;

SRF использует несколько функций и макросов, которые автоматически манипулируют структурой FuncCallContext (и ожидают найти ее через fn_extra). Использование:

SRF_IS_FIRSTCALL()

определить, вызывается ли ваша функция в первый или последующий раз. При первом вызове (только) используйте:

SRF_FIRSTCALL_INIT()

инициализировать FuncCallContext. При каждом вызове функции, включая первый, используйте:

SRF_PERCALL_SETUP()

правильно настроить использование FuncCallContext и очистку любых ранее возвращенных данных, оставшихся от предыдущего прохода.

Если ваша функция имеет данные для возврата, используйте:

SRF_RETURN_NEXT(funcctx, result)

вернуть его вызывающему. (результат должен иметь тип Datum, либо одно значение, либо кортеж, подготовленный, как описано выше). Наконец, когда ваша функция закончит возвращать данные, используйте:

SRF_RETURN_DONE(funcctx)

очистить и закончить SRF.

Текущий контекст памяти, когда вызывается SRF, является временным контекстом, который будет очищен между вызовами. Это означает, что вам не нужно вызывать pfree для всего, что вы выделили с помощью palloc; это все равно уйдет. Однако, если вы хотите распределить какие-либо структуры данных между вызовами, вам нужно поместить их в другое место. Контекст памяти, на который ссылается multi_call_memory_ctx, является подходящим местом для любых данных, которые должны сохраняться до завершения работы SRF. В большинстве случаев это означает, что вы должны переключиться на multi_call_memory_ctx при выполнении настройки первого вызова.

!!! Предупреждение

Хотя фактические аргументы функции остаются неизменными между вызовами, если вы сбрасываете значения аргументов (что обычно делается прозрачно с помощью макроса PG_GETARG_xxx) во временном контексте, то очищенные копии будут освобождаться в каждом цикле. Соответственно, если вы сохраняете ссылки на такие значения в вашем user_fctx, вы должны либо скопировать их в multi_call_memory_ctx после удаления, либо убедиться, что вы удалили значения только в этом контексте.

Полный пример псевдокода выглядит следующим образом:

Datum
my_set_returning_function(PG_FUNCTION_ARGS)
{
    FuncCallContext  *funcctx;
    Datum             result;
    further declarations as needed

    if (SRF_IS_FIRSTCALL())
    {
        MemoryContext oldcontext;

        funcctx = SRF_FIRSTCALL_INIT();
        oldcontext = MemoryContextSwitchTo(funcctx->multi_call_memory_ctx);
        /* One-time setup code appears here: */
        user code
        if returning composite
            build TupleDesc, and perhaps AttInMetadata
        endif returning composite
        user code
        MemoryContextSwitchTo(oldcontext);
    }

    /* Each-time setup code appears here: */
    user code
    funcctx = SRF_PERCALL_SETUP();
    user code

    /* this is just one way we might test whether we are done: */
    if (funcctx->call_cntr < funcctx->max_calls)
    {
        /* Here we want to return another item: */
        user code
        obtain result Datum
        SRF_RETURN_NEXT(funcctx, result);
    }
    else
    {
        /* Here we are done returning items and just need to clean up: */
        user code
        SRF_RETURN_DONE(funcctx);
    }
}

Полный пример простого SRF, возвращающего составной тип, выглядит следующим образом:

PG_FUNCTION_INFO_V1(retcomposite);

Datum
retcomposite(PG_FUNCTION_ARGS)
{
    FuncCallContext     *funcctx;
    int                  call_cntr;
    int                  max_calls;
    TupleDesc            tupdesc;
    AttInMetadata       *attinmeta;

    /* stuff done only on the first call of the function */
    if (SRF_IS_FIRSTCALL())
    {
        MemoryContext   oldcontext;

        /* create a function context for cross-call persistence */
        funcctx = SRF_FIRSTCALL_INIT();

        /* switch to memory context appropriate for multiple function calls */
        oldcontext = MemoryContextSwitchTo(funcctx->multi_call_memory_ctx);

        /* total number of tuples to be returned */
        funcctx->max_calls = PG_GETARG_UINT32(0);

        /* Build a tuple descriptor for our result type */
        if (get_call_result_type(fcinfo, NULL, &tupdesc) != TYPEFUNC_COMPOSITE)
            ereport(ERROR,
                    (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
                     errmsg("function returning record called in context "
                            "that cannot accept type record")));

        /*
         * generate attribute metadata needed later to produce tuples from raw
         * C strings
         */
        attinmeta = TupleDescGetAttInMetadata(tupdesc);
        funcctx->attinmeta = attinmeta;

        MemoryContextSwitchTo(oldcontext);
    }

    /* stuff done on every call of the function */
    funcctx = SRF_PERCALL_SETUP();

    call_cntr = funcctx->call_cntr;
    max_calls = funcctx->max_calls;
    attinmeta = funcctx->attinmeta;

    if (call_cntr < max_calls)    /* do when there is more left to send */
    {
        char       **values;
        HeapTuple    tuple;
        Datum        result;

        /*
         * Prepare a values array for building the returned tuple.
         * This should be an array of C strings which will
         * be processed later by the type input functions.
         */
        values = (char **) palloc(3 * sizeof(char *));
        values[0] = (char *) palloc(16 * sizeof(char));
        values[1] = (char *) palloc(16 * sizeof(char));
        values[2] = (char *) palloc(16 * sizeof(char));

        snprintf(values[0], 16, "%d", 1 * PG_GETARG_INT32(1));
        snprintf(values[1], 16, "%d", 2 * PG_GETARG_INT32(1));
        snprintf(values[2], 16, "%d", 3 * PG_GETARG_INT32(1));

        /* build a tuple */
        tuple = BuildTupleFromCStrings(attinmeta, values);

        /* make the tuple into a datum */
        result = HeapTupleGetDatum(tuple);

        /* clean up (this is not really necessary) */
        pfree(values[0]);
        pfree(values[1]);
        pfree(values[2]);
        pfree(values);

        SRF_RETURN_NEXT(funcctx, result);
    }
    else    /* do when there is no more left */
    {
        SRF_RETURN_DONE(funcctx);
    }
}

Один из способов объявить эту функцию в SQL:

CREATE TYPE __retcomposite AS (f1 integer, f2 integer, f3 integer);

CREATE OR REPLACE FUNCTION retcomposite(integer, integer)
    RETURNS SETOF __retcomposite
    AS 'filename', 'retcomposite'
    LANGUAGE C IMMUTABLE STRICT;

Другой способ - использовать параметры OUT:

CREATE OR REPLACE FUNCTION retcomposite(IN integer, IN integer,
    OUT f1 integer, OUT f2 integer, OUT f3 integer)
    RETURNS SETOF record
    AS 'filename', 'retcomposite'
    LANGUAGE C IMMUTABLE STRICT;

Обратите внимание, что в этом методе тип вывода функции формально является анонимным типом записи.

Модуль contrib/tablefunc каталога в исходном дистрибутиве содержит больше примеров возвращающих множество функций.

Полиморфные аргументы и возвращаемые типы

Можно объявить функции языка Си, чтобы они принимали и возвращали полиморфные типы anyelement, anyarray, anynonarray, anyenum и anyrange. См. Раздел Полиморфные типы для более подробного объяснения полиморфных функций. Когда аргументы функции или возвращаемые типы определены как полиморфные типы, автор функции не может заранее знать, с каким типом данных он будет вызываться или должен возвращаться. В fmgr.h предусмотрены две подпрограммы, позволяющие функции C версии 1 обнаружить фактические типы данных своих аргументов и тип, который ожидается вернуть. Процедуры называются get_fn_expr_rettype(FmgrInfo *flinfo) и get_fn_expr_argtype(FmgrInfo *flinfo, int argnum). Они возвращают OID типа результата или аргумента или InvalidOid, если информация недоступна. Структура flinfo обычно доступна как fcinfo->flinfo. Параметр argnum основан на zero. get_call_result_type также может использоваться как альтернатива get_fn_expr_rettype. Существует также get_fn_expr_variadic, который можно использовать для определения, были ли переменные аргументы объединены в массив. Это в первую очередь полезно для VARIADIC "any" функций, поскольку такое объединение всегда будет происходить для функций с переменными числами, принимающих обычные типы массивов.

Например, предположим, что мы хотим написать функцию, которая принимает один элемент любого типа, и возвращает одномерный массив этого типа:

PG_FUNCTION_INFO_V1(make_array);
Datum
make_array(PG_FUNCTION_ARGS)
{
    ArrayType  *result;
    Oid         element_type = get_fn_expr_argtype(fcinfo->flinfo, 0);
    Datum       element;
    bool        isnull;
    int16       typlen;
    bool        typbyval;
    char        typalign;
    int         ndims;
    int         dims[MAXDIM];
    int         lbs[MAXDIM];

    if (!OidIsValid(element_type))
        elog(ERROR, "could not determine data type of input");

    /* get the provided element, being careful in case it's NULL */
    isnull = PG_ARGISNULL(0);
    if (isnull)
        element = (Datum) 0;
    else
        element = PG_GETARG_DATUM(0);

    /* we have one dimension */
    ndims = 1;
    /* and one element */
    dims[0] = 1;
    /* and lower bound is 1 */
    lbs[0] = 1;

    /* get required info about the element type */
    get_typlenbyvalalign(element_type, &typlen, &typbyval, &typalign);

    /* now build the array */
    result = construct_md_array(&element, &isnull, ndims, dims, lbs,
                                element_type, typlen, typbyval, typalign);

    PG_RETURN_ARRAYTYPE_P(result);
}

Следующая команда объявляет функцию make_array в SQL:

CREATE FUNCTION make_array(anyelement) RETURNS anyarray
    AS 'DIRECTORY/funcs', 'make_array'
    LANGUAGE C IMMUTABLE;

Существует вариант полиморфизма, который доступен только для функций языка Си: они могут быть объявлены для получения параметров типа "any". (Обратите внимание, что это имя типа должно быть заключено в двойные кавычки, поскольку оно также является зарезервированным словом SQL). Это работает как любой элемент, за исключением того, что оно не ограничивает различные "any" аргументы одним и тем же типом и не помогает определить результат функции тип. Функция языка Си также может объявить свой последний параметр VARIADIC "any". Это будет соответствовать одному или нескольким фактическим аргументам любого типа (не обязательно того же типа). Эти аргументы не будут собраны в массив, как это происходит с обычными переменными функциями; они просто будут переданы функции отдельно. Макрос PG_NARGS () и методы, описанные выше, должны использоваться для определения количества фактических аргументов и их типов при использовании этой функции. Кроме того, пользователи такой функции могут захотеть использовать ключевое слово VARIADIC в своем вызове функции, ожидая, что функция будет рассматривать элементы массива как отдельные аргументы. Сама функция должна реализовать это поведение, если необходимо, после использования get_fn_expr_variadic, чтобы обнаружить, что фактический аргумент был помечен как VARIADIC.

Общая память и LWLocks

Надстройки могут резервировать LWLocks и распределение общей памяти при запуске сервера. Общая библиотека надстройки должна быть предварительно загружена, указав ее в shared_preload_libraries. Общая память резервируется путем вызова:

void RequestAddinShmemSpace(int size)

из вашей функции _PG_init.

LWLocks резервируются путем вызова:

void RequestNamedLWLockTranche(const char *tranche_name, int num_lwlocks)

из _PG_init. Это обеспечит доступность массива num_lwlocks LWLocks под именем tranche_name. Используйте GetNamedLWLockTranche, чтобы получить указатель на этот массив.

Чтобы избежать возможных условий гонки, каждый бэкэнд должен использовать LWLock AddinShmemInitLock при подключении и инициализации распределения общей памяти, как показано здесь:

static mystruct *ptr = NULL;

if (!ptr)
{
        bool    found;

        LWLockAcquire(AddinShmemInitLock, LW_EXCLUSIVE);
        ptr = ShmemInitStruct("my struct name", size, &found);
        if (!found)
        {
                initialize contents of shmem area;
                acquire any requested LWLocks using:
                ptr->locks = GetNamedLWLockTranche("my tranche name");
        }
        LWLockRelease(AddinShmemInitLock);
}

Использование C ++ для расширяемости

Хотя серверная часть QHB написана на C/Rust, можно написать расширения на C++, если следовать этим рекомендациям:

Все функции, к которым обращается бэкэнд, должны представлять интерфейс C для бэкэнда; эти функции C могут затем вызывать функции C++. Например, внешняя связь C необходима для функций, к которым обращаются к серверу. Это также необходимо для любых функций, которые передаются в виде указателей между серверной частью и кодом C++.
Освободите память, используя соответствующий метод освобождения. Например, большая часть внутренней памяти выделяется с помощью palloc(), поэтому используйте pfree() для ее освобождения. Использование C++ удалить в таких случаях не удастся.
Не допускайте распространения исключений в коде C (используйте блок catch-all на верхнем уровне всех внешних функций C). Это необходимо, даже если код C++ явно не выбрасывает какие-либо исключения, потому что такие события, как нехватка памяти, могут по-прежнему генерировать исключения. Любые исключения должны быть перехвачены и соответствующие ошибки переданы обратно в интерфейс C. Если возможно, скомпилируйте C++ с -fno-exception, чтобы полностью исключить исключения; в таких случаях вы должны проверять ошибки в вашем C++ коде, например, проверять NULL, возвращаемый new().
При вызове внутренних функций из кода C++ убедитесь, что стек вызовов C++ содержит только простые старые структуры данных (POD). Это необходимо, потому что ошибки бэкэнда генерируют удаленный longjmp (), который неправильно разворачивает стек вызовов C++ с объектами не POD.

Таким образом, лучше всего поместить код C++ за стеной внешних функций C/RUST, которые взаимодействуют с бэкэндом и избегают утечек исключительных ситуаций, памяти и стека вызовов.

Информация по оптимизации функций

По умолчанию функция — это «черный ящик», система очень мало знает о её поведении. Из этого следует, что запросы, использующие функцию, могут выполняться менее эффективно, чем могли бы. Можно предоставить дополнительную информацию, которая поможет планировщику оптимизировать вызовы функций.

Некоторые основные факты могут быть предоставлены декларативными аннотациями в команде CREATE FUNCTION. Наиболее важным из них является категория волатильности функции (IMMUTABLE, STABLE или VOLATILE); всегда нужно быть осторожным, чтобы правильно указать это при определении функции. Свойство безопасности параллельного исполнения (PARALLEL UNSAFE, PARALLEL RESTRICTED или PARALLEL SAFE) также должно быть указано, если вы надеетесь на использование этой функции в параллельных запросах. Также может быть полезно указать оценочную стоимость выполнения функции и/или количество строк, которые она должна вернуть. Однако декларативный способ указания этих двух фактов позволяет указывать только константное значение, а это будет неадекватно.

Также можно прикрепить вспомогательную функцию для планировщика к любой функции, которую можно вызвать из SQL, для вспомогательной функции та функция, к которой она прикреплена, называется её целевой функцией. Вспомогателная функция предоставляет информацию планировщику о своей целевой функции. Вспомогаетльная функция — нативная (в то время как целевая функция — на любом языке), это делает её написание сложным, и они применяются редко.

Вспомогательная функция для планировщика должна иметь следующую SQL-сигнатуру:

supportfn(internal) returns internal

Чтобы подсоединить её к целевой функции, нужно при создании последней использовать указание SUPPORT.

Далее описано, какие "запросы" может делать планировщик ко вспомогательной функции, и какие оптимизации это позволяет. В будущих версиях могут появиться и другие запросы.

Если целевая функция возвращают boolean, то часто полезно оценить процент строк, для которых она вернёт истину. Вы можете реализовать SupportRequestSelectivity и вернуть оптимизатору примерный процент.

Если время выполнения целевой функции сильно зависит от ее входных данных, может быть полезно предоставить оценку непостоянных затрат для нее. Это можно сделать, реализовав тип запроса SupportRequestCost в вашей вспомогательной функции.

Для целевых функций, которые возвращают наборы, часто бывает полезно предоставить непостоянную оценку числа строк, которые будут возвращены. Это можно сделать с помощью вспомогательной функции, которая реализует тип запроса SupportRequestRows.

Самый сложный тип запроса SupportRequestSimplify позволяет переписать непосредственно дерево разбора, заменив вызов целевой функции на что-то ещё. Например, int4mul(n, 1) можно упростить до просто n, этого не знает планировщик, но знает вспомогательная функция, тесно связанная с int4mul. SupportRequestSimplify будет вызвано для каждого вхождения целевой функции в запрос, однако не гарантируется, что не смотря на советы вспомогательной функции, планировщик всё-таки не вызовет оригинальную целевую функцию как есть.

Когда целевая функций, возвращающая boolean, используются для фильтрации (например, в секции WHERE), из неё можно выделить другой, "грубый" фильтр, который позволит индексный поиск. Это делает вспомогательная функция по запросу SupportRequestIndexCondition; фильтр, который она вернёт, может быть в точности эквивалентным вызову целевой функции или быть более слабым, в последне случае для каждой строки будет перепроверяться оригинальный фильтр вызовом целевой функции. Планировщик может решить, что индексный поиск всё равно невозможен или невыгоден, — в этом случае фильтр, созданный вспомогательной функцией, не будет использоваться.

Пользовательские агрегаты

Агрегатные функции в QHB определяются в терминах состояний и функций перехода состояний. То есть агрегат работает с некоторым состоянием, которое обновляется при обработке каждой последующей входной строки. Чтобы создать новую агрегатную функцию, надо выбрать тип данных для состояния, его начальное значение и функцию перехода (свёртки). Функция перехода состояния принимает предыдущее значение состояния и агрегируемое значение(я) текущей строки и возвращает новое значение состояния. Если тип состояния агрегата отличен от желаемого типа результата агрегации, то нужно указать также функцию финализации, которая в конце преобразует одно в другое. В принципе, функции перехода и финализации — это просто обычные функции, которые могут использоваться и вне контекста агрегата. Но на практике, даже если можно использовать в качестве функции перехода существующую функцию, вы, возможно, заходите написать её специальную версию, оптимизированную именно для агрегации.

Таким образом, помимо типов данных аргумента и результата, видимых пользователю агрегата, существует внутренний тип данных состояния, который может отличаться как от типа аргумента, так и от типа результата.

В качестве примера определим агрегат суммы для комплексных чисел:

CREATE AGGREGATE sum (complex)
(
    sfunc = complex_add,
    stype = complex,
    initcond = '(0,0)'
);

Здесь мы задали функцию перехода состояния, тип состояния и начальное состояние. Функцию финализации не задали, и поэтому результатом агрегации будет считаться конечное значение состояния. Как использовать этот агрегат:

SELECT sum(a) FROM test_complex;

   sum
-----------
 (34,53.9)

Обратите внимание, что мы полагаемся на перегрузку функций: существует более одной агрегатной функции с именем sum, но QHB может определить, какую из них применять к столбцу типа complex.

Приведенное выше определение sum вернет ноль (начальное состояние), если нет входных строк, или все они имеют значение NULL. А по стандарту SQL в таком случае положено вернуть NULL. Чтобы добиться этого, можно задать начальное состояние initcond = NULL или, что тоже самое, просто опустить initcond. Однако в этом случае функция перехода sfunc должна уметь обрабатывать текущее состояние NULL. Или можно объявить функцию перехода строгой (STRICT), в этом случае, если текущее состояние NULL, когда встретится строка со значнием NOT NULL, QHB поместит это первое NOT NULL значение в состояние агрегата (разумеется, типы входного значения и состояния должны быть одинаковыми). Для многих агрегатов, например, sum, min, max такое поведение — то, что нужно.

Еще одна особенность поведения «строгой» функции перехода заключается в том, что каждый раз, когда входное значение NULL, функция не вызывается, а состояние сохраняется прежним. Таким образом, NULL значения игнорируются. Если вам нужно другое поведение для входных NULL, не объявляйте вашу функцию перехода строгой, вместо этого закодируйте в ней обработку NULL.

avg (среднее арифметическое) — пример более сложного агрегата. Рабочее состояние должно состоять из суммы значений и их количества. Окончательный результат получается делением этих величин. Встроенная реализация avg хранит промежуточное состояние в виде массива, а не в виде кортежа. Например, определение avg(float8) выглядит так:

CREATE AGGREGATE avg (float8)
(
    sfunc = float8_accum,
    stype = float8[],
    finalfunc = float8_avg,
    initcond = '{0,0,0}'
);

Замечание
Для float8_accum требуется массив из трех элементов, а не из только двух, потому что она накапливает количество, сумму и сумму квадратов. Это сделано для того, чтобы ту же самую функцию float8_accum можно было использовать и для других агрегатов помимо avg.

Вызовы агрегатных функций в SQL позволяют использовать опции DISTINCT и ORDER BY, которые определяют, какие строки передаются в агрегирующую функцию и в каком порядке. Это происходит за кулисами, и агрегатная функция не может настраивать это поведение.

Для получения дополнительной информации см. описание команды CREATE AGGREGATE.

Режим движущегося агрегата

Агрегатные функции могут дополнительно поддерживать режим движущегося(скользящего) агрегата, который позволяет гораздо быстрее считать агрегат по окну с движущимся началом. (См. разделы Руководство по оконным функциям и Вызовы оконных функций для получения информации об использовании агрегатных функций в качестве оконных функций). Основная идея заключается в том, что в дополнение к обычной «прямой» функции перехода агрегат предоставляет обратную функцию перехода, которая позволяет удалять строки из текущего состояния агрегата, когда они выпадают из окна. Например, агрегат sum, который использует сложение в качестве функции прямого перехода, будет использовать вычитание в качестве функции обратного перехода. Без функции обратного перехода придётся пересчитывать агрегат с нуля при каждом перемещении рамки окна, в результате чего время выполнения будет пропорционально числу входных строк, умноженному на среднюю длину окна. При использовании функции обратного перехода время выполнения пропорционально просто количеству входных строк.

В функцию обратного перехода передаётся текущее состояние и значение выпадающей строки. Это обязательно первая из строк, добавленных в агрегат (и ещё не выпавших). Формально функция должна восстановить состояние агрегата, как если бы выпадающая строка никогда и не была добавлена в агрегат, а агрегацию начали со второй строки. Чтобы это реализовать, может потребоваться хранить в текущем состоянии агрегата больше информации, чем для агрегирования "только вперёд". По этой причине режим движущегося агрегата имеет независимый набор из типа данных, функций перехода прямой и обратной, и функции финализации, если нужна. А в простом случае этот набор будет совпадать с набором для "обыкновенного" режима агрегации.

В качестве примера опять определение агрегата sum для комплексных чисел, теперь поддерживается скользящий режим:

CREATE AGGREGATE sum (complex)
(
    sfunc = complex_add,
    stype = complex,
    initcond = '(0,0)',
    msfunc = complex_add,
    minvfunc = complex_sub,
    mstype = complex,
    minitcond = '(0,0)'
);

Параметры, имена которых начинаются с m относятся к реализации движущегося агрегата. Все они (кроме функции обратного перехода minvfunc) имеют соотвествующий параметр без m, который относится к реализации "обычного " агрегата.

Функция прямого перехода для режима движущегося агрегата не может возвращать значение NULL в качестве нового значения состояния. Функция обратного перехода может вернуть NULL, но это будет воспринято как то, что она не может "убрать" данное значение — в этом случае агрегат пересчитают с нуля, начиная от нового начала окна. Это соглашение позволяет использовать функции движущегося агрегата, если иногда возникают ситуации, когда нельзя удалить значение из текущего состояния; в этих редких ситуациях функция обратного перехода "сдаётся", и агрегирование будет работать медленнее, но в большинстве ситуаций — быстро. Пример — агрегат, работающий с числами с плавающей запятой; функция обратного перехода будет вынуждена "сдаться", когда её попросят удалить значение NaN из текущего состояния агрегата.

При написании вспомогательных функций движущегося агрегата важно убедиться, что функция обратного перехода может точно восстановить правильное состояние. В противном случае могут быть заметные для пользователя различия в результатах в зависимости от того, используется ли режим скользящего агрегата. Примером агрегата, для которого добавление функции обратного перехода на первый взгляд кажется простым, а на самом деле имеет много подводных камней, является sum по float4 или float8. Наивное объявление sum(float8) может быть таким:

CREATE AGGREGATE unsafe_sum (float8)
(
    stype = float8,
    sfunc = float8pl,
    mstype = float8,
    msfunc = float8pl,
    minvfunc = float8mi
);

Этот агрегат, однако, может дать неожиданные результаты при скользящем агрегировании:

SELECT
  unsafe_sum(x) OVER (ORDER BY n ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING)
FROM (VALUES (1, 1.0e20::float8),
             (2, 1.0::float8)) AS v (n,x);

Вторая строчка результата будет 0, а не 1. Причиной является ограниченная точность значений с плавающей запятой: добавление 1 к 1e20 даёт снова 1e20, и потом вычитание 1e20 из этого дает 0, а не 1. Обратите внимание, что это проблемы арифметики с плавающей запятой в целом, а не QHB.

Полиморфные агрегаты

Агрегатные функции могут использовать полиморфные функции перехода состояний или функции финализации, так что одни и те же функции могут использоваться для реализации нескольких агрегатов. См. раздел Полиморфные типы для объяснения полиморфных функций. Если пойти еще дальше, сама агрегатная функция может быть указана с полиморфными типами входного значения и состояния, что позволяет одному определению агрегата служить для нескольких типов входных данных. Вот пример полиморфного агрегата:

CREATE AGGREGATE array_accum (anyelement)
(
    sfunc = array_append,
    stype = anyarray,
    initcond = '{}'
);

Здесь типом состояния для любого конкретного вызова агрегата является массив, элементы которого имеют тип, равный типу фактических входных данных. Поведение агрегата заключается в добавлении всех входных данных в массив. (Примечание: встроенный агрегат array_agg предоставляет аналогичную функциональность с лучшей производительностью, чем этот пример).

Протестируем этот агрегат на двух разных типах данных:

SELECT attrelid::regclass, array_accum(attname)
    FROM pg_attribute
    WHERE attnum > 0 AND attrelid = 'pg_tablespace'::regclass
    GROUP BY attrelid;

   attrelid    |              array_accum
---------------+---------------------------------------
 pg_tablespace | {spcname,spcowner,spcacl,spcoptions}
(1 row)

SELECT attrelid::regclass, array_accum(atttypid::regtype)
    FROM pg_attribute
    WHERE attnum > 0 AND attrelid = 'pg_tablespace'::regclass
    GROUP BY attrelid;

   attrelid    |        array_accum
---------------+---------------------------
 pg_tablespace | {name,oid,aclitem[],text[]}
(1 row)

Обычно у агрегатной функции с полиморфным типом результата тоже будет полиморфным, как в приведенном выше примере. Это необходимо, потому что иначе функция финализации не может быть разумно объявлена: у нее должен полиморфный тип результата (если, конечно, агрегирование разных типов не приводит к одинаковому типу результата), но нет полиморфного типа аргумента. Такую функцию CREATE FUNCTION не даст создать. Но иногда неудобно использовать тип полиморфного состояния. Наиболее распространенный случай, когда вспомогательные функции должны быть написаны на нативном языке, и тип состояния должен быть объявлен как internal поскольку для него нет эквивалента на уровне SQL. Для решения этой проблемы разшено добавить к функции финализации фиктивный аргумент полиморфного типа. В конце агрегации в функцию финализации будет передано состояние агрегата и NULL для всех аргументов кроме первого. Фактический тип фиктивного аргумента считается равным типу агрегируемого столбца, и из этого выводится тип результата агрегата. Вот почти настоящее определение встроенного агрегата array_agg:

CREATE FUNCTION array_agg_transfn(internal, anynonarray)
  RETURNS internal ...;
CREATE FUNCTION array_agg_finalfn(internal, anynonarray)
  RETURNS anyarray ...;

CREATE AGGREGATE array_agg (anynonarray)
(
    sfunc = array_agg_transfn,
    stype = internal,
    finalfunc = array_agg_finalfn,
    finalfunc_extra
);

Здесь опция finalfunc_extra указывает, что функция финализации получает в дополнение к значению состояния фиктивные аргументы. Дополнительный аргумент функции array_agg_finalfn делает её валидной и позволяет вывести итоговый тип агрегата (не из типа состояния, а непосредственно из входного типа).

Агрегатная функция может принимать различное количество аргументов, для этого надо объявить её последний аргумент как VARIADIC-массив, так же, как для обычных функций (см. раздел Функции SQL с переменным числом аргументов). Второй агрумент функции перехода должен быть таким же массивом (обычно тоже VARIADIC, но это не обязательно).

Замечание
VARIADIC-агрегаты подвержены ошибкам при использовании одновременно с опцией ORDER BY (см. раздел Агрегатные выражения), т.к. не жалуются на неправильное количество аргументов. Помните, что все справа от ORDER BY — ключи сортировки, а не значения для агрегирования. Например,
SELECT myaggregate(a ORDER BY a, b, c) FROM ...
— это агрегация 1 колонке и 3 ключа сортировки. А пользователь, возможно, имел в виду
SELECT myaggregate(a, b, c ORDER BY a) FROM ...
Если myaggregate является VARIADIC, то оба этих вызова совершенно корректны.

По той же причине стоит дважды подумать, прежде чем создавать агрегатные функции с одинаковыми именами, но разным количеством обычных аргументов.

Сортирующие агрегатные функции

Агрегаты, которые мы описывали до сих пор, являются «нормальными» агрегатами. QHB также поддерживает т.н. сортирующие агрегаты. Результат нормального агрегата может зависеть от порядка строк (например, string_agg) или не зависеть (наприме, min); в любом случае при его вызове в агрегатном выражении можно указать ORDER BY по любым столбцам, не обязательно тем, что передаются в агрегатную функцию, и сортировку осуществляет исполнитель запросов перед подачей в агрегатную функцию. Сортирующие агрегаты осуществляют сортировку сами, именно по тем столбцам, которые они обрабатывают, поэтому набор данных для передачи в них "совмещён" с ORDER BY (WITHIN GROUP(ORDER BY col)), а в агрегатную функцию передаются дополнительные "прямые" параметры. Предполагается, что сортирующий агрегат будет сортировать и накапливать данные внутри себя, и так делают все встроенные сортирующие агрегаты, но это не обязательно. Возможно, вам нужен сортирующий агрегат, если:

требуется передать в функцию агрегирования дополнительный параметр,
и результат агрегации не зависит от порядка строк.

Типичные примеры — подсчёт ранга или процентиля. Например, встроенное определение percentile_disc эквивалентно следующему:

CREATE FUNCTION ordered_set_transition(internal, anyelement)
  RETURNS internal ...;
CREATE FUNCTION percentile_disc_final(internal, float8, anyelement)
  RETURNS anyelement ...;

CREATE AGGREGATE percentile_disc (float8 ORDER BY anyelement)
(
    sfunc = ordered_set_transition,
    stype = internal,
    finalfunc = percentile_disc_final,
    finalfunc_extra
);

Этот агрегат принимает прямой аргумент float8 (процентная отсечка) и входные данные для агрегации, которые могут иметь любой сортируемый тип данных. Например, получение медианного семейного дохода:

SELECT percentile_disc(0.5) WITHIN GROUP (ORDER BY income) FROM households;
 percentile_disc
-----------------
           50489

Здесь 0.5 - прямой аргумент, т.к. процентная отсечка — это свойство всего агрегата, а не отдельных значений.

При реализации сортирующего агрегата вам придётся самостоятельно выполнять сортировку (если она вам нужна). Обычно это делают, храня ссылку на объект tuplesort внутри состояния агрегата, помещая туда все входные значения, и завершая сортировки и считывая данных в функции финализации. Такой дизайн позволяет в функции финализации добавлять «гипотетические» строки в данные в порядке сортировки. Хотя обычные агрегаты часто могут быть реализованы с помощью вспомогательных функций, написанных на PL/pgSQL или другом процедурном языке, сортирующие агрегаты должны записываться на нативном языке, хотя бы потому, что их состояние — сложный объект, который на SQL нельзя определить иначе как internal. Далее, поскольку функция финализации выполняет сортировку, после неё невозможно (или по крайней мере неэффективно) продолжить добавление входных строк. Поэтому функция финализации должна быть зарегистрирована в CREATE AGGREGATE не как READ_ONLY, а как READ_WRITE (или как SHAREABLE, если для дополнительных вызовов функции финализации возможно использование уже отсортированного состояния).

Функция перехода состояния для сортирующего агрегата получает текущее значение состояния, агрегириреумые входные значения каждой строки, и возвращает обновленное значение состояния. В принципе то же самое, что и для обычных агрегатов, но обратите внимание, что прямые аргументы (если таковые имеются) не передаются в функцию перехода; они передаются только в функцию финализации. Как и в случае с обычными агрегатами, опция finalfunc_extra может использоваться для определения полиморфоной агрегатной функции.

В настоящее время сортирующие агрегаты не могут использоваться в качестве оконных функций, поэтому им нет необходимости поддерживать режим движущегося агрегата.

Частичная агрегация

Опционально, агрегатная функция может поддерживать частичное агрегирование. Идея частичной агрегации состоит в том, чтобы независимо выполнять функцию перехода состояния агрегата над различными подмножествами входных данных, а затем объединять значения состояний, полученные из этих подмножеств, для получения одного и того же значения состояния, которое получилось бы при сканировании всех входных данных в разовая операция Этот режим можно использовать для параллельной агрегации, когда разные рабочие процессы сканируют разные части таблицы. Каждый процесс создает частичное значение состояния, и в конце эти значения состояния объединяются для получения окончательного значения состояния. (В будущем этот режим может также использоваться для таких целей, как объединение агрегирования по локальным и удаленным таблицам; но это еще не реализовано).

Для поддержки частичного агрегирования определение агрегата должно предоставлять функцию объединения, которая принимает два значения типа состояния агрегата (представляющих результаты агрегирования по двум подмножествам входных строк) и создает новое значение типа состояния, представляющее состояние было бы после агрегирования по комбинации этих наборов строк. Каким был бы относительный порядок строк из двух наборов — неизвестно. По этой причине для агрегатов, зависящих от порядка строк такую функцию нельзя определить.

В качестве простых примеров агрегаты MAX и MIN могут поддерживать частичного агрегирования, указав в качестве функции объединения максимум/минимум из двух, то же саамое, что и в функции перехода состояния.

Функция объединения используется также, как функция перехода, только входные аргументы имеют тип состояния, а не исходных данных; в частности такие же правила обработки NULL'ов в случае строгой/не сторгой функции. Кроме того, если у агрегата указана initcond, отличная от NULL, имейте в виду, что initcond будет стартовым значением для каждого частичного запуска агрегации и потом для функции объединения тоже.

Если тип состояния агрегата объявлен как internal, то функция объединения несет ответственность за то, чтобы ее результат был аллокирован в правильном контексте памяти; в частности, это означает, что, когда один из аргументов NULL, нельзя просто вернуть второй аргумент, поскольку это значение в неправильном контексте и имеет слишком короткий срок жизни.

Также, если тип состояния internal, нужно реализовать функции сериализации и десериализации, чтобы состояние можно было передать в другой процесс. Функция сериализации должна принимать один аргумент типа internal и возвращать результат типа bytea, который представляет собой упакованное значение состояния. И наоборот, функция десериализации выполняет это преобразование в обратном направлении. Она должна принимать два аргумента типов bytea и internal и возвращать результат типа internal. (Второй аргумент не используется и всегда равен нулю, но он необходим по соображениям безопасности типов). Результат функции десериализации должен быть просто размещен в текущем контексте памяти, поскольку в отличие от результата функции объединения, он короткоживущий.

Стоит также отметить, что для того, чтобы агрегат выполнялся параллельно, сам агрегат должен быть помечен как PARALLEL SAFE. А для его вспомогательных функциях такая пометка не обязательна.

Написание вспомогательных функций агрегатов

Функция, написанная на нативном языке, может обнаружить, что она вызывается как агрегатная вспомогательная функция, вызвав AggCheckCallContext, например:

if (AggCheckCallContext(fcinfo, NULL))

Представьте себе функцию, которая может вызываться и как функция перехода агрегата, так и как прост офункция. Если AggCheckCallContext вернуло true, то первый аргумент является временным значением, можно его исправить на месте и вернуть указатель на него же (а в общем случае надо аллокировать результат).

(В то время как агрегатным функциям перехода всегда разрешено изменять значение перехода на месте, агрегатным конечным функциям обычно не рекомендуется делать это; если они это делают, поведение должно быть объявлено при создании агрегата. См. CREATE AGGREGATE для более подробной информации).

Второй аргумент AggCheckCallContext может использоваться для получения контекста памяти, в котором хранятся значения агрегатного состояния. Это полезно для функций перехода, которые хотят использовать «расширенные» объекты (см. Раздел Использование TOAST) в качестве значений состояния. При первом вызове функция перехода должна вернуть расширенный объект, чей контекст памяти является дочерним по отношению к контексту совокупного состояния, и затем продолжать возвращать тот же расширенный объект при последующих вызовах. Смотрите array_append() для примера. (array_append() не является функцией перехода какого-либо встроенного агрегата, но написана так, чтобы вести себя эффективно при использовании в качестве функции перехода пользовательского агрегата).

Другая подпрограмма поддержки, доступная для агрегатных функций, написанных на нативном языке программирования, — это AggGetAggref, который возвращает узел разбора Aggref который определяет агрегированный вызов. Это в основном полезно для агрегатов с упорядоченным набором, которые могут проверить подструктуру узла Aggref чтобы выяснить, какой порядок сортировки они должны реализовать.

Пользовательские типы

Как описано в разделе Система типов QHB, QHB может быть расширен для поддержки новых типов данных. В этом разделе описывается, как определить новые базовые типы, определенные ниже уровня языка SQL. Создание нового базового типа требует реализации функций для работы с типом на нативном языке программирования.

Пользовательский тип должен всегда иметь функции ввода и вывода. Эти функции определяют, как тип отображается в строках (для ввода пользователем и вывода для пользователя) и как тип организован в памяти. Функция ввода принимает в качестве аргумента символьную строку с нулевым символом в конце и возвращает внутреннее (в памяти) представление типа. Функция вывода принимает внутреннее представление типа в качестве аргумента и возвращает символьную строку с нулевым символом в конце. Если мы хотим сделать что-то большее с типом, чем просто сохранить его, мы должны предоставить дополнительные функции для реализации любых операций, которые мы хотели бы иметь для этого типа.

Предположим, мы хотим определить тип complex, который представляет комплексные числа. Естественным способом представления комплексного числа в памяти будет следующая структура C:

typedef struct Complex {
    double      x;
    double      y;
} Complex;

Нам нужно будет сделать этот тип передаваемым по ссылке, поскольку он слишком велик, чтобы поместиться в одно значение Datum.

В качестве внешнего строкового представления типа мы выберем строку вида (x,y).

Функции ввода и вывода обычно не сложно написать, особенно функцию вывода. Но при определении внешнего строкового представления типа помните, что в конечном итоге вы должны написать полный и надежный синтаксический анализатор для этого представления в качестве входной функции. Например:

PG_FUNCTION_INFO_V1(complex_in);

Datum
complex_in(PG_FUNCTION_ARGS)
{
    char       *str = PG_GETARG_CSTRING(0);
    double      x,
                y;
    Complex    *result;

    if (sscanf(str, " ( %lf, %lf )", &x, &y) != 2)
        ereport(ERROR,
                (errcode(ERRCODE_INVALID_TEXT_REPRESENTATION),
                 errmsg("invalid input syntax for type %s: \"%s\"",
                        "complex", str)));

    result = (Complex *) palloc(sizeof(Complex));
    result->x = x;
    result->y = y;
    PG_RETURN_POINTER(result);
}

Функция вывода может быть просто

PG_FUNCTION_INFO_V1(complex_out);

Datum
complex_out(PG_FUNCTION_ARGS)
{
    Complex    *complex = (Complex *) PG_GETARG_POINTER(0);
    char       *result;

    result = psprintf("(%g,%g)", complex->x, complex->y);
    PG_RETURN_CSTRING(result);
}

Вы должны быть внимательны, чтобы входные и выходные функции получились противоположны друг другу. Если вы этого не сделаете, у вас возникнут серьезные проблемы, когда вам нужно будет сохранить данные в файл и затем прочитать их обратно. Это особенно распространенная проблема при работе с числами с плавающей запятой.

Опционально, пользовательский тип может предоставлять процедуры ввода и вывода в бинарный формат. Двоичный ввод-вывод обычно быстрее, но менее переносим, чем текстовый ввод-вывод. Как и в случае с текстовым вводом/выводом, вы должны точно определить, что такое внешнее двоичное представление. Большинство встроенных типов данных пытаются обеспечить машинно-независимое двоичное представление. Для complex мы воспользуемся преобразователям в бинарное представление ввода/вывода типа float8:

PG_FUNCTION_INFO_V1(complex_recv);

Datum
complex_recv(PG_FUNCTION_ARGS)
{
    StringInfo  buf = (StringInfo) PG_GETARG_POINTER(0);
    Complex    *result;

    result = (Complex *) palloc(sizeof(Complex));
    result->x = pq_getmsgfloat8(buf);
    result->y = pq_getmsgfloat8(buf);
    PG_RETURN_POINTER(result);
}

PG_FUNCTION_INFO_V1(complex_send);

Datum
complex_send(PG_FUNCTION_ARGS)
{
    Complex    *complex = (Complex *) PG_GETARG_POINTER(0);
    StringInfoData buf;

    pq_begintypsend(&buf);
    pq_sendfloat8(&buf, complex->x);
    pq_sendfloat8(&buf, complex->y);
    PG_RETURN_BYTEA_P(pq_endtypsend(&buf));
}

После того, как мы написали функции ввода-вывода и скомпилировали их в разделяемую библиотеку, мы можем определить тип complex в SQL. Сначала мы объявим "оболочку" типа:

CREATE TYPE complex;

Она служит заполнителем, который позволяет нам ссылаться на тип при определении его функций ввода/вывода. Теперь мы можем определить функции ввода/вывода:

CREATE FUNCTION complex_in(cstring)
    RETURNS complex
    AS 'filename'
    LANGUAGE C IMMUTABLE STRICT;

CREATE FUNCTION complex_out(complex)
    RETURNS cstring
    AS 'filename'
    LANGUAGE C IMMUTABLE STRICT;

CREATE FUNCTION complex_recv(internal)
   RETURNS complex
   AS 'filename'
   LANGUAGE C IMMUTABLE STRICT;

CREATE FUNCTION complex_send(complex)
   RETURNS bytea
   AS 'filename'
   LANGUAGE C IMMUTABLE STRICT;

Наконец, мы можем предоставить полное определение типа данных:

CREATE TYPE complex (
   internallength = 16,
   input = complex_in,
   output = complex_out,
   receive = complex_recv,
   send = complex_send,
   alignment = double
);

Когда вы определяете новый базовый тип, QHB автоматически обеспечивает поддержку массивов этого типа. Тип массива обычно имеет то же имя, что и базовый тип, с добавлением символа подчеркивания (_) в начале.

Теперь, когда тип данных существует, мы можем объявить дополнительные функции для обеспечения полезных операций над типом данных. Потом, когда есть функции, могут быть определены операторы, работающие на этих функциях, созданы классы операторов для поддержки индексирования типа данных и т.д. Эти дополнительные слои обсуждаются в следующих разделах.

Если внутреннее представление типа данных имеет переменную длину, то его первые 4 байта должы хранить длину (на C это выглядит как поле char vl_len_[4]); к этому полю вы не должны никогда обращаться напрямую, но использовать специальные макросы (VARSIZE() и SET_VARSIZE()), эти макросы существуют, потому что поле длины может быть закодировано в зависимости от платформы. В SET_VARSIZE надо передавать общий размер элемента в байтах, включая 4 байта vl_len_.

Замечание
В более старом коде можно встретить объявления vl_len_ как int32 вместо char[4]. Это нормально, особенно если в структуре есть хотя бы одно другое поле с выравнивание 4+ байт. Если нет, то QHB может хранить структуру невыровено, для этого и char[4]

Для получения дополнительной информации см. Описание команды CREATE TYPE.

Использование TOAST

Если значения вашего типа данных сильно различаются по размеру (во внутреннем представлении), обычно желательно сделать тип данных сохраняющимся в TOAST (см. раздел TOAST). Стоит это сделать даже в том случае, когда значения всегда слишком малы для сжатия или внешнего хранения, поскольку TOAST может сэкономить пространство и для небольших данных, уменьшая издержки на заголовок.

Чтобы поддерживать сохранение в TOAST, функции C, работающие с типом данных, должны распаковать любые TOAST-значения, которые им передают с помощью PG_DETOAST_DATUM. (Эта деталь обычно скрывается путем определения макроса GETARG_DATATYPE_P для конкретного типа). Затем при запуске команды CREATE TYPE укажите внутреннюю длину как variable и выберите какой-либо подходящий вариант хранения, отличный от plain.

Если выравнивание данных неважно (для конкретной функции, либо потому, что тип данных имеет произвольное выравнивание (до 1 байта)), то можно избежать некоторых издержек PG_DETOAST_DATUM и вызывать вместо неё PG_DETOAST_DATUM_PACKED (обычно скрывается путем определения макроса GETARG_DATATYPE_PP ) и использовать макросы VARSIZE_ANY_EXHDR и VARDATA_ANY для доступа к потенциально упакованным данным. Опять же, данные, возвращаемые этими макросами, не выравниваются, даже если определение типа данных требует выравнивания. Если выравнивание важно, вы должны пройти через обычный интерфейс PG_DETOAST_DATUM.

Другая функция, включаемая поддержкой TOAST, - это возможность иметь расширенное представление данных в памяти, с которым удобнее работать, чем с форматом, хранящимся на диске. Обычный или «плоский» формат хранения varlena - это, в конечном счете, просто blob of bytes; например, он не может содержать указатели, так как он может быть скопирован в другие места в памяти. Для сложных типов данных плоский формат может быть довольно дорогим для работы, поэтому QHB предоставляет способ «развернуть» плоский формат в представление, более подходящее для вычислений, а затем передать этот формат в памяти между функциями тип данных.

Чтобы использовать расширенное хранилище, тип данных должен определять расширенный формат, который следует правилам, приведенным в src/include/utils/expandeddatum.h, и предоставлять функции для «раскрытия» значения плоской переменной varlena в расширенный формат и «выравнивания» расширенного формата для возвращения к обычному представлению varlena. Затем убедитесь, что все функции C для типа данных могут принимать любое представление, возможно, путем преобразования одной в другую сразу после получения. Это не требует одновременного исправления всех существующих функций для типа данных, поскольку стандартный макрос PG_DETOAST_DATUM определен для преобразования расширенных входных данных в обычный плоский формат. Следовательно, существующие функции, работающие с форматом плоской varlena, будут продолжать работать, хотя и неэффективно, с расширенными входными данными; их не нужно преобразовывать до тех пор, пока не будет важна лучшая производительность.

Функции на C/RUST, которые знают, как работать с расширенным представлением, обычно делятся на две категории: те, которые могут обрабатывать только расширенный формат, и те, которые могут обрабатывать либо расширенные, либо плоские входные данные varlena. Первые легче написать, но могут быть менее эффективными в целом, потому что преобразование плоского ввода в расширенную форму для использования одной функцией может стоить больше, чем экономится при работе в расширенном формате. Когда требуется обрабатывать только расширенный формат, преобразование плоских входных данных в расширенную форму может быть скрыто внутри макроса выборки аргументов, так что функция выглядит не более сложной, чем та, которая работает с традиционным вводом varlena. Чтобы обработать оба типа ввода, напишите функцию выборки аргумента, которая будет сбрасывать внешние, короткие и сжатые входные данные, но не расширенные. Такая функция может быть определена как возвращение указателя на объединение плоского формата varlena и расширенного формата. Вызывающие могут использовать VARATT_IS_EXPANDED_HEADER() чтобы определить, какой формат они получили.

Инфраструктура TOAST не только позволяет отличать обычные значения varlena от расширенных значений, но также различает указатели «чтение-запись» и «только для чтения» на расширенные значения. Функции C/RUST, которые должны проверять только расширенное значение или будут изменять его только безопасным и не семантически видимым образом, не должны заботиться о том, какой тип указателя они получают. Функции на C/RUST, которые создают измененную версию входного значения, могут изменять расширенное входное значение на месте, если они получают указатель чтения-записи, но не должны изменять ввод, если они получают указатель только для чтения; в этом случае они должны сначала скопировать значение, создав новое значение для изменения. Функция C/RUST, которая создала новое расширенное значение, всегда должна возвращать указатель на чтение-запись. Кроме того, функция C/RUST, которая изменяет расширенное значение для чтения-записи на месте, должна позаботиться о том, чтобы оставить значение в нормальном состоянии, если оно не будет выполнено частично.

Примеры работы с расширенными значениями см. В стандартной инфраструктуре массива, в частности в src/backend/utils/adt/array_expanded.c.

Пользовательские операторы

Каждый оператор является «синтаксическим сахаром» для вызова базовой функции, которая выполняет реальную работу; поэтому вы должны сначала создать базовую функцию, прежде чем сможете создать оператор. Тем не менее, оператор не просто синтаксический сахар, потому что он несет дополнительную информацию, которая помогает планировщику запросов оптимизировать запросы, использующие оператор. Следующий раздел будет посвящен объяснению этой дополнительной информации.

QHB поддерживает левый унарный, правый унарный и бинарный операторы. Операторы могут быть перегружены; то есть одно и то же имя оператора может использоваться для разных операторов, которые имеют разное количество и типы операндов. Когда запрос выполняется, система определяет оператор для вызова по числу и типам предоставленных аргументов.

Вот пример создания оператора для сложения двух комплексных чисел. Мы предполагаем, что уже создали определение типа complex (см. раздел Пользовательские типы. Сначала нам нужна функция, которая будет выполнять работу, а затем мы сможем определить оператор:

CREATE FUNCTION complex_add(complex, complex)
    RETURNS complex
    AS 'filename', 'complex_add'
    LANGUAGE C IMMUTABLE STRICT;

CREATE OPERATOR + (
    leftarg = complex,
    rightarg = complex,
    function = complex_add,
    commutator = +
);

Теперь мы можем выполнить запрос следующим образом:

SELECT (a + b) AS c FROM test_complex;

        c
-----------------
 (5.2,6.05)
 (133.42,144.95)

Это мы показали, как создать бинарный оператор. Чтобы создать унарный оператор, просто опустите один из leftarg (для левого унарного) или rightarg (для правого унарного). function и leftarg/rightarg являются единственными обязательными элементами в CREATE OPERATOR. Указание commutator, показанное в примере, является дополнительной подсказкой оптимизатору запросов. Дальнейшие подробности о commutator и других указаниях оптимизации приведены в следующем разделе.

Информация по оптимизации оператора

Определение оператора QHB может включать несколько необязательных указаний, которые сообщают системе полезные сведения о поведении оператора. Эти пункты должны предоставляться всякий раз, когда это уместно, поскольку они могут значительно ускорить выполнение запросов, использующих оператор. Но если вы их предоставите, вы должны быть уверены, что они действительно имеют место быть! Неправильное использование предложения по оптимизации может привести к медленным запросам, неправильному выводу или другим плохим вещам. Вы всегда можете опустить указание оптимизации, если вы не уверены в нём; единственное последствие — запросы могут выполняться медленнее, чем нужно.

Дополнительные пункты оптимизации могут быть добавлены в будущих версиях QHB. Описанные здесь — это те, которые есть в релизе 1.3.0.

Также можно прикрепить вспомогательную функцию для планировщика к функции, которая лежит в основе оператора — это другой способ рассказать системе о поведении оператора. См. раздел Информация по оптимизации функций для получения дополнительной информации.

COMMUTATOR

Указание COMMUTATOR, если оно есть, задаёт имя оператора, который является коммутатором данного. Мы говорим, что оператор A является коммутатором оператора B, если (x A y) равно (y B x) для всех возможных x, y. Обратите внимание, что B также является коммутатором A. Например, операторы < и > для определенного типа данных обычно являются коммутаторами друг друга, а оператор + обычно коммутирует сам с собой, т.е. является коммутативным. А вот оператор - не коммутирует ни с каким другим (понятно, что коммутатор - существует, но его не принято делать оператором).

Тип левого операнда коммутируемого оператора такой же, как тип правого операнда его коммутатора, и наоборот. Таким образом, имя оператора коммутатора - это все, что нужно дать QHB для поиска коммутатора, и это все, что необходимо указать в указании COMMUTATOR.

Очень важно предоставлять информацию о коммутаторах для операторов, которые будут использоваться в индексах и объединениях, поскольку это позволяет оптимизатору запросов «перевернуть» условие, чтобы привести его к форме, необходимой для различных типов планов. В частности, рассмотрим запрос с предложением WHERE, например tab1.x = tab2.y, где tab1.x и tab2.y имеют пользовательский тип, и предположим, что по tab2.y есть индекс. Чтобы сгенерировать сканирование индекса, оптимизатор должен привести условие к виду tab2.y = tab1.x, поскольку механизм сканирования индекса ожидает увидеть индексированный столбец слева от оператора, который ему дан. QHB не будет по умолчанию считать, что = коммутативно — создатель оператора = должен это указать, пометив оператор информацией коммутатора.

Когда вы определяете коммутативный оператор, вы просто делаете это. Когда вы определяете пару коммутативных операторов, все становится немного сложнее: как первый определяемый может ссылаться на другой, который вы еще не определили? Есть два решения этой проблемы:

Один из способов - опустить предложение COMMUTATOR в первом определяемом вами операторе, а затем указать его в определении второго оператора. Поскольку QHB знает, что коммутативные операторы идут парами, когда он увидит второе определение, он автоматически вернется и заполнит пропущенное предложение COMMUTATOR в первом определении.
Другой, более простой способ - просто включить предложения COMMUTATOR в оба определения. Когда QHB обрабатывает первое определение и понимает, что COMMUTATOR ссылается на несуществующий оператор, система сделает фиктивную запись для этого оператора в системном каталоге. Эта фиктивная запись будет содержать действительные данные только для имени оператора, левого и правого типов операндов и типа результата, поскольку это все, что QHB может вывести на данный момент. Первая запись в каталоге оператора будет связана с этой фиктивной записью. Позже, когда вы определяете второй оператор, система обновляет фиктивную запись дополнительной информацией из второго определения. Если вы попытаетесь использовать фиктивный оператор до его заполнения, вы просто получите сообщение об ошибке.

NEGATOR

Это понятие есть только для булевых операторов. Указание NEGATOR, если оно есть, задаёт оператор, который является отрицанием данного. Мы говорим, что оператор A является отрицанием оператора B, если оба возвращают булевы результаты и (x A y) равно NOT (x B y) для всех возможных x, y. Обратите внимание, что B также является отрицанием A. Например, < и >= являются парой отрицателей для большинства типов данных. Оператор никогда не может быть собственным отрицателем.

В отличие от коммутаторов, пара унарных операторов может быть действительно отмечена как отрицатели друг друга; это означало бы (A x) равно NOT (B x) для всех x или эквивалент для правых унарных операторов.

Отрицатель оператора должен иметь те же типы левого и/или правого операнда, что и определяемый оператор, поэтому, как и в случае с COMMUTATOR предложении NEGATOR должно быть указано только имя оператора.

Предоставление отрицателя очень полезно для оптимизатора запросов, поскольку оно позволяет упростить выражения типа NOT (x >= y) в x < y. Это происходит чаще, чем вы думаете, потому что операции NOT могут быть появляться вследствие других преобразований.

Пары взаимно противоположных операторов могут быть определены с использованием тех же методов, которые описаны выше для пар коммутаторов.

RESTRICT

Это понятие есть только для булевых операторов. Указание RESTRICT задаёт функцию оценки селективности ограничения для оператора. (Обратите внимание, что это имя функции, а не оператора). Идея этой оценки состоит в том, чтобы угадать, какая доля строк в таблице будет удовлетворять условию WHERE column OP constant для данного оператора и постоянного значения в правой части. Это помогает оптимизатору, давая ему некоторое представление о том, сколько строк будет отфильтровано таким WHERE. (А что, если константа будет слева, спросите вы? Ну, это одна из вещей, для которых предназначен COMMUTATOR...)

Написание новых функций оценки селективности ограничения выходит за рамки этой главы, но, к счастью, обычно вы можете просто использовать одну из стандартных функций оценки для многих ваших собственных операторов. Вот стандартные оценки селективности:

Вспомогательная функция	Оператор
eqsel	=
neqsel	<>
scalarltsel	<
scalarlesel	<=
scalargtsel	>
scalargesel	>=

Например, вы можете обойтись использованием eqsel / neqsel для операторов, которые имеют очень высокую / очень низкую селективность, даже если они на самом деле не имеют никакого отношения к равенсту/неравенству. Например, геометрические операторы приближенного равенства используют eqsel в предположении, что им обычно соответствует лишь небольшая часть записей в таблице.

Вы можете использовать scalarltsel, scalarlesel, scalargtsel и scalargesel для сравнения типов данных, которые имеют некоторые разумные средства преобразования в скалярные величины для сравнения диапазонов. В этом случае желательно добавить поддержку типа данных в функции convert_to_scalar().

Если вы этого не сделаете, все будет работать, но оценки оптимизатора не будет так хорошо, как они могли бы быть.

JOIN

Это понятие есть только для булевых операторов. Указание JOIN задаёт функцию оценки избирательности соединения для оператора. (Обратите внимание, что это имя функции, а не имя оператора). Идея оценки избирательности соединения состоит в том, чтобы угадать, какая доля строк в паре таблиц будет удовлетворять условию вида ON table1.column1 OP table2.column2 для данного оператора. Как и в случае с RESTRICT, это существенно помогает оптимизатору, позволяя ему выяснить, какая из нескольких возможных последовательностей объединения может потребовать меньше всего работы.

И опять здесь не рассказывается, как писать свой функции оценки селективности, а просто предлагается использовать одну из стандартных функций оценки, если она похожа на то, что нужно:

Вспомогательная функция	Оператор
eqjoinsel	=
neqjoinsel	<>
scalarltjoinsel	<
scalarlejoinsel	<=
scalargtjoinsel	>
scalargejoinsel	>=
areajoinsel	2D area-based comparisons
positionjoinsel	2D position-based comparisons
contjoinsel	2D containment-based comparisons

HASHES

Предложение HASHES, если оно присутствует, сообщает системе, что для соединения, основанного на этом операторе, можно использовать метод hash join. HASHES имеет смысл только для двоичного оператора, который возвращает boolean, и на практике оператор должен представлять отношение эквивалентности, согласованное с хеширующей функцией.

Предположение, лежащее в основе хеш-соединения, заключается в том, что оператор соединения может возвращать true только для пары значений, которые хешируют один и тот же хеш-код. Если два значения помещаются в разные хэш-блоки, объединение никогда не сравнит их вообще, неявно предполагая, что результат оператора соединения должен быть ложным. Поэтому нельзя указывать HASHES для операторов, которые не представляют некоторую форму равенства. В большинстве случаев практично поддерживать хеширование для операторов, которые принимают одинаковый тип данных с обеих сторон. Однако иногда возможно разработать совместимые хеш-функции для двух или более типов данных, то есть функции, которые будут генерировать одинаковые хеш-коды для «равных» значений, даже если значения имеют разные представления. Например, довольно просто обеспечить это свойство при хешировании целых чисел различной ширины.

Чтобы иметь быть HASHES, оператор соединения должен принадлежать семейству операторов хеш-индекса. Это не проверяется при создании оператора, поскольку, конечно, в этот момент семейство ссылочных операторов еще не может существовать. Но попытки использовать оператор в хеш-соединениях потерпят неудачу во время выполнения, если такого семейства операторов не существует. Обращение к семейству операторов нужно, чтобы найти специфические для типа данных хеш-функции. Разумеется, нужно создать подходящие хеш-функции, прежде чем вы сможете создать семейство операторов.

При создании хэш-функции следует соблюдать осторожность, поскольку существуют машинно-зависимые обстоятельства, провоцирующие ошибки. которыми она может не справиться с задачей. Например, если ваш тип данных — это структура, в которой есть неинформативные байты (исклютельно для выравнивания), в них может быть случайный мусор, и вы не можете просто передать всю структуру hash_any. (Чтобы этого избежать, следует писать все функции так, чтобы неинформативные байты заполнялись нулями.) Другой пример — на машинах, использующих числа с плавающей запятой в соотвествии со стандартом IEEE отрицательный ноль и положительный ноль - это разные значения (разные битовые комбинации), но они должны считаться равными. Если значение с плавающей запятой может содержать отрицательный ноль, то нужен дополнительный шаг перед хешированием.

Оператор присоединения к хешу должен иметь коммутатор (сам, если два типа данных операндов одинаковы, или связанный оператор равенства, если они различны), принадлежащий тому же семейству операторов. Если коммутатор не пренадлежит семейству, могут вознуть ошибки планировщика. Кроме того, если семейство хеш-операторов поддерживает несколько типов данных, будет хорошей идеей иметь операторы равенства для всевозможных комбинаций типов, это позволит лучшую оптимизацию.

Замечание
Функция, лежащая в основе HASHES-оператора, должна быть помечена как IMMUTABLE или STABLE. Если он VOLATILE, система никогда не будет пытаться использовать оператор для хеш-соединения.

Замечание
И если эта функция строгая (STRICT), она должна быть всюдуопределенной, т.е. должна возвращать true или false для любых NOT NULL входных значений. Если это правило не соблюдается, хэш-оптимизация условий IN может привести к неверным результатам. (В частности, IN может вернуть false, когда правильный ответ в соответствии со стандартом NULL; или может выдать ошибку, сообщающую, что NULL — недопустимый результат).

MERGES

Предложение MERGES, если оно присутствует, сообщает системе, что для соединения, основанного на этом операторе, можно использовать метод merge-join. MERGES имеет смысл только для двоичного оператора, который возвращает boolean, и на практике оператор должен представлять равенство для некоторого типа данных или пары типов данных.

Объединение слиянием основано на идее упорядочения левой и правой таблиц по порядку и последующего их параллельного сканирования. Таким образом, оба типа данных должны быть полностью упорядочены, и оператор соединения должен иметь какой тип, который может быть успешным только для пар значений, попадающих в «одно и то же место» в порядке сортировки. На практике это означает, что оператор соединения должен вести себя как равенство. Но возможно объединить два разных типа данных, если они логически совместимы. Например, оператор равенства smallint -versus-integer является присоединяемым слиянием. Нам нужны только операторы сортировки, которые приведут оба типа данных в логически совместимую последовательность.

Чтобы пометить MERGES, оператор соединения должен появляться как член равенства семейства операторов индекса btree. Это не применяется при создании оператора, поскольку, конечно, семейство ссылочных операторов еще не могло существовать. Но оператор фактически не будет использоваться для объединений слиянием, если не будет найдено соответствующее семейство операторов. Флаг MERGES таким образом, служит подсказкой для планировщика, что стоит искать подходящее семейство операторов.

Оператор с объединением слиянием должен иметь коммутатор (сам, если два типа данных операндов одинаковы, или связанный оператор равенства, если они различны), который появляется в одном и том же семействе операторов. Если это не так, ошибки планировщика могут возникнуть при использовании оператора. Кроме того, это хорошая идея (но не обязательно) для семейства операторов btree которое поддерживает несколько типов данных, чтобы обеспечить операторы равенства для каждой комбинации типов данных; это позволяет лучше оптимизировать.

Заметка
Функция, лежащая в основе оператора объединения слиянием, должна быть помечена как неизменяемая или стабильная. Если он изменчив, система никогда не будет пытаться использовать оператор для объединения слиянием.

Интерфейсные расширения для индексов

Описанные выше процедуры позволяют вам определять новые типы, новые функции и новые операторы. Однако мы еще не можем определить индекс для столбца нового типа данных. Для этого мы должны определить класс операторов для нового типа данных. Позже в этом разделе мы проиллюстрируем эту концепцию на примере: новый класс операторов для метода индексирования B-дерева, который сохраняет и сортирует комплексные числа в порядке возрастания абсолютных значений.

Классы операторов могут быть сгруппированы в семейства операторов, чтобы показать взаимосвязи между семантически совместимыми классами. Когда задействован только один тип данных, достаточно класса операторов, поэтому мы сначала сосредоточимся на этом случае, а затем вернемся к семействам операторов.

Индексные методы и операторные классы

Таблица pg_am содержит одну строку для каждого индексного метода (внутренне известного как метод доступа). Поддержка регулярного доступа к таблицам встроена в QHB, но все индексные методы описаны в pg_am. Можно добавить новый метод доступа к индексу, написав необходимый код и затем создав запись в pg_am - но это выходит за рамки этой главы (см. Определение интерфейса метода доступа к индексу ).

Подпрограммы для индексного метода напрямую ничего не знают о типах данных, с которыми тот будет работать. Вместо этого операторский класс определяет набор операций, которые индексный метод должен использовать для работы с конкретным типом данных. Классы операторов называются так, потому что они указывают только одну вещь - набор операторов WHERE -предложения, которые можно использовать с индексом (то есть можно преобразовать в квалификацию сканирования индекса). Класс оператора также может указывать некоторую вспомогательную функцию, которая необходима внутренним операциям метода index, но не соответствует напрямую ни одному оператору WHERE-предложения, который может использоваться с индексом.

Можно определить несколько классов операторов для одного и того же типа данных и индексного метода. Благодаря этому для одного типа данных можно определить несколько наборов семантики индексирования. Например, для B-дерева требуется определить порядок сортировки для каждого типа данных, с которым он работает. Для типа данных с комплексным числом может быть полезно иметь один класс операторов B-дерева, который сортирует данные по комплексному абсолютному значению, другой, который сортирует по вещественной части, и так далее. Как правило, один из классов операторов считается наиболее полезным и помечается как класс операторов по умолчанию для этого типа данных и индексного метода.

Одно и то же имя класса оператора можно использовать для нескольких различных индексных методов (например, методы B-дерева и хеш-индекса имеют классы операторов с именем int4_ops), но каждый такой класс является независимой сущностью и должен определяться отдельно.

Стратегии индексного метода

Операторы, связанные с классом операторов, идентифицируются «номерами стратегий», которые служат для идентификации семантики каждого оператора в контексте его класса операторов. Например, B-деревья накладывают строгий порядок на ключи, от меньшего к большему, и поэтому операторы типа «меньше чем» и «больше или равно» интересны в отношении B-дерева. Поскольку QHB позволяет пользователю определять операторы, QHB не может посмотреть на имя оператора (например, < или >= ) и сказать, какое это сравнение. Вместо этого индексный метод определяет набор «стратегий», которые можно рассматривать как обобщенные операторы. Каждый класс операторов определяет, какой фактический оператор соответствует каждой стратегии для конкретного типа данных и интерпретации семантики индекса.

Метод индексирования B-дерева определяет пять стратегий, показанных в таблице 2.

Таблица 2. B-Tree Стратегии

Операция	Номер стратегии
меньше, чем	1
меньше или равно	2
равный	3
больше или равно	4
больше чем	5

Хеш-индексы поддерживают только сравнения на равенство, поэтому они используют только одну стратегию, показанную в таблице 3.

Таблица 3. Хэш-стратегии

Операция	Номер стратегии
равный	1

Индексы GiST более гибкие: у них нет фиксированного набора стратегий вообще. Вместо этого подпрограмма поддержки «согласованности» каждого конкретного класса операторов GiST интерпретирует числа стратегий так, как им нравится. Например, некоторые из встроенных классов операторов индекса GiST индексируют двумерные геометрические объекты, предоставляя стратегии «R-дерева», показанные в таблице 4. Четыре из них являются настоящими двумерными тестами (перекрывается, то же самое, содержит, содержится в); четыре из них рассматривают только направление X; и другие четыре обеспечивают те же самые тесты в направлении Y.

Таблица 4. GiST двумерные стратегии R-дерева

Операция	Номер стратегии
строго слева от	1
не распространяется на право	2
перекрывается	3
не распространяется на лево	4
строго справа от	5
одно и то же	6
содержит	7
содержится в	8
не распространяется выше	9
строго ниже	10
строго выше	11
не распространяется ниже	12

По гибкости индексы SP-GiST аналогичны индексам GiST: у них нет фиксированного набора стратегий. Вместо этого подпрограммы поддержки каждого класса операторов интерпретируют номера стратегий в соответствии с определением класса операторов. Например, номера стратегий, используемые встроенными классами операторов для точек, показаны в таблице 5 .

Таблица 5. SP-GiST Point Strategies

Операция	Номер стратегии
строго слева от	1
строго справа от	5
одно и то же	6
содержится в	8
строго ниже	10
строго выше	11

Индексы GIN аналогичны индексам GiST и SP-GiST тем, что у них также нет фиксированного набора стратегий. Вместо этого подпрограммы поддержки каждого класса операторов интерпретируют номера стратегий в соответствии с определением класса операторов. Например, номера стратегий, используемые встроенным классом операторов для массивов, показаны в таблице 6.

Таблица 6. Стратегии GIN Array

Операция	Номер стратегии
перекрытие	1
содержит	2
содержится в	3
равный	4

Индексы BRIN аналогичны индексам GiST, SP-GiST и GIN тем, что они также не имеют фиксированного набора стратегий. Вместо этого подпрограммы поддержки каждого класса операторов интерпретируют номера стратегий в соответствии с определением класса операторов. В качестве примера, номера стратегий, используемые встроенными классами операторов Minmax, показаны в таблице 7.

Таблица 7. BRIN Minmax Стратегии

Операция	Номер стратегии
меньше, чем	1
меньше или равно	2
равный	3
больше или равно	4
больше чем	5

Обратите внимание, что все перечисленные выше операторы возвращают логические значения. На практике все операторы, определенные как операторы поиска индексного метода, должны возвращать тип boolean, так как они должны появляться на верхнем уровне WHERE для использования с индексом. (Некоторые методы доступа к индексу также поддерживают операторы упорядочения, которые обычно не возвращают логические значения; эта функция обсуждается в разделе Интерфейсные расширения для индексов).

Процедуры поддержки индексного метода

Стратегии обычно не достаточно информации для системы, чтобы понять, как использовать индекс. На практике индексные методы требуют дополнительных подпрограмм поддержки для работы. Например, метод индексирования B-дерева должен уметь сравнивать два ключа и определять, больше ли один, равен или меньше другого. Точно так же метод хэш-индекса должен иметь возможность вычислять хеш-коды для ключевых значений. Эти операции не соответствуют операторам, используемым в квалификациях в командах SQL; они являются административными процедурами, используемыми внутренними индексными методами.

Как и в случае стратегий, класс операторов определяет, какие конкретные функции должны играть каждую из этих ролей для данного типа данных и семантической интерпретации. Индексный метод определяет набор функций, которые ему нужны, а класс операторов определяет правильные функции для использования, назначая их «номерам функций поддержки», указанным в индексном методе.

B-деревья требуют функции поддержки сравнения и позволяют предоставлять две дополнительные функции поддержки по усмотрению автора класса оператора, как показано в таблице 8. Требования к этим функциям поддержки объясняются далее в разделе Вспомогательные функции B-дерева.

Таблица 8. Функции поддержки B-Tree

Функция	Номер поддержки
Сравните два ключа и верните целое число меньше нуля, нуля или больше нуля, указывая, является ли первый ключ меньше, равен или больше второго	1
Возвратите адреса C-вызываемой функции поддержки сортировки (необязательно)	2
Сравните значение теста с базовым значением плюс / минус смещение и верните true или false в соответствии с результатом сравнения (необязательно)	3

Для хеш-индексов требуется одна вспомогательная функция, и она может предоставляться по второму усмотрению по усмотрению автора класса оператора, как показано в таблице 9.

Таблица 9. Функции поддержки хэша

Функция	Номер поддержки
Вычислить 32-битное хеш-значение для ключа	1
Вычислить 64-битное хеш-значение для ключа с учетом 64-битной соли; если соль равна 0, младшие 32 бита результата должны соответствовать значению, которое было бы вычислено функцией 1 (необязательно)	2

Индексы GiST имеют девять вспомогательных функций, две из которых являются необязательными, как показано в таблице 10.

Таблица 10. GiST Поддержка Функции

Функция	Описание	Номер поддержки
consistent	определить, удовлетворяет ли ключ квалификатору запроса	1
union	вычислить объединение набора ключей	2
compress	вычислить сжатое представление ключа или значения для индексации	3
decompress	вычислить распакованное представление сжатого ключа	4
penalty	вычислить штраф за вставку нового ключа в поддерево с заданным ключом поддерева	5
picksplit	определить, какие записи страницы должны быть перемещены на новую страницу, и вычислить ключи объединения для получающихся страниц	6
equal	сравнить два ключа и вернуть true, если они равны	7
distance	определить расстояние от ключа до значения запроса (необязательно)	8
fetch	вычислять исходное представление сжатого ключа для сканирования только по индексу (необязательно)	9

Для индексов SP-GiST требуется пять вспомогательных функций, как показано в таблице 11.

Таблица 11. Функции поддержки SP-GiST

Функция	Описание	Номер поддержки
config	предоставить основную информацию о классе оператора	1
choose	определить, как вставить новое значение во внутренний кортеж	2
picksplit	определить, как разбить набор значений	3
inner_consistent	определить, какие подразделы нужно искать для запроса	4
leaf_consistent	определить, удовлетворяет ли ключ квалификатору запроса	5

Индексы GIN имеют шесть вспомогательных функций, три из которых являются необязательными, как показано в таблице 12.

Таблица 12. Функции поддержки GIN

Функция	Описание	Номер поддержки
compare	сравнить два ключа и вернуть целое число меньше нуля, нуля или больше нуля, указывающее, является ли первый ключ меньше, равен или больше второго	1
extractValue	извлекать ключи из значения для индексации	2
extractQuery	извлекать ключи из условия запроса	3
consistent	определить, соответствует ли значение условию запроса (логический вариант) (необязательно, если присутствует функция поддержки 6)	4
comparePartial	сравнивать частичный ключ из запроса и ключ из индекса и возвращать целое число меньше нуля, нуля или больше нуля, указывающее, должен ли GIN игнорировать эту запись индекса, рассматривать запись как совпадение или остановить сканирование индекса (необязательно)	5
triConsistent	определить, соответствует ли значение условию запроса (троичный вариант) (необязательно, если присутствует функция поддержки 4)	6

Индексы BRIN имеют четыре основные вспомогательные функции, как показано в таблице 13 ; эти основные функции могут потребовать предоставления дополнительных функций поддержки.

Таблица 13. Функции поддержки BRIN

Функция	Описание	Номер поддержки
opcInfo	вернуть внутреннюю информацию, описывающую сводные данные индексированных столбцов	1
add_value	добавить новое значение в существующий кортеж итогового индекса	2
consistent	определить, соответствует ли значение условию запроса	3
union	вычислить объединение двух сводных кортежей	4

В отличие от операторов поиска, функции поддержки возвращают тот тип данных, который ожидает конкретный индексный метод, например в случае функции сравнения для B-деревьев целое число со знаком. Количество и типы аргументов каждой вспомогательной функции также зависят от индексного метода. Для B-дерева и хеша функции поддержки сравнения и хеширования принимают те же типы входных данных, что и операторы, включенные в класс операторов, но это не относится к большинству функций поддержки GiST, SP-GiST, GIN и BRIN.

Пример

Теперь, когда мы увидели идеи, вот обещанный пример создания нового класса операторов. (Вы можете найти рабочую копию этого примера в src/tutorial/complex.c и src/tutorial/complex.sql в исходном выпуске). Класс операторов инкапсулирует операторы, которые сортируют комплексные числа в порядке абсолютных значений, поэтому мы выбираем имя complex_abs_ops. Во-первых, нам нужен набор операторов. Процедура определения операторов обсуждалась в разделе Пользовательские операторы. Для класса операторов на B-деревьях нам нужны следующие операторы:

абсолютное значение меньше чем (стратегия 1)
абсолютное значение меньше или равно (стратегия 2)
абсолютное значение равно (стратегия 3)
абсолютное значение больше или равно (стратегия 4)
абсолютное значение больше чем (стратегия 5)

Наименее подверженный ошибкам способ определения связанного набора операторов сравнения - сначала написать функцию поддержки сравнения B-деревьев, а затем написать другие функции в виде однострочных оболочек вокруг функции поддержки. Это уменьшает шансы получения противоречивых результатов для угловых случаев. Следуя этому подходу, мы сначала пишем:

#define Mag(c)  ((c)->x*(c)->x + (c)->y*(c)->y)

static int
complex_abs_cmp_internal(Complex *a, Complex *b)
{
    double      amag = Mag(a),
                bmag = Mag(b);

    if (amag < bmag)
        return -1;
    if (amag > bmag)
        return 1;
    return 0;
}

Теперь функция меньше чем выглядит так:

PG_FUNCTION_INFO_V1(complex_abs_lt);

Datum
complex_abs_lt(PG_FUNCTION_ARGS)
{
    Complex    *a = (Complex *) PG_GETARG_POINTER(0);
    Complex    *b = (Complex *) PG_GETARG_POINTER(1);

    PG_RETURN_BOOL(complex_abs_cmp_internal(a, b) < 0);
}

Другие четыре функции отличаются только тем, как они сравнивают результат внутренней функции с нулем.

Далее мы объявляем функции и операторы на основе этих функций в SQL:

CREATE FUNCTION complex_abs_lt(complex, complex) RETURNS bool
    AS 'filename', 'complex_abs_lt'
    LANGUAGE C IMMUTABLE STRICT;

CREATE OPERATOR < (
   leftarg = complex, rightarg = complex, procedure = complex_abs_lt,
   commutator = >, negator = >=,
   restrict = scalarltsel, join = scalarltjoinsel
);

Важно указать правильные операторы коммутатора и отрицателя, а также подходящие функции ограничения и селективности, иначе оптимизатор не сможет эффективно использовать индекс.

Другие вещи, которые стоит отметить, происходят здесь:

Может быть только один оператор с именем, скажем, = и принимающий complex типы для обоих операндов. В этом случае у нас нет никакого другого оператора = для complex, но если бы мы строили практический тип данных, мы бы, вероятно, хотели бы иметь = как обычную операцию равенства для комплексных чисел (а не равенства абсолютных значений). В этом случае нам нужно будет использовать другое имя оператора для complex_abs_eq.
Хотя QHB может справляться с функциями, имеющими одинаковое имя SQL, при условии, что они имеют разные типы данных аргументов, C может справиться только с одной глобальной функцией, имеющей данное имя. Поэтому мы не должны называть функцию C чем-то простым, например, abs_eq. Обычно рекомендуется включать имя типа данных в имя функции C, чтобы не конфликтовать с функциями других типов данных.
Мы могли бы сделать имя SQL для функции abs_eq, полагаясь на QHB, чтобы отличать его по типу данных аргумента от любой другой функции SQL с тем же именем. Чтобы упростить пример, мы заставляем функцию иметь одинаковые имена на уровне C и уровне SQL.

Следующим шагом является регистрация подпрограммы поддержки, требуемой B-деревьями. Пример кода C, который реализует это, находится в том же файле, который содержит функции оператора. Вот как мы объявляем функцию:

CREATE FUNCTION complex_abs_cmp(complex, complex)
    RETURNS integer
    AS 'filename'
    LANGUAGE C IMMUTABLE STRICT;

Теперь, когда у нас есть необходимые операторы и подпрограмма поддержки, мы наконец можем создать класс операторов:

CREATE OPERATOR CLASS complex_abs_ops
    DEFAULT FOR TYPE complex USING btree AS
        OPERATOR        1       <,
        OPERATOR        2       <=,
        OPERATOR        3       =,
        OPERATOR        4       >=,
        OPERATOR        5       >,
        FUNCTION        1       complex_abs_cmp(complex, complex);

И мы сделали! Теперь должна быть возможность создавать и использовать B-деревья для complex столбцов.

Мы могли бы написать записи оператора более подробно, как в:

OPERATOR 1 < (complex, complex),

но нет необходимости делать это, когда операторы принимают тот же тип данных, для которого мы определяем класс операторов.

В приведенном выше примере предполагается, что вы хотите сделать этот новый класс операторов классом операторов B-дерева по умолчанию для complex типа данных. Если вы этого не сделаете, просто пропустите слово DEFAULT.

Классы операторов и семейства операторов

До сих пор мы неявно предполагали, что класс операторов имеет дело только с одним типом данных. Хотя в определенном столбце индекса, безусловно, может быть только один тип данных, часто полезно индексировать операции, которые сравнивают индексированный столбец со значением другого типа данных. Кроме того, если используется оператор кросс-типа данных в связи с классом операторов, часто бывает так, что другой тип данных имеет собственный связанный класс операторов. Полезно сделать связи между связанными классами явными, потому что это может помочь планировщику в оптимизации запросов SQL (особенно для классов операторов B-дерева, поскольку планировщик содержит много знаний о том, как работать с ними).

Для удовлетворения этих потребностей QHB использует концепцию семейства операторов. Семейство операторов содержит один или несколько классов операторов, а также может содержать индексируемые операторы и соответствующие вспомогательные функции, которые принадлежат семейству в целом, но не относятся к какому-либо одному классу в семействе. Мы говорим, что такие операторы и функции «свободны» в семье, а не связаны с определенным классом. Как правило, каждый класс операторов содержит операторы с одним типом данных, в то время как операторы с несколькими типами данных в семействе отсутствуют.

Все операторы и функции в семействе операторов должны иметь совместимую семантику, где требования совместимости устанавливаются индексным методом. Поэтому вы можете спросить, зачем выделять отдельные подмножества семейства как операторные классы; и действительно, для многих целей классовые разделения не имеют значения, и семья является единственной интересной группировкой. Причиной определения классов операторов является то, что они указывают, сколько семейства необходимо для поддержки какого-либо конкретного индекса. Если существует индекс, использующий класс операторов, то этот класс операторов нельзя удалить без удаления индекса, но другие части семейства операторов, а именно другие классы операторов и свободные операторы, могут быть удалены. Таким образом, класс операторов должен быть указан, чтобы содержать минимальный набор операторов и функций, которые разумно необходимы для работы с индексом для определенного типа данных, и затем связанные, но несущественные операторы могут быть добавлены как свободные члены семейства операторов.

В качестве примера, QHB имеет встроенное семейство операторов B-дерева integer_ops, которое включает классы операторов int8_ops, int4_ops и int2_ops для индексов bigint (int8), integer (int4) и smallint (int2) соответственно. Семейство также содержит операторы сравнения между типами данных, позволяющие сравнивать любые два из этих типов, чтобы можно было искать индекс по одному из этих типов, используя значение сравнения другого типа. Семья может быть продублирована следующими определениями:

CREATE OPERATOR FAMILY integer_ops USING btree;

CREATE OPERATOR CLASS int8_ops
DEFAULT FOR TYPE int8 USING btree FAMILY integer_ops AS
  -- standard int8 comparisons
  OPERATOR 1 <,
  OPERATOR 2 <=,
  OPERATOR 3 =,
  OPERATOR 4 >=,
  OPERATOR 5 >,
  FUNCTION 1 btint8cmp(int8, int8),
  FUNCTION 2 btint8sortsupport(internal),
  FUNCTION 3 in_range(int8, int8, int8, boolean, boolean) ;

CREATE OPERATOR CLASS int4_ops
DEFAULT FOR TYPE int4 USING btree FAMILY integer_ops AS
  -- standard int4 comparisons
  OPERATOR 1 <,
  OPERATOR 2 <=,
  OPERATOR 3 =,
  OPERATOR 4 >=,
  OPERATOR 5 >,
  FUNCTION 1 btint4cmp(int4, int4),
  FUNCTION 2 btint4sortsupport(internal),
  FUNCTION 3 in_range(int4, int4, int4, boolean, boolean) ;

CREATE OPERATOR CLASS int2_ops
DEFAULT FOR TYPE int2 USING btree FAMILY integer_ops AS
  -- standard int2 comparisons
  OPERATOR 1 <,
  OPERATOR 2 <=,
  OPERATOR 3 =,
  OPERATOR 4 >=,
  OPERATOR 5 >,
  FUNCTION 1 btint2cmp(int2, int2),
  FUNCTION 2 btint2sortsupport(internal),
  FUNCTION 3 in_range(int2, int2, int2, boolean, boolean) ;

ALTER OPERATOR FAMILY integer_ops USING btree ADD
  -- cross-type comparisons int8 vs int2
  OPERATOR 1 < (int8, int2),
  OPERATOR 2 <= (int8, int2),
  OPERATOR 3 = (int8, int2),
  OPERATOR 4 >= (int8, int2),
  OPERATOR 5 > (int8, int2),
  FUNCTION 1 btint82cmp(int8, int2),

  -- cross-type comparisons int8 vs int4
  OPERATOR 1 < (int8, int4),
  OPERATOR 2 <= (int8, int4),
  OPERATOR 3 = (int8, int4),
  OPERATOR 4 >= (int8, int4),
  OPERATOR 5 > (int8, int4),
  FUNCTION 1 btint84cmp(int8, int4),

  -- cross-type comparisons int4 vs int2
  OPERATOR 1 < (int4, int2),
  OPERATOR 2 <= (int4, int2),
  OPERATOR 3 = (int4, int2),
  OPERATOR 4 >= (int4, int2),
  OPERATOR 5 > (int4, int2),
  FUNCTION 1 btint42cmp(int4, int2),

  -- cross-type comparisons int4 vs int8
  OPERATOR 1 < (int4, int8),
  OPERATOR 2 <= (int4, int8),
  OPERATOR 3 = (int4, int8),
  OPERATOR 4 >= (int4, int8),
  OPERATOR 5 > (int4, int8),
  FUNCTION 1 btint48cmp(int4, int8),

  -- cross-type comparisons int2 vs int8
  OPERATOR 1 < (int2, int8),
  OPERATOR 2 <= (int2, int8),
  OPERATOR 3 = (int2, int8),
  OPERATOR 4 >= (int2, int8),
  OPERATOR 5 > (int2, int8),
  FUNCTION 1 btint28cmp(int2, int8),

  -- cross-type comparisons int2 vs int4
  OPERATOR 1 < (int2, int4),
  OPERATOR 2 <= (int2, int4),
  OPERATOR 3 = (int2, int4),
  OPERATOR 4 >= (int2, int4),
  OPERATOR 5 > (int2, int4),
  FUNCTION 1 btint24cmp(int2, int4),

  -- cross-type in_range functions
  FUNCTION 3 in_range(int4, int4, int8, boolean, boolean),
  FUNCTION 3 in_range(int4, int4, int2, boolean, boolean),
  FUNCTION 3 in_range(int2, int2, int8, boolean, boolean),
  FUNCTION 3 in_range(int2, int2, int4, boolean, boolean) ;

Обратите внимание, что это определение «перегружает» стратегию оператора и номера вспомогательных функций: каждое число встречается в семействе несколько раз. Это разрешено, если каждый экземпляр определенного числа имеет разные типы входных данных. Экземпляры, у которых оба типа ввода равны типу ввода класса оператора, являются основными операторами и функциями поддержки для этого класса операторов, и в большинстве случаев их следует объявлять как часть класса операторов, а не как свободные члены семейства.

В семействе операторов B-дерева все операторы в семействе должны сортироваться совместимо, как подробно описано в разделе Поведение классов операторов B-дерева. Для каждого оператора в семействе должна быть функция поддержки, имеющая те же два типа входных данных, что и оператор. Рекомендуется, чтобы семейство было полным, т.е. для каждой комбинации типов данных включены все операторы. Каждый класс операторов должен включать в себя только операторы не перекрестного типа и функцию поддержки для своего типа данных.

Чтобы создать семейство хеш-операторов с несколькими типами данных, необходимо создать совместимые функции поддержки хеш-функций для каждого типа данных, поддерживаемого этим семейством. Здесь совместимость означает, что функции гарантированно возвращают один и тот же хэш-код для любых двух значений, которые считаются равными операторами равенства семейства, даже когда значения имеют разные типы. Обычно это трудно сделать, когда типы имеют разные физические представления, но это может быть сделано в некоторых случаях. Кроме того, приведение значения из одного типа данных, представленного в семействе операторов, к другому типу данных, также представленному в семействе операторов через неявное или двоичное приведение приведения, не должно изменять вычисленное значение хеш-функции. Обратите внимание, что существует только одна вспомогательная функция для каждого типа данных, а не одна для оператора равенства. Рекомендуется, чтобы семейство было полным, т.е. предоставляло оператор равенства для каждой комбинации типов данных. Каждый класс операторов должен включать только оператор равенства без перекрестного типа и функцию поддержки для своего типа данных.

Индексы GiST, SP-GiST и GIN не имеют явного представления об операциях с кросс-типом данных. Набор поддерживаемых операторов - это то, что могут обрабатывать основные вспомогательные функции для данного класса операторов.

В BRIN требования зависят от структуры, предоставляющей классы операторов. Для классов операторов, основанных на minmax, требуемое поведение такое же, как и для семейств операторов B-дерева: все операторы в семействе должны выполнять совместимую сортировку, и приведение не должно изменять связанный порядок сортировки.

Системные зависимости от классов операторов

QHB использует классы операторов, чтобы выводить свойства операторов разными способами, а не просто использовать их с индексами. Поэтому вы можете захотеть создать классы операторов, даже если у вас нет намерения индексировать какие-либо столбцы вашего типа данных.

В частности, существуют функции SQL, такие как ORDER BY и DISTINCT которые требуют сравнения и сортировки значений. Чтобы реализовать эти функции для определенного пользователем типа данных, QHB ищет класс оператора B-дерева по умолчанию для типа данных. Член «равно» этого класса операторов определяет представление системы о равенстве значений для GROUP BY и DISTINCT, а порядок сортировки, налагаемый классом операторов, определяет порядок ORDER BY по умолчанию.

Если для типа данных не существует класса операторов B-дерева по умолчанию, система будет искать класс операторов хеша по умолчанию. Но поскольку этот класс операторов обеспечивает только равенство, он может поддерживать только группирование, а не сортировку.

Если для типа данных не существует класса операторов по умолчанию, вы получите ошибки типа «не удалось определить оператор упорядочения», если попытаетесь использовать эти функции SQL с типом данных.

Сортировка по классу операторов B-дерева, отличному от заданного по умолчанию, возможна, если указать, например, оператор класса меньше в опции USING, например:

SELECT * FROM mytable ORDER BY somecol USING ~<~;

В качестве альтернативы, указать оператор класса больше, чем в USING выбрать сортировку по убыванию.

Сравнение массивов определенного пользователем типа также основывается на семантике, определенной классом операторов B-дерева по умолчанию для этого типа. Если класс операторов B-дерева по умолчанию отсутствует, но есть класс операторов хеш-функций по умолчанию, то поддерживается равенство массивов, но не сравнение по порядку.

Еще одна особенность SQL, которая требует еще больших знаний о типе данных, - это опция кадрирования RANGE offset PRECEDING/FOLLOWING для оконных функций (см. раздел Вызовы оконных функций). Для запроса, такого как

SELECT sum(x) OVER (ORDER BY x RANGE BETWEEN 5 PRECEDING AND 10 FOLLOWING)
  FROM mytable;

недостаточно знать, как упорядочить по x; база данных также должна понимать, как «вычесть 5» или «добавить 10» к значению x текущей строки, чтобы идентифицировать границы текущего фрейма окна. Сравнение результирующих границ со значениями x других строк возможно с помощью операторов сравнения, предоставляемых классом операторов B-дерева, который определяет порядок ORDER BY, но операторы сложения и вычитания не являются частью класса операторов, поэтому какие из них следует использовать? Такой выбор был бы нежелателен, поскольку разные порядки сортировки (разные классы операторов B-дерева) могут нуждаться в разном поведении. Поэтому класс операторов B-дерева может указывать вспомогательную функцию in_range, которая инкапсулирует поведения сложения и вычитания, которые имеют смысл для порядка сортировки. Он может даже обеспечить более одной функции поддержки in_range, если имеется более одного типа данных, который имеет смысл использовать в качестве смещения в предложениях RANGE. Если класс оператора B-дерева, связанный с предложением окна ORDER BY, не имеет соответствующей функции поддержки in_range, опция RANGE offset PRECEDING/FOLLOWING не поддерживается.

Другим важным моментом является то, что оператор равенства, который появляется в семействе хеш-операторов, является кандидатом на хеш-объединения, агрегирование хеш-функций и связанные с ними оптимизации. Семейство хеш-операторов здесь важно, так как оно идентифицирует хеш-функцию (и) для использования.

Операторы сортировки

Некоторые методы доступа к индексу (в настоящее время только GiST и SP-GiST) поддерживают концепцию операторов упорядочения. До сих пор мы обсуждали поисковые операторы. Оператор поиска - это оператор, для которого можно выполнить поиск по индексу, чтобы найти все строки, удовлетворяющие WHERE indexed_column operator constant. Обратите внимание, что ничего не обещано о порядке, в котором будут возвращены соответствующие строки. Напротив, оператор упорядочения не ограничивает набор строк, которые могут быть возвращены, а вместо этого определяет их порядок. Оператор упорядочения - это оператор, для которого индекс может быть отсканирован для получения строк в порядке, представленном ORDER BY indexed_column operator constant. Причиной определения операторов упорядочения таким образом является то, что он поддерживает поиск ближайшего соседа, если оператор измеряет расстояние. Например, запрос типа

SELECT * FROM places ORDER BY location <-> point '(101,456)' LIMIT 10;

находит десять мест, ближайших к заданной целевой точке. Индекс GiST для столбца местоположения может сделать это эффективно, потому что <-> является оператором упорядочения.

В то время как операторы поиска должны возвращать логические результаты, операторы упорядочения обычно возвращают некоторый другой тип, например, с плавающей или числовой для расстояний. Этот тип обычно не совпадает с индексируемым типом данных. Чтобы избежать жестких предположений о поведении различных типов данных, определение оператора упорядочения необходимо для именования семейства операторов B-дерева, которое определяет порядок сортировки результирующего типа данных. Как было сказано в предыдущем разделе, семейства операторов B-дерева определяют понятие упорядочения в QHB, так что это естественное представление. Поскольку оператор точки <-> возвращает float8, его можно указать в команде создания класса оператора, например:

OPERATOR 15 <-> (point, point) FOR ORDER BY float_ops

где float_ops - это встроенное семейство операторов, которое включает операции на float8. В этом объявлении говорится, что индекс может возвращать строки в порядке возрастания значений оператора <->.

Особенности операторских классов

Есть две особенности классов операторов, которые мы еще не обсуждали, в основном потому, что они бесполезны с наиболее часто используемыми индексными методами.

Как правило, объявление оператора в качестве члена класса (или семейства) оператора означает, что индексный метод может извлечь именно набор строк, которые удовлетворяют условию WHERE, используя оператор. Например:

SELECT * FROM table WHERE integer_column < 4;

может быть точно удовлетворен B-деревом по целочисленному столбцу. Но бывают случаи, когда индекс полезен как неточное руководство для соответствующих строк. Например, если индекс GiST хранит только ограничивающие рамки для геометрических объектов, он не может точно удовлетворить условие WHERE, которое проверяет перекрытие между непрямоугольными объектами, такими как многоугольники. Тем не менее, мы могли бы использовать индекс для поиска объектов, ограничивающий прямоугольник которых перекрывает ограничивающий прямоугольник целевого объекта, а затем выполнить точный тест перекрытия только для объектов, найденных индексом. Если этот сценарий применим, индекс считается «потерянным» для оператора. Поиск по индексу с потерями реализуется с помощью индексного метода, возвращающего флаг перепроверки, когда строка может или не может действительно удовлетворять условию запроса. Базовая система затем проверит исходное условие запроса в извлеченной строке, чтобы увидеть, следует ли возвращать его в качестве действительного соответствия. Этот подход работает, если индекс гарантированно возвращает все необходимые строки плюс, возможно, некоторые дополнительные строки, которые можно устранить, выполнив исходный вызов оператора. Индексные методы, которые поддерживают поиск с потерями (в настоящее время GiST, SP-GiST и GIN), позволяют функциям поддержки отдельных классов операторов устанавливать флаг повторной проверки, и, таким образом, это по сути функция класса операторов.

Рассмотрим снова ситуацию, когда мы храним в индексе только ограничивающую рамку сложного объекта, такого как многоугольник. В этом случае нет смысла хранить весь многоугольник в элементе индекса - мы могли бы также хранить просто более простой объект типа box. Эта ситуация выражается опцией STORAGE в CREATE OPERATOR CLASS: мы напишем что-то вроде:

CREATE OPERATOR CLASS polygon_ops
    DEFAULT FOR TYPE polygon USING gist AS
        ...
        STORAGE box;

В настоящее время только индексные методы GiST, GIN и BRIN поддерживают тип STORAGE, который отличается от типа данных столбца. Процедуры поддержки сжатия и распаковки GiST должны иметь дело с преобразованием типов данных при использовании STORAGE. В GIN тип STORAGE идентифицирует тип значений «ключа», который обычно отличается от типа индексированного столбца - например, класс оператора для столбцов целочисленного массива может иметь ключи, которые являются просто целыми числами. Функции извлечения GIN extractValue и extractQuery отвечают за извлечение ключей из индексированных значений. BRIN аналогичен GIN: тип STORAGE определяет тип хранимых итоговых значений, а процедуры поддержки классов операторов отвечают за правильную интерпретацию итоговых значений.

Упаковка связанных объектов в расширение

Полезное расширение QHB обычно включает несколько объектов SQL; например, новый тип данных потребует новых функций, новых операторов и, возможно, новых классов операторов индекса. Полезно собрать все эти объекты в один пакет, чтобы упростить управление базой данных. QHB называет такой пакет расширением. Чтобы определить расширение, вам нужен как минимум файл сценария, который содержит команды SQL для создания объектов расширения, и управляющий файл, который задает несколько основных свойств самого расширения. Если расширение включает в себя C/RUST-код, обычно также будет файл общей библиотеки, в который был встроен C/RUST-код. Когда у вас есть эти файлы, простая команда (см. CREATE EXTENSION загружает объекты в вашу базу данных.

Основное преимущество использования расширения вместо простого запуска сценария SQL для загрузки группы «незакрепленных» объектов в вашу базу данных заключается в том, что QHB поймет, что объекты расширения объединяются. Вы можете удалить все объекты с помощью одной команды DROP EXTENSION (нет необходимости поддерживать отдельный сценарий «удаления»). Еще более полезно, что qhb_dump знает, что он не должен создавать дамп отдельных объектов-членов расширения - вместо этого он будет просто включать команду CREATE EXTENSION в дампы. Это значительно упрощает миграцию на новую версию расширения, которая может содержать больше объектов или отличаться от старой версии. Однако обратите внимание, что при загрузке такого дампа в новую базу данных вы должны иметь доступ к элементу управления, сценарию и другим файлам расширения.

QHB не позволит вам удалить отдельный объект, содержащийся в расширении, за исключением удаления всего расширения. Кроме того, хотя вы можете изменить определение объекта-члена расширения (например, с помощью функции CREATE OR REPLACE FUNCTION для функции), имейте в виду, что измененное определение не будет выгружено qhb_dump. Такое изменение обычно имеет смысл только в том случае, если вы одновременно вносите такое же изменение в файл сценария расширения. (Но есть специальные положения для таблиц, содержащих данные конфигурации; см. Раздел Упаковка связанных объектов в расширение). В производственных ситуациях, как правило, лучше создавать сценарий обновления расширения для выполнения изменений в объектах-членах расширения.

Сценарий расширения может устанавливать привилегии для объектов, являющихся частью расширения, с помощью операторов GRANT и REVOKE. Окончательный набор привилегий для каждого объекта (если они установлены) будет сохранен в системном каталоге pg_init_privs. Когда используется qhb_dump, команда CREATE EXTENSION будет включена в дамп, за которым следует набор операторов GRANT и REVOKE необходимых для того, чтобы установить привилегии для объектов такими, какими они были на момент получения дампа.

QHB в настоящее время не поддерживает сценарии расширения, выдающие операторы CREATE POLICY или SECURITY LABEL. Ожидается, что они будут установлены после создания расширения. Все политики RLS и метки безопасности на объектах расширения будут включены в дампы, созданные qhb_dump.

Механизм расширения также содержит положения для упаковки сценариев модификации, которые корректируют определения объектов SQL, содержащихся в расширении. Например, если версия 1.1 расширения добавляет одну функцию и изменяет тело другой функции по сравнению с 1.0, автор расширения может предоставить скрипт обновления, который вносит только эти два изменения. Затем можно применить команду ALTER EXTENSION UPDATE чтобы применить эти изменения и отследить, какая версия расширения фактически установлена в данной базе данных.

Виды объектов SQL, которые могут быть членами расширения, показаны в описании ALTER EXTENSION. В частности, объекты, относящиеся к общему кластеру базы данных, такие как базы данных, роли и табличные пространства, не могут быть членами расширения, поскольку расширение известно только в одной базе данных. (Хотя сценарию расширения не запрещено создавать такие объекты, в этом случае они не будут отслеживаться как часть расширения). Также обратите внимание, что хотя таблица может быть членом расширения, ее вспомогательные объекты, такие как индексы, непосредственно не считаются членами расширения. Другим важным моментом является то, что схемы могут принадлежать расширениям, но не наоборот: расширение как таковое имеет неквалифицированное имя и не существует «внутри» какой-либо схемы. Объекты-члены расширения, тем не менее, будут принадлежать схемам, когда это уместно для их типов объектов. Расширение может или не может быть подходящим для того, чтобы расширение владело схемой (схемами), в которой находятся его элементы-члены.

Если сценарий расширения создает какие-либо временные объекты (например, временные таблицы), эти объекты обрабатываются как элементы расширения для оставшейся части текущего сеанса, но автоматически удаляются в конце сеанса, как и любой временный объект. Это исключение из правила, что объекты-члены расширения не могут быть удалены без удаления всего расширения.

Определение объектов расширения

Широко распространенные расширения должны предполагать немного о базе данных, которую они занимают. В частности, если вы не указали SET search_path = pg_temp, предположите, что каждое неквалифицированное имя может преобразовываться в объект, определенный злоумышленником. Остерегайтесь конструкций, которые неявно зависят от search_path: выражения IN и CASE expression WHEN всегда выбирают оператор, используя путь поиска. Вместо них используйте OPERATOR(schema.=) ANY и CASE WHEN expression.

Файлы расширений

Команда CREATE EXTENSION опирается на управляющий файл для каждого расширения, который должен называться так же, как расширение с суффиксом .control, и должен быть помещен в каталог SHAREDIR/extension. Также должен быть хотя бы один файл сценария SQL, который следует за расширению шаблона именования extension--version.sql (например, foo--1.0.sql для версии 1.0 расширения foo). По умолчанию файлы сценариев также размещаются в каталог SHAREDIR/extension; но файл управления может указывать другой каталог для файла(ов) сценария.

Формат файла для файла управления расширениями такой же, как и для файла qhb.conf, а именно список назначений parameter_name = value, по одному на строку. Пустые строки и комментарии, представленные #, разрешены. Не забудьте указать любое значение, которое не является ни одним словом или числом.

Управляющий файл может устанавливать следующие параметры:

directory (string): Каталог, содержащий файл(ы) SQL- сценария расширения. Если не указан абсолютный путь, имя SHAREDIR каталога SHAREDIR установки. Поведение по умолчанию эквивалентно указанию directory = ’extension’.
default_version (string): Версия расширения по умолчанию (та, которая будет установлена, если в CREATE EXTENSION не указана версия). Хотя это может быть опущено, это приведет к сбою CREATE EXTENSION если опция VERSION не появится, поэтому вы обычно не хотите этого делать.
comment (string): Комментарий (любая строка) о расширении. Комментарий применяется при первоначальном создании расширения, но не при его обновлении (поскольку это может переопределить добавленные пользователем комментарии). Кроме того, комментарий расширения можно установить, написав команду COMMENT в файле сценария.
encoding (string): Кодировка набора символов, используемая в файле(ах) скрипта. Это следует указывать, если файлы сценариев содержат символы, не относящиеся к ASCII. В противном случае предполагается, что файлы находятся в кодировке базы данных.
module_pathname (string): Значение этого параметра будет заменено для каждого вхождения MODULE_PATHNAME в файлах скриптов. Если он не установлен, замена не производится. Как правило, это значение равно $libdir/shared_library_name а затем MODULE_PATHNAME используется в командах CREATE FUNCTION для функций языка C/RUST, поэтому файлам сценариев не нужно жестко связывать имя разделяемой библиотеки.
requires (string): Список имен расширений, от которых зависит это расширение, например requires = ’foo, bar’. Эти расширения должны быть установлены до того, как можно будет установить это расширение.
superuser (boolean): Если этот параметр имеет значение true (по умолчанию), только суперпользователи могут создать расширение или обновить его до новой версии. Если установлено значение false, требуются только те привилегии, которые необходимы для выполнения команд в сценарии установки или обновления.
relocatable (boolean): Расширение можно перемещать, если возможно переместить содержащиеся в нем объекты в другую схему после первоначального создания расширения. По умолчанию установлено значение false, то есть расширение не может быть перемещено. См. Раздел Перемещаемость расширения для получения дополнительной информации.
schema (string): Этот параметр может быть установлен только для не перемещаемых расширений. Это заставляет расширение загружаться в точно названную схему, а не в любую другую. Параметр schema используется только при первоначальном создании расширения, а не при его обновлении. См. Раздел Перемещаемость расширения для получения дополнительной информации.

В дополнение к основному управляющему файлу extension.control расширение может иметь вторичные управляющие файлы, названные в расширении стиля extension--version.control. Если они есть, они должны находиться в каталоге файлов сценариев. Вторичные управляющие файлы имеют тот же формат, что и основной управляющий файл. Любые параметры, установленные во вторичном управляющем файле, переопределяют первичный управляющий файл при установке или обновлении до этой версии расширения. Однако каталог параметров и default_version нельзя установить во вторичном управляющем файле.

Файлы сценариев SQL расширения могут содержать любые команды SQL, кроме команд управления транзакциями (BEGIN, COMMIT и т.д.) И команд, которые не могут быть выполнены внутри блока транзакции (например, VACUUM). Это связано с тем, что файлы сценариев неявно выполняются внутри блока транзакции.

Файлы сценариев SQL расширения также могут содержать строки, начинающиеся с \echo, которые будут игнорироваться (обрабатываться как комментарии) механизмом расширения. Это положение обычно используется для выдачи ошибки, если файл сценария подается в qsql, а не загружается через CREATE EXTENSION (см. Пример сценария в разделе Упаковка связанных объектов в расширение). Без этого пользователи могут случайно загрузить содержимое расширения как «незакрепленные» объекты, а не как расширение, - состояние дел, которое немного утомительно восстанавливать.

Хотя файлы сценариев могут содержать любые символы, разрешенные указанной кодировкой, управляющие файлы должны содержать только простой ASCII, поскольку QHB не может узнать, в какой кодировке находится управляющий файл. На практике это проблема, только если вы хотите используйте не-ASCII символы в комментарии расширения. В этом случае рекомендуется не использовать параметр comment к контрольному файлу, а вместо этого использовать COMMENT ON EXTENSION в файле сценария для установки комментария.

Перемещаемость расширения

Пользователи часто хотят загружать объекты, содержащиеся в расширении, в другую схему, чем предполагал автор расширения. Существует три поддерживаемых уровня перемещаемости:

Полностью перемещаемое расширение может быть перемещено в другую схему в любое время, даже после его загрузки в базу данных. Это делается с помощью команды ALTER EXTENSION SET SCHEMA, которая автоматически переименовывает все объекты-члены в новую схему. Обычно это возможно только в том случае, если расширение не содержит внутренних предположений о том, в какой схеме находится какой-либо из его объектов. Кроме того, все объекты расширения должны начинаться с одной схемы (игнорируя объекты, которые не принадлежат какой-либо схеме, например: процедурные языки). Отметьте полностью перемещаемое расширение, установив relocatable = true в его контрольный файл.
Расширение может перемещаться во время установки, но не после. Обычно это происходит, если файл сценария расширения должен явно ссылаться на целевую схему, например, при настройке свойств search_path для функций SQL. Для такого расширения установите relocatable = false в его управляющем файле и используйте @extschema@ чтобы обратиться к целевой схеме в файле сценария. Все вхождения этой строки будут заменены фактическим именем целевой схемы перед выполнением сценария. Пользователь может установить целевую схему, используя опцию SCHEMA команды CREATE EXTENSION.
Если расширение вообще не поддерживает перемещение, установите в его управляющем файле relocatable = false, а также задайте для schema имя предполагаемой целевой схемы. Это предотвратит использование опции SCHEMA CREATE EXTENSION, если только в ней не указана та же схема, что и в контрольном файле. Этот выбор обычно необходим, если расширение содержит внутренние предположения об именах схем, которые нельзя заменить использованием @extschema@. Механизм замещения @extschema@ доступен в этом случае, хотя он имеет ограниченное использование, поскольку имя схемы определяется управляющим файлом.

Во всех случаях файл сценария будет выполняться с параметром search_path, изначально установленным для указания на целевую схему; то есть CREATE EXTENSION делает эквивалент этого:

SET LOCAL search_path TO @extschema@;

Это позволяет объектам, созданным файлом сценария, перейти в целевую схему. Файл сценария может изменить search_path если пожелает, но это обычно нежелательно. search_path восстанавливается до прежнего значения после завершения CREATE EXTENSION.

Целевая схема определяется параметром schema в управляющем файле, если он указан, в противном случае - параметром SCHEMA в CREATE EXTENSION если он задан, в противном случае - текущей схемой создания объекта по умолчанию (первой в пути search_path вызывающего). Когда используется параметр schema управляющего файла, целевая схема будет создана, если она еще не существует, но в двух других случаях она уже должна существовать.

Если какие-либо обязательные расширения перечислены в requires в контрольном файле, их целевые схемы добавляются к начальному search_path. Это позволяет их объектам быть видимыми в файле сценария нового расширения.

Хотя не перемещаемое расширение может содержать объекты, распределенные по нескольким схемам, обычно желательно поместить все объекты, предназначенные для внешнего использования, в одну схему, которая считается целевой схемой расширения. Такое расположение удобно работает с настройкой по умолчанию search_path при создании зависимых расширений.

Таблицы конфигурации расширений

Некоторые расширения включают таблицы конфигурации, которые содержат данные, которые могут быть добавлены или изменены пользователем после установки расширения. Обычно, если таблица является частью расширения, ни определение таблицы, ни ее содержимое не будут выгружены qhb_dump. Но такое поведение нежелательно для таблицы конфигурации; любые изменения данных, сделанные пользователем, должны быть включены в дампы, иначе расширение будет вести себя по-другому после дампа и перезагрузки.

Чтобы решить эту проблему, файл сценария расширения может пометить созданную им таблицу или последовательность как отношение конфигурации, что заставит qhb_dump включить содержимое таблицы или последовательности (не ее определение) в дампы. Для этого вызовите функцию pg_extension_config_dump(regclass, text) после создания таблицы или последовательности, например

CREATE TABLE my_config (key text, value text);
CREATE SEQUENCE my_config_seq;

SELECT pg_catalog.pg_extension_config_dump('my_config', '');
SELECT pg_catalog.pg_extension_config_dump('my_config_seq', '');

Таким образом можно пометить любое количество таблиц или последовательностей. Последовательности, связанные с serial или bigserial столбцов, также могут быть отмечены.

Когда второй аргумент pg_extension_config_dump является пустой строкой, все содержимое таблицы выгружается с помощью qhb_dump. Обычно это верно только в том случае, если таблица изначально пуста, как это создано сценарием расширения. Если в таблице содержится смесь исходных данных и данных, предоставленных пользователем, второй аргумент pg_extension_config_dump предоставляет условие WHERE которое выбирает данные, которые должны быть выгружены. Например, вы можете сделать

CREATE TABLE my_config (key text, value text, standard_entry boolean);

SELECT pg_catalog.pg_extension_config_dump('my_config', 'WHERE NOT standard_entry');

и затем убедитесь, что standard_entry имеет значение true только в строках, созданных сценарием расширения.

Для последовательностей второй аргумент pg_extension_config_dump имеет никакого эффекта.

Более сложные ситуации, такие как изначально предоставленные строки, которые могут быть изменены пользователями, могут быть обработаны путем создания триггеров в таблице конфигурации, чтобы гарантировать, что измененные строки помечены правильно.

Вы можете изменить условие фильтра, связанное с таблицей конфигурации, снова вызвав pg_extension_config_dump. (Обычно это может быть полезно в скрипте обновления расширения). Единственный способ пометить таблицу как таблицу, которая больше не является таблицей конфигурации, - это отсоединить ее от расширения с помощью ALTER EXTENSION ... DROP TABLE.

Обратите внимание, что отношения внешнего ключа между этими таблицами будут определять порядок, в котором таблицы выгружаются qhb_dump. В частности, qhb_dump попытается вывести таблицу, на которую ссылаются, перед таблицей, на которую ссылаются. Поскольку отношения внешнего ключа устанавливаются во время CREATE EXTENSION (до загрузки данных в таблицы), циклические зависимости не поддерживаются. Когда существуют циклические зависимости, данные все равно будут выгружены, но дамп не сможет быть восстановлен напрямую, и потребуется вмешательство пользователя.

Последовательности, связанные с serial или bigserial столбцами, должны быть помечены напрямую, чтобы вывести их состояние. Маркировка их родительских отношений недостаточно для этой цели.

Обновления расширений

Одним из преимуществ механизма расширения является то, что он предоставляет удобные способы управления обновлениями команд SQL, которые определяют объекты расширения. Это делается путем привязки имени или номера версии к каждой выпущенной версии сценария установки расширения. Кроме того, если вы хотите, чтобы пользователи могли динамически обновлять свои базы данных с одной версии на другую, вы должны предоставить сценарии обновления, которые вносят необходимые изменения для перехода с одной версии на другую. Сценарии обновления имеют имена, следующего шаблона extension--old_version--target_version.sql (например, foo--1.0--1.1.sql содержит команды для изменения версии 1.0 расширения foo в версию 1.1 ).

При наличии подходящего сценария обновления команда ALTER EXTENSION UPDATE обновит установленное расширение до указанной новой версии. Сценарий обновления выполняется в той же среде, которую CREATE EXTENSION предоставляет для сценариев установки: в частности, search_path настраивается таким же образом, и любые новые объекты, созданные сценарием, автоматически добавляются в расширение. Кроме того, если сценарий выбирает удаление объектов-членов расширения, они автоматически отсоединяются от расширения.

Если расширение имеет вторичные контрольные файлы, параметры управления, используемые для сценария обновления, являются теми, которые связаны с целевой (новой) версией сценария.

Механизм обновления может использоваться для решения важного особого случая: преобразования «свободной» коллекции объектов в расширение. До того, как механизм расширения был добавлен в PostgreSQL (в 9.1), многие люди писали модули расширения, которые просто создавали разные неупакованные объекты. Учитывая существующую базу данных, содержащую такие объекты, как мы можем преобразовать объекты в правильно упакованное расширение? Удаление их, а затем выполнение простого CREATE EXTENSION - один из способов, но нежелательно, если у объектов есть зависимости (например, если существуют столбцы таблицы типа данных, созданные расширением). Чтобы исправить эту ситуацию, нужно создать пустое расширение, затем использовать ALTER EXTENSION ADD чтобы присоединить каждый существующий объект к расширению, а затем, наконец, создать любые новые объекты, которые находятся в текущей версии расширения, но отсутствуют в распакованном выпуске. CREATE EXTENSION поддерживает этот случай с опцией FROM old_version, которая заставляет его не запускать обычный скрипт установки для целевой версии, а вместо этого сценарий обновления с именем extension--old_version--target_version.sql. Выбор имени фиктивной версии для использования в качестве old_version зависит от автора расширения, хотя unpackaged является общим соглашением. Если у вас есть несколько предыдущих версий, вы должны иметь возможность обновиться до стиля расширения, используйте несколько фиктивных названий версий для их идентификации.

ALTER EXTENSION может выполнять последовательности файлов сценариев обновления для достижения запрошенного обновления. Например, если доступны только foo--1.0--1.1.sql и foo--1.1--2.0.sql, ALTER EXTENSION будет применять их последовательно, если будет запрошено обновление до версии 2.0, а в данный момент установлена версия 1.0.

QHB ничего не говорит о свойствах имен версий: например, он не знает, следует ли 1.1 за 1.0. Он просто сопоставляет доступные имена версий и следует по пути, который требует применения наименьшего количества сценариев обновления. (Имя версии может фактически быть любой строкой, которая не содержит -- или начало или конец -).

Иногда полезно предоставить сценарии «понижения», например, foo--1.1--1.0.sql чтобы позволить отменить изменения, связанные с версией 1.1. Если вы это сделаете, будьте осторожны с возможностью неожиданного применения скрипта понижения, поскольку он дает более короткий путь. Рискованный случай - это сценарий обновления «быстрого пути», который переходит вперед на несколько версий, а также сценарий перехода к начальной точке быстрого пути. Может потребоваться меньше шагов, чтобы применить понижение и затем быстрый путь, чем продвигаться вперед по одной версии за раз. Если скрипт понижения удаляет незаменимые объекты, это приведет к нежелательным результатам.

Чтобы проверить наличие неожиданных путей обновления, используйте эту команду:

SELECT * FROM pg_extension_update_paths('extension_name');

Это показывает каждую пару различных известных имен версий для указанного расширения вместе с последовательностью пути обновления, которая была бы принята, чтобы получить от исходной версии до целевой версии, или NULL если нет доступного пути обновления. Путь показан в текстовом виде с -- разделителями. Вы можете использовать regexp_split_to_array(path,'--') если вы предпочитаете формат массива.

Установка расширений с использованием скриптов обновления

Расширение, которое существует уже некоторое время, вероятно, будет существовать в нескольких версиях, для которых автору потребуется написать сценарии обновления. Например, если вы выпустили расширение foo в версиях 1.0, 1.1 и 1.2, должны быть сценарии обновления foo--1.0--1.1.sql и foo--1.1--1.2.sql. До PostgreSQL 10 необходимо было также создавать новые файлы сценариев foo--1.1.sql и foo--1.2.sql которые напрямую собирали более новые версии расширений, иначе более новые версии не могли быть установлены напрямую, только путем установки 1.0 и затем обновление. Это было утомительно и дублировало, но теперь это не нужно, потому что CREATE EXTENSION может автоматически следовать цепочкам обновлений. Например, если доступны только файлы сценариев foo--1.0.sql, foo--1.0--1.1.sql и foo--1.1--1.2.sql, то запрос на установку версии 1.2 выполняется с помощью запуска этих трех сценарии в последовательности. Обработка такая же, как если бы вы сначала установили 1.0 а затем обновили до 1.2. (Как и в случае с ALTER EXTENSION UPDATE, если доступно несколько путей, предпочтительнее использовать кратчайший путь). Размещение файлов сценариев расширения в этом стиле может уменьшить объем работ по обслуживанию, необходимых для создания небольших обновлений.

Если вы используете вторичные (зависящие от версии) контрольные файлы с расширением, поддерживаемым в этом стиле, имейте в виду, что каждой версии нужен контрольный файл, даже если у него нет отдельного сценария установки, поскольку этот контрольный файл будет определять, как неявное обновление на эту версию выполняется. Например, если foo--1.0.control указывает requires = 'bar' но другие управляющие файлы foo этого не делают, зависимость расширения от bar будет сброшена при обновлении с 1.0 до другой версии.

Пример расширения

Вот полный пример SQL- расширения, двухэлементного составного типа, который может хранить значения любого типа в своих слотах, которые называются k и v. Нетекстовые значения автоматически преобразуются в текст для хранения.

Скриптовый файл pair--1.0.sql выглядит так:

-- complain if script is sourced in qsql, rather than via CREATE EXTENSION
\echo Use "CREATE EXTENSION pair" to load this file. \quit

CREATE TYPE pair AS ( k text, v text );

CREATE OR REPLACE FUNCTION pair(text, text)
RETURNS pair LANGUAGE SQL AS 'SELECT ROW($1, $2)::@extschema@.pair;';

CREATE OPERATOR ~> (LEFTARG = text, RIGHTARG = text, FUNCTION = pair);

-- "SET search_path" is easy to get right, but qualified names perform better.
CREATE OR REPLACE FUNCTION lower(pair)
RETURNS pair LANGUAGE SQL
AS 'SELECT ROW(lower($1.k), lower($1.v))::@extschema@.pair;'
SET search_path = pg_temp;

CREATE OR REPLACE FUNCTION pair_concat(pair, pair)
RETURNS pair LANGUAGE SQL
AS 'SELECT ROW($1.k OPERATOR(pg_catalog.||) $2.k,
               $1.v OPERATOR(pg_catalog.||) $2.v)::@extschema@.pair;';

Управляющий файл pair.control выглядит так:

# pair extension
comment = 'A key/value pair data type'
default_version = '1.0'
relocatable = false

Хотя вам вряд ли нужен make-файл для установки этих двух файлов в правильный каталог, вы можете использовать Makefile содержащий это:

EXTENSION = pair
DATA = pair--1.0.sql

PG_CONFIG = pg_config
PGXS := $(shell $(PG_CONFIG) --pgxs)
include $(PGXS)

Этот make-файл основан на PGXS, что описано в следующем разделе. Команда make install установит управляющие файлы и файлы сценариев в правильный каталог, как сообщает pg_config.

Как только файлы установлены, используйте команду CREATE EXTENSION, чтобы загрузить объекты в любую конкретную базу данных.

Инфраструктура сборки расширений

Если вы думаете о распространении модулей расширения QHB, то для них может быть довольно сложно настроить переносную систему сборки. Поэтому установка QHB предоставляет инфраструктуру сборки для расширений, которая называется PGXS, так что простые модули расширения могут быть собраны просто на уже установленном сервере. PGXS в основном предназначен для расширений, которые включают в себя код на C, хотя он также может использоваться и для расширений чистого SQL. Обратите внимание, что PGXS не предназначен для того, чтобы быть универсальной структурой системы сборки, которая может использоваться для создания любого программного обеспечения, взаимодействующего с QHB; он просто автоматизирует общие правила сборки для простых модулей расширения сервера. Для более сложных пакетов вам может потребоваться написать собственную систему сборки.

Чтобы использовать инфраструктуру PGXS для вашего расширения, вы должны написать простой make-файл. В make- файле вам нужно установить некоторые переменные и включить глобальный make-файл PGXS. Вот пример, который создает модуль расширения с именем isbn_issn, состоящий из разделяемой библиотеки, содержащей некоторый код C/RUST, файл управления расширениями, сценарий SQL, файл включения (требуется только в том случае, если другим модулям может потребоваться доступ к функциям расширения без прохождения через SQL) и текстовый файл документации:

MODULES = isbn_issn
EXTENSION = isbn_issn
DATA = isbn_issn--1.0.sql
DOCS = README.isbn_issn
HEADERS_isbn_issn = isbn_issn.h

PG_CONFIG = pg_config
PGXS := $(shell $(PG_CONFIG) --pgxs)
include $(PGXS)

Последние три строки всегда должны быть одинаковыми. Ранее в файле вы назначаете переменные или добавляете пользовательские правила создания .

Установите одну из этих трех переменных, чтобы указать, что собирается:

MODULES: список объектов разделяемой библиотеки, которые будут построены из исходных файлов с одинаковым основанием (не включайте суффиксы библиотеки в этот список)
MODULE_big: общая библиотека для сборки из нескольких исходных файлов (список объектных файлов в OBJS )
PROGRAM: исполняемая программа для сборки (список объектных файлов в OBJS )

Следующие переменные также могут быть установлены:

EXTENSION: имена расширений; для каждого имени вы должны предоставить файл extension.control, который будет установлен в prefix/share/extension
MODULEDIR: подкаталог prefix/share в который должны быть установлены файлы DATA и DOCS (если не установлен, по умолчанию используется extension если установлено EXTENSION, или contrib если нет)
DATA: случайные файлы для установки в prefix/share/$MODULEDIR
DATA_built: случайные файлы для установки в prefix/share/$MODULEDIR, которые нужно сначала собрать
DATA_TSEARCH: случайные файлы для установки c prefix/share/tsearch_data
DOCS: случайные файлы для установки с prefix/doc/$MODULEDIR
HEADERS
HEADERS_built: Файлы (возможно, для сборки и) устанавливаются с prefix/include/server/$MODULEDIR/$MODULE_big .; В отличие от DATA_built, файлы в HEADERS_built не удаляются целью очистки; если вы хотите, чтобы они были удалены, также добавьте их в EXTRA_CLEAN или добавьте свои собственные правила, чтобы сделать это.
HEADERS_$MODULE
HEADERS_built_$MODULE: Файлы для установки (после сборки, если указано) с prefix/include/server/$MODULEDIR/$MODULE , где $MODULE должно быть именем модуля, используемым в MODULES или MODULE_big.; В отличие от DATA_built, файлы в HEADERS_built_$MODULE не удаляются с целью очистки; если вы хотите, чтобы они были удалены, также добавьте их в EXTRA_CLEAN или добавьте свои собственные правила, чтобы сделать это.; Разрешается использовать обе переменные для одного и того же модуля или любой комбинации, если только в списке модулей нет двух имен модулей, которые отличаются только наличием префикса built_, что может привести к неоднозначности. В этом (надеюсь маловероятном) случае вы должны использовать только переменные HEADERS_built_$MODULE .
SCRIPTS: файлы сценариев (не двоичные файлы) для установки в prefix/bin
SCRIPTS_built: файлы сценариев (не двоичные файлы) для установки в prefix/bin, которые должны быть собраны в первую очередь
REGRESS: список регрессионных тестов (без суффикса), см. ниже
REGRESS_OPTS: дополнительные ключи для перехода на pg_regress
ISOLATION: список тестовых случаев изоляции, см. ниже для более подробной информации
ISOLATION_OPTS: дополнительные ключи для передачи в pg_isolation_regress
TAP_TESTS: переключатель, определяющий, нужно ли запускать тесты TAP, см. ниже
NO_INSTALLCHECK: не определять цель installcheck, полезно, например, если тесты требуют специальной конфигурации или не используют pg_regress
EXTRA_CLEAN: дополнительные файлы для удаления в make clean
PG_CPPFLAGS: будет добавлен к CPPFLAGS
PG_CFLAGS: будет добавлен к CFLAGS
PG_CXXFLAGS: будет добавлен в CXXFLAGS
PG_LDFLAGS: будет добавлен к LDFLAGS
PG_LIBS: будет добавлен в строку ссылки PROGRAM
SHLIB_LINK: будет добавлен в строку ссылки MODULE_big
PG_CONFIG: путь к программе pg_config для сборки установки QHB (обычно просто pg_config для использования первым в вашем PATH)

Поместите этот makefile как Makefile в каталог, содержащий ваше расширение. Затем вы можете выполнить make для компиляции, а затем make install для установки вашего модуля. По умолчанию расширение компилируется и устанавливается для установки QHB, которая соответствует первой программе pg_config найденной в вашем PATH. Вы можете использовать другую установку, установив PG_CONFIG чтобы он указывал на ее программу pg_config, либо внутри makefile, либо в командной строке make.

Вы также можете запустить make в каталоге за пределами исходного дерева вашего расширения, если вы хотите сохранить каталог сборки отдельно. Эта процедура также называется VPATH построить. Вот как:

mkdir build_dir
cd build_dir
make -f /path/to/extension/source/tree/Makefile
make -f /path/to/extension/source/tree/Makefile install

Кроме того, вы можете настроить каталог для сборки VPATH аналогично тому, как это делается для основного кода. Один из способов сделать это - использовать основной скрипт config/prep_buildtree. Как только это будет сделано, вы можете собрать, установив переменную make VPATH следующим образом:

make VPATH=/path/to/extension/source/tree
make VPATH=/path/to/extension/source/tree install

Эта процедура может работать с большим разнообразием макетов каталогов.

Сценарии, перечисленные в переменной REGRESS, используются для регрессионного тестирования вашего модуля, который может быть вызван командой make installcheck после выполнения команды make install. Чтобы это работало, у вас должен быть запущен сервер QHB. Файлы сценариев, перечисленные в REGRESS должны появляться в подкаталоге с именем sql/ в каталоге вашего расширения. Эти файлы должны иметь расширение .sql, которое не должно быть включено в список REGRESS в makefile. Для каждого теста также должен быть файл, содержащий ожидаемый результат в подкаталоге с именем expected/, с тем же основанием и расширением .out. make installcheck выполняет каждый тестовый сценарий с помощью qsql и сравнивает полученный результат с соответствующим ожидаемым файлом. Любые различия будут записаны в файл regression.diffs в формате diff -c. Обратите внимание, что попытка запустить тест, в котором отсутствует ожидаемый файл, будет отображаться как "trouble", поэтому убедитесь, что у вас есть все ожидаемые файлы.

Сценарии, перечисленные в переменной ISOLATION, используются для тестов, в которых подчеркивается поведение одновременной сессии с вашим модулем, которая может быть вызвана командой make installcheck после выполнения команды make install. Чтобы это работало, у вас должен быть запущенный сервер QHB. Файлы сценариев, перечисленные в ISOLATION должны появляться в подкаталоге с именем specs/ в каталоге вашего расширения. Эти файлы должны иметь расширение .spec, которое не должно быть включено в список ISOLATION в makefile. Для каждого теста также должен быть файл, содержащий ожидаемый результат в подкаталоге с именем expected/, с тем же основанием и расширением .out. make installcheck выполняет каждый тестовый сценарий и сравнивает полученный результат с соответствующим ожидаемым файлом. Любые различия будут записаны в файл output_iso/regression.diffs в формате diff -c. Обратите внимание, что попытка запустить тест, в котором отсутствует ожидаемый файл, будет отображаться как "trouble", поэтому убедитесь, что у вас есть все ожидаемые файлы.

TAP_TESTS позволяет использовать тесты TAP. Данные каждого прогона присутствуют в подкаталоге с именем tmp_check/.

Заметка
Самый простой способ создать ожидаемые файлы - создать пустые файлы, а затем выполнить тестовый прогон (который, конечно, сообщит о различиях). Проверьте фактические файлы результатов, найденные в каталоге results/ (для тестов в REGRESS) или в output_iso/results/ (для тестов в ISOLATION), а затем скопируйте их в expected/ если они соответствуют тому, что вы ожидаете от теста.

Триггеры

Эта глава содержит общую информацию о написании триггерных функций. Триггерные функции могут быть написаны на большинстве доступных процедурных языков, включая PL/pgSQL. Прочитав текущую главу, вы можете обратиться к главе PL/pgSQL, чтобы узнать подробности о написании на нем триггера.

Также можно написать триггерную функцию на C или Rust, хотя большинству людей проще использовать один из процедурных языков. В настоящее время невозможно написать триггерную функцию на простом языке функций SQL.

Обзор триггерного поведения

Триггер - это указание, согласно которой база данных должна автоматически выполнять определенную функцию всякий раз, когда выполняется определенный тип операции. Триггеры могут быть прикреплены к таблицам (разделенным или нет), представлениям и сторонним таблицам.

В таблицах и внешних таблицах можно определить триггеры для выполнения до или после любой операции INSERT, UPDATE или DELETE, либо один раз для измененной строки, либо один раз для оператора SQL. Триггеры UPDATE могут быть установлены на срабатывание только в том случае, если в предложении SET UPDATE упоминаются определенные столбцы. Триггеры также могут быть TRUNCATE. Если происходит событие триггера, функция триггера вызывается в соответствующее время для обработки события.

В представлениях можно определить триггеры для выполнения вместо операций INSERT, UPDATE или DELETE. Такие триггеры INSTEAD OF запускаются один раз для каждой строки, которую необходимо изменить. Функция триггера отвечает за выполнение необходимых модификаций базовой таблицы (или таблиц) представления и при необходимости возвращает измененную строку, как она будет отображаться в представлении. Триггеры для представлений также могут быть определены для выполнения один раз для каждого оператора SQL, до или после операций INSERT, UPDATE или DELETE. Однако такие триггеры срабатывают только в том случае, если в представлении также имеется триггер INSTEAD OF. В противном случае любой оператор, нацеленный на представление должен быть переписан в оператор, влияющий на его базовую(ые) таблицу(ы), и тогда триггеры, которые будут срабатывать.

Функция триггера должна быть определена до создания триггера и объявлена как функция, не имеющая аргументов и возвращающая тип trigger. Функция триггера получает свой ввод через специально переданную структуру TriggerData, а не в виде аргументов обычной функции.

После создания подходящей триггерной функции триггер устанавливается с помощью CREATE TRIGGER. Одна и та же триггерная функция может использоваться для нескольких триггеров.

QHB предлагает как триггеры для каждой строки, так и триггеры для каждой инструкции. При использовании триггера, функция вызывается один раз для каждой строки, на которую влияет оператор, вызвавший триггер. Напротив, триггер для каждого оператора вызывается только один раз при выполнении, независимо от количества строк, затронутых этим оператором. В частности, оператор, который влияет на ноль строк, все равно будет приводить к выполнению любых применимых триггеров для каждого оператора. Эти два типа триггеров иногда называют триггерами уровня строки и триггерами уровня оператора, соответственно. Триггеры в TRUNCATE могут быть определены только на уровне оператора, а не для каждой строки.

Триггеры также классифицируются в зависимости от того, срабатывают они до, после или вместо операции. Они называются триггерами BEFORE, триггерами AFTER и триггерами INSTEAD OF соответственно. Триггеры уровня BEFORE естественным образом срабатывают до того, как оператор начинает что-либо делать, в то время как AFTER запускаются на самом конце оператора. Эти типы триггеров могут быть определены в таблицах, представлениях или внешних таблицах. Уровень BEFORE вызывает срабатывание непосредственно перед тем, как будет обработана определенная строка, в то время как уровень AFTER срабатывает в конце инструкции. Эти типы триггеров могут быть определены только для секционированных и внешних таблиц, но не для представлений. Триггеры INSTEAD OF могут быть определены только для представлений и только на уровне строк; они запускаются немедленно, так как каждая строка в представлении определяется как нуждающаяся в операции.

Оператор, нацеленный на родительскую таблицу в иерархии наследования или разбиения, не вызывает срабатывания триггеров уровня дочерних таблиц (запускаются только триггеры уровня операторов) родительской таблицы. Однако триггеры на уровне строк любых затронутых дочерних таблиц будут срабатывать.

Если INSERT содержит предложение ON CONFLICT DO UPDATE, возможно, что эффекты триггеров BEFORE INSERT и BEFORE UPDATE уровня строки могут быть применены так, как это видно из конечного состояния обновленной строки, если ссылка на столбец была EXCLUDED. Однако для выполнения обоих наборов триггеров уровня BEFORE необязательно указывать ссылку на столбец EXCLUDED. Возможность неожиданных результатов должна быть рассмотрена, когда есть триггеры уровня строки BEFORE INSERT и BEFORE UPDATE, которые изменяют вставляемую / обновляемую строку (это может быть проблематично, даже если изменения более или менее эквивалентны, или даже идемпотентны). Обратите внимание, что триггеры UPDATE на уровне оператора выполняются, когда указано ON CONFLICT DO UPDATE, независимо от того, затронул ли UPDATE какие-либо строки или нет, и независимо от того, выбирался ли альтернативный путь UPDATE. INSERT с предложением ON CONFLICT DO UPDATE сначала выполнит триггеры уровня BEFORE INSERT уровня INSERT, затем триггеры BEFORE UPDATE, затем триггеры AFTER UPDATE и, наконец, триггеры AFTER INSERT.

Если UPDATE в многораздельной таблице приводит к перемещению строки в другой раздел, он будет выполнен как DELETE из исходного раздела, за которым следует INSERT в новый раздел. В этом случае все триггеры BEFORE UPDATE уровня строки и все триггеры BEFORE DELETE уровня строки запускаются в исходном разделе. Затем все триггеры BEFORE INSERT уровня строки запускаются в целевом разделе. Возможность неожиданных результатов следует учитывать, когда все эти триггеры влияют на перемещение строки. Что касается триггеров AFTER ROW применяются триггеры AFTER DELETE и AFTER INSERT; но не AFTER UPDATE, потому что UPDATE было преобразовано в DELETE и INSERT. Что касается триггеров уровня оператора, ни один из триггеров DELETE или INSERT не запускается, даже если происходит перемещение строки; сработают только триггеры UPDATE определенные в целевой таблице, используемой в операторе UPDATE.

Триггерные функции, вызываемые триггерами для каждого оператора, всегда должны возвращать NULL. Триггерные функции, вызываемые триггерами для каждой строки, могут возвращать строку таблицы (значение типа HeapTuple) вызывающему исполнителю, если они того пожелают. Триггер на уровне строк, срабатывающий до операции, имеет следующие варианты:

Он может вернуть NULL, чтобы пропустить операцию для текущей строки. Это указывает исполнителю не выполнять операцию на уровне строк, которая вызвала триггер (вставка, изменение или удаление определенной строки таблицы).
Только для триггеров INSERT и UPDATE на уровне строк возвращаемая строка становится строкой, которая будет вставлена или заменит обновляемую строку. Это позволяет триггерной функции изменять вставляемую или обновляемую строку.

Триггер BEFORE уровня строки, который не имеет намерения вызвать какое-либо из этих поведений, должен быть аккуратен. В таком случае необходимо возвращать в качестве своего результата ту же самую строку, которая была передана. (то есть строка NEW для триггеров INSERT и UPDATE, строка OLD для триггеров DELETE).

Триггер INSTEAD OF уровня строк должен либо возвращать NULL, чтобы указать, что он не изменил никаких данных из базовых таблиц представления, либо возвращать строку представления, которая была передана (строка NEW для операций INSERT и UPDATE, или OLD ряд для DELETE операции). Ненулевое возвращаемое значение используется, чтобы сигнализировать, что триггер выполнил необходимые модификации данных в представлении. Это приведет к увеличению числа строк, на которые влияет команда. Для операций INSERT и UPDATE триггер может изменить строку NEW перед ее возвратом. Это изменит данные, возвращаемые INSERT RETURNING или UPDATE RETURNING, и будет полезно, когда представление не будет отображать точно те же данные, которые были предоставлены.

Возвращаемое значение игнорируется для триггеров уровня строки, срабатывающих после операции, и поэтому они могут возвращать NULL.

Некоторые соображения применимы к сгенерированным столбцам. Сохраненные сгенерированные столбцы вычисляются после триггеров BEFORE и до триггеров AFTER. Поэтому сгенерированное значение может быть проверено в триггерах AFTER. В триггерах BEFORE строка OLD содержит старое сгенерированное значение, как и следовало ожидать, но строка NEW еще не содержит нового сгенерированного значения и не должна быть доступна. В интерфейсе языка C содержимое столбца на этом этапе не определено; язык программирования более высокого уровня должен предотвращать доступ к сохраненному сгенерированному столбцу в строке NEW в триггере BEFORE. Изменения значения сгенерированного столбца в триггере BEFORE игнорируются и будут перезаписаны.

Если для одного и того же события в одном и том же отношении определено более одного триггера, триггеры сработают в алфавитном порядке по имени триггера. В случае триггеров BEFORE и INSTEAD OF возможно измененная строка, возвращаемая каждым триггером, становится входом для следующего триггера. Если какой-либо триггер BEFORE или INSTEAD OF возвращает NULL, операция прекращается для этой строки, и последующие триггеры не запускаются (для этой строки).

Определение триггера также может указывать логическое условие WHEN, которое будет проверено, чтобы увидеть, должен ли триггер срабатывать. В триггерах уровня строки условие WHEN может проверять старые и (или) новые значения столбцов строки. (Триггеры уровня оператора также могут иметь условия WHEN, хотя для них эта функция не так полезна.) В триггере BEFORE условие WHEN оценивается непосредственно перед выполнением функции, поэтому использование WHEN существенно не отличается от проверки того же условия в начале триггерной функции. Однако в триггере AFTER условие WHEN оценивается сразу после обновления строки и определяет, стоит ли в очереди событие для запуска триггера в конце оператора. Таким образом, когда условие WHEN триггера AFTER не возвращает истину, нет необходимости ставить в очередь событие или повторно извлекать строку в конце оператора. Это может привести к значительному ускорению операторов, которые изменяют множество строк, если триггер нужно запустить только для нескольких строк. INSTEAD OF не поддерживают условия WHEN.

Как правило, триггеры BEFORE уровня строки используются для проверки или изменения данных, которые будут вставлены или обновлены. Например, триггер BEFORE может использоваться для вставки текущего времени в столбец timestamp или для проверки согласованности двух элементов строки. Триггеры AFTER наиболее разумно используются для распространения обновлений на другие таблицы или для проверки согласованности с другими таблицами. Причина такого разделения заключается в том, что триггер AFTER должен быть уверен, что видит окончательное значение строки, а триггер BEFORE нет; после этого могут быть другие BEFORE триггерами. Если у вас нет особой причины для выполнения триггера BEFORE или AFTER, случай BEFORE более эффективен, поскольку информацию об операции не нужно сохранять до конца оператора.

Если триггерная функция выполняет команды SQL, эти команды могут снова запускать триггеры. Это известно как каскадные триггеры. Нет прямого ограничения на количество каскадных уровней. Каскады могут вызывать рекурсивный вызов одного и того же триггера; например, триггер INSERT может выполнить команду, которая вставляет дополнительную строку в ту же таблицу, вызывая повтор триггера INSERT. Программист триггера обязан избегать бесконечной рекурсии в таких сценариях.

Когда определяется триггер, для него могут быть указаны аргументы. Цель включения аргументов в определение триггера - разрешить различным триггерам с одинаковыми требованиями вызывать одну и ту же функцию. Например, может быть обобщенная триггерная функция, которая принимает в качестве аргументов два имени столбца и помещает текущего пользователя в один, а текущую метку времени - в другой. Правильно написанная триггерная функция не зависит от конкретной таблицы, для которой она запускается. Таким образом, эту же функцию можно использовать для событий INSERT в любой таблице с подходящими столбцами, например, для автоматического отслеживания создания записей в таблице транзакций. Он также может использоваться для отслеживания событий последнего обновления, если он определен как триггер UPDATE.

Каждый язык программирования, который поддерживает триггеры, имеет свой собственный метод, позволяющий сделать входные данные триггера доступными для функции триггера. Эти входные данные включают тип события триггера (например, INSERT или UPDATE), а также любые аргументы, которые были перечислены в CREATE TRIGGER. Для триггера уровня строки входные данные также включают строку NEW для триггеров INSERT и UPDATE и (или) или строку OLD для триггеров UPDATE и DELETE.

По умолчанию триггеры уровня оператора не имеют никакого способа проверить отдельные строки, измененные этим самым оператором. Но триггер AFTER STATEMENT может запросить создание таблиц переходов, чтобы сделать наборы затронутых строк доступными для триггера. AFTER ROW также могут запрашивать таблицы переходов, чтобы они могли видеть общие изменения в таблице, а также изменения в отдельной строке, для которой они в данный момент запускаются. Способ проверки таблиц переходов тоже зависит от используемого языка программирования, но типичный подход заключается в том, чтобы заставить таблицы переходов действовать как временные таблицы только для чтения, к которым могут обращаться команды SQL, выполненные в функции триггера.

Видимость изменений данных

Если вы выполняете команды SQL в своей функции триггера, и эти команды обращаются к таблице, вам необходимо знать правила видимости данных, поскольку они определяют, будут ли эти команды SQL видеть изменение данных, для которых сработал триггер. Кратко:

Триггеры уровня оператора следуют простым правилам видимости: ни одно из изменений, внесенных оператором, не видно триггерам BEFORE уровня оператора, тогда как все модификации видны триггерам AFTER уровня оператора.
Изменение данных (вставка, обновление или удаление), вызывающее срабатывание триггера, естественно, невидимо для команд SQL, выполняемых в триггере BEFORE уровне строк, поскольку это еще не произошло.
Однако команды SQL, выполняемые в триггере BEFORE на уровне строк, увидят влияние изменений данных для строк, ранее обработанных в той же внешней команде. Это требует осторожности, поскольку порядок этих событий изменений в общем случае не предсказуем; команда SQL, которая влияет на несколько строк, может посещать строки в любом порядке.
Аналогично, триггер INSTEAD OF уровня строк будет видеть влияние изменений данных, выполненных предыдущими срабатываниями триггеров INSTEAD OF в той же внешней команде.
Когда запускается триггер AFTER уровня строк, все изменения данных, сделанные внешней командой, уже завершены и видны для вызываемой функции триггера.

Если ваша триггерная функция написана на любом из стандартных процедурных языков, то приведенные выше операторы применимы, только если функция объявлена как VOLATILE. Функции, которые объявлены как STABLE или IMMUTABLE, не увидят изменений, внесенных вызывающей командой в любом случае.

Дополнительную информацию о правилах видимости данных можно найти в Видимость изменений данных SPI. Пример в разделе Полный пример запуска содержит демонстрацию этих правил.

Написание триггерных функций на C

В этом разделе описываются детали низкого уровня интерфейса для функции триггера. Эта информация необходима только при написании триггерных функций на языке C. Если вы используете язык более высокого уровня, то эти детали обрабатываются для вас автоматически. В большинстве случаев вам следует подумать об использовании процедурного языка, прежде чем писать свои триггеры на C. В документации каждого процедурного языка объясняется, как написать триггер на этом языке.

Функции запуска должны использовать интерфейс диспетчера функций «version 1».

Когда функция вызывается менеджером триггера, ей не передаются никакие обычные аргументы, но ей передается указатель «context», указывающий на структуру TriggerData. Функции на C могут проверить, были ли они вызваны из диспетчера триггеров или нет, выполнив макрос:

CALLED_AS_TRIGGER(fcinfo)

который распахивается в

((fcinfo)->context != NULL && IsA((fcinfo)->context, TriggerData))

Если это возвращает true, тогда безопасно привести fcinfo->context к типу TriggerData * и использовать структуру TriggerData. Функция не должна изменять структуру TriggerData или любые данные, на которые она указывает.

Структура TriggerData определена в commands/trigger.h:

typedef struct TriggerData
{
    NodeTag          type;
    TriggerEvent     tg_event;
    Relation         tg_relation;
    HeapTuple        tg_trigtuple;
    HeapTuple        tg_newtuple;
    Trigger         *tg_trigger;
    TupleTableSlot  *tg_trigslot;
    TupleTableSlot  *tg_newslot;
    Tuplestorestate *tg_oldtable;
    Tuplestorestate *tg_newtable;
} TriggerData;

где члены определены следующим образом:

type - всегда T_TriggerData.
tg_event - описывает событие, для которого вызывается функция. Вы можете использовать следующие макросы для проверки tg_event:
- TRIGGER_FIRED_BEFORE(tg_event) - возвращает true, если триггер сработал до операции.
- TRIGGER_FIRED_AFTER(tg_event) - возвращает true, если триггер сработал после операции.
- TRIGGER_FIRED_INSTEAD(tg_event) - возвращает true, если сработал триггер вместо операции.
- TRIGGER_FIRED_FOR_ROW(tg_event) - возвращает true, если триггер сработал для события уровня строки.
- TRIGGER_FIRED_FOR_STATEMENT(tg_event) - возвращает true, если триггер сработал для события уровня оператора.
- TRIGGER_FIRED_BY_INSERT(tg_event) возвращает true, если триггер был запущен командой INSERT.
- TRIGGER_FIRED_BY_UPDATE(tg_event) - возвращает true, если триггер был запущен командой UPDATE.
- TRIGGER_FIRED_BY_DELETE(tg_event) - возвращает true, если триггер был запущен командой DELETE.
- TRIGGER_FIRED_BY_TRUNCATE(tg_event)_ - возвращает true, если триггер был запущен командой TRUNCATE.
tg_relation - это указатель на структуру, описывающую отношение, для которого сработал триггер. Посмотрите в utils/rel.h подробности об этой структуре. Наиболее интересными являются tg_relation->rd_att (дескриптор кортежей отношений) и tg_relation->rd_rel->relname (имя отношения; тип не char*, а NameData; используйте SPI_getrelname(tg_relation) для получения char*, если вам нужно копия имени).
tg_trigtuple - это указатель на строку, для которой сработал триггер. Эта строка вставляется, обновляется или удаляется. Если этот триггер был запущен для INSERT или DELETE. Это то, что вы должны вернуть из функции, если вы не хотите заменять строку другой (в случае INSERT) или пропустить операцию. Для триггеров во внешних таблицах значения системных столбцов здесь не указаны.
tg_newtuple - это указатель на новую версию строки, если триггер сработал для UPDATE, и NULL если он сработал для INSERT или DELETE. Это то, что вы должны вернуть из функции, если событие - UPDATE и вы не хотите заменять эту строку другой или пропустить операцию. Для триггеров во внешних таблицах значения системных столбцов здесь не указаны.
tg_trigger - это указатель на структуру типа Trigger, определенную в utils/reltrigger.h.

typedef struct Trigger
{
    Oid         tgoid;
    char       *tgname;
    Oid         tgfoid;
    int16       tgtype;
    char        tgenabled;
    bool        tgisinternal;
    Oid         tgconstrrelid;
    Oid         tgconstrindid;
    Oid         tgconstraint;
    bool        tgdeferrable;
    bool        tginitdeferred;
    int16       tgnargs;
    int16       tgnattr;
    int16      *tgattr;
    char      **tgargs;
    char       *tgqual;
    char       *tgoldtable;
    char       *tgnewtable;
} Trigger;

где:

tgname - это имя триггера.
tgnargs - это количество аргументов в tgargs.
tgargs - массив указателей на аргументы, указанные в операторе CREATE TRIGGER.

Другие члены предназначены только для внутреннего использования.

tg_trigtuplebuf - буфер, содержащий tg_trigtuple или InvalidBuffer если такого кортежа нет или он не хранится в дисковом буфере.
tg_newtuplebuf - буфер, содержащий tg_newtuple или InvalidBuffer если такого кортежа нет или он не хранится в буфере диска.
tg_oldtable - это указатель на структуру типа Tuplestorestate содержащую ноль или более строк в формате, заданном параметром tg_relation, или указатель NULL если нет отношения OLD TABLE.
tg_newtable - это указатель на структуру типа Tuplestorestate содержащую ноль или более строк в формате, заданном параметром tg_relation, или указатель NULL если нет отношения NEW TABLE.

Чтобы запросы, отправленные через SPI, ссылались на таблицы переходов, см. SPI_register_trigger_data.

Внимание! Функция триггера должна возвращать указатель NULL (но НЕ нулевое значение SQL, т.е. не устанавливать isNull как true). Будьте внимательны, возвращая либо tg_trigtuple либо tg_newtuple, в зависимости от ситуации, если вы не хотите изменять строку, с которой вы работаете.

Полный пример запуска

Вот очень простой пример триггерной функции, написанной на C. (Примеры триггеров, написанных на процедурных языках, можно найти в документации по процедурным языкам.)

Функция trigf сообщает количество строк в таблице ttest и пропускает фактическую операцию, если команда пытается вставить нулевое значение в столбец x. (Таким образом, триггер действует как ненулевое ограничение, но не прерывает транзакцию.)

Во-первых, определение таблицы:

CREATE TABLE ttest (
    x integer
);

Это исходный код функции триггера:

#include "postgres.h"
#include "fmgr.h"
#include "executor/spi.h"       /* this is what you need to work with SPI */
#include "commands/trigger.h"   /* ... triggers ... */
#include "utils/rel.h"          /* ... and relations */

PG_MODULE_MAGIC;

PG_FUNCTION_INFO_V1(trigf);

Datum
trigf(PG_FUNCTION_ARGS)
{
    TriggerData *trigdata = (TriggerData *) fcinfo->context;
    TupleDesc   tupdesc;
    HeapTuple   rettuple;
    char       *when;
    bool        checknull = false;
    bool        isnull;
    int         ret, i;

    /* make sure it's called as a trigger at all */
    if (!CALLED_AS_TRIGGER(fcinfo))
        elog(ERROR, "trigf: not called by trigger manager");

    /* tuple to return to executor */
    if (TRIGGER_FIRED_BY_UPDATE(trigdata->tg_event))
        rettuple = trigdata->tg_newtuple;
    else
        rettuple = trigdata->tg_trigtuple;

    /* check for null values */
    if (!TRIGGER_FIRED_BY_DELETE(trigdata->tg_event)
        && TRIGGER_FIRED_BEFORE(trigdata->tg_event))
        checknull = true;

    if (TRIGGER_FIRED_BEFORE(trigdata->tg_event))
        when = "before";
    else
        when = "after ";

    tupdesc = trigdata->tg_relation->rd_att;

    /* connect to SPI manager */
    if ((ret = SPI_connect()) < 0)
        elog(ERROR, "trigf (fired %s): SPI_connect returned %d", when, ret);

    /* get number of rows in table */
    ret = SPI_exec("SELECT count(*) FROM ttest", 0);

    if (ret < 0)
        elog(ERROR, "trigf (fired %s): SPI_exec returned %d", when, ret);

    /* count(*) returns int8, so be careful to convert */
    i = DatumGetInt64(SPI_getbinval(SPI_tuptable->vals[0],
                                    SPI_tuptable->tupdesc,
                                    1,
                                    &isnull));

    elog (INFO, "trigf (fired %s): there are %d rows in ttest", when, i);

    SPI_finish();

    if (checknull)
    {
        SPI_getbinval(rettuple, tupdesc, 1, &isnull);
        if (isnull)
            rettuple = NULL;
    }

    return PointerGetDatum(rettuple);
}

После того, как вы скомпилировали исходный код (см. Раздел 37.10.5), объявите функцию и триггеры:

CREATE FUNCTION trigf() RETURNS trigger
    AS 'filename'
    LANGUAGE C;

CREATE TRIGGER tbefore BEFORE INSERT OR UPDATE OR DELETE ON ttest
    FOR EACH ROW EXECUTE FUNCTION trigf();

CREATE TRIGGER tafter AFTER INSERT OR UPDATE OR DELETE ON ttest
    FOR EACH ROW EXECUTE FUNCTION trigf();

Теперь вы можете проверить работу триггера:

=> INSERT INTO ttest VALUES (NULL);
INFO:  trigf (fired before): there are 0 rows in ttest
INSERT 0 0

-- Insertion skipped and AFTER trigger is not fired

=> SELECT * FROM ttest;
 x
---
(0 rows)

=> INSERT INTO ttest VALUES (1);
INFO:  trigf (fired before): there are 0 rows in ttest
INFO:  trigf (fired after ): there are 1 rows in ttest
                                       ^^^^^^^^
                             remember what we said about visibility.
INSERT 167793 1
vac=> SELECT * FROM ttest;
 x
---
 1
(1 row)

=> INSERT INTO ttest SELECT x * 2 FROM ttest;
INFO:  trigf (fired before): there are 1 rows in ttest
INFO:  trigf (fired after ): there are 2 rows in ttest
                                       ^^^^^^
                             remember what we said about visibility.
INSERT 167794 1
=> SELECT * FROM ttest;
 x
---
 1
 2
(2 rows)

=> UPDATE ttest SET x = NULL WHERE x = 2;
INFO:  trigf (fired before): there are 2 rows in ttest
UPDATE 0
=> UPDATE ttest SET x = 4 WHERE x = 2;
INFO:  trigf (fired before): there are 2 rows in ttest
INFO:  trigf (fired after ): there are 2 rows in ttest
UPDATE 1
vac=> SELECT * FROM ttest;
 x
---
 1
 4
(2 rows)

=> DELETE FROM ttest;
INFO:  trigf (fired before): there are 2 rows in ttest
INFO:  trigf (fired before): there are 1 rows in ttest
INFO:  trigf (fired after ): there are 0 rows in ttest
INFO:  trigf (fired after ): there are 0 rows in ttest
                                       ^^^^^^
                             remember what we said about visibility.
DELETE 2
=> SELECT * FROM ttest;
 x
---
(0 rows)

Более сложные примеры доступны в src/test/regress/regress.c и SPI.

Триггеры событий

В дополнение к механизму триггера, описанному в главе 7, QHB. также предоставляет триггеры событий. В отличие от обычных триггеров, которые присоединяются к одной таблице и захватывают только события DML, триггеры событий являются глобальными для конкретной базы данных и способны захватывать события DDL.

Как и обычные триггеры, триггеры событий могут быть написаны на любом процедурном языке, который включает поддержку триггеров событий, на C или Rust, но не на простом SQL.

Обзор поведения триггера событий

Триггер события срабатывает всякий раз, когда событие, с которым оно связано, происходит в базе данных. В настоящее время поддерживаются только события ddl_command_start, ddl_command_end, table_rewrite и sql_drop. Поддержка дополнительных событий может быть добавлена в будущих выпусках.

Событие ddl_command_start наступает непосредственно перед выполнением ddl_command_start CREATE, ALTER, DROP, SECURITY LABEL, COMMENT, GRANT или REVOKE. Перед срабатыванием триггера события не проверяется, существует ли затронутый объект или нет. Однако это событие не возникает для команд DDL, нацеленных на общие объекты - базы данных, роли и табличные пространства - или для команд, нацеленных на сами триггеры событий. Механизм запуска событий не поддерживает эти типы объектов. ddl_command_start также происходит непосредственно перед выполнением команды SELECT INTO, поскольку это эквивалентно CREATE TABLE AS.

Событие ddl_command_end наступает сразу после выполнения этого же набора команд. Чтобы получить более подробную информацию о выполненных операциях DDL, используйте функцию возврата pg_event_trigger_ddl_commands() из ddl_command_end триггера события ddl_command_end (см. Раздел 9.28). Обратите внимание, что триггер срабатывает после выполнения действий (но до фиксации транзакции), и, таким образом, системные каталоги могут быть прочитаны как уже измененные.

Событие sql_drop происходит непосредственно перед ddl_command_end для любой операции, которая удаляет объекты базы данных. Функция pg_event_trigger_dropped_objects() возвращает список объектов, которые были удалены, используйте функцию возврата из триггера события sql_drop (см. Функции запуска событий). Обратите внимание, что триггер выполняется после того, как объекты были удалены из системных каталогов, поэтому их больше невозможно увидеть.

Событие table_rewrite наступает непосредственно перед перезаписью таблицы некоторыми действиями команд ALTER TABLE и ALTER TYPE. В то время как другие операторы управления доступны для перезаписи таблицы, такие как CLUSTER и VACUUM, событие table_rewrite не инициируют.

Триггеры событий (как и другие функции) не могут быть выполнены в прерванной транзакции. Таким образом, если команда DDL завершается с ошибкой, любые связанные триггеры ddl_command_end не будут выполнены. И наоборот, если триггер ddl_command_start завершился с ошибкой, дальнейшие триггеры событий ddl_command_start не будут предпринимать попыток выполнить саму команду. Точно так же, если триггер ddl_command_end завершается с ошибкой, эффекты оператора DDL будут откатываться, как и в любом другом случае, когда содержащая транзакция прерывается.

Полный список команд, поддерживаемых механизмом запуска событий, см. в главе Денежные Типы.

Триггеры событий создаются с помощью команды CREATE EVENT TRIGGER. Для того чтобы создать триггер события, вы должны сначала создать функцию со специальным типом возврата event_trigger. Эта функция не должна (и не может) возвращать значение; возвращаемый тип служит просто сигналом, что функция должна быть вызвана как триггер события.

Если для определенного события определено более одного триггера, они будут срабатывать в алфавитном порядке по имени триггера.

Определение триггера также может указывать условие WHEN так что, например, триггер ddl_command_start может быть запущен только для определенных команд, которые пользователь хочет перехватить. Обычно такие триггеры используются для ограничения диапазона операций DDL, которые могут выполнять пользователи.

Матрица запуска событий

В таблице 8.1 перечислены все команды, для которых поддерживаются триггеры событий.

Таблица 8.1. Поддержка триггеров событий по командам

Командный тег	ddl_command_start	ddl_command_end	sql_drop	table_rewrite	Примечания
ALTER AGGREGATE	X	X	-	-
ALTER COLLATION	X	X	-	-
ALTER CONVERSION	X	X	-	-
ALTER DOMAIN	X	X	-	-
ALTER DEFAULT PRIVILEGES	X	X	-	-
ALTER EXTENSION	X	X	-	-
ALTER FOREIGN DATA WRAPPER	X	X	-	-
ALTER FOREIGN TABLE	X	X	X	-
ALTER FUNCTION	X	X	-	-
ALTER LANGUAGE	X	X	-	-
ALTER LARGE OBJECT	X	X	-	-
ALTER MATERIALIZED VIEW	X	X	-	-
ALTER OPERATOR	X	X	-	-
ALTER OPERATOR CLASS	X	X	-	-
ALTER OPERATOR FAMILY	X	X	-	-
ALTER POLICY	X	X	-	-
ALTER PROCEDURE	X	X	-	-
ALTER PUBLICATION	X	X	-	-
ALTER SCHEMA	X	X	-	-
ALTER SEQUENCE	X	X	-	-
ALTER SERVER	X	X	-	-
ALTER STATISTICS	X	X	-	-
ALTER SUBSCRIPTION	X	X	-	-
ALTER TABLE	X	X	X	X
ALTER TEXT SEARCH CONFIGURATION	X	X	-	-
ALTER TEXT SEARCH DICTIONARY	X	X	-	-
ALTER TEXT SEARCH PARSER	X	X	-	-
ALTER TEXT SEARCH TEMPLATE	X	X	-	-
ALTER TRIGGER	X	X	-	-
ALTER TYPE	X	X	-	X
ALTER USER MAPPING	X	X	-	-
ALTER VIEW	X	X	-	-
COMMENT	X	X	-	-	Только для локальных объектов
CREATE ACCESS METHOD	X	X	-	-
CREATE AGGREGATE	X	X	-	-
CREATE CAST	X	X	-	-
CREATE COLLATION	X	X	-	-
CREATE CONVERSION	X	X	-	-
CREATE DOMAIN	X	X	-	-
CREATE EXTENSION	X	X	-	-
CREATE FOREIGN DATA WRAPPER	X	X	-	-
CREATE FOREIGN TABLE	X	X	-	-
CREATE FUNCTION	X	X	-	-
CREATE INDEX	X	X	-	-
CREATE LANGUAGE	X	X	-	-
CREATE MATERIALIZED VIEW	X	X	-	-
CREATE OPERATOR	X	X	-	-
CREATE OPERATOR CLASS	X	X	-	-
CREATE OPERATOR FAMILY	X	X	-	-
CREATE POLICY	X	X	-	-
CREATE PROCEDURE	X	X	-	-
CREATE PUBLICATION	X	X	-	-
CREATE RULE	X	X	-	-
CREATE SCHEMA	X	X	-	-
CREATE SEQUENCE	X	X	-	-
CREATE SERVER	X	X	-	-
CREATE STATISTICS	X	X	-	-
CREATE SUBSCRIPTION	X	X	-	-
CREATE TABLE	X	X	-	-
CREATE TABLE AS	X	X	-	-
CREATE TEXT SEARCH CONFIGURATION	X	X	-	-
CREATE TEXT SEARCH DICTIONARY	X	X	-	-
CREATE TEXT SEARCH PARSER	X	X	-	-
CREATE TEXT SEARCH TEMPLATE	X	X	-	-
CREATE TRIGGER	X	X	-	-
CREATE TYPE	X	X	-	-
CREATE USER MAPPING	X	X	-	-
CREATE VIEW	X	X	-	-
DROP ACCESS METHOD	X	X	X	-
DROP AGGREGATE	X	X	X	-
DROP CAST	X	X	X	-
DROP COLLATION	X	X	X	-
DROP CONVERSION	X	X	X	-
DROP DOMAIN	X	X	X	-
DROP EXTENSION	X	X	X	-
DROP FOREIGN DATA WRAPPER	X	X	X	-
DROP FOREIGN TABLE	X	X	X	-
DROP FUNCTION	X	X	X	-
DROP INDEX	X	X	X	-
DROP LANGUAGE	X	X	X	-
DROP MATERIALIZED VIEW	X	X	X	-
DROP OPERATOR	X	X	X	-
DROP OPERATOR CLASS	X	X	X	-
DROP OPERATOR FAMILY	X	X	X	-
DROP OWNED	X	X	X	-
DROP POLICY	X	X	X	-
DROP PROCEDURE	X	X	X	-
DROP PUBLICATION	X	X	X	-
DROP RULE	X	X	X	-
DROP SCHEMA	X	X	X	-
DROP SEQUENCE	X	X	X	-
DROP SERVER	X	X	X	-
DROP STATISTICS	X	X	X	-
DROP SUBSCRIPTION	X	X	X	-
DROP TABLE	X	X	X	-
DROP TEXT SEARCH CONFIGURATION	X	X	X	-
DROP TEXT SEARCH DICTIONARY	X	X	X	-
DROP TEXT SEARCH PARSER	X	X	X	-
DROP TEXT SEARCH TEMPLATE	X	X	X	-
DROP TRIGGER	X	X	X	-
DROP TYPE	X	X	X	-
DROP USER MAPPING	X	X	X	-
DROP VIEW	X	X	X	-
GRANT	X	X	-	-	Только для локальных объектов
IMPORT FOREIGN SCHEMA	X	X	-	-
REFRESH MATERIALIZED VIEW	X	X	-	-
REVOKE	X	X	-	-	Только для локальных объектов
SECURITY LABEL	X	X	-	-	Только для локальных объектов
SELECT INTO	X	X	-	-

Написание функций запуска событий на C

В этом разделе описываются подробности низкоуровневого интерфейса для функции запуска события. Эта информация необходима только при написании функций триггера событий на C. Если вы используете язык более высокого уровня, то эти детали обрабатываются автоматически. В большинстве случаев вам следует подумать об использовании процедурного языка, прежде чем писать свои триггеры событий на C. В документации каждого процедурного языка объясняется, как написать триггер событий на этом языке.

Функции триггера событий должны использовать интерфейс диспетчера «version 1».

Когда функция вызывается менеджером триггера события, ей не передаются никакие обычные аргументы кроме указателя «context», указывающий на структуру EventTriggerData. Функции на C могут проверить, были ли они вызваны из менеджера триггеров событий или нет, выполнив макрос:

CALLED_AS_EVENT_TRIGGER(fcinfo)

который распахивается в

((fcinfo)->context != NULL && IsA((fcinfo)->context, EventTriggerData))

Если это возвращает true, тогда безопасно привести fcinfo->context к типу EventTriggerData * и использовать структуру EventTriggerData. Функция не должна изменять структуру EventTriggerData или любые данные, на которые она указывает.

Структура EventTriggerData определена в commands/event_trigger.h:

typedef struct EventTriggerData
{
    NodeTag     type;
    const char *event;      /* event name */
    Node       *parsetree;  /* parse tree */
    const char *tag;        /* command tag */
} EventTriggerData;

где члены определены следующим образом:

type - всегда T_EventTriggerData.
event описывает событие, для которого вызывается функция, одно из ddl_command_start, ddl_command_end, sql_drop, table_rewrite (см. Раздел 8.1 о значении этих событий).
parsetree - указатель на дерево разбора команды. Проверьте исходный код QHB для уточнения деталей. Структура дерева разбора может быть изменена без предварительного уведомления.
tag - тег команды, связанный с событием, для которого запускается триггер события, например "CREATE FUNCTION".

Внимание! Функция триггера события должна возвращать указатель NULL (но НЕ нулевое значение SQL, т.е. не устанавливать isNull как true).

Полный пример запуска события

Вот очень простой пример функции триггера события, написанной на C. (Примеры триггеров, написанных на процедурных языках, можно найти в документации по процедурным языкам.)

Функция noddl вызывает ошибку каждый раз, когда она вызывается. Определение триггера события связало функцию с событием ddl_command_start. В результате все команды DDL (с исключениями, упомянутыми в разделе 8.1) не могут быть запущены.

Это исходный код функции триггера:

#include "postgres.h"
#include "commands/event_trigger.h"


PG_MODULE_MAGIC;

PG_FUNCTION_INFO_V1(noddl);

Datum
noddl(PG_FUNCTION_ARGS)
{
    EventTriggerData *trigdata;

    if (!CALLED_AS_EVENT_TRIGGER(fcinfo))  /* internal error */
        elog(ERROR, "not fired by event trigger manager");

    trigdata = (EventTriggerData *) fcinfo->context;

    ereport(ERROR,
        (errcode(ERRCODE_INSUFFICIENT_PRIVILEGE),
                 errmsg("command \"%s\" denied", trigdata->tag)));

    PG_RETURN_NULL();
}

После того, как вы скомпилировали исходный код (см. Раздел 37.10.5), объявите функцию и триггеры:

CREATE FUNCTION noddl() RETURNS event_trigger
    AS 'noddl' LANGUAGE C;

CREATE EVENT TRIGGER noddl ON ddl_command_start
    EXECUTE FUNCTION noddl();

Теперь вы можете проверить работу триггера:

=# \dy
                     List of event triggers
 Name  |       Event       | Owner | Enabled | Function | Tags
-------+-------------------+-------+---------+----------+------
 noddl | ddl_command_start | dim   | enabled | noddl    |
(1 row)

=# CREATE TABLE foo(id serial);
ERROR:  command "CREATE TABLE" denied

В этой ситуации, чтобы иметь возможность запускать некоторые команды DDL, когда вам нужно это сделать, вы должны либо сбросить триггер события, либо отключить его. Также может быть удобно отключить триггер только на время транзакции:

BEGIN;
    ALTER EVENT TRIGGER noddl DISABLE;
    CREATE TABLE foo (id serial);
    ALTER EVENT TRIGGER noddl ENABLE;
COMMIT;

(Напомним, что на команды DDL самих триггеров событий не влияют триггеры событий.)

Пример запуска события перезаписи таблицы

Благодаря событию table_rewrite можно реализовать политику перезаписи таблицы, разрешив перезапись только в определенное время обслуживания.

Вот пример реализации такой политики.

CREATE OR REPLACE FUNCTION no_rewrite()
 RETURNS event_trigger
 LANGUAGE plpgsql AS
$$
---
--- Implement local Table Rewriting policy:
---   public.foo is not allowed rewriting, ever
---   other tables are only allowed rewriting between 1am and 6am
---   unless they have more than 100 blocks
---
DECLARE
  table_oid oid := pg_event_trigger_table_rewrite_oid();
  current_hour integer := extract('hour' from current_time);
  pages integer;
  max_pages integer := 100;
BEGIN
  IF pg_event_trigger_table_rewrite_oid() = 'public.foo'::regclass
  THEN
        RAISE EXCEPTION 'you''re not allowed to rewrite the table %',
                        table_oid::regclass;
  END IF;

  SELECT INTO pages relpages FROM pg_class WHERE oid = table_oid;
  IF pages > max_pages
  THEN
        RAISE EXCEPTION 'rewrites only allowed for table with less than % pages',
                        max_pages;
  END IF;

  IF current_hour NOT BETWEEN 1 AND 6
  THEN
        RAISE EXCEPTION 'rewrites only allowed between 1am and 6am';
  END IF;
END;
$$;

CREATE EVENT TRIGGER no_rewrite_allowed
                  ON table_rewrite
   EXECUTE FUNCTION no_rewrite();

Интерфейс программирования сервера

Функции интерфейса

Функция	Описание
SPI_connect	Подключиться к менеджеру SPI
SPI_finish	Отключиться от менеджера SPI
SPI_execute	Выполнить SQL команду
SPI_exec	Выполнить SQL команду, аналогично `SPI_execute`, но с параметром read_only=false
SPI_execute_with_args	Выполнить SQL команду, аналогично `SPI_execute`, но позволяет передать дополнительные параметры
SPI_prepare	Подготовить оператор, не выполняя его
SPI_prepare_cursor	Подготовить оператор, не выполняя его, аналогично `SPI_prepare`, но позволяет задать направление чтения
SPI_prepare_params	Подготовить оператор, не выполняя его, аналогично `SPI_prepare_cursor`, дополнительные параметры задаются через hook функцию
SPI_getargcount	Возвращает количество аргументов, необходимых для оператора, подготовленного методами `SPI_prepare`
SPI_getargtypeid	Возвращает OID типа данных для аргумента оператора, подготовленного методами `SPI_prepare`
SPI_is_cursor_plan	Возвращает true, если оператор, подготовленный `SPI_prepare`, может использоваться с `SPI_cursor_open`
SPI_execute_plan	Выполнить оператор, подготовленный `SPI_prepare`
SPI_execute_plan_with_paramlist	Выполнить оператор, подготовленный `SPI_prepare_params`, аналогично `SPI_execute_plan`, но позволяет передать значения дополнительных параметров
SPI_execp	Выполнить оператор, подготовленный `SPI_prepare`, аналогично `SPI_execute_plan`, но в режиме только чтения
SPI_cursor_open	Открыть курсор для оператора, созданного с помощью `SPI_prepare`
SPI_cursor_open_with_args	Открыть курсор, используя переданную команду и параметры
SPI_cursor_open_with_paramlist	Открыть курсор, подготовленный `SPI_prepare_params`, используя переданные параметры
SPI_cursor_find	Найти существующий курсор по имени
SPI_cursor_fetch	Прочитать несколько строк из курсора (только вперед/назад относительно текущей позиции)
SPI_cursor_move	Переместить курсор (только вперед/назад относительно текущей позиции)
SPI_scroll_cursor_fetch	Извлечь несколько строк из курсора
SPI_scroll_cursor_move	Переместить курсор
SPI_cursor_close	Закрыть курсор
SPI_keepplan	Сохранить оператор, подготовленный `SPI_prepare`, до конца сессии
SPI_saveplan	Возвращает копию оператора, подготовленного `SPI_prepare`
SPI_register_relation	Сделать эфемерное именованное отношение доступным по имени в запросах SPI
SPI_unregister_relation	Удалить эфемерное именованное отношение из реестра
SPI_register_trigger_data	Сделать доступными данные эфемерного триггера в запросах SPI

Функции поддержки интерфейса

Функция	Описание
SPI_fname	Определить имя столбца для указанного номера столбца
SPI_fnumber	Определить номер столбца для указанного имени столбца
SPI_getvalue	Вернуть строковое значение указанного столбца
SPI_getbinval	Вернуть двоичное значение указанного столбца
SPI_gettype	Вернуть имя типа данных указанного столбца
SPI_gettypeid	Вернуть OID типа данных указанного столбца
SPI_getrelname	Вернуть имя указанного отношения
SPI_getnspname	Вернуть пространство имен указанного отношения
SPI_result_code_string	Вернуть код ошибки в виде строки

Управление памятью

Функция	Описание
SPI_palloc	Выделить память]
SPI_repalloc	Перераспределить память
SPI_pfree	Освободить память
SPI_copytuple	Сделать копию строки
SPI_returntuple	Возвращает копию строки в качестве Datum
SPI_modifytuple	Создает новую запись, заменив выбранные поля исходной записи
SPI_freetuple	Освободить запись
SPI_freetuptable	Освободить строки, прочитанные `SPI_execute` или подобной функцией
SPI_freeplan	Освободить оператор, сохраненный с помощью `SPI_keepplan`, `SPI_saveplan`

Управление транзакциями

Функция	Описание
SPI_commit	Зафиксировать текущую транзакцию
SPI_rollback	Отменить текущую транзакцию
SPI_start_transaction	Начать новую транзакцию

Интерфейс программирования сервера (SPI) дает авторам пользовательских расширений, написанных на C или RUST, возможность запускать команды SQL внутри своих расширений. SPI - это набор интерфейсных функций, упрощающих доступ к анализатору, планировщику и исполнителю. SPI также осуществляет управление памятью.

Заметка
Доступные процедурные языки предоставляют различные средства для выполнения команд SQL из функций. Большинство этих средств основаны на SPI, поэтому эта документация может быть полезна и для пользователей этих языков.

Обратите внимание, что если команда, вызванная через SPI, завершиться с ошибкой, управление не будет возвращено вашей функции на C/RUST. Скорее всего, транзакция или субтранзакция, в которой выполняется ваша функция C/RUST, будет отменена. (Это может показаться удивительным, учитывая, что функции SPI в основном имеют документированные соглашения о возврате ошибок. Однако эти соглашения применяются только к ошибкам, обнаруженным в самих функциях SPI). Можно восстановить управление после ошибки, создав собственную субтранзакцию, окружающую вызовы SPI, которые могут быть неудачными.

Функции SPI возвращают неотрицательный результат в случае успеха (либо через возвращаемое целочисленное значение, либо через глобальную переменную SPI_result, как описано ниже). В случае ошибки будет возвращен отрицательный результат или NULL .

Файлы исходного кода, использующие SPI, должны включать заголовочный файл executor/spi.h

Функции интерфейса

SPI_connect

SPI_connect, SPI_connect_ext - подключиться к менеджеру SPI

Синтаксис

int SPI_connect (void)

int SPI_connect_ext (int options )

Описание

SPI_connect открывает соединение к менеджеру SPI. Вы должны вызвать эту функцию, если хотите выполнять команды через SPI. Некоторые служебные SPI-функции можно вызывать без открытия соединения.

SPI_connect_ext делает то же самое, но имеет аргумент, позволяющий передавать опциональные флаги. В настоящее время доступны следующие значения:

SPI_OPT_NONATOMIC

Устанавливает соединение SPI неатомарным, то есть разрешает использование вызовов SPI_commit, SPI_rollback и SPI_start для управления. В противном случае вызов данных функций приведет к немедленной ошибке.

SPI_connect() эквивалентно SPI_connect_ext(0).

Возвращаемое значение

SPI_OK_CONNECT

при успехе

SPI_ERROR_CONNECT

при ошибке

SPI_finish

SPI_finish - отключиться от менеджера SPI

Синтаксис

int SPI_finish (void)

Описание

SPI_finish закрывает существующее соединение с менеджером SPI. Вы должны вызывать эту функцию после завершения всех операций со SPI, необходимых во время текущего выполнения Вашей функции на C/RUST. Вызов SPI_finish не требуется, если транзакция прервана с помощью elog(ERROR). В этом случае SPI очистится автоматически.

Возвращаемое значение

SPI_OK_FINISH

корректное отключение

SPI_ERROR_UNCONNECTED

нет открытого соединения с менеджером SPI

SPI_execute

SPI_execute - выполнить SQL команду

Синтаксис

int SPI_execute(const char * command, bool read_only, long count)

Описание

SPI_execute выполняет указанную команду SQL для count строк. Если read_only имеет значение true, команда должна только читать данные, а накладные расходы на выполнение несколько уменьшаются.

Эта функция может быть вызвана только после подключения к менеджеру SPI.

Если count равно нулю, то команда выполняется для всех строк, удовлетворяющих условиями запроса. Если count больше нуля, то будет получено не больше, чем count строк; выполнение останавливается указанного количества, как при добавлении оператора LIMIT к запросу. Например,

SPI_execute("SELECT * FROM foo", true, 5);

получит максимум 5 строк из таблицы. Обратите внимание, что такой предел действует только тогда, когда команда действительно возвращает строки. Например,

SPI_execute("INSERT INTO foo SELECT * FROM bar", false, 5);

вставляет все строки из bar, игнорируя параметр count. Однако запрос

SPI_execute("INSERT INTO foo SELECT * FROM bar RETURNING *", false, 5);

вставит не более 5 строк, поскольку выполнение будет остановлено после получения пятого результата RETURNING.

Вы можете передать несколько команд в одной строке, SPI_execute возвращает результат для команды, выполненной последней. Ограничение количества строк count применяется к каждой команды в отдельности (даже если будет возвращен только последний результат). Ограничение не применяется к скрытым командам, сгенерированным правилами.

Когда read_only имеет значение false, SPI_execute увеличивает счетчик команд и вычисляет новый снимок перед выполнением каждой команды в строке. Снимок фактически не изменяется, если текущий уровень изоляции транзакции - SERIALIZABLE или REPEATABLE READ, но в режиме READ COMMITTED обновление снимка позволяет каждой команде видеть результаты вновь принятых транзакций из других сессий. Это важно для согласованного поведения, когда команды изменяют базу данных.

Когда read_only имеет значение true, SPI_execute не обновляет ни снимок, ни счетчик команд, а позволяет использовать в запросе только команды SELECT. Команды выполняются с использованием снимка, предварительно установленного для окружающего запроса. Этот режим выполнения несколько быстрее, чем режим чтения / записи из-за устранения накладных расходов на каждую команду. Это также позволяет создавать действительно стабильные функции: поскольку все последовательные выполнения будут использовать один и тот же снимок, в результатах не будет никаких изменений.

Обычно неразумно смешивать команды только для чтения и чтения и записи в одной функции с использованием SPI; это может привести к очень запутанному поведению, поскольку запросы только для чтения не будут видеть результаты каких-либо обновлений базы данных, выполненных запросами чтения-записи.

Фактическое количество строк, для которых была выполнена (последняя) команда, возвращается в глобальной переменной SPI_processed. Если возвращаемое значение функции - SPI_OK_SELECT, SPI_OK_INSERT_RETURNING, SPI_OK_DELETE_RETURNING или SPI_OK_UPDATE_RETURNING, то вы можете использовать глобальный указатель SPITupleTable *SPI_tuptable для доступа к строкам результата. Некоторые служебные команды (такие как EXPLAIN) также возвращают наборы строк, и SPI_tuptable будет содержать результат и в этих случаях. Некоторые служебные команды (COPY, CREATE TABLE AS) не возвращают набор строк, поэтому SPI_tuptable имеет значение NULL, но они по-прежнему возвращают количество обработанных строк в SPI_processed.

Структура SPITupleTable определяется таким образом:

typedef struct
{
    MemoryContext tuptabcxt;    /* memory context of result table */
    uint64      alloced;        /* number of alloced vals */
    uint64      free;           /* number of free vals */
    TupleDesc   tupdesc;        /* row descriptor */
    HeapTuple  *vals;           /* rows */
} SPITupleTable;

vals - это массив указателей на строки. (Количество допустимых записей задается SPI_processed.);
tupdesc - это дескриптор строки, который вы можете передать функциям SPI, работающим со строками;
tuptabcxt, alloced и free являются внутренними полями, не предназначенными для использования вызывающими SPI.

SPI_finish освобождает все SPITupleTable, выделенные во время текущего соединения с SPI. Вы можете освободить определенную таблицу результатов ранее, если закончили с ней работать, вызвав SPI_freetuptable.

Аргументы

const char * command

строка, содержащая запрос для выполнения

bool read_only

true для выполнения запросов только для чтения

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Если выполнение команды было успешным, то будет возвращено одно из следующих (неотрицательных) значений:

Результат	Описание
SPI_OK_SELECT	если SELECT (но не SELECT INTO ) был выполнен
SPI_OK_SELINTO	если SELECT INTO был выполнен
SPI_OK_INSERT	если INSERT был выполнена
SPI_OK_DELETE	если DELETE был выполнено
SPI_OK_UPDATE	если UPDATE был выполнено
SPI_OK_INSERT_RETURNING	если INSERT RETURNING был выполнен
SPI_OK_DELETE_RETURNING	если DELETE RETURNING был выполнен
SPI_OK_UPDATE_RETURNING	если UPDATE RETURNING было выполнено
SPI_OK_UTILITY	если была выполнена служебная команда (например, CREATE TABLE )
SPI_OK_REWRITTEN	если команда была переписана в другой тип команды (например, UPDATE стал INSERT ) по правилу.

При ошибке возвращается одно из следующих отрицательных значений:

Результат	Описание
SPI_ERROR_ARGUMENT	если command равен NULL или count меньше 0
SPI_ERROR_COPY	если была предпринята попытка COPY TO stdout или COPY FROM stdin
SPI_ERROR_TRANSACTION	если была предпринята команда манипулирования транзакцией ( BEGIN, COMMIT, ROLLBACK, SAVEPOINT, PREPARE TRANSACTION, COMMIT PREPARED, ROLLBACK PREPARED или любой их вариант)
SPI_ERROR_OPUNKNOWN	если тип команды неизвестен (не должно происходить)
SPI_ERROR_UNCONNECTED	если не открыто подключение к менеджеру SPI

Примечания

Все SPI функции, выполняющие запросы, устанавливают значения переменных SPI_processed и SPI_tuptable (только указатель, а не содержимое структуры). Сохраните значения этих двух глобальных переменных в локальные переменные в Вашей функции на C/RUST, если вам нужно получить доступ к таблице результатов выполнения SPI_execute или другой функции SPI_execute_xxx при последующих вызовах.

SPI_exec

SPI_exec - выполнить SQL команду, аналогично SPI_execute, но с параметром read_only=false

Синтаксис

int SPI_exec(const char * command, long count)

Описание

SPI_exec работает так же, как SPI_execute, но с последним параметром read_only всегда принимаемым как false.

Аргументы

const char * command

строка, содержащая запрос для выполнения

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Смотрите SPI_execute.

SPI_execute_with_args

SPI_execute_with_args - выполнить SQL команду, аналогично SPI_execute, но позволяет передать дополнительные параметры

Синтаксис

int SPI_execute_with_args(const char *command, int nargs, Oid *argtypes,

Datum *values, const char *nulls, bool read_only, long count)

Описание

SPI_execute_with_args выполняет запрос, который может включать ссылки на внешние параметры. Текст команды ссылается на параметр как $n, а вызов определяет типы данных и значения для каждого такого символа. Параметры read_only и count имеют ту же интерпретацию, что и в SPI_execute.

Основное преимущество этой процедуры по сравнению со SPI_execute заключается в том, что значения данных могут быть вставлены в команду без утомительного заключения в кавычки/экранирования и, следовательно, сильно уменьшает риск атак с использованием SQL-инъекций.

Аналогичные результаты могут быть достигнуты со SPI_prepare, за которой следует SPI_execute_plan; однако при использовании этой функции план запроса всегда настраивается на конкретные значения параметров. Для одноразового выполнения запроса SPI_execute_with_args предпочтительней. Если одна и та же команда должна быть выполнена со многими различными параметрами, любой из этих методов может быть более быстрым, в зависимости от стоимости перепланирования по сравнению с преимуществами специализированных планов.

Аргументы

const char * command

SQL запрос

int nargs

количество входных параметров ( $1, $2 и т. д.)

Oid * argtypes

массив длинной nargs, содержащий OID-ы типов данных входных параметров

Datum * values

массив длинной nargs, содержащий фактические значения параметров

const char * nulls

массив длинной nargs, описывающий, какие параметры равны NULL
Если параметр nulls равен NULL тогда SPI_execute_with_args предполагает, что ни один из параметров не содержит NULL. В противном случае каждая запись массива nulls должна быть ’ ’, если значение соответствующего параметра не равно NULL, или ’n’ если значение соответствующего параметра равно NULL. (В последнем случае фактическое значение в соответствующей записи в параметре values не имеет значения). Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

bool read_only

true для выполнения запросов только для чтения

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Возвращаемое значение такое же, как и для SPI_execute.

При успешном завершении SPI_processed и SPI_tuptable устанавливаются как в SPI_execute.

SPI_prepare

SPI_prepare - подготовить оператор, не выполняя его

Синтаксис

SPIPlanPtr SPI_prepare(const char * command, int nargs, Oid *argtypes)

Описание

SPI_prepare создает и возвращает подготовленный оператор для указанного запроса, но не выполняет запрос. Подготовленный оператор может быть впоследствии выполнен многократно с использованием SPI_execute_plan.

Когда одна и та же или аналогичная команда должна выполняться многократно, обычно выгодно выполнять анализ разбора только один раз, и, кроме того, может быть выгодно повторно использовать план выполнения для команды. SPI_prepare преобразует строку запроса в подготовленный оператор, который инкапсулирует результаты анализа. Подготовленный оператор также предоставляет место для кэширования плана выполнения, если выясняется, что вычисление специализированного плана для каждого выполнения бесполезно.

Подготовленный запрос можно обобщить, используя параметры ( $1, $2 и т.д.) вместо констант в тексте запроса. Фактические значения параметров затем указываются при вызове SPI_execute_plan. Это позволяет использовать подготовленную команду в более широком диапазоне ситуаций, чем это было бы возможно без параметров.

Оператор, возвращаемый SPI_prepare, может использоваться только в текущем соединении с менеджером SPI, поскольку SPI_finish освобождает память, выделенную для такого оператора. Но оператор можно сохранить для дальнейшего использования, используя функции SPI_keepplan или SPI_saveplan.

Аргументы

const char * command

SQL запрос

int nargs

количество входных параметров ( $1, $2 и т. д.)

Oid * argtypes

указатель на массив длинной nargs, содержащий OID-ы типов данных параметров

Возвращаемое значение

SPI_prepare возвращает ненулевой указатель на SPIPlan, который является непрозрачной структурой, представляющей подготовленный оператор. В случае ошибки будет возвращен NULL, а переменная SPI_result будет содержать один из тех же кодов ошибок, которые используются SPI_execute, или SPI_ERROR_ARGUMENT, если command равен NULL, или nargs меньше 0, или nargs больше чем 0 и argtypes равен NULL.

Примечания

Если параметры не определены, общий план будет создан при первом использовании SPI_execute_plan и он же будет использоваться для всех последующих выполнений. Если есть параметры, первые несколько использований SPI_execute_plan сгенерируют специализированные планы, которые являются специфическими для предоставленных значений параметров. После достаточного использования одного и того же подготовленного оператора SPI_execute_plan создаст общий план, и, если он не намного дороже, чем специализированные планы, полученный общий план начнет использоваться вместо перепланирования каждый раз. Если это поведение по умолчанию не подходит, Вы можете изменить его, передав флаг CURSOR_OPT_GENERIC_PLAN или CURSOR_OPT_CUSTOM_PLAN в SPI_prepare_cursor, чтобы принудительно использовать общие или специализированные планы соответственно.

Хотя основной смысл подготовленного оператора заключается в том, чтобы избежать повторного анализа и планирования оператора, QHB будет вынужден повторно анализировать и перепланировать оператор перед его использованием всякий раз, когда объекты базы данных, используемые в операторе, изменяются с помощью DDL команд с момента предыдущего использования подготовленного оператора. Кроме того, если значение параметра search_path изменяется от одного использования к следующему, оператор будет повторно проанализирован с использованием нового search_path. См. PREPARE для получения дополнительной информации о поведении подготовленных операторов.

Эта функция должна вызываться только после подключения к менеджеру SPI.

SPIPlanPtr объявлен как указатель на непрозрачный тип структуры в spi.h. Неразумно пытаться получить доступ к его содержимому напрямую, так как это повышает вероятность того, что ваш код сломается в будущих версиях QHB.

Имя SPIPlanPtr несколько историческое, поскольку структура данных не обязательно содержит план выполнения.

SPI_prepare_cursor

SPI_prepare_cursor - подготовить оператор, не выполняя его, аналогично SPI_prepare, но позволяет задать направление чтения

Синтаксис

SPIPlanPtr SPI_prepare_cursor(const char * command, int nargs, Oid * argtypes, int cursorOptions)

Описание

Функция SPI_prepare_cursor идентична SPI_prepare, но позволяет дополнительно передать планировщику «параметры курсора». Это битовая маска, имеющая значения, перечисленные в nodes/parsenodes.h для поля options структуры DeclareCursorStmt. SPI_prepare Всегда принимает параметры курсора как ноль.

Аргументы

const char * command

SQL запрос

int nargs

количество входных параметров ( $1, $2 и т. д.)

Oid * argtypes

указатель на массив длинной nargs, содержащий OID-ы типов данных параметров

int cursorOptions

целочисленная битовая маска параметров курсора; ноль - поведение по умолчанию

Возвращаемое значение

SPI_prepare_cursor имеет те же соглашения о возврате, что и SPI_prepare.

Примечания

Полезные биты для установки в cursorOptions включают:

CURSOR_OPT_SCROLL
CURSOR_OPT_NO_SCROLL
CURSOR_OPT_FAST_PLAN
CURSOR_OPT_GENERIC_PLAN
CURSOR_OPT_CUSTOM_PLAN.

Обратите внимание, в частности, что CURSOR\_OPT\_HOLD игнорируется.

SPI_prepare_params

SPI_prepare_params - подготовить оператор, не выполняя его, аналогично SPI_prepare_cursor, дополнительные параметры задаются через hook функцию

Синтаксис

SPIPlanPtr SPI_prepare_params(const char * command, ParserSetupHook parserSetup,

void * parserSetupArg, int cursorOptions)

Описание

SPI_prepare_params создает и возвращает подготовленный оператор для указанного запроса, но не выполняет его. Эта функция эквивалентна SPI_prepare_cursor, за исключением того, что вызывающая сторона может передать hook функцию для контроля за разбором ссылок на внешние параметры.

Аргументы

const char * command

SQL запрос

ParserSetupHook parserSetup

Функция настройки парсера

void * parserSetupArg

сквозной аргумент для parserSetup

int cursorOptions

целочисленная битовая маска параметров курсора; ноль - поведение по умолчанию

Возвращаемое значение

SPI\_prepare\_params имеет те же соглашения о возврате, что и SPI_prepare.

SPI_getargcount

SPI_getargcount - возвращает количество аргументов, необходимых для оператора, подготовленного методами SPI_prepare

Синтаксис

int SPI_getargcount(SPIPlanPtr plan)

Описание

SPI\getargcount возвращает количество аргументов, необходимых для выполнения оператора, подготовленного SPI_prepare.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Возвращаемое значение

Количество ожидаемых аргументов для plan. Если plan равен NULL или недействителен, SPI_result устанавливается в SPI_ERROR_ARGUMENT и возвращается -1.

SPI_getargtypeid

SPI_getargtypeid - возвращает OID типа данных для аргумента оператора, подготовленного методами SPI_prepare

Синтаксис

Oid SPI_getargtypeid(SPIPlanPtr plan, int argIndex)

Описание

SPI_getargtypeid возвращает OID типа аргумента с индексом argIndex для оператора, подготовленного SPI_prepare. Нумерация аргументов начинается с нуля.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

int argIndex

индекс аргумента

Возвращаемое значение

Тип OID аргумента с указанным индексом. Если plan равен NULL или недействителен, или argIndex меньше 0 или больше или равен количеству аргументов, объявленных для plan, SPI_result устанавливается в SPI_ERROR_ARGUMENT и возвращается InvalidOid.

SPI_is_cursor_plan

SPI\_is\_cursor\_plan - возвращает true, если оператор, подготовленный SPI_prepare, может использоваться с SPI_cursor_open

Синтаксис

bool SPI_is_cursor_plan(SPIPlanPtr plan)

Описание

SPI_is_cursor_plan возвращает true, если оператор, подготовленный SPI_prepare может быть передан в качестве аргумента SPI_cursor_open, или false, если это не так. Функция возвращает true, если plan представляет одну команду, и эта команда возвращает записи вызывающей стороне. Например, SELECT разрешен, если он не содержит предложение INTO, а UPDATE разрешен, только если он содержит предложение RETURNING.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Возвращаемое значение

Если SPI_result содержит 0, тогда true или false указывает, может ли plan создать курсор или нет. Если невозможно определить ответ (например, если plan равен NULL или недействителен, или если не открыто подключение к менеджеру SPI), тогда для SPI_result устанавливается подходящий код ошибки, и возвращается значение false.

SPI_execute_plan

SPI_execute_plan - выполнить оператор, подготовленный SPI_prepare

Синтаксис

int SPI_execute_plan(SPIPlanPtr plan, Datum * values, const char * nulls,

bool read_only, long count)

Описание

SPI_execute_plan выполняет оператор, подготовленный SPI_prepare или подобным методом. Параметры read_only и count имеют то же назначение, что и в SPI_execute.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Datum * values

Массив фактических значений параметров. Должен иметь ту же длину, что и число аргументов оператора.

const char * nulls

Массив, описывающий, какие параметры являются нулевыми. Должен иметь ту же длину, что и число аргументов оператора.
Если указатель nulls равен NULL, тогда SPI_execute_plan предполагает, что ни один из параметров не является нулевым. В противном случае каждый элемент массива nulls должен быть ’ ’, если значение соответствующего параметра не равно нулю, или ’n’, если значение соответствующего параметра равно нулю. (В последнем случае фактическое значение в соответствующем элементе values не имеет значения.) Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

bool read_only

true для выполнения запроса только читающего данные

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Возвращаемое значение такое же, как и для SPI_execute, со следующими возможными ошибочными (отрицательными) результатами:

SPI_ERROR_ARGUMENT

если параметр plan равен NULL или недействителен, или параметр count меньше 0

SPI_ERROR_PARAM

если параметр values равен NULL, и plan подготовлен с использованием параметров

В случае успешного завершения SPI_processed и SPI_tuptable устанавливаются как в SPI_execute.

SPI_execute_plan_with_paramlist

SPI_execute_plan_with_paramlist - выполняет оператор, подготовленный SPI_prepare_params, аналогично SPI_execute_plan, но позволяет передать значения дополнительных параметров.

Синтаксис

int SPI_execute_plan_with_paramlist(SPIPlanPtr plan,

ParamListInfo params, bool read_only, long count)

Описание

SPI_execute_plan_with_paramlist выполняет оператор, подготовленный SPI_prepare. Эта функция эквивалентна SPI_execute_plan за исключением того, что информация о значениях параметров, передаваемых в запрос, передается по другом. Структура ParamListInfo может быть удобна для передачи значений, которые уже доступны в этом формате. Функция также поддерживает динамическую подстановку параметров через hook функции, указанные в ParamListInfo.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

ParamListInfo params

структура данных, содержащая типы параметров и значения; NULL, если параметров нет

bool read_only

true для выполнения запроса только читающего данные

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Возвращаемое значение такое же, как у функции SPI_execute_plan.

В случае успешного завершения SPI_processed и SPI_tuptable устанавливаются как при вызове функции SPI_execute_plan.

SPI_execp

SPI_execp - выполнить оператор, подготовленный SPI_prepare, аналогично SPI_execute_plan, но в режиме только чтения

Синтаксис

int SPI_execp(SPIPlanPtr plan, Datum * values, const char * nulls, long count)

Описание

SPI_execp совпадает с SPI_execute_plan, но параметр read_only всегда принимается равным false.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Datum * values

Массив фактических значений параметров. Должен иметь ту же длину, что и число аргументов оператора.

const char * nulls

Массив, описывающий, какие параметры являются нулевыми. Должен иметь ту же длину, что и число аргументов оператора.
Если указатель nulls равен NULL, тогда SPI_execp предполагает, что ни один из параметров не является нулевым. В противном случае каждый элемент массива nulls должeн быть ’ ’, если значение соответствующего параметра не равно нулю, или ’n’, если значение соответствующего параметра равно нулю. (В последнем случае фактическое значение в соответствующем элементе values не имеет значения.) Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

long count

максимальное количество строк, которые нужно вернуть, или 0 без ограничений

Возвращаемое значение

Возвращаемое значение такое же, как у функции SPI_execute_plan.

В случае успешного завершения SPI_processed и SPI_tuptable устанавливаются как при вызове функции SPI_execute_plan.

SPI_cursor_open

SPI_cursor_open - открыть курсор для оператора, созданного с помощью SPI_prepare

Синтаксис

Portal SPI_cursor_open(const char * name, SPIPlanPtr plan,

Datum * values, const char * nulls, bool read_only)

Описание

SPI_cursor_open открывает курсор (называемый внутри базы данных порталом), который будет выполнять оператор, подготовленный SPI_prepare. Входные параметры имеют те же значения, что и соответствующие параметры для SPI_execute_plan.

Использование курсора вместо непосредственного выполнения оператора имеет два преимущества. Во-первых, результирующие строки могут быть получены по нескольку за раз, избегая переполнения памяти для запросов, которые возвращают много строк. Во-вторых, портал может пережить текущую функцию C/RUST (фактически он может дожить до конца текущей транзакции). Возврат имени портала в вызывающую функцию на C/RUST обеспечивает способ возврата набора строк в качестве результата.

Содержимое входных параметров будет скопировано в портал курсора, поэтому они могут быть освобождены, пока курсор еще существует.

Аргументы

const char * name

имя для портала или NULL, чтобы система могла выбрать имя

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Datum * values

Массив фактических значений параметров. Должен иметь ту же длину, что и число аргументов оператора.

const char * nulls

Массив, описывающий, какие параметры являются нулевыми. Должен иметь ту же длину, что и число аргументов оператора.
Если указатель nulls равен NULL, тогда SPI_cursor_open предполагает, что ни один из параметров не является нулевым. В противном случае каждый элемент массива nulls должeн быть ’ ’, если значение соответствующего параметра не равно нулю, или ’n’, если значение соответствующего параметра равно нулю. (В последнем случае фактическое значение в соответствующем элементе values не имеет значения.) Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

bool read_only

true для выполнения запроса только читающего данные

Возвращаемое значение

Указатель на портал, содержащий курсор. Обратите внимание, что нет соглашения о возврате ошибок; любая ошибка будет записана через elog.

SPI_cursor_open_with_args

SPI_cursor_open_with_args - открыть курсор, используя переданную команду и параметры

Синтаксис

Portal SPI_cursor_open_with_args(const char *name, const char *command,

int nargs, Oid *argtypes, Datum *values,

const char *nulls, bool read_only, int cursorOptions)

Описание

SPI_cursor_open_with_args открывает курсор (называемый внутри базы данных порталом), который будет выполнять указанный запрос. Большинство параметров имеют те же значения, что и соответствующие параметры для SPI_prepare_cursor и SPI_cursor_open.

Для одноразового выполнения запроса эта функция должна быть предпочтительнее, чем последовательные вызовы SPI_prepare_cursor и SPI_cursor_open. Если один и тот же запрос выполняется с различными параметрами, любой из этих двух вариантов может быть быстрее, в зависимости от стоимости перепланирования по сравнению с преимуществами специализированных планов.

Аргументы

const char * name

имя для портала или NULL, чтобы система могла выбрать имя

const char * command

SQL запрос

int nargs

количество входных параметров ( $1, $2 и т. д.)

Oid * argtypes

массив длинной nargs, содержащий OID-ы типов данных входных параметров

Datum * values

массив длинной nargs, содержащий фактические значения параметров

const char * nulls

массив длинной nargs, описывающий, какие параметры равны NULL
Если указатель nulls равен NULL, тогда SPI_cursor_open_with_args предполагает, что ни один из параметров не является нулевым. В противном случае каждый элемент массива nulls должен быть ’ ’, если значение соответствующего параметра не равно нулю, или ’n’, если значение соответствующего параметра равно нулю. (В последнем случае фактическое значение в соответствующем элементе values не имеет значения.) Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

bool read_only

true для выполнения запроса только читающего данные

int cursorOptions

целочисленная битовая маска параметров курсора; ноль - поведение по умолчанию

Возвращаемое значение

SPI_cursor_open_with_paramlist

SPI_cursor_open_with_paramlist - открыть курсор, подготовленный SPI_prepare_params, используя переданные параметры

Синтаксис

Portal SPI_cursor_open_with_paramlist(const char *name,

SPIPlanPtr plan, ParamListInfo params, bool read_only)

Описание

SPI_cursor_open_with_paramlist открывает курсор (называемый внутри базы данных порталом), который будет выполнять оператор, подготовленный SPI_prepare. Эта функция эквивалентна SPI_cursor_open за исключением того, что информация о значениях параметров, передаваемых в запрос, представлена по другому. Структура ParamListInfo может быть удобна для передачи значений, которые уже доступны в этом формате. Функция также поддерживает динамическую подстановку параметров через hook функции, указанные в ParamListInfo.

Аргументы

const char * name

имя для портала или NULL, чтобы система могла выбрать имя

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

ParamListInfo params

структура данных, содержащая типы параметров и значения; NULL, если параметров нет

bool read_only

true для выполнения запроса только читающего данные

Возвращаемое значение

SPI_cursor_find

SPI_cursor_find - найти существующий курсор по имени

Синтаксис

Portal SPI_cursor_find(const char * name)

Описание

SPI_cursor_find находит существующий портал по имени. Это в первую очередь полезно для разрешения имени курсора, возвращаемого в виде текста другой функцией.

Аргументы

const char * name

название портала

Возвращаемое значение

Указатель на портал с указанным именем или NULL, если ничего не найдено

SPI_cursor_fetch

SPI_cursor_fetch - прочитать несколько строк из курсора (только вперед/назад относительно текущей позиции)

Синтаксис

void SPI_cursor_fetch(Portal portal, bool forward, long count)

Описание

SPI_cursor_fetch извлекает несколько строк из курсора. Это эквивалентно подмножеству SQL команды FETCH (для получения дополнительной информации см. SPI_scroll_cursor_fetch).

Аргументы

Portal portal

портал, содержащий курсор

bool forward

true для извлечения вперед, false для извлечения назад

long count

максимальное количество строк для извлечения

Возвращаемое значение

В случае успешного завершения SPI_processed и SPI_tuptable устанавливаются как в SPI_execute.

Примечания

Выборка в обратном направлении может завершиться с ошибкой, если план курсора не был создан с опцией CURSOR_OPT_SCROLL.

SPI_cursor_move

SPI_cursor_move - переместить курсор (только вперед/назад относительно текущей позиции)

Синтаксис

void SPI_cursor_move(Portal portal, bool forward, long count)

Описание

SPI_cursor_move пропускает некоторое количество строк в курсоре. Это эквивалентно подмножеству SQL команды MOVE (для получения дополнительной информации см. SPI_scroll_cursor_move).

Аргументы

Portal portal

портал, содержащий курсор

bool forward

true для движения вперед, false для движения назад

long count

максимальное количество строк для перемещения

Примечания

Перемещение в обратном направлении может завершиться с ошибкой, если план курсора не был создан с опцией CURSOR_OPT_SCROLL.

SPI_scroll_cursor_fetch

SPI_scroll_cursor_fetch - извлечь несколько строк из курсора

Синтаксис

void SPI_scroll_cursor_fetch(Portal portal, FetchDirection direction, long count)

Описание

SPI_scroll_cursor_fetch извлекает несколько строк из курсора. Это эквивалентно SQL команде FETCH .

Аргументы

Portal portal

портал, содержащий курсор

FetchDirection direction

одно из значений FETCH_FORWARD, FETCH_BACKWARD, FETCH_ABSOLUTE или FETCH_RELATIVE

long count

количество строк для извлечения, если параметр direction равен FETCH_FORWARD или FETCH_BACKWARD
абсолютный номер строки для извлечения, если параметр direction равен FETCH_ABSOLUTE
относительный номер строки для извлечения, если параметр direction равен FETCH_RELATIVE

Возвращаемое значение

В случае успешного завершения SPI_processed и SPI_tuptable устанавливаются как в SPI_execute.

Примечания

См. SQL команду FETCH для получения подробной информации об интерпретации параметров direction и count.

Если параметр direction имеет значение, отличное от FETCH_FORWARD, функция может завершиться с ошибкой, если план курсора не был создан с опцией CURSOR_OPT_SCROLL.

SPI_scroll_cursor_move

SPI_scroll_cursor_move - переместить курсор

Синтаксис

void SPI_scroll_cursor_move(Portal portal, FetchDirection direction, long count)

Описание

SPI_scroll_cursor_move пропускает некоторое количество строк в курсоре. Это эквивалентно SQL команде MOVE.

Аргументы

Portal portal

портал, содержащий курсор

FetchDirection direction

одно из значений FETCH_FORWARD, FETCH_BACKWARD, FETCH_ABSOLUTE или FETCH_RELATIVE

long count

количество строк для перемещения, если параметр direction равен FETCH_FORWARD или FETCH_BACKWARD
абсолютный номер строки для перемещения, если параметр direction равен FETCH_ABSOLUTE
относительный номер строки для извлечения, если параметр direction равен FETCH_RELATIVE

Возвращаемое значение

В случае успешного завершения SPI_processed устанавливаются как в SPI_execute. SPI_tuptable всегда устанавливается в NULL, поскольку эта функция не возвращает строк.

Примечания

См. SQL команду FETCH для получения подробной информации об интерпретации параметров direction и count.

SPI_cursor_close

SPI_cursor_close - закрыть курсор

Синтаксис

void SPI_cursor_close(Portal portal)

Описание

SPI_cursor_close закрывает ранее созданный курсор и освобождает ресурсы, используемые порталом.

Все открытые курсоры закрываются автоматически в конце транзакции. SPI_cursor_close нужно вызывать только в случае, если желательно освободить ресурсы раньше.

Аргументы

Portal portal

портал, содержащий курсор

SPI_keepplan

SPI_keepplan - сохранить оператор, подготовленный SPI_prepare, до конца сессии

Синтаксис

int SPI_keepplan(SPIPlanPtr plan)

Описание

SPI_keepplan сохраняет переданный оператор (подготовленный SPI_prepare ), чтобы он не был освобожден ни SPI_finish, ни менеджером транзакций. Это дает Вам возможность повторно использовать подготовленные операторы в последующих вызовах Вашей функции на C/RUST в текущей сессии.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Возвращаемое значение

0 в случае успеха; SPI_ERROR_ARGUMENT если параметр plan равен NULL или недействителен

Примечания

Переданный оператор перемещается в постоянное хранилище с помощью копирования указателя (копирование данных не требуется). Если позже Вы захотите удалить его, используйте для этого SPI_freeplan.

SPI_saveplan

SPI_saveplan - возвращает копию оператора, подготовленного SPI_prepare

Синтаксис

SPIPlanPtr SPI_saveplan(SPIPlanPtr plan)

Описание

SPI_saveplan копирует переданный оператор (подготовленный SPI_prepare ) в память, которая не будет освобождена ни SPI_finish, ни менеджером транзакций, и возвращает указатель на скопированный оператор. Это дает Вам возможность повторно использовать подготовленные операторы в последующих вызовах Вашей функции на C/RUST в текущей сессии.

Аргументы

SPIPlanPtr plan

оператор, подготовленный вызовом SPI_prepare

Возвращаемое значение

Указатель на скопированный оператор; или NULL случае неудачи. В случае ошибки SPI_result устанавливается следующим образом:

SPI_ERROR_ARGUMENT

если параметр plan равен NULL или недействителен

SPI_ERROR_UNCONNECTED

если не открыто подключение к менеджеру SPI

Примечания

Первоначально переданный оператор не освобождается, поэтому вы можете освободить его вручную вызовом SPI_freeplan, или он будет освобождён автоматически во время вызова SPI_finish.

В большинстве случаев SPI_keepplan предпочтительнее этой функции, поскольку не выполняется физическое копирование структур данных подготовленного оператора.

SPI_register_relation

SPI_register_relation - сделать эфемерное именованное отношение доступным по имени в запросах SPI

Синтаксис

int SPI_register_relation(EphemeralNamedRelation enr)

Описание

SPI_register_relation делает эфемерное именованное отношение, включая связанную информацию, доступным для запросов, планируемых и выполняемых через текущее соединение SPI.

Аргументы

EphemeralNamedRelation enr

эфемерное именованное отношение

Возвращаемое значение

Если выполнение функции было успешным, то будет возвращено следующее (неотрицательное) значение:

SPI_OK_REL_REGISTER

если отношение было успешно зарегистрировано по имени

При ошибке возвращается одно из следующих отрицательных значений:

SPI_ERROR_ARGUMENT

если параметр enr равен NULL или его поле name равно NULL

SPI_ERROR_UNCONNECTED

если не открыто подключение к менеджеру SPI

SPI_ERROR_REL_DUPLICATE

если имя, указанное в поле name параметра enr, уже зарегистрировано для этого соединения

SPI_unregister_relation

SPI_unregister_relation - удалить эфемерное именованное отношение из реестра

Синтаксис

int SPI_unregister_relation(const char * name)

Описание

SPI_unregister_relation удаляет эфемерное именованное отношение из реестра для текущего соединения.

Аргументы

const char * name

имя эфемерного именованного отношения

Возвращаемое значение

Если выполнение команды было успешным, то будет возвращено следующее (неотрицательное) значение:

SPI_OK_REL_UNREGISTER

если запись об эфемерном именованном отношении успешно удалена из реестра

При ошибке возвращается одно из следующих отрицательных значений:

SPI_ERROR_ARGUMENT

если параметр name равен NULL

SPI_ERROR_UNCONNECTED

если не открыто подключение к менеджеру SPI

SPI_ERROR_REL_NOT_FOUND

если эфемерное именованное отношение с именем name не найдено в реестре для текущего соединения

SPI_register_trigger_data

SPI_register_trigger_data - сделать доступными данные эфемерного триггера в запросах SPI

Синтаксис

int SPI_register_trigger_data(TriggerData *tdata)

Описание

SPI_register_trigger_data делает любые эфемерный отношения, захваченные триггером, доступными для планирования запросов и выполнения через текущее соединение SPI. В настоящее время это обозначает таблицы переходов (transition relations), захваченные триггером AFTER определенным с помощью предложения REFERENCING OLD/NEW TABLE AS. Эта функция должна вызываться обработчиком PL триггера после подключения.

Аргументы

TriggerData * tdata

объект TriggerData передается в функцию-обработчик триггера через fcinfo->context

Возвращаемое значение

Если выполнение команды было успешным, то будет возвращено следующее (неотрицательное) значение:

SPI_OK_TD_REGISTER

если захваченные данные триггера (если такие есть) успешно зарегистрированы

При ошибке возвращается одно из следующих отрицательных значений:

SPI_ERROR_ARGUMENT

если параметр tdata равен NULL

SPI_ERROR_UNCONNECTED

если не открыто подключение к менеджеру SPI

SPI_ERROR_REL_DUPLICATE

если имя какого-либо временного отношения в данных триггера уже зарегистрировано для этого соединения

Функции поддержки интерфейса

Описанные здесь функции предоставляют интерфейс для извлечения информации из наборов результатов, возвращаемых SPI_execute и другими функциями SPI.

Все функции, описанные в этом разделе, могут использоваться с подключением и без подключения к менеджеру SPI.

SPI_fname

SPI_fname - определить имя столбца для указанного номера столбца

Синтаксис

char * SPI_fname(TupleDesc rowdesc, int colnumber)

Описание

SPI_fname возвращает копию имени столбца указанного номера столбца. (Вы можете использовать pfree, чтобы освободить память, когда имя Вам больше не нужно).

Аргументы

TupleDesc rowdesc

описание входной строки

int colnumber

номер столбца (отсчет начинается с 1)

Возвращаемое значение

Название столбца; NULL, если параметр colnumber находится вне диапазона. В случае ошибки SPI_result установлен в SPI_ERROR_NOATTRIBUTE.

SPI_fnumber

SPI_fnumber - определить номер столбца для указанного имени столбца

Синтаксис

int SPI_fnumber(TupleDesc rowdesc, const char * colname)

Описание

SPI_fnumber возвращает номер столбца для столбца с указанным именем.

Если параметр colname ссылается на системный столбец (например, ctid), будет возвращен соответствующий отрицательный номер столбца. Вызывающая сторона должна проверить возвращаемое значение на точное равенство SPI_ERROR_NOATTRIBUTE, чтобы обнаружить ошибку; проверка результата, что значение меньше или равно 0 не является правильной, если только системные столбцы не должны быть пропущены при обработке.

Аргументы

TupleDesc rowdesc

описание входной строки

const char * colname

имя столбца

Возвращаемое значение

Номер столбца (число начинается с 1 для пользовательских столбцов) или SPI_ERROR_NOATTRIBUTE, если указанный столбец не найден.

SPI_getvalue

SPI_getvalue - вернуть строковое значение указанного столбца

Синтаксис

char * SPI_getvalue(HeapTuple row, TupleDesc rowdesc, int colnumber)

Описание

SPI_getvalue возвращает строковое представление значения указанного столбца.

Результат возвращается в память, выделенную с помощью palloc. (Вы можете использовать pfree для освобождения памяти, когда значение Вам больше не нужно).

Аргументы

HeapTuple row

входная строка для изучения

TupleDesc rowdesc

описание входной строки

int colnumber

номер столбца (отсчет начинается с 1)

Возвращаемое значение

Значение столбца или NULL, если:

поле в строке равно NULL
значение colnumber выходит за пределы диапазона (SPI_result установлен в SPI_ERROR_NOATTRIBUTE)
нет выходной функции (SPI_result установлен в SPI_ERROR_NOOUTFUNC).

SPI_getbinval

SPI_getbinval - возвращает двоичное значение указанного столбца

Синтаксис

Datum SPI_getbinval(HeapTuple row, TupleDesc rowdesc, int colnumber, bool * isnull)

Описание

SPI_getbinval возвращает значение указанного столбца во внутренней форме (как тип Datum).

Эта функция не выделяет новое пространство для данных. В случае типа данных «передача по ссылке» возвращаемое значение будет указателем на переданную строку.

Аргументы

HeapTuple row

входная строка для изучения

TupleDesc rowdesc

описание входной строки

int colnumber

номер столбца (отсчет начинается с 1)

bool * isnull

флаг для нулевого значения в столбце

Возвращаемое значение

Двоичное значение столбца. Переменная, на которую указывает параметр isnull имеет значение true, если столбец равен нулю, иначе - false.

SPI_result устанавливается в SPI_ERROR_NOATTRIBUTE при ошибке.

SPI_gettype

SPI_gettype - возвращает имя типа данных указанного столбца

Синтаксис

char * SPI_gettype(TupleDesc rowdesc, int colnumber)

Описание

SPI_gettype возвращает копию имени типа данных указанного столбца. (Вы можете использовать pfree, чтобы освободить память, когда имя типа Вам больше не нужно).

Аргументы

TupleDesc rowdesc

описание входной строки

int colnumber

номер столбца (отсчет начинается с 1)

Возвращаемое значение

Имя типа данных указанного столбца или NULL при ошибке. При ошибке SPI_result устанавливается в SPI_ERROR_NOATTRIBUTE.

SPI_gettypeid

SPI_gettypeid - возвращает OID типа данных указанного столбца

Синтаксис

Oid SPI_gettypeid(TupleDesc rowdesc, int colnumber)

Описание

SPI_gettypeid возвращает OID типа данных указанного столбца.

Аргументы

TupleDesc rowdesc

описание входной строки

int colnumber

номер столбца (отсчет начинается с 1)

Возвращаемое значение

OID типа данных указанного столбца или InvalidOid при ошибке. При ошибке SPI_result устанавливается в SPI_ERROR_NOATTRIBUTE.

SPI_getrelname

SPI_getrelname - возвращает имя указанного отношения

Синтаксис

char * SPI_getrelname(Relation rel)

Описание

SPI_getrelname возвращает копию имени указанного отношения. (Вы можете использовать pfree, чтобы освободить память, когда копия имени станет Вам больше не нужна).

Аргументы

Relation rel

входное отношение

Возвращаемое значение

Имя указанного отношения.

SPI_getnspname

SPI_getnspname - вернуть пространство имен указанного отношения

Синтаксис

char * SPI_getnspname(Relation rel)

Описание

SPI_getnspname возвращает копию имени пространства имен (схемы), которому принадлежит указанное отношение. Вы можете использовать pfree, чтобы освободить память, когда имя схемы станет Вам не нужно.

Аргументы

Relation rel

входное отношение

Возвращаемое значение

Имя пространства имен указанного отношения.

SPI_result_code_string

SPI_result_code_string - возвращает код ошибки в виде строки

Синтаксис

const char * SPI_result_code_string(int code);

Описание

SPI_result_code_string выдает строковое представление кода результата, возвращенного различными функциями SPI или сохраненного в SPI_result.

Аргументы

int code

код результата

Возвращаемое значение

Строковое представление кода результата.

Управление памятью

QHB выделяет память в контекстах памяти, предоставляющих удобный метод управления распределениями, осуществляемыми во многих разных местах, которые должны жить в различное количество времени. Уничтожение контекста освобождает всю память, выделенную в нем. Таким образом, нет необходимости отслеживать отдельные объекты, чтобы избежать утечек памяти; вместо этого достаточно управлять только относительно небольшим количеством контекстов. palloc и связанные функции выделяют память из «текущего» контекста.

SPI_connect создает новый контекст памяти и делает его текущим. SPI_finish восстанавливает предыдущий текущий контекст памяти и уничтожает контекст, созданный SPI_connect. Эти действия гарантируют, что временные выделения памяти, сделанные внутри вашей функции на C/RUST, будут освобождены при выходе из функции на C/RUST, избегая утечки памяти.

Однако, если вашей функции на C/RUST необходимо вернуть объект в выделенной памяти (например, значение типа данных с передачей по ссылке), вы не можете выделить эту память, используя palloc, по крайней мере, пока вы подключены к SPI. Если вы попытаетесь, объект будет освобожден с помощью SPI_finish, и ваша функция на C/RUST не будет работать надежно. Чтобы решить эту проблему, используйте SPI_palloc для выделения памяти для вашего возвращаемого объекта. SPI_palloc выделяет память в «контексте вышестоящего исполнителя», то есть в контексте памяти, который был текущим при SPI_connect, что является точно правильным контекстом для значения, возвращаемого вашей функцией на C/RUST. Некоторые из других служебных функций, описанных в этом разделе, также возвращают объекты, созданные в контексте вышестоящего исполнителя.

Когда вызывается SPI_connect, частный контекст функции C/RUST, создаваемый SPI_connect, становится текущим контекстом. Все выделения сделанные функциями palloc, repalloc или служебными функциями SPI (за исключением случаев, описанных в этом разделе), выполняются в этом контексте. Когда функция на C/RUST отключается от менеджера SPI через SPI_finish, текущий контекст восстанавливается в контекст вышестоящего исполнителя, и все выделения, сделанные в контексте памяти функции на C/RUST, освобождаются и больше не могут использоваться.

SPI_palloc

SPI_palloc - выделить память

Синтаксис

void * SPI_palloc(Size size)

Описание

SPI_palloc выделяет память в контексте вышестоящего исполнителя.

Эта функция может использоваться только при подключении к менеджеру SPI. В противном случае выдает ошибку.

Аргументы

Size size

размер в байтах памяти для размещения

Возвращаемое значение

указатель на новое место для хранения указанного размера

SPI_repalloc

SPI_repalloc - перераспределить память

Синтаксис

void * SPI_repalloc(void * pointer, Size size)

Описание

SPI_repalloc изменяет размер сегмента памяти, ранее выделенного с помощью SPI_palloc.

Эта функция больше не отличается от обычного repalloc. Он сохраняется только для обратной совместимости существующего кода.

Аргументы

void * pointer

указатель на существующее хранилище для изменения

Size size

размер в байтах памяти для размещения

Возвращаемое значение

указатель на новое пространство хранения указанного размера с содержимым, скопированным из существующей области

SPI_pfree

SPI_pfree - освободить память

Синтаксис

void SPI_pfree(void * pointer)

Описание

SPI_pfree освобождает память, ранее выделенную с помощью SPI_palloc или SPI_repalloc.

Эта функция больше не отличается от обычного pfree. Он сохраняется только для обратной совместимости существующего кода.

Аргументы

void * pointer

указатель на существующее хранилище для освобождения

SPI_copytuple

SPI_copytuple - сделать копию записи

Синтаксис

HeapTuple SPI_copytuple(HeapTuple row)

Описание

SPI_copytuple создает копию записи в контексте вышестоящего исполнителя. Обычно это используется для возврата измененной записи из триггера. В функции, объявленной для возврата составного типа, используйте вместо этого SPI_returntuple.

Эта функция может использоваться только при подключении к менеджеру SPI. В противном случае он возвращает NULL и устанавливает SPI_result в SPI_ERROR_UNCONNECTED.

Аргументы

HeapTuple row

запись для копирования

Возвращаемое значение

скопированная строка или NULL в случае ошибки (см. SPI_result для указания ошибки)

SPI_returntuple

SPI_returntuple - возвращает копию записи в качестве Datum

Синтаксис

HeapTupleHeader SPI_returntuple(HeapTuple row, TupleDesc rowdesc)

Описание

SPI_returntuple создает копию записи в контексте вышестоящего исполнителя, возвращая ее в виде типа Datum. Полученный указатель должен быть преобразован в Datum вызовом PointerGetDatum перед возвратом далее.

Обратите внимание, что данный метод следует использовать для функций, которые объявлены для возврата составных типов. SPI_returntuple нельзя применять для триггеров; используйте SPI_copytuple для возврата измененной записи в триггере.

Аргументы

HeapTuple row

строка для копирования

TupleDesc rowdesc

дескриптор для строки (передавайте один и тот же дескриптор каждый раз для наиболее эффективного кэширования)

Возвращаемое значение

HeapTupleHeader, указывающий на скопированную строку, или NULL при ошибке (см. SPI_result для указания ошибки)

SPI_modifytuple

SPI_modifytuple - создает новую запись, заменив выбранные поля исходной записи

Синтаксис

HeapTuple SPI_modifytuple(Relation rel, HeapTuple row, int ncols,

int * colnum, Datum * values, const char * nulls)

Описание

SPI_modifytuple создает новую запись, подставляя новые значения для выбранных столбцов, копируя остальные столбцы исходной строки. Входная запись не изменяется. Новая запись возвращается в контексте вышестоящего исполнителя.

Аргументы

Relation rel

Используется только как источник дескриптора строки для строки. (Передача отношения, а не дескриптора строки, является ошибкой.)

HeapTuple row

строка для изменения

int ncols

количество столбцов, которые нужно изменить

int * colnum

массив длиной ncols, содержащий номера столбцов для изменения (номера столбцов начинаются с 1)

Datum * values

массив длиной ncols, содержащий новые значения для указанных столбцов

const char * nulls

массив длиной ncols, описывающий, какие новые значения равны нулю
Если параметр nulls равен NULL тогда SPI_modifytuple предполагает, что новые значения не равны NULL. В противном случае каждая запись массива nulls должна быть ’ ’, если соответствующее новое значение не равно нулю, или ’n’, если соответствующее новое значение равно нулю. (В последнем случае фактическое значение в соответствующей записи values не имеет значения.) Обратите внимание, что nulls - это не текстовая строка, а массив, поэтому завершающий символ ’\0’ не нужен.

Возвращаемое значение

Новая строка с изменениями, размещенная в контексте вышестоящего исполнителя или NULL при ошибке (см. SPI_result для указания ошибки)

В случае ошибки SPI_result устанавливается следующим образом:

SPI_ERROR_ARGUMENT

если выполняется любое из условий:
- параметр rel равен NULL,
- параметр row равен NULL,
- параметр ncols меньше или равен 0,
- параметр colnum равен NULL,
- параметр values равен NULL.

SPI_ERROR_NOATTRIBUTE

если параметр colnum содержит недопустимый номер столбца (меньше или равно 0 или больше, чем количество столбцов в параметре row)

SPI_ERROR_UNCONNECTED

если нет подключения к менеджеру SPI

SPI_freetuple

SPI_freetuple - освободить запись

Синтаксис

void SPI_freetuple(HeapTuple row)

Описание

SPI_freetuple освобождает запись, ранее выделенную в контексте вышестоящего исполнителя.

Эта функция больше не отличается от обычной heap_freetuple. Она сохраняется только для обратной совместимости существующего кода.

Аргументы

HeapTuple row

строка для освобождения

SPI_freetuptable

SPI_freetuptable - освободить строки, прочитанные SPI_execute или подобной функцией

Синтаксис

void SPI_freetuptable(SPITupleTable * tuptable)

Описание

SPI_freetuptable освобождает набор строк, созданный предыдущим вызовом функции SPI, выполняющей запросы, такой как SPI_execute. Поэтому данная функция часто вызывается с глобальной переменной SPI_tuptable качестве аргумента.

Эта функция полезна, если функция на C/RUST, использующая SPI, должна выполнять несколько команд и не хочет сохранять результаты предыдущих команд до своего завершения. Обратите внимание, что любые наборы строк будут освобождены в любом случае при вызове SPI_finish. Кроме того, если субтранзакция запускается и затем прерывается при выполнении функции C/RUST, использующей SPI, SPI автоматически освобождает все наборы строк, созданные во время выполнения субтранзакции.

Аргументы

SPITupleTable * tuptable

указатель на строку, которую нужно освободить, или NULL, если ничего не делать не нужно

SPI_freeplan

SPI_freeplan - освободить подготовленный оператор

Синтаксис

int SPI_freeplan(SPIPlanPtr plan)

Описание

SPI_freeplan освобождает подготовленный оператор, ранее возвращенный SPI_prepare или сохраненный с помощью SPI_keepplan или SPI_saveplan.

Аргументы

SPIPlanPtr plan

указатель на оператор, который нужно освободить

Возвращаемое значение

0 в случае успеха; SPI_ERROR_ARGUMENT, если параметр plan равен NULL или недействителен.

Управление транзакциями

Невозможно выполнить команды управления транзакциями, такие как COMMIT и ROLLBACK через функции SPI, такие как SPI_execute. Однако существуют отдельные интерфейсные функции, позволяющие управлять транзакциями через SPI.

Обычно небезопасно и нецелесообразно запускать и завершать транзакции в произвольных пользовательских функциях, вызываемых из SQL, без учета контекста, в котором они вызываются. Например, граница транзакции в середине функции, которая является частью сложного SQL выражения, являющегося частью какой-либо другой SQL команды, вероятно, приведет к неясным внутренним ошибкам или сбоям. Представленные здесь интерфейсные функции предназначены, в первую очередь, для использования в реализациях на процедурных языках для поддержки управления транзакциями в процедурах уровня SQL, которые вызываются командой CALL, с учетом контекста вызова CALL. Функции, реализованные на C/RUST и использующие SPI, могут реализовывать ту же логику, но подробности этого выходят за рамки данной документации.

SPI_commit

SPI_commit, SPI_commit_and_chain - зафиксировать текущую транзакцию

Синтаксис

void SPI_commit(void)

void SPI_commit_and_chain(void)

Описание

SPI_commit фиксирует текущую транзакцию. Это примерно эквивалентно выполнению SQL команды COMMIT. После того, как транзакция зафиксирована, новая транзакция должна быть запущена с использованием SPI_start_transaction прежде чем будут выполнены дальнейшие действия с базой данных.

SPI_commit_and_chain - то же самое, но новая транзакция немедленно начинается с теми же характеристиками транзакции, что и только что завершенная, как с SQL командой COMMIT AND CHAIN.

Эти функции могут быть выполнены только в том случае, если соединение SPI было установлено как неатомарное в вызове SPI_connect_ext.

SPI_rollback

SPI_rollback, SPI_rollback_and_chain - отменить текущую транзакцию

Синтаксис

void SPI_rollback(void)

void SPI_rollback_and_chain(void)

Описание

SPI_rollback откатывает текущую транзакцию. Это приблизительно эквивалентно выполнению SQL команды ROLLBACK. После отката транзакции новая транзакция должна быть запущена с использованием SPI_start_transaction прежде чем будут выполнены дальнейшие действия с базой данных.

SPI_rollback_and_chain - то же самое, но новая транзакция немедленно начинается с теми же характеристиками транзакции, что и только что завершенная, как с SQL командой ROLLBACK AND CHAIN.

SPI_start_transaction

SPI_start_transaction - начать новую транзакцию

Синтаксис

void SPI_start_transaction(void)

Описание

SPI_start_transaction запускает новую транзакцию. Функция может быть вызвана только после SPI_commit или SPI_rollback, поскольку в этот момент транзакция не активна. Обычно, когда вызывается процедура, использующая SPI, уже существует активная транзакция, поэтому попытка запустить другую перед закрытием текущей приведет к ошибке.

Эта функция может быть выполнена только в том случае, если соединение SPI было установлено как неатомное в вызове SPI_connect_ext.

Видимость изменений данных

Следующие правила регулируют видимость изменений данных в функциях, использующих SPI (или любых других функциях на C/RUST):

Во время выполнения команды SQL любые изменения данных, сделанные этой командой, невидимы для самой команды. Например, в:

INSERT INTO a SELECT * FROM a;

вставленные строки невидимы для части SELECT.

Изменения, сделанные командой "C", видны всем командам, которые запускаются после "C", независимо от того, запущены ли они внутри "C" (во время выполнения "C") или после того, как "C" выполнена.
Изменения, выполненные через SPI внутри функции, вызванной командой SQL (обычной функцией или триггером), следуют одному или другому из приведенных выше правил в зависимости от флага чтения / записи, передаваемого в SPI. Команды, выполняемые в режиме только для чтения, следуют первому правилу: они не могут видеть изменения вызывающей команды. Команды, выполняемые в режиме чтения-записи, следуют второму правилу: они могут видеть все сделанные изменения.
Все стандартные процедурные языки устанавливают режим чтения-записи SPI в зависимости от атрибута волатильности функции. Команды функций STABLE и IMMUTABLE выполняются в режиме только для чтения, в то время как команды функций VOLATILE выполняются в режиме чтения-записи. Хотя авторы функций на C/RUST могут нарушать это соглашение, вряд ли это будет хорошей идеей.

Следующий раздел содержит пример, который иллюстрирует применение этих правил.

Примеры

Этот раздел содержит очень простой пример использования SPI. Функция C execq принимает команду SQL в качестве первого аргумента и число строк в качестве второго, выполняет команду с помощью SPI_exec и возвращает количество строк, обработанных командой. Вы можете найти более сложные примеры для SPI в дереве исходного кода в src/test/regress/regress.c и в модуле spi.

#include "postgres.h"

#include "executor/spi.h"
#include "utils/builtins.h"

PG_MODULE_MAGIC;

PG_FUNCTION_INFO_V1(execq);

Datum
execq(PG_FUNCTION_ARGS)
{
    char *command;
    int cnt;
    int ret;
    uint64 proc;

    /* Convert given text object to a C string */
    command = text_to_cstring(PG_GETARG_TEXT_PP(0));
    cnt = PG_GETARG_INT32(1);

    SPI_connect();

    ret = SPI_exec(command, cnt);

    proc = SPI_processed;

    /*
     * If some rows were fetched, print them via elog(INFO).
     */
    if (ret > 0 && SPI_tuptable != NULL)
    {
        TupleDesc tupdesc = SPI_tuptable->tupdesc;
        SPITupleTable *tuptable = SPI_tuptable;
        char buf[8192];ержки управления транзакциями в процедурах уровня SQL, которые вызываются командой CALL, с учетом контекста вызова CALL. Функции, реализованные на C/RUST и использующие SPI, могут реализовывать ту же логику, но подробности этого выходят за рамки данной документации.
        uint64 j;

        for (j = 0; j < proc; j++)
        {
            HeapTuple tuple = tuptable->vals[j];
            int i;

            for (i = 1, buf[0] = 0; i <= tupdesc->natts; i++)
                snprintf(buf + strlen(buf), sizeof(buf) - strlen(buf), " %s%s",
                        SPI_getvalue(tuple, tupdesc, i),
                        (i == tupdesc->natts) ? " " : " |");
            elog(INFO, "EXECQ: %s", buf);
        }
    }

    SPI_finish();
    pfree(command);

    PG_RETURN_INT64(proc);
}

Пример объявления функцию после компиляции ее в разделяемую библиотеку (подробности в разделе Компиляция и связывание динамически загружаемых функций):

CREATE FUNCTION execq(text, integer) RETURNS int8
    AS 'filename'
    LANGUAGE C STRICT;

Пример сессии:

=> SELECT execq('CREATE TABLE a (x integer)', 0);
 execq
-------
     0
(1 row)

=> INSERT INTO a VALUES (execq('INSERT INTO a VALUES (0)', 0));
INSERT 0 1
=> SELECT execq('SELECT * FROM a', 0);
INFO:  EXECQ:  0    -- inserted by execq
INFO:  EXECQ:  1    -- returned by execq and inserted by upper INSERT

 execq
-------
     2
(1 row)

=> SELECT execq('INSERT INTO a SELECT x + 2 FROM a', 1);
 execq
-------
     1
(1 row)

=> SELECT execq('SELECT * FROM a', 10);
INFO:  EXECQ:  0
INFO:  EXECQ:  1
INFO:  EXECQ:  2    -- 0 + 2, only one row inserted - as specified

 execq
-------
     3              -- 10 is the max value only, 3 is the real number of rows
(1 row)

=> DELETE FROM a;
DELETE 3
=> INSERT INTO a VALUES (execq('SELECT * FROM a', 0) + 1);
INSERT 0 1
=> SELECT * FROM a;
 x
---
 1                  -- no rows in a (0) + 1
(1 row)

=> INSERT INTO a VALUES (execq('SELECT * FROM a', 0) + 1);
INFO:  EXECQ:  1
INSERT 0 1
=> SELECT * FROM a;
 x
---
 1
 2                  -- there was one row in a + 1
(2 rows)

-- This demonstrates the data changes visibility rule:

=> INSERT INTO a SELECT execq('SELECT * FROM a', 0) * x FROM a;
INFO:  EXECQ:  1
INFO:  EXECQ:  2
INFO:  EXECQ:  1
INFO:  EXECQ:  2
INFO:  EXECQ:  2
INSERT 0 2
=> SELECT * FROM a;
 x
---
 1
 2
 2                  -- 2 rows * 1 (x in first row)
 6                  -- 3 rows (2 + 1 just inserted) * 2 (x in second row)
(4 rows)               ^^^^^^
                       rows visible to execq() in different invocations

Фоновые рабочие процессы

QHB может быть расширена для запуска пользовательского кода в отдельных процессах. Такие процессы запускаются, останавливаются и контролируются QHB, что позволяет им тесно связать время жизни со статусом сервера. Эти процессы имеют возможность подключаться к области общей памяти QHB и подключаться к базам данных, они также могут запускать последовательно, несколько транзакций как обычный серверный процесс, подключенный к клиенту. Также, связываясь с libpq, они могут подключаться к серверу и вести себя как обычное клиентское приложение.

Фоновые процессы могут быть инициализированы во время запуска QHB путем включения имени модуля в shared_preload_libraries. Модуль, желающий запустить фоновый рабочий, может зарегистрировать его, вызвав RegisterBackgroundWorker( BackgroundWorker *worker ) из своего _PG_init(). Фоновые рабочие также можно запустить после запуска системы, вызвав функцию RegisterDynamicBackgroundWorker( BackgroundWorker *worker, BackgroundWorkerHandle **handle ). В отличие от RegisterBackgroundWorker, который может вызываться только из postmaster, RegisterDynamicBackgroundWorker должен вызываться из обычного бэкэнда или другого фонового процесса.

Структура BackgroundWorker определяется таким образом:

typedef void (*bgworker_main_type)(Datum main_arg);
typedef struct BackgroundWorker
{
    char        bgw_name[BGW_MAXLEN];
    char        bgw_type[BGW_MAXLEN];
    int         bgw_flags;
    BgWorkerStartTime bgw_start_time;
    int         bgw_restart_time;       /* in seconds, or BGW_NEVER_RESTART */
    char        bgw_library_name[BGW_MAXLEN];
    char        bgw_function_name[BGW_MAXLEN];
    Datum       bgw_main_arg;
    char        bgw_extra[BGW_EXTRALEN];
    int         bgw_notify_pid;
} BackgroundWorker;

bgw_name и bgw_type - это строки, которые будут использоваться в сообщениях журнала, списках процессов и в подобных контекстах. bgw_type должен быть одинаковым для всех фоновых процессов одного типа, чтобы, например, можно было сгруппировать таких процессов в список процессов. bgw_name с другой стороны, может содержать дополнительную информацию о конкретном процессе. (Как правило, строка для bgw_name будет как-то идентифицировать фоновый процесс, но это не обязательно.)

bgw_flags - битовая маска или битовая маска, указывающая возможности, которые предоставляются модулю. Возможные значения:

Флаг	Назначение
BGWORKER_SHMEM_ACCESS	Запрашивает доступ к общей памяти. Рабочие, не имеющие доступа к общей памяти, не могут получить доступ ни к одной из общих структур данных QHB, таких как тяжелые или облегченные блокировки, общие буферы, или к любым пользовательским структурам данных, которые рабочий может захотеть создать и использовать.
BGWORKER_BACKEND_DATABASE_CONNECTION	Запрашивает возможность установить соединение с базой данных, с помощью которого она может позже выполнять транзакции и запросы Фоновый процесс, использующий BGWORKER_BACKEND_DATABASE_CONNECTION для подключения к базе данных, должен также подключить разделяемую память с помощью BGWORKER_SHMEM_ACCESS, иначе запуск рабочего не удастся.

Флаг

Назначение

BGWORKER_SHMEM_ACCESS

Запрашивает доступ к общей памяти. Рабочие, не имеющие доступа к общей памяти, не могут получить доступ ни к одной из общих структур данных QHB, таких как тяжелые или облегченные блокировки, общие буферы, или к любым пользовательским структурам данных, которые рабочий может захотеть создать и использовать.

BGWORKER_BACKEND_DATABASE_CONNECTION

Запрашивает возможность установить соединение с базой данных, с помощью которого она может позже выполнять транзакции и запросы Фоновый процесс, использующий BGWORKER_BACKEND_DATABASE_CONNECTION для подключения к базе данных, должен также подключить разделяемую память с помощью BGWORKER_SHMEM_ACCESS, иначе запуск рабочего не удастся.

bgw_start_time - состояние сервера, в течение которого QHB должна запустить процесс - это может быть BgWorkerStart_PostmasterStart (запускаться, как только сама QHB завершила свою собственную инициализацию, процессы, запускающиеся в этот момент, не подходят для соединений с базой данных), BgWorkerStart_ConsistentState (запускаться, как только достигнуто согласованное состояние, что позволяет процессам подключаться к базам данных и выполнять запросы только для чтения) и BgWorkerStart_RecoveryFinished (запускаться, как только система BgWorkerStart_RecoveryFinished перевела систему в нормальное состояние чтения-записи). Обратите внимание, что последние два значения эквивалентны на сервере, который не является standby. Обратите внимание, что этот параметр указывает только, когда фоновые процессы должны запускаться - они не будут останавливаться при переходе в другое состояния.

bgw_restart_time - это интервал в секундах, который QHB должна ждать перед перезапуском процесса в случае его сбоя. Это может быть любое положительное значение или BGW_NEVER_RESTART, указывающее не перезапускать процесс в случае сбоя.

bgw_library_name - это имя библиотеки, в которой следует искать начальную точку входа для фонового процесса. Именованная библиотека будет динамически загружена рабочим процессом, а имя-функции- bgw_function_name будет использоваться для идентификации вызываемой функции. При загрузке функции из основного кода должно быть установлено «QHB».

bgw_function_name - это имя функции в динамически загружаемой библиотеке, которая должна использоваться в качестве начальной точки входа для нового фонового процесса.

bgw_main_arg - это аргумент типа Datum для основной функции фонового процесса. Основная функция должна принимать один аргумент типа Datum и возвращать void. bgw_main_arg будет передан в качестве аргумента. Кроме того, глобальная переменная MyBgworkerEntry указывает на копию структуры BackgroundWorker переданную во время регистрации - процесс запуска может использовать эту структуру.

bgw_extra может содержать дополнительные данные для передачи фоновому процессу. В отличие от bgw_main_arg, эти данные не передаются в качестве аргумента основной функции worker-a, но к ним можно получить доступ через MyBgworkerEntry, как обсуждалось выше.

bgw_notify_pid - это PID бэкэнд-процесса QHB, которому qhbmaster должен отправить SIGUSR1 при запуске или выходе из процесса. Должен быть 0 для процессов, зарегистрированных во время запуска qhbmaster, или когда бэкэнд, регистрирующий процесса, не хочет ждать запуска процесса. В противном случае его следует инициализировать как MyProcPid.

После запуска процесс может подключиться к базе данных, вызвав BackgroundWorkerInitializeConnection( char *dbname, char *username , uint32 flags) или BackgroundWorkerInitializeConnectionByOid( Oid dboid, Oid useroid, uint32 flags). Это позволяет процессу выполнять транзакции и запросы с использованием интерфейса SPI. Если dbname имеет значение NULL или dboid имеет значение InvalidOid, сеанс не связан с какой-либо конкретной базой данных, но доступны общие каталоги. Если username NULL или useroid - InvalidOid, процесс будет работать как суперпользователь, созданный во время initdb. Если в качестве flags указано BGWORKER_BYPASS_ALLOWCONN можно обойти ограничение для подключения к базам данных, не разрешая пользовательские подключения. Фоновый рабочий может вызвать только одну из этих двух функций и только один раз. Невозможно переключить базы данных.

Сигналы изначально блокируются, когда управление достигает основной функции фонового процесса, и должны быть разблокированы самим процессом - это позволяет процессу при необходимости настраивать свои обработчики сигналов. Сигналы могут быть разблокированы в новом процессе путем вызова BackgroundWorkerUnblockSignals и заблокированы путем вызова BackgroundWorkerBlockSignals .

Если bgw_restart_time для фонового процесса сконфигурировано как BGW_NEVER_RESTART, или если он завершается с кодом выхода 0 или завершается TerminateBackgroundWorker, он будет автоматически отменен главным процессом при выходе. В противном случае он будет перезапущен по истечении периода времени, настроенного с помощью bgw_restart_time, или немедленно, если qhbmaster повторно инициализирует кластер из-за сбоя бэкенда. Бэкэнды, которые должны временно приостановить выполнение, должны использовать паузы вместо выхода - это может быть достигнуто путем вызова WaitLatch(). Убедитесь, что при вызове этой функции установлен флаг WL_POSTMASTER_DEATH, и проверьте код возврата для быстрого завершения в аварийном случае, когда сама qhb завершилась.

Когда фоновый процесс зарегистрирован с помощью функции RegisterDynamicBackgroundWorker, сервер, выполняющий регистрацию, может получить информацию о статусе процесса. Бэкэнды, желающие сделать это, должны передать адрес BackgroundWorkerHandle * в качестве второго аргумента RegisterDynamicBackgroundWorker. Если процесс успешно зарегистрирован, этот указатель будет инициализирован с непрозрачным дескриптором, который впоследствии может быть передан в GetBackgroundWorkerPid( BackgroundWorkerHandle *, pid_t * ) или TerminateBackgroundWorker( BackgroundWorkerHandle * ) . GetBackgroundWorkerPid может использоваться для опроса статуса процесса: возвращаемое значение BGWH_NOT_YET_STARTED указывает, что процесс еще не был запущен qhbmaster - BGWH_STOPPED указывает, что он был запущен, но больше не работает и BGWH_STARTED указывает, что он в данный момент работает. В этом последнем случае PID также будет возвращен через второй аргумент. TerminateBackgroundWorker заставляет qhbmaster отправлять SIGTERM процессу, если он работает, и отменять его регистрацию, как только он завершится.

В некоторых случаях процесс, который регистрирует фоновый процесс, может дождаться его запуска. Это может быть достигнуто путем инициализации bgw_notify_pid для MyProcPid и последующей передачи BackgroundWorkerHandle * полученного во время регистрации, в WaitForBackgroundWorkerStartup( BackgroundWorkerHandle *handle, pid_t * ). Эта функция будет блокироваться до тех пор, пока qhbmaster не попытается запустить фоновый процесс снова, или пока qhbmaster не прекратит работу. Если фоновый процесс работает, возвращаемое значение будет BGWH_STARTED, а PID будет записан по указанному адресу. В противном случае возвращаемое значение будет BGWH_STOPPED или BGWH_POSTMASTER_DIED .

Процесс также может ожидать выключения фонового процесса, используя WaitForBackgroundWorkerShutdown( BackgroundWorkerHandle *handle ) и передавая BackgroundWorkerHandle * полученный при регистрации. Эта функция будет блокироваться до тех пор, пока не завершится фоновый процесс или qhbmaster не завершит работу. Когда фоновый процесс завершает работу, возвращаемое значение будет BGWH_STOPPED, если qhbmaster завершится, он вернет BGWH_POSTMASTER_DIED.

Если фоновый процесс отправляет асинхронные уведомления с помощью команды NOTIFY через интерфейс программирования сервера SPI, он должен явно вызывать ProcessCompletedNotifies после ProcessCompletedNotifies включающей транзакции, чтобы можно было доставлять любые уведомления. Если фоновый процесс регистрируется для получения асинхронных уведомлений с LISTEN через SPI, процесс регистрирует эти уведомления, но у него нет программного способа перехватывать и отвечать на эти уведомления.

Максимальное количество зарегистрированных фоновых процессов ограничено параметров max_worker_processes.

Процесс qhb

qhb - сервер базы данных QHB

Синтаксис

qhb [option...]

или

qhbmaster [option...]

Описание

qhb - это сервер базы данных QHB. Чтобы клиентское приложение получило доступ к базе данных, оно подключается (по сети или локально) к работающему экземпляру qhb. Затем экземпляр qhb запускает отдельный процесс сервера для обработки соединения.

Один экземпляр qhb всегда управляет данными только одного кластера базы данных. Кластер баз данных - это набор баз данных, который хранится в общей папке файловой системы («область данных»). В системе одновременно может работать несколько экземпляров qhb, если они используют разные области данных и разные коммуникационные порты (см. ниже). Когда qhb запускается, он должен знать местоположение области данных. Местоположение должно быть указано с помощью опции -D или переменной среды PGDATA - значение по умолчанию отсутствует. Как правило, -D или PGDATA указывает непосредственно на каталог области данных, созданный qhb_bootstrap. Другие возможные шаблоны файлов обсуждаются в главе Расположение файлов.

По умолчанию qhb запускается на консоли и печатает сообщения журнала в стандартный поток ошибок. В продуктивном окружении qhb должен запускаться как фоновый процесс, возможно, во время загрузки системы.

Команда qhb также может быть вызвана в однопользовательском режиме. Основное использование этого режима во время начального создания базы при помощи qhb_bootstrap. Иногда этот режим используется для отладки или аварийного восстановления; обратите внимание, что использование однопользовательского режима не совсем подходит для полноценной отладки сервера, так как не будет реалистичного межпроцессного взаимодействия, блокировок и т.п. При вызове в однопользовательском режиме из оболочки пользователь может вводить запросы, и результаты будут выводиться на экран, но в форме, которая более полезна для разработчиков, чем для конечных пользователей. В однопользовательском режиме пользователь сеанса будет установлен на пользователя с ID 1, и этому пользователю будут предоставлены неявные полномочия суперпользователя. Этот пользователь фактически не должен существовать, поэтому однопользовательский режим можно использовать для ручного восстановления после определенных видов случайного повреждения системных каталогов.

Параметры

qhb принимает следующие аргументы командной строки. Для подробного обсуждения вариантов обратитесь к разделу Конфигурация сервера. Вы можете сохранить ввод большинства этих параметров, настроив файл конфигурации. Некоторые (безопасные) параметры также могут быть установлены из подключающегося клиента в зависимости от приложения, чтобы применяться только для этого сеанса. Например, если установлена переменная среды PGOPTIONS, клиенты на основе libpq передадут эту строку на сервер, который будет интерпретировать ее как параметры командной строки qhb.

Общие параметры

Параметр	Описание
-B nbuffers	Устанавливает количество общих буферов для использования процессами сервера. Значение по умолчанию для этого параметра выбирается автоматически qhb_bootstrap. Указание этой опции эквивалентно установке параметра конфигурации shared_buffers
-c name = value	Устанавливает именованный параметр времени выполнения. Параметры конфигурации, поддерживаемые QHB, описаны в главе 19. Большинство других параметров командной строки на самом деле являются краткими формами такого назначения параметров. -c может появляться несколько раз для установки нескольких параметров
-C name	Печатает значение указанного параметра времени выполнения и завершает работу. (Подробности смотрите в опции -c выше.) Это может быть использовано на работающем сервере и возвращает значения из qhb.conf, модифицированные любыми параметрами, предоставленными в этом вызове. Он не отражает параметры, предоставленные при запуске кластера. Этот параметр предназначен для других программ, которые взаимодействуют с экземпляром сервера, например qhb_ctl, для запроса значений параметров конфигурации. Пользовательские приложения должны вместо этого использовать SHOW или представление pg_settings
-d debug-level	Устанавливает уровень отладки. Чем выше установлено это значение, тем больше выходных данных отладки записывается в журнал сервера. Значения находятся в диапазоне от 1 до 5. Также возможно передать -d 0 для определенного сеанса, что предотвратит распространение уровня журнала родительского процесса qhb на этот сеанс
-D datadir	Определяет расположение файловой системы файлов конфигурации базы данных
-e	Устанавливает стиль даты по умолчанию « Европейский », то есть DMY порядок полей ввода даты. Это также приводит к тому, что день печатается до месяца в определенных форматах вывода даты
-F	Отключает вызовы fsync для повышения производительности, что может привести к повреждению данных в случае сбоя системы. Указание этого параметра эквивалентно отключению параметра конфигурации fsync. Прочтите подробную документацию перед использованием!
-h hostname	Указывает IP-имя хоста или адрес, по которому qhb должен прослушивать соединения TCP / IP от клиентских приложений. Значением также может быть список адресов через запятую или * для указания прослушивания на всех доступных интерфейсах. Пустое значение указывает, что не прослушивается ни один IP-адрес, и в этом случае для подключения к серверу могут использоваться только сокеты Unix-домена. По умолчанию прослушивание только на локальном хосте. Указание этой опции эквивалентно установке параметра конфигурации listen_addresses
-i	Позволяет удаленным клиентам подключаться через соединения TCP / IP (интернет-домен). Без этой опции принимаются только локальные соединения. Эта опция эквивалентна установке listen_addresses * в qhb.conf или через -h .Эта опция устарела, так как она не позволяет получить доступ ко всем функциям listen_addresses. Обычно лучше установить listen_addresses напрямую
-k directory	Указывает каталог сокета Unix-домена, в котором qhb должен прослушивать соединения от клиентских приложений. Значение также может быть разделенным запятыми списком каталогов. Пустое значение указывает, что прослушивание не происходит ни в одном из сокетов Unix-домена, и в этом случае для подключения к серверу могут использоваться только сокеты TCP / IP. Значением по умолчанию обычно является /tmp, но его можно изменить во время сборки. Указание этой опции эквивалентно установке параметра конфигурации unix_socket_directories
-l	Включает безопасные соединения с использованием SSL. QHB должен быть скомпилирован с поддержкой SSL, чтобы эта опция была доступна
-N max-connections	Устанавливает максимальное количество клиентских подключений, которые принимает этот сервер. Значение по умолчанию для этого параметра выбирается автоматически qhb_bootstrap. Указание этой опции эквивалентно установке параметра конфигурации max_connections
-o extra-options	Аргументы в стиле командной строки, указанные в extra-options, передаются всем процессам сервера, запущенным этим процессом qhb. Пробелы внутри extra-options считаются отдельными аргументами, если они не экранированы обратной косой чертой ( \ ) - написать `\\` для представления буквального символа обратного слеша. Несколько аргументов также могут быть указаны с помощью многократного использования -o .Использование этой опции устарело- все параметры командной строки для серверных процессов можно указать непосредственно в командной строке qhb
-p port	Указывает порт TCP / IP или расширение файла локального сокета домена Unix, на котором qhb должен прослушивать соединения от клиентских приложений. По умолчанию используется значение переменной среды PGPORT или, если PGPORT не установлен, то по умолчанию используется значение, установленное во время компиляции (обычно 5432). Если вы указываете порт, отличный от порта по умолчанию, то все клиентские приложения должны указывать один и тот же порт, используя либо параметры командной строки, либо PGPORT
-s	Выводит информацию о времени и другую статистику в конце каждой команды. Это полезно для бенчмаркинга или для настройки количества буферов.
-S work-mem	Определяет объем памяти, который будет использоваться внутренними сортировками и хэшами перед использованием временных файлов на диске
-V	Показать версию qhb и выйти
--name = value	Устанавливает именованный параметр времени выполнения - более короткая форма -c
--describe-config	Эта опция выводит внутренние переменные конфигурации сервера, описания и значения по умолчанию в формате COPY разделителями табуляцией. Он предназначен в первую очередь для использования инструментами администрирования
-?	Показать справку об аргументах командной строки qhb и выйти

Параметры для разработки

Описанные здесь параметры используются в основном для целей отладки, а в некоторых случаях для помощи в восстановлении сильно поврежденных баз данных. Не должно быть никаких причин использовать их в настройке производственной базы данных. Они перечислены здесь только для использования разработчиками системы QHB. Кроме того, эти параметры могут быть изменены или удалены в будущем выпуске без предварительного уведомления.

Параметр	Описание
-f { s i o b t n m h }	Запрещает использование определенных методов сканирования и объединения: s и i отключают последовательное и индексное сканирование соответственно, o, b и t отключают сканирование только по индексу, сканирование по растровому индексу и сканирование TID соответственно, в то время как n, m и h отключают nested- loop, merge и hash присоединяются соответственно.Ни последовательное сканирование, ни объединение с вложенным циклом не могут быть полностью отключены; параметры -fs и -fn просто не -fn оптимизатору использовать эти типы планов, если у него есть какая-либо другая альтернатива
-n	Эта опция предназначена для отладки проблем, которые приводят к аварийному завершению процесса сервера. Обычная стратегия в этой ситуации состоит в том, чтобы уведомить все другие серверные процессы о том, что они должны завершиться, а затем повторно инициализировать общую память и семафоры. Это связано с тем, что ошибочный процесс на сервере мог повредить некоторое общее состояние перед завершением. Эта опция указывает, что qhb не будет повторно инициализировать общие структуры данных. Опытный системный программист может затем использовать отладчик для проверки состояния совместно используемой памяти и семафора
-O	Позволяет изменять структуру системных таблиц. Это используется qhb_bootstrap
-P	Игнорируйте системные индексы при чтении системных таблиц, но обновляйте индексы при изменении таблиц. Это полезно при восстановлении с поврежденных системных индексов
-t pa	Вывести статистику по времени для каждого запроса, относящегося к каждому из основных системных модулей. Эта опция не может использоваться вместе с опцией -s
-T	Эта опция предназначена для отладки проблем, которые приводят к аварийному завершению процесса сервера. Обычная стратегия в этой ситуации состоит в том, чтобы уведомить все другие серверные процессы о том, что они должны завершиться, а затем повторно инициализировать общую память и семафоры. Это связано с тем, что ошибочный процесс на сервере мог повредить некоторое общее состояние перед завершением. Эта опция указывает, что qhb остановит все другие процессы сервера, отправив сигнал SIGSTOP, но не приведет к их завершению. Это позволяет системным программистам собирать дампы ядра всех процессов сервера вручную.
-v protocol	Задает номер версии протокола внешнего / внутреннего интерфейса, который будет использоваться для определенного сеанса. Эта опция предназначена только для внутреннего использования
-W seconds	Задержка, равная многим секундам, возникает при запуске нового серверного процесса после проведения процедуры аутентификации. Это сделано для того, чтобы дать возможность подключить к серверу процесс с помощью отладчика

Параметры для однопользовательского режима

Следующие параметры применимы только к однопользовательскому режиму (см. Однопользовательский режим).

Параметр	Описание
--single	Выбирает однопользовательский режим. Это должен быть первый аргумент в командной строке.
database	Определяет имя базы данных для доступа. Это должен быть последний аргумент в командной строке. Если он опущен, по умолчанию используется имя пользователя.
-E	Выведите все команды на стандартный вывод перед их выполнением.
-j	Используйте точку с запятой, за которой следуют две новые строки, а не просто новая, в качестве ограничителя ввода команды.
-r filename	Отправьте весь вывод журнала сервера на filename. Эта опция учитывается только в том случае, если она указана в командной строке.

Переменные окружения

Переменная	Описание
PGCLIENTENCODING	Кодировка символов по умолчанию, используемая клиентами. (Клиенты могут переопределить это индивидуально.) Это значение также можно установить в файле конфигурации.
PGDATA	Местоположение каталога данных по умолчанию
PGDATESTYLE	Значение по умолчанию для параметра времени выполнения DateStyle. (Использование этой переменной среды устарело.)
PGPORT	Номер порта по умолчанию (желательно установить в файле конфигурации)

Диагностика

Сообщение об ошибке, в котором упоминается semget или shmget, вероятно, указывает на то, что вам необходимо настроить ядро для предоставления достаточной общей памяти и семафоров. Вы можете отложить перенастройку ядра, уменьшив параметр shared_buffers, чтобы уменьшить потребление разделяемой памяти QHB, и / или уменьшить max_connections, чтобы уменьшить потребление семафора.

Сообщение об ошибке, указывающее на то, что другой сервер уже запущен, следует тщательно проверить, например, с помощью команды

$ ps ax | grep qhb

или

$ ps -ef | grep qhb

в зависимости от вашей системы. Если вы уверены, что конфликтующий сервер не запущен, вы можете удалить файл блокировки, указанный в сообщении, и повторить попытку.

Сообщение об ошибке, указывающее на невозможность привязки к порту, может указывать на то, что этот порт уже используется некоторым процессом, не связанным с QHB. Вы также можете получить эту ошибку, если завершите работу QHB и немедленно перезапустите его, используя тот же порт; в этом случае вы должны просто подождать несколько секунд, пока операционная система не закроет порт, прежде чем пытаться снова. Наконец, вы можете получить эту ошибку, если указать номер порта, который ваша операционная система считает зарезервированным. Например, многие версии Unix считают номера портов менее 1024 «доверенными» и разрешают только суперпользователю Unix доступ к ним.

Примечания

Командную утилиту qhb_ctl можно использовать для безопасного и удобного запуска и выключения сервера qhb.

Если это вообще возможно, не используйте SIGKILL для уничтожения основного сервера qhb. Это предотвратит освобождение qhb системных ресурсов (например, разделяемой памяти и семафоров), которые он хранит до завершения. Это может вызвать проблемы при запуске нового экземпляра qhb.

Для нормального завершения работы сервера qhb можно использовать сигналы SIGTERM, SIGINT или SIGQUIT. Первый будет ожидать завершения работы всех клиентов перед выходом, второй принудительно отключит все клиенты, а третий немедленно завершит работу без надлежащего завершения работы, что приведет к запуску восстановления во время перезапуска.

Сигнал SIGHUP перезагрузит файлы конфигурации сервера. Также возможно отправить SIGHUP на отдельный процесс сервера, но это обычно не имеет смысла.

Чтобы отменить текущий запрос, отправьте сигнал SIGINT процессу, выполняющему эту команду. Чтобы завершить внутренний процесс, отправьте SIGTERM этому процессу. Смотрите также pg_cancel_backend и pg_terminate_backend в главе Функции сигнализации сервера для вызываемых SQL эквивалентов этих двух действий.

Сервер qhb использует SIGQUIT, чтобы указать подчиненным процессам сервера завершиться без обычной очистки. Этот сигнал не должен использоваться пользователями. Также неразумно отправлять SIGKILL на серверный процесс - основной процесс qhb будет интерпретировать это как сбой и заставит все родственные процессы завершиться как часть стандартной процедуры восстановления после сбоя.

Ошибки

Однопользовательский режим

Чтобы запустить сервер в однопользовательском режиме, используйте команду, например

qhb --single -D /usr/local/qhb/data other-options my_database

Укажите правильный путь к каталогу базы данных с помощью -D или убедитесь, что установлена переменная среды PGDATA. Также укажите имя конкретной базы данных, в которой вы хотите работать.

Обычно сервер однопользовательского режима обрабатывает символ новой строки как окончание ввода команды - о точка с запятой не является синтаксическим разделителем, как в qsql. Чтобы продолжить команду через несколько строк, надо использовать обратную косую черту перед каждой новой строкой, кроме последней. Обратная косая черта и соседний символ новой строки удаляются из команды ввода. Обратите внимание, что это произойдет, даже внутри строкового литерала или комментария.

Но если вы используете ключ командной строки -j, одиночная новая строка не завершает ввод команды, вместо этого используется последовательность: точка с запятой - и начало новой строки. То есть введите точку с запятой, за которой сразу следует полностью пустая строка. Обратная косая черта и последующая новая строка не обрабатывается специально в этом режиме. Опять же, нет никаких гарантий если такая последовательность появляется внутри строкового литерала или комментария.

В любом из режимов ввода, если вы вводите точку с запятой, которая не является предшествующей или является частью окончания ввода команды, она считается разделителем команд. Когда вы вводите окончание ввода команды, несколько введенных вами операторов будут выполняться как одна транзакция.

Чтобы выйти из сеанса, введите EOF (обычно Control + D). Если вы ввели какой-либо текст со времени последнего терминатора ввода команды, тогда EOF будет принят как терминатор ввода команды, и для выхода потребуется другой EOF.

Обратите внимание, что сервер однопользовательского режима не предоставляет сложных функций редактирования строк (например, без истории команд). В однопользовательском режиме также не выполняется фоновая обработка, например автоматические контрольные точки или репликация.

Примеры

Чтобы запустить qhb в фоновом режиме, используя значения по умолчанию, введите:

$ nohup qhb >logfile 2>&1 </dev/null &

Чтобы запустить qhb с определенным портом, например, 1234:

$ qhb -p 1234

Чтобы подключиться к этому серверу с помощью qsql, укажите этот порт с параметром -p:

$ qsql -p 1234

или установите переменную окружения PGPORT :

$ export PGPORT=1234
$ qsql

Именованные параметры времени выполнения могут быть установлены в любом из следующих стилей:

$ qhb -c work_mem=1234
$ qhb --work-mem=1234

Любая форма переопределяет любую настройку для work_mem в qhb.conf. Обратите внимание, что подчеркивания в именах параметров могут быть записаны как подчеркивание или тире в командной строке. За исключением краткосрочных экспериментов, вероятно, лучше отредактировать параметр в qhb.conf чем полагаться на параметр командной строки для установки параметра.

Смотрите Также

qhb_bootstrap, qhb_ctl

Системные каталоги

Системные каталоги — это место, где система управления реляционными базами данных хранит метаданные схемы, такие как сведения о таблицах и столбцах, а также информацию о внутреннем бухгалтерском учете. Системные каталоги QHB — это обычные таблицы. Вы можете удалить и пересоздать их, добавить столбцы, вставить и обновить значения — и тем самым сильно испортить свою систему. В большинстве случаев не следует изменять системные каталоги вручную, для этого обычно существуют команды SQL. (Например, CREATE DATABASE вставляет строку в каталог pg_database и фактически создает базу данных на диске.) Есть некоторые исключения для особенно сложных операций, но многие из них с течением времени становятся доступны в виде команд SQL, и поэтому необходимость в прямом манипулировании системными каталогами постоянно уменьшается.

Обзор

В таблице Системные каталоги перечислены системные каталоги. Более подробная документация по каждому каталогу приводится ниже.

Большинство системных каталогов копируются из шаблона базы данных во время ее создания и затем зависят от конкретной базы данных. Несколько каталогов физически совместно используются во всех базах данных в кластере — они отмечаются в описаниях отдельных каталогов.

Таблица: Системные каталоги

имя каталога	Цель
pg_aggregate	агрегатные функции
pg_am	методы доступа отношений
pg_amop	операторы метода доступа
pg_amproc	функции поддержки метода доступа
pg_attrdef	значения столбца по умолчанию
pg_attribute	столбцы таблицы («атрибуты»)
pg_authid	идентификаторы авторизации (роли)
pg_auth_members	отношения членства идентификатора авторизации
pg_cast	приведения (преобразования типов данных)
pg_class	таблицы, индексы, последовательности, представления («отношения»)
pg_collation	параметры сортировки (сведения о локали)
pg_constraint	проверочные ограничения, ограничения уникальности, ограничения первичного ключа, ограничения внешнего ключа
pg_conversion	кодирование информация о преобразовании
pg_database	базы данных в этом кластере
pg_db_role_setting	параметры для каждой роли и базы данных
pg_default_acl	права доступа по умолчанию для типов объектов
pg_depend	зависимости между объектами базы данных
pg_description	описания или комментарии объектов базы данных
pg_enum	определения меток и значений перечислений
pg_event_trigger	триггеры событий
pg_extension	установленные расширения
pg_foreign_data_wrapper	определения оберток сторонних данных
pg_foreign_server	определения сторонних серверов
pg_foreign_table	дополнительная информация по сторонней таблице
pg_index	дополнительная информация по индексам
pg_inherits	иерархия наследования таблиц
pg_init_privs	начальные права объекта
pg_language	языки для написания функций
pg_largeobject	страницы данных для больших объектов
pg_largeobject_metadata	метаданные для больших объектов
pg_namespace	схемы
pg_opclass	классы операторов метода доступа
pg_operator	операторы
pg_opfamily	семейства операторов метода доступа
pg_partitioned_table	информация о ключе разбиения таблиц
pg_policy	политики защиты на уровне строк
pg_proc	функции и процедуры
pg_publication	публикации для логической репликации
pg_publication_rel	сопоставление отношения с публикацией
pg_range	информация о типах диапазонов
pg_replication_origin	зарегистрированные источники репликации
pg_rewrite	правила перезаписи запроса
pg_seclabel	метки безопасности для объектов базы данных
pg_sequence	информация о последовательностях
pg_shdepend	зависимости от общих объектов
pg_shdescription	комментарии к общим объектам
pg_shseclabel	метки безопасности для общих объектов базы данных
pg_statistic	статистика планировщика
pg_statistic_ext	расширенная статистика планировщика (определение)
pg_statistic_ext_data	расширенная статистика планировщика (собранная статистика)
pg_subscription	подписки на логическую репликацию
pg_subscription_rel	состояние связи для подписок
pg_tablespace	табличные пространства в кластере базы данных
pg_transform	преобразования (преобразование типа данных в процедурный язык)
pg_trigger	триггеры
pg_ts_config	конфигурации текстового поиска
pg_ts_config_map	сопоставления маркеров конфигураций текстового поиска
pg_ts_dict	словари текстового поиска
pg_ts_parser	анализаторы текстового поиска
pg_ts_template	шаблоны текстового поиска
pg_type	типы данных
pg_user_mapping	сопоставления пользователей для сторонних серверов

pg_aggregate

Каталог pg_aggregate хранит информацию об агрегатных функциях. Агрегатная функция — это функция, которая работает с набором значений (как правило, с одним столбцом из каждой строки, которая соответствует условию запроса) и возвращает одно значение, вычисленное из всех этих значений. Типичными агрегатными функциями являются sum, count и max. Каждая запись внутри pg_aggregate представляет собой расширение записи в pg_proc. Запись в pg_proc содержит имя агрегата, типы входных и выходных данных, а также другую информацию, аналогичную имеющейся у обычных функций.

Столбцы pg_aggregate

Имя	Тип	Ссылки	Описание
aggfnoid	regproc	pg_proc.oid	OID агрегатной функции в pg_proc
aggkind	char		Вид агрегатной функции: n для обычной (normal), o для сортирующей (ordered-set) или h для гипотезирующей (hypothetical-set)
aggnumdirectargs	int2		Число прямых (неагрегированных) аргументов сортирующей или гипотезирующей агрегатной функции, считая переменный массив аргументов за один аргумент. Если равняется pronargs, агрегатная функция должна принимать переменный массив, и этот массив описывает как агрегированные аргументы, так и конечные прямые аргументы. Всегда равно 0 для обычных агрегатных функций.
aggtransfn	regproc	pg_proc.oid	Функция перехода
aggfinalfn	regproc	pg_proc.oid	Функция завершения (0, если ее нет)
aggcombinefn	regproc	pg_proc.oid	Функция совмещения (0, если ее нет)
aggserialfn	regproc	pg_proc.oid	Функция сериализации (0, если ее нет)
aggdeserialfn	regproc	pg_proc.oid	Функция десериализации (0, если ее нет)
aggmtransfn	regproc	pg_proc.oid	Функция прямого перехода для режима движущегося агрегата (0, если ее нет)
agminvtransfn	regproc	pg_proc.oid	Функция обратного перехода для режима движущегося агрегата (0, если ее нет)
aggmfinalfn	regproc	pg_proc.oid	Функция завершения для режима движущегося агрегата (0, если ее нет)
aggfinalextra	bool		При значении true в aggfinalfn передаются дополнительные фиктивные аргументы
aggmfinalextra	bool		При значении true в aggmfinalfn передаются дополнительные фиктивные аргументы
aggfinalmodify	char		Изменяет ли aggfinalfn значение состояния перехода: r, если состояние доступно только для чтения, s, если aggtransfn не может быть применена после *aggfinalfn, или w, если состояние перезаписывается
aggmfinalmodify	char		Сходно с aggfinalmodify, но для самого aggmfinalfn
aggsortop	oid	pg_operator.oid	Связанный оператор сортировки (0, если его нет)
aggtranstype	oid	pg_type.oid	Тип данных внутреннего перехода (состояния) агрегатной функции
aggtransspace	int4		Приблизительный средний размер (в байтах) данных о состоянии перехода или 0 для использования оценки по умолчанию
aggmtranstype	oid	pg_type.oid	Тип данных внутреннего перехода (состояния) агрегатной функции для режима движущегося агрегата (0, если его нет)
aggmtransspace	int4		Приблизительный средний размер (в байтах) данных о состоянии перехода для режима движущегося агрегата или 0 для использования оценки по умолчанию
agginitval	text		Начальное значение переходного состояния. Это текстовое поле, содержащее начальное значение во внешнем строковом представлении. Если это поле имеет значение NULL, то значение состояния перехода начнется с NULL*.
agginitval	text		Начальное значение переходного состояния для режима движущегося агрегата. Это текстовое поле, содержащее начальное значение во внешнем строковом представлении. Если это поле имеет значение NULL, то значение состояния перехода начнется с NULL.

Новые агрегатные функции регистрируются с помощью команды CREATE AGGREGATE. Дополнительную информацию о написании агрегатных функций и значении функций перехода см. в разделе Пользовательские агрегаты.

pg_am

Каталог pg_am хранит информацию о методах доступа к отношениям. Существует одна строка для каждого метода доступа, поддерживаемого системой. В настоящее время только таблицы и индексы имеют методы доступа. Требования к методам доступа к таблицам и индексам подробно рассматриваются в главах Интерфейс доступа к таблице и Интерфейс доступа индекса соответственно.

Столбцы pg_am

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
amname	name		Имя метода доступа
amhandler	regproc	pg_proc.oid	OID функции обработчика, ответственного за предоставление информации о методе доступа
amtype	char		t = таблица (включая материализованные представления), i = индекс.

Примечание
Данные о свойствах индексных методов доступа напрямую видны только на уровне кода С. Однако запросы SQL могут проверять эти свойства с помощью pg_index_column_has_property() и связанных функций.

pg_amop

Каталог pg_amop хранит информацию об операторах, связанных с семействами операторов метода доступа. Существует одна строка для каждого оператора, который является членом семейства операторов. Членом семейства может быть либо оператор поиска, либо оператор упорядочивания. Оператор может принадлежать нескольким семействам, но в пределах одного семейства не может находиться более чем в одной позиции поиска или позиции упорядочивания. (Допустимо, хотя и маловероятно, что оператор будет использоваться как для поиска, так и для сравнения.)

Столбцы pg_amop

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
amopfamily	oid	pg_opfamily.oid	Семейство операторов, для которых эта запись предназначена
amoplefttype	oid	pg_type.oid	Левый тип входных данных оператора
amoprighttype	oid	pg_type.oid	Правый тип входных данных оператора
amopstrategy	int2		Номер стратегии оператора
amoppurpose	char		Назначение оператора: s для поиска, о для сравнения
amopopr	oid	pg_operator.oid	OID оператора
amopmethod	oid	pg_am.oid	Семейство операторов метода индексного доступа
amopsortfamily	oid	pg_opfamily.oid	Семейство операторов B-дерева, в соответствии с которым данный оператор сортирует, если это оператор упорядочивания, и 0, если это оператор поиска

Запись оператора «поиска» указывает, что индекс этого семейства операторов может быть использован для поиска всех строк, удовлетворяющих требованию WHERE столбец_индекса оператор константа. Очевидно, что такой оператор должен вернуть тип boolean, а тип его левого операнда должен соответствовать типу данных столбца индекса.

Запись оператора «упорядочивания» указывает, что индекс этого семейства операторов может быть отсканирован для возврата строк в порядке, представленном ORDER BY столбец_индекса оператор константа. Такой оператор может возвращать любой сортируемый тип данных, хотя, опять же, тип его левого операнда должен соответствовать типу данных столбца индекса. Точная семантика выражения ORDER BY определяется по столбцу amopsortfamily, который должен указывать на семейство операторов B-дерева для типа, возвращаемого оператором.

Примечание
В настоящее время предполагается, что порядок сортировки для оператора упорядочивания является значением по умолчанию для указанного семейства операторов, т. е. ASC NULLS LAST. Возможно, когда-нибудь для придания большей гибкости будут добавлены дополнительные столбцы, чтобы явно указать параметры сортировки.

Поле amopmethod в записи оператора должно соответствовать полю opfmethod содержащего его семейства операторов (в данном случае включение amopmethod является преднамеренной денормализацией структуры каталога из соображений производительности). Кроме того, поля amoplefttype и amoprighttype должны соответствовать полям oprleft и oprright соответствующей записи в pg_operator.

pg_amproc

Каталог pg_amproc хранит информацию о функциях поддерживаемых оператором и связанных с семействами операторов метода доступа. Существует одна строка для каждой опорной функции, принадлежащей семейству операторов.

pg_amproc столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
amprocfamily	oid	pg_opfamily.oid	Семейство операторов для которых предназначается эта запись
amproclefttype	oid	pg_type.oid	Левый тип входных данных ассоциированного оператора
amprocrighttype	oid	pg_type.oid	Правый тип входных данных ассоциированного оператора
amprocnum	int2		Номер поддерживаемой функции
amproc	regproc	pg_proc.oid	OID функции

Пояснить эту структуру можно так amproclefttype и amprocrighttype поля - которые идентифицируют левый и правый типы входных данных оператора(ов), поддерживающие определенную функцию. Для некоторых методов доступа они соответствуют типам входных данных самой функции, для других-нет. Существует понятие функции для индекса "по умолчанию" это такая функция, для которой amproclefttype и amprocrighttype оба равны классу оператора индекса opcintype.

pg_attrdef

Каталог pg_attrdef сохраняет значения столбца по умолчанию. Основная информация о столбцах хранится в каталоге pg_attribute. Только столбцы, для которых значение по умолчанию было явно установлено, хранятся в этом каталоге.

pg_attrdef столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
adrelid	oid	pg_class.oid	Таблица, к которой принадлежит этот столбец
adnum	int2	pg_attribute.attnum	Номер столбца:
adbin	pg_node_tree		Значение столбца по умолчанию, в nodeToString() представлении. Воспользуйтесь pg_get_expr(adbin, adrelid) чтобы преобразовать его в выражение SQL.

pg_attribute

Каталог pg_attribute хранит информацию о столбцах таблицы. Хранится ровно одна строка для каждого столбца в каждой таблице базы данных. (Также хранятся записи атрибутов для индексов, и всех объектов, которые имеют записи в pg_class).

Термин атрибут эквивалентен столбцу и используется по историческим причинам.

pg_attribute столбцы

Имя	Тип	Ссылки	Описание
attrelid	oid	pg_class.oid	Таблица, к которой принадлежит этот столбец
attname	name		Имя столбца
atttypid	oid	pg_type.oid	Тип данных этого столбца
attstattarget	int4		attstattarget управляет уровнем детализации статистики, накопленной для данного столбца методом ANALYZE. Нулевое значение указывает на то, что статистика не должна собираться. Отрицательное значение указывает на использование статистики по умолчанию. Точное значение положительных значений зависит от типа данных. Для скалярных типов данных, attstattarget является как числом "наиболее распространенных значений" для сбора, так и числом ячеек гистограммы для создания.
attlen	int2		Копия pg_type.typlen типа этого столбца
attnum	int2		Номер столбца. Обычные столбцы пронумерованы от 1 и выше. Системные столбцы, такие как ctid, имеют (произвольные) отрицательные числа.
attndims	int4		Число измерений, если столбец имеет тип массива; в противном случае 0. (В настоящее время число измерений массива не обязательно, поэтому любое ненулевое значение означает “это массив”.)
attcacheof	int4		Всегда -1 в хранилище, но при загрузке в дескриптор строки в памяти он может быть обновлен для кэширования смещения атрибута в строке
atttypmod	int4		atttypmod записи специфичные для типа данных, предоставляемых во время создания таблицы (например, максимальная длина для varchar) Передается в функции ввода определенного типа и функции ограничения длины. Значение обычно будет равно -1 для типов, которые не нуждаются в atttypmod.
attbyval	bool		Копия pg_type.typbyval типа этого столбца
attstorage	char		Обычно это копия pg_type.typsize типа этого столбца. Для TOAST типов данных этот атрибут можно изменить после создания столбца для управления политикой хранения.
attalign	char		Копия pg_type.typalign типа этого столбца
attnotnull	bool		Ограничение not-null.
atthasdef	bool		Показывает, что столбец имеет выражение по умолчанию или выражение генерации, в этом случае будет соответствующая запись в поле pg_attrdef из каталога, который фактически определяет выражение. (Необходимо проверять attgenerated чтобы определить, является ли это выражение по умолчанию или значение.)
atthasmissing	bool		Показывает, что столбец имеет значение, которое используется, когда столбец полностью отсутствует в строке, это происходит, когда столбец добавляется с значением ПО УМОЛЧАНИЮ после создания строки. Используемое фактическое значение хранится в колонке attmissingval .
attidentity	char		Если пусто (”), то столбец идентификаторов отсутствует. Иначе, a = генерируется всегда, d = генерируется по умолчанию.
attgenerated	char		Если пусто (”), то столбец не сгенерированный. Иначе, с = на хранении. (В будущем могут быть добавлены и другие значения.)
attisdropped	bool		Этот столбец был удален и больше не является допустимым. Удалённый столбец все еще физически присутствует в таблице, но игнорируется синтаксическим анализатором и поэтому не может быть доступен через SQL.
attislocal	bool		Этот столбец определяется локально в отношении. Обратите внимание, что столбец может быть локально определен и унаследован одновременно.
attinhcount	int4		Число прямых предков, которые есть в этой колонке. Столбец с ненулевым числом предков нельзя удалить или переименовать.
attcollation	oid	pg_collation.oid	Заданные параметры сортировки столбца или ноль, если столбец не является типом данных с возможностью сортировки.
attacl	aclitem[]		Права доступа на уровне столбца, если они были предоставлены специально для этого столбца
attoptions	text[]		Параметры уровня атрибута, в виде строки "ключ=значение"
attfdwoptions	text[]		Параметры внешней оболочки данных уровня атрибута, в виде строки "ключ=значение"
attmissingval	anyarray		Этот столбец имеет массив из одного элемента, содержащий значение, используемое, когда столбец полностью отсутствует в строке, как это происходит, когда в столбец добавляется значение по умолчанию после создания строки. Значение используется только тогда, когда atthasmissing установлен в true. Если значение отсутствует, столбец имеет значение null.

Для удалённого(ых) столбца(ов) в pg_attribute, atttypid колонка сбрасывается в null, но attlen а остальные поля скопированные из pg_type все еще действительны. Это необходимо, чтобы справиться с ситуацией, когда тип данных удалённого столбца был позже удалён, и поэтому не существует соответствующий pg_type и не возникает конфликта при повторном использовании OID, а attlen и другие поля можно использовать для интерпретации содержимого строки таблицы.

pg_authid

Каталог pg_authid содержит информацию об идентификаторах авторизации базы данных (ролях). Роль включает в себя понятия “пользователи” и “группы”. Пользователь-это просто роль с установленным флагом rolcanlogin. Любая роль (С или без rolcanlogin) может иметь другие роли в качестве членов - см. pg_auth_members.

Поскольку этот каталог содержит пароли, он не должен быть общедоступным для чтения. pg_roles-это публично доступное представление (VIEW) для pg_authid, для того чтобы скрыть поле пароля.

В Роли в базе данных содержатся подробные сведения об управлении правами пользователей и привилегиями.

Поскольку аутентификация пользователей проводится для всего кластера, pg_authid является общим каталогом для всех баз данных кластера: существует только одна копия pg_authid на кластер, а не собственная для каждой базы данных.

pg_authid столбцы

Имя	Тип	Описание
oid	oid	Идентификатор строки
rolname	name	Имя роли
rolsuper	bool	Роль имеет привилегии суперпользователя
rolinherit	bool	Роль автоматически наследует привилегии ролей, членом которых она является
rolcreaterole	bool	Роль может создавать другие роли
rolcreatedb	bool	Роль может создавать базы данных
rolcanlogin	bool	Роль может войти в систему. То есть эта роль может быть задана в качестве идентификатора авторизации начального сеанса
rolreplication	bool	Роль - это роль репликации. Роль репликации может инициировать подключения репликации и создавать и удалять слоты репликации.
rolbypassrls	bool	Роль обходит политику безопасности уровня строки, см. раздел Политики безопасности строк для получения дополнительной информации.
rolconnlimit	int4	Для ролей, которые могут войти в систему, задает максимальное число одновременных подключений, которые может создать эта роль. -1 означает отсутствие ограничений.
rolpassword	text	Пароль (возможно зашифрованный), null, если нет. Формат зависит от используемой формы шифрования.
rolvaliduntil	timestamptz	Срок действия пароля (используется только для аутентификации по паролю); null, если нет срока действия

Для зашифрованного пароля MD5, rolpassword столбец будет начинаться со строки md5 далее следует 32-символьный шестнадцатеричный хэш MD5. Хэш MD5 будет содержать пароль пользователя, связанный с его именем. Например, если пользователь Джо имеет пароль xyzzy, QHB будет хранить хэш md5 из xyzzyjoe.

Если пароль зашифрован с помощью SCRAM-SHA-256, он имеет следующий формат:

SCRAM-SHA-256$<iteration count>:<salt>$<StoredKey>:<ServerKey>

где salt, StoredKey и ServerKey строки в формате Base64. Этот формат совпадает с форматом, указанным в документе RFC5803.

Пароль, который не соответствует ни одному из этих форматов, считается незашифрованным.

pg_auth_members

Каталог pg_auth_members содержит отношения членства между ролями. Допускается любой нециклический набор отношений.

Поскольку авторизация пользователей является кластерной, pg_auth_members является общим каталогом для всех баз данных кластера: существует только одна копия pg_auth_members на кластер, а не для каждой базы данных.

pg_auth_members столбцы

Имя	Тип	Ссылки	Описание
roleid	oid	pg_authid.oid	Идентификатор роли, имеющей участника
member	oid	pg_authid.oid	Идентификатор роли, которая является членом roleid
grantor	oid	pg_authid.oid	Идентификатор роли, предоставившей это членство
admin_option	bool		True, если member может предоставить членство в компании roleid для других

pg_cast

Каталог pg_cast хранит пути преобразования типов данных, как встроенные, так и определяемые пользователем.

Следует отметить, что pg_cast не содержит все преобразования типов, которые система умеет выполнять, а только те, которые не могут быть выведены из некоторого общего правила. Например, приведение между доменом и его базовым типом явно не представлено в виде pg_cast. Еще одним важным исключением является то, что каталог pg_cast не содержит "автоматическое преобразование ввода-вывода", те преобразования, которые выполняются с использованием собственных функций ввода-вывода типа данных для преобразования в/из текста или других строковых типов, явно не представленные в pg_cast.

pg_cast столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
castsource	oid	pg_type.oid	OID типа исходных данных
casttarget	oid	pg_type.oid	OID целевого типа данных
castfunc	oid	pg_proc.oid	OID функции, которая будет использоваться для выполнения этого приведения. Null, если метод cast не требует функции.
castcontext	char		Указывает, в каких контекстах приведение может быть вызвано - e означает только явное приведение (использование синтаксиса CAST или :: ) а означает неявно при присвоении целевому столбцу, а также явно, i означает неявно в выражениях, а также в других случаях.
castmethod	char		Указывает, как выполняется приведение. а означает, что используется функция, указанная в столбце castfunc, i означает, что используются функции ввода/вывода. b означает, что типы являются двоично-совместимыми, поэтому преобразование не требуется.

Функции, перечисленные в pg_cast должны всегда использовать тип источника приведения в качестве первого аргумента и возвращать тип назначения приведения в качестве типа результата. Приведенная функция может иметь до трех аргументов. Второй аргумент, если он присутствует, должен быть типом integer; он получает модификатор типа, связанный с целевым типом, или -1, если его нет. Третий аргумент, если он присутствует, должен быть логическим типом - он получает значение true если приведение является явным приведением, иначе false.

Возможно создать в pg_cast запись, в которой исходные и целевые типы совпадают, если связанная функция принимает более одного аргумента. Такие функции представляют собой "функции приведения длины", которые принуждают значения типа быть приемлимым для определенного значения модификатора типа.

Когда a pg_cast запись имеет различные исходные и целевые типы, а функция, принимающая более одного аргумента, представляет собой преобразование из одного типа в другой и применение приведения длины за один шаг. Если такая запись недоступна, приведение к типу, использующему модификатор типа, включает два шага: один для преобразования между типами данных и второй для применения модификатора.

pg_class

Каталог pg_class содержит информацию о таблицах и всех других объектах, которые имеет столбцы или иным образом похожи на таблицу. Этот каталог включает в себя индексы (см. также pg_index), последовательности (см. также pg_sequence), представления, материализованные представления, составные типы и таблицы TOAST (см. relkind). Когда мы имеем в виду все эти виды объектов, мы говорим об “отношениях”. Не все столбцы в каталоге имеют значение для всех типов отношений.

pg_class столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
relname	name		Имя таблицы, индекса, представления и т.д.
relnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего это отношение
reltype	oid	pg_type.oid	OID типа данных, который соответствует типу строки этой таблицы, если таковой имеется (ноль для индексов, у которых нет pg_type вход)
reloftype	oid	pg_type.oid	Для типизированных таблиц OID базового составного типа NULL для всех других отношений
relowner	oid	pg_authid.oid	Владелец отношения
relam	oid	pg_am.oid	Если это таблица или индекс, то используется метод доступа (куча, B-дерево, хэш и т. д.)
relfilenode	oid		Имя файла на диске для этого отношения - NULL означает, что это “сопоставленное” отношение, имя файла на диске для которого определяется низкоуровневым состоянием
reltablespace	oid	pg_tablespace.oid	Табличное пространство, в котором хранится это отношение. Если NULL, подразумевается табличное пространство базы данных по умолчанию . (Не имеет смысла, если отношение не имеет файла на диске.)
relpages	int4		Размер представления этой таблицы на диске в страницах (размера BLCKSZ). Это только оценка, используемая планировщиком, столбец обновляется с помощью VACUUM, ANALYZE и нескольких команд DDL, таких как CREATE INDEX.
reltuples	float4		Количество "живых" строк в таблице. Это только оценка, используемая планировщиком. Она обновляется с помощью VACUUM, ANALYZE и нескольких команд DDL, таких как CREATE INDEX.
relallvisible	int4		Количество страниц, отмеченных как все видимые на карте видимости таблицы. Это только оценка, используемая планировщиком. Она обновляется с помощью VACUUM, ANALYZE и нескольких команд DDL, таких как CREATE INDEX.
reltoastrelid	oid	pg_class.oid	OID таблицы TOAST, связанной с этой таблицей, 0, если нет. Таблица TOAST хранит большие атрибуты "вне строки" во вторичной таблице.
relhasindex	bool		True, если это таблица и она имеет (или недавно имела) какие-либо индексы
relisshared	bool		True, если эта таблица является общей для всех баз данных в кластере. Только определенные системные каталоги (такие как pg_database) разделяемы.
relpersistence	char		p = постоянная таблица, u = незарегистрированная таблица, t = временная таблица
relkind	char		r = Обычная таблица, i = индекс, s = последовательность, t = Таблица TOAST, v = представление, m = материализованное представление, c = составной тип, f = внешняя таблица, p = партиционированная таблица, I = партиционированный индекс
relnatts	int2		Количество пользовательских столбцов в связи (системные столбцы не учитываются). Должно быть такое количество соответствующих записей в pg_attribute. См. также pg_attribute.attnum.
relchecks	int2		Количество CHECK (порверок) ограничений для таблицы; см. каталог pg_constraint
relhasrules	bool		True, если таблица имеет (или когда-то имела) правила; см. каталог pg_rewrite
relhastriggers	bool		True, если таблица имеет (или когда-то имела) триггеры; см. каталог pg_trigger
relhassubclass	bool		True, если у таблицы или индекса есть (или когда-то были) "дети" в результате наследования
relrowsecurity	bool		True, если в таблице включена защита на уровне строк; см. каталог pg_policy
relforcerowsecurity	bool		True, если безопасность на уровне строк (если она включена) будет также применяться к владельцу таблицы; см. каталог pg_policy
relispopulated	bool		True, если отношение заполнено (это справедливо для всех отношений, кроме некоторых материализованных представлений)
relreplident	char		Столбцы, используемые для формирования "идентичности реплики" для строк: d = по умолчанию (первичный ключ, если есть), n = ничего, f = все столбцы i = индекс с indisreplident или по умолчанию
relispartition	bool		True, если таблица или индекс является партицией
relrewrite	oid	pg_class.oid	Для новых отношений, записываемых во время операции DDL, которая требует перезаписи таблицы, это содержит OID исходного отношения; в противном случае 0. Это состояние является видимым только dyenhb - это поле никогда не должно содержать ничего, кроме 0 для отношения пользователя.
relfrozenxid	xid		Все идентификаторы транзакций до этого были заменены на постоянный (”замороженный") идентификатор транзакции в этой таблице. Используется для отслеживания того, нужно ли очистить таблицу, чтобы предотвратить "оборачивание" идентификатора транзакции или разрешить уменьшение pg_xact. NULL (InvalidTransactionId) если отношение не является таблицей.
relminmxid	xid		Все идентификаторы multixact перед этим были заменены на постоянный (”замороженный") идентификатор транзакции в этой таблице. Это используется для отслеживания того, нужно ли вакуумировать таблицу, чтобы предотвратить "оборачивание" multixact ID или разрешить уменьшение pg_multixact. Ноль (InvalidMultiXactId) если отношение не является таблицей.
relacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации
reloptions	text[]		Параметры, зависящие от метода доступа, в виде строки "ключ=значение"
relpartbound	pg_node_tree		Если таблица является партицией (см. relispartition), внутреннее представление связанной партиции

Несколько логических флагов внутри pg_class поддерживаются "лениво" : они гарантированно будут истинными, если это правильное состояние, но не сбрасываются на false сразу же, когда условие больше не является истинным. Например, relhasindex устанавливается с помощью CREATE INDEX, но никогда не очищается с помощью DROP INDEX. Вместо этого, вакуум очищает relhasindex если он обнаружит, что таблица не имеет индексов. Это расположение позволяет избежать условий гонки и улучшает параллелизм.

pg_collation

Каталог pg_collation описывает доступные параметры сортировки, которые представляют собой сопоставления между именем SQL и категориями локали операционной системы.

pg_collation столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
collname	name		Имя сортировки (уникальное для каждого пространства имен и кодировки)
collnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего эту сортировку
collowner	oid	pg_authid.oid	Владелец сортировки
collprovider	char		Поставщик сортировки: d = database по умолчанию, c = libc, i = icu
collisdeterministic	bool		Является ли сортировка детерминированной?
collencoding	int4		Кодировка, в которой применяется сортировка, или -1, если она работает для любой кодировки
collcollate	name		LC_COLLATE для этого объекта сортировки
collctype	name		LC_CTYPE для этого объекта сортировки
collversion	text		Версия параметров сортировки для конкретного поставщика. Записывается при создании параметров сортировки, а затем проверяется при их использовании для обнаружения изменений в определении параметров сортировки, которые могут привести к повреждению данных.

Обратите внимание, что уникальным ключем в этом каталоге является (collname, collencoding, collnamespace) а не только (collname, collnamespace). QHB обычно игнорирует все параметры сортировки, которые не имеют collencoding равным либо кодировке текущей базы данных, либо -1, кроме того, создание новых записей с тем же именем, что и запись с collencoding = -1 запрещено. Поэтому достаточно использовать полное имя SQL (schema.name) для определения параметров сортировки, даже если оно не является уникальным в соответствии с определением каталога. Причина определения каталога таким образом заключается в том, что qhb_bootstrap заполняет его во время инициализации кластера записями для всех локалей, доступных в системе, поэтому он должен иметь возможность хранить записи для всех кодировок, которые могут когда-либо использоваться в кластере.

В шаблоне template0 может быть полезно для создать параметры сортировки, кодировка которых не соответствует кодировке базы данных, так как они могут соответствовать кодировкам баз данных, клонированных позже из template0. В настоящее время это можно сделать вручную.

pg_constraint

Каталог pg_constraint хранит ограничения check, primary key, unique, foreign key и exclusion для таблиц. (Ограничения столбцов не обрабатываются специально. Каждое ограничение столбца эквивалентно некоторому ограничению таблицы.) Ограничения Not-null представлены не здесь, а в каталоге pg_attribute.

Определяемые пользователем триггеры ограничений (созданные с помощью триггера CREATE CONSTRAINT) также приводят к появлению записи в этой таблице.

Здесь также хранятся проверочные ограничения для доменов.

pg_constraint столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
conname	name		Имя ограничения (не обязательно уникальное!)
connamespace	oid	pg_namespace.oid	OID пространства имен, содержащего это ограничение
contype	char		c = проверочное ограничение, f = ограничение внешнего ключа, p = ограничение первичного ключа, u = ограничение уникальности, t = триггер ограничения, x = ограничение на исключение
condeferrable	bool		Может ли это ограничение быть отложенным?
condeferred	bool		Является ли ограничение отложенным по умолчанию?
convalidated	bool		Было ли это ограничение проверено? В настоящее время может быть false только для внешних ключей и проверочных ограничений
conrelid	oid	pg_class.oid	Таблица, на которую наложено это ограничение; 0 если нет ограничения таблицы
contypid	oid	pg_type.oid	Домен, на который наложено это ограничение; 0 если нет ограничения домена
conindid	oid	pg_class.oid	Индекс, поддерживающий это ограничение, если это уникальный, первичный ключ, внешний ключ или ограничение исключения - в противном случае 0
conparentid	oid	pg_constraint.oid	Соответствующее ограничение в родительской партиционированной таблице, если это ограничение для партиции в противном случае 0
confrelid	oid	pg_class.oid	Если это внешний ключ, то ссылочная таблица (на которую ссылается ключ) - в противном случае 0
confupdtype	char		Код действия при обновлении внешнего ключа: a = нет действия, r = ограничивать, c = каскад, n = установить значение null, d = установить по умолчанию
confdeltype	char		Код действия при удалении внешнего ключа: a = нет действия, r = ограничивать, c = каскад, n = установить значение null, d = установить по умолчанию
confmatchtype	char		Тип соответствия для внешнего ключа: f = полный, p = частичный, s = простой
conislocal	bool		Определяется ли ограничение локально для отношения. Обратите внимание, что ограничение может быть локально определено и унаследовано одновременно.
coninhcount	int4		Число предков прямого наследования от ограничения. Ограничение с ненулевым числом предков не может быть удалено или переименовано.
connoinherit	bool		True если не наследуемое ограничение (определяется локально для отношения).
conkey	int2[]	pg_attribute.attnum	Если ограничение таблицы (включая внешние ключи, но не триггеры ограничений), то список ограниченных столбцов
confkey	int2[]	pg_attribute.attnum	Если это внешний ключ, то список ссылочных столбцов
conpfeqop	oid[]	pg_operator.oid	Если ограничение - внешний ключ, то список операторов равенства для сравнений PK = FK
conppeqop	oid[]	pg_operator.oid	Если ограничение - внешний ключ, то список операторов равенства для сравнений PK = PK
conffeqop	oid[]	pg_operator.oid	Если ограничение - внешний ключ, то список операторов равенства для сравнений FK = FK
conexclop	oid[]	pg_operator.oid	Если ограничение исключения, то список операторов исключения для каждого столбца
conbin	pg_node_tree		Если это проверочное ограничение (CHECK), то внутреннее представление выражения. (Чтобы извлечь определение проверочного ограничения рекомендуется использовать pg_get_constraintdef())

В случае ограничения исключения, столбец conkey полезен только для элементов ограничений, которые являются простыми ссылками на столбец. Для других случаев, значение conkey будет NULL и необходимо просмотреть связный индекс, чтобы обнаружить выражение ограничения (conkey таким образом, имеет то же содержание, что и pg_index.indkey для индекса.)

Примечание!!!
pg_class.relchecks необходимо согласовать с количеством записей check-constraint, найденных в этой таблице для каждого отношения.

pg_conversion

Каталог pg_conversion описывает функции преобразования кодировки. Дополнительную информацию смотрите в разделе CREATE CONVERSION.

pg_conversion столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
conname	name		Имя преобразования (уникальное в пределах пространства имен)
connamespace	oid	pg_namespace.oid	OID пространства имен, содержащего это преобразование
conowner	oid	pg_authid.oid	Владелец преобразования
conforencoding	int4		ID кодировки источника
contoencoding	int4		ID кодировки назначения
conproc	regproc	pg_proc.oid	Функция преобразования
condefault	bool		True, если это преобразование по умолчанию

pg_database

Каталог pg_database хранит информацию о доступных базах данных. Базы данных создаются с помощью команды CREATE DATABASE. Дополнительную информацию о значении некоторых параметров см. в главе Управление базами данных.

В отличие от большинства системных каталогов, pg_database является общим для всех баз данных кластера: существует только одна копия pg_database на кластер, а не по одному на каждую базу данных.

pg_database столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
datname	name		Имя базы данных
datdba	oid	pg_authid.oid	Владелец базы данных, как правило, пользователь, который ее создал
encoding	int4		Кодировка символов для этой базы данных (при помощи pg_encoding_to_char() можно перевести число в имя кодировки)
datcollate	name		LC_COLLATE для этой базы данных
datctype	name		LC_CTYPE для этой базы данных
datistemplate	bool		Если true, то эта база данных может быть клонирована любым пользователем обладающим привилегией CREATEDB, если значение false, то клонировать его могут только суперпользователи или владелец базы данных.
datallowconn	bool		Если false, то никто не может подключиться к этой базе данных. Используется для защиты базы данных template0 от изменения.
datconnlimit	int4		Задает максимальное число одновременных подключений, которые могут быть выполнены для этой базы данных. -1 означает отсутствие ограничений.
datlastsysoid	oid		Последний системный OID в базе данных - необходимо, в частности, для qhb_dump
datfrozenxid	xid		Все идентификаторы транзакций до этого были заменены на постоянный (”замороженный") идентификатор транзакции в этой базе данных. Используется для отслеживания того, должна ли база данных быть очищена для предотвращения "оборачивания" идентификатора транзакции или для разрешения уменьшения pg_xact. Это минимальное значение pg_class.relfrozenxid для каждой таблицы.
datminmxid	xid		Все идентификаторы multixact перед этим были заменены на постоянный (”замороженный") идентификатор транзакции в этой базе данных. Используется для отслеживания того, должна ли база данных быть очищена для предотвращения "оборачивания" multixact или для разрешения уменьшения pg_multixact. Это минимальное значение pg_class.relminmxid для каждой таблицы.
dattablespace	oid	pg_tablespace.oid	Табличное пространство по умолчанию для этой базы данных. Если в пределах этой базы данных pg_class.reltablespace - NULL там будут находиться все общие системные каталоги
datacl	aclitem[]		Права доступа- смотрите раздел Привилегии для получения дополнительной информации

pg_db_role_setting

Каталог pg_db_role_setting хранит значения по умолчанию, заданные для переменных конфигурации времени выполнения, для каждой комбинации роли и базы данных.

В отличие от большинства системных каталогов, pg_db_role_setting является общим для всех баз данных кластера: существует только одна копия pg_db_role_setting на кластер, а не по одному на каждую базу данных.

pg_db_role_setting столбцы

Имя	Тип	Ссылки	Описание
setdatabase	oid	pg_database.oid	OID базы данных, к которой применяется этот параметр, или NULL, если он не относится к конкретной базе данных
setrole	oid	pg_authid.oid	OID роли, к которой применяется этот параметр, или NULL, если он не относится к конкретной роли
setconfig	text[]		Значения по умолчанию для переменных конфигурации времени выполнения

pg_default_acl

Каталог pg_default_acl сохраняет начальные привилегии, назначаемые вновь созданным объектам.

pg_default_acl столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
defaclrole	oid	pg_authid.oid	OID роли, связанной с этой записью
defaclnamespace	oid	pg_namespace.oid	OID пространства имен, связанного с этой записью, или 0 для глобальной записи
defaclobjtype	char		Тип объекта для которого эта запись предназначена для: r = отношение (таблица, представление), S = последовательность, f = функция, T = тип, n = схема
defaclacl	aclitem[]		Права доступа, которые этот тип объекта должен иметь при создании

Одна запись в pg_default_acl показывает начальные привилегии, которые должны быть назначены объекту, принадлежащему указанному пользователю. В настоящее время существует два типа записей: "глобальные" записи с defaclnamespace = 0 и записи "схемы", ссылающиеся на конкретную схему. Если глобальная запись присутствует, то она переопределяет обычные жесткие привилегии задаваемые по умолчанию для типа объекта. Запись для каждой схемы, если она присутствует, представляет привилегии, которые должны быть добавлены к глобальным или жестко привязанным привилегиям по умолчанию.

Обратите внимание, что если запись ACL в другом каталоге имеет значение NULL, то она используется для представления жестко привязанных привилегий по умолчанию для ее объекта, а не того, что может быть внутри pg_default_acl в данный момент. pg_default_acl считывается только во время создания объекта.

pg_depend

Каталог pg_depend записывает отношения зависимости между объектами базы данных. Эта информация позволяет командам DROP находить, какие другие объекты должны быть удалены с помощью DROP CASCADE, или предотвращать удаление в случае DROP RESTRICT.

Смотрите также раздел pg_shdepend, который выполняет аналогичную функцию для зависимостей, включающих объекты, совместно используемые в кластере баз данных.

pg_depend столбцы

Имя	Тип	Ссылки	Описание
classid	oid	pg_class.oid	OID системного каталога, в котором находится зависимый объект
objid	oid	OID для любого столбца	OID конкретного зависимого объекта
objsubid	int4		Для столбца таблицы это номер столбца (objid и classid задают саму таблицу). Для всех других типов объектов этот столбец равен нулю.
refclassid	oid	pg_class.oid	OID системного каталога, в котором находится объект ссылки
refobjid	oid	OID для любого столбца	OID конкретного объекта ссылки
refobjsubid	int4		Для столбца таблицы это номер столбца (refobjid и refclassid задают саму таблицу). Для всех других типов объектов этот столбец равен нулю.
deptype	char		Код, определяющий конкретную семантику этого отношения зависимости

Во всех случаях a pg_depend запись указывает, что объект ссылки не может быть удален без удаления также зависимого объекта. Тем не менее, есть несколько подвидов зависимостей, задаваемых с помощью deptype:

DEPENDENCY_NORMAL (n)

Обычное отношение между раздельно созданными объектами. Зависимый объект можно удалить, не затрагивая объект который на него ссылается. Объект который ссылается может быть удален только путем указания CASCADE и в этом случае зависимый объект также удаляется. Пример: столбец таблицы имеет нормальную зависимость от своего типа данных.

DEPENDENCY_AUTO (a)

Зависимый объект может быть удален отдельно от объекта который на него ссылается и должен быть автоматически удален (независимо от того выбран режим, RESTRICT или CASCADE). Пример: именованное ограничение из таблицы становится автоматически зависимым от таблицы, так что оно исчезнет автоматически , если таблица будет удалена.

DEPENDENCY_INTERNAL (i)

Зависимый объект был создан как часть другого объекта, и на самом деле является только частью его внутренней реализации. Удаление при помощи DROP такого зависимого объекта будет запрещено (вместо этого пользователю будет выдано сообщение о том что необходимо вызвать DROP для основного объекта). Удаление объекта который ссылается на данный, приведет к автоматическому удалению зависимого объекта вне зависимости от того указывается CASCADE при удалении или нет. Если зависимый объект должен быть удален из-за зависимости от какого-либо другого удаляемого объекта, его удаление преобразуется в удаление объекта который создал ссылки, так что зависимости NORMAL и AUTO, зависимого объекта ведут себя так же, как и зависимости объекта который ссылается на данный. Пример: Правило ON SELECT для представления (VIEW) становится внутренне зависимым от представления, предотвращая его удаление, пока представление остается в системе. Зависимости для этого правила (например, таблицы, на которые оно ссылается) действуют так, как если бы они были зависимостями представления (VIEW).

DEPENDENCY_PARTITION_PRI (P) и DEPENDENCY_PARTITION_SEC (S)

Зависимый объект был создан как часть создания партиции и на самом деле является только частью его внутренней реализации - однако, в отличие от INTERNAL, существует более одного объекта ссылающегося на данный. Зависимый объект не должен быть удален, пока не будет удален хотя бы один из этих объектов - если какой-либо из них удаляется, зависимый объект должен быть удален вне зависимости от указания CASCADE. Также в отличие от INTERNAL, удаление некоторого другого объекта, от которого зависит объект, не приводит к автоматическому удалению какого-либо объекта, на который он ссылается. Следовательно, если удаление не касается хотя бы одного из этих объектов каким либо способом, оно не будет затрагивать зависимый объект. (В большинстве случаев зависимый объект совместно использует все свои зависимости связанные с партициями по крайней мере с одним объектом, на который ссылается партиция, так что это ограничение не приводит к блокированию каскадного удаления.) Первичные и вторичные зависимости партиций ведут себя одинаково, за исключением того, что первичная зависимость предпочтительна для использования в сообщениях об ошибках - следовательно, объект, зависящий от партиции, должен иметь одну первичную зависимость партиции и одну или несколько вторичных зависимостей партиции. Обратите внимание, что зависимости партиций создаются в дополнение к любым зависимостям, которые обычно имеются у объекта, а не вместо них. Это упрощает задачу Операции присоединения / отсоединения партиций: необходимо только добавить или удалить зависимости. Пример: дочерний партиционированный индекс становится зависимым от партиционирования как таблицы, в которой он находится, так и от родительского партиционированного индекса, так что он удаляется, если любой из этих объектов удаляется, но не иначе. Зависимость от родительского индекса является основной, так что если пользователь пытается удалить дочерний партиционированный индекс, сообщение об ошибке будет предлагать вместо этого удалить родительский индекс (а не таблицу).

DEPENDENCY_EXTENSION (е)

Зависимый объект является элементом расширения, на которое ссылается объект (см. раздел pg_extension). Зависимый объект можно удалить только с помощью DROP EXTENSION для объекта который ссылается. Функционально этот тип зависимости действует так же, как и INTERNAL зависимость, но она хранится отдельно для ясности и упрощения qhb_dump.

DEPENDENCY_AUTO_EXTENSION (x)

Зависимый объект не является элементом расширения, на которое ссылается объект (и поэтому он не должен игнорироваться qhb_dump), но он не может функционировать без расширения и должен автоматически удаляться, если расширение удаляется. Зависимый объект также может быть удалён сам по себе. Функционально этот тип зависимости действует так же, как и AUTO зависимость, но она хранится отдельно для ясности и упрощения qhb_dump.

DEPENDENCY_PIN (p)

Зависимого объекта нет - этот тип записи означает, что сама система зависит от объекта, и поэтому этот объект никогда не должен быть удален. Записи этого типа создаются только в команде qhb_bootstrap. Столбцы для зависимого объекта содержат нули.

Обратите внимание, что вполне возможно, что два объекта будут связаны более чем одной зависимостью в pg_depend. Например, дочерний партиционированный индекс будет иметь зависимость от партиции связанной таблицы, и автозависимость от каждого столбца той таблицы, которую он индексирует. Такая ситуация нужна для выражения семантики множественной зависимости. Зависимый объект можно удалить без CASCADE если какая-либо из его зависимостей удовлетворяет его условию автоматического сброса. И наоборот, должны быть выполнены все ограничения зависимостей, относительно которых объекты должны быть удалены вместе.

pg_description

Каталог pg_description хранит комментарий для каждого объекта базы данных. Описаниями можно манипулировать с помощью команды COMMENT и просматривать с помощью qsql \d команды.

Смотрите также раздел pg_shdescription, который выполняет аналогичную функцию для описаний объектов, совместно используемых в кластере баз данных.

pg_description столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID объекта, к которому относится данное описание
classoid	oid	pg_class.oid	Идентификатор OID системного каталога, в котором отображается этот объект
objsubid	int4		Для комментария к столбцу таблицы это номер столбца (objoid и classoid задают таблицу). Для всех других типов объектов этот столбец равен нулю.
description	text		Произвольный текст, который служит необязательным описанием (комментарием) данного объекта

pg_enum

Каталог pg_enum содержит записи, показывающие значения и текстовые метки для каждого типа enum. Внутренним представлением значения enum фактически является OID связанной строки в pg_enum.

pg_enum столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
enumtypid	oid	pg_type.oid	OID записи в pg_type владеющей этим значением enum
enumsortorder	float4		Положение сортировки этого значения enum в пределах его типа enum
enumlabel	name		Текстовая метка для этого перечисления значения

OIDs для pg_enum строки следуют специальному правилу: четные OID гарантированно упорядочиваются таким же образом, как и порядок сортировки их типа enum. То есть, если два четных OID принадлежат к одному и тому же типу перечисления, меньший OID должен иметь меньший размер enumsortorder значение. Нечетные значения OID не должны иметь никакого отношения к порядку сортировки. Это правило позволяет подпрограммам сравнения перечислений избегать поиска в каталоге во многих распространенных случаях. Подпрограммы, которые создают и изменяют типы перечислений, пытаются назначить чётный OID для значений перечисления, когда это возможно.

При создании типа перечисления его членам присваиваются позиции порядка сортировки 1..n. Но элементы, добавленные позже, могут иметь отрицательные или дробные значения enumsortorder. Единственное требование к этим значениям состоит в том, чтобы они были правильно упорядочены и уникальны в каждом типе перечисления.

pg_event_trigger

Каталог pg_event_trigger хранит триггеры событий БД.

pg_event_trigger столбцы

Имя	Тип	Ссылки	Описание
evtname	name		Имя триггера (должно быть уникальным)
evtevent	name		Определяет событие, для которого срабатывает этот триггер
evtowner	oid	pg_authid.oid	Владелец триггера события
evtfoid	oid	pg_proc.oid	Вызываемая функция
evtenabled	char		Задаёт режимы session_replication_role в которых срабатывает триггер события. О = триггер срабатывает в режимах origin и local, D = триггер отключен, R = триггер срабатывает в режиме replica, A = триггер срабатывает всегда.
evttags	text[]		Метки команд, для которых этот триггер будет срабатывать. Если NULL, то запуск этого триггера не ограничен тегом команды.

pg_extension

Каталог pg_extension сохраняет информацию об установленных расширениях. Смотрите раздел Упаковка связанных объектов в расширение для получения подробной информации о расширениях.

pg_extension столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
extname	name		Имя расширения
extowner	oid	pg_authid.oid	Владелец расширения
extnamespace	oid	pg_namespace.oid	Схема, содержащая экспортируемые объекты расширения
extrelocatable	bool		True, если расширение можно переместить в другую схему
extversion	text		Имя версии для расширения
extconfig	oid[]	pg_class.oid	Массив из regclass OID для таблиц конфигурации расширения, или NULL если у расширения нет таблиц
extcondition	text[]		Массив для условия фильтра WHERE предложений для таблиц конфигурации расширения, или NULL если условий нет

Обратите внимание, что в отличие от большинства каталогов со столбцами namespace, extnamespace их наличие в этом каталоге не означает, что расширение принадлежит к этой схеме. Имена расширений никогда не определяются схемой. Скорее, extnamespace указывает схему, содержащую большинство или все объекты расширения. Если extrelocatable true, тогда эта схема должна содержать все объекты, принадлежащие расширению.

pg_foreign_data_wrapper

Каталог pg_foreign_data_wrapper сохраняет определения внешних данных. Внешние данные - это механизм, с помощью которого осуществляется доступ к данным находящимся на внешних серверах.

pg_foreign_data_wrapper столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
fdwname	name		Имя источника внешних данных
fdwowner	oid	pg_authid.oid	Владелец источника внешних данных
fdwhandler	oid	pg_proc.oid	Ссылается на функцию обработчика, которая отвечает за предоставление подпрограмм для обработки внешних данных. Ноль, если обработчик не предусмотрен
fdwvalidator	oid	pg_proc.oid	Ссылается на функцию валидатора, которая отвечает за проверку правильности параметров, заданных вне СУБД, а также параметров для внешних серверов и сопоставлений пользователей, использующих внешние данные. Ноль, если валидатор не предусмотрен
fdwacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации
fdwoptions	text[]		Конкретные параметры внешних данных, в виде строки "ключ=значение"

pg_foreign_server

Каталог pg_foreign_server сохраняет определения внешних серверов. Внешний сервер описывает источник внешних данных, например удаленный сервер. Доступ к внешним серверам осуществляется через foreign_data_wrapper.

pg_foreign_server столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
srvname	name		Имя внешнего сервера
srvowner	oid	pg_authid.oid	Владелец внешнего сервера
srvfdw	oid	pg_foreign_data_wrapper.oid	OID foreign_data_wrapper этого внешнего сервера
srvtype	text		Тип сервера (необязательно)
srvversion	text		Версия сервера (необязательно)
srvacl	aclitem[]		Права доступа - смотрите раздел Привилегии для получения дополнительной информации
srvoptions	text[]		Конкретные параметры внешнего сервера, в виде строки "ключ=значение"

pg_foreign_table

Каталог pg_foreign_table содержит дополнительную информацию о внешних таблицах. Внешняя таблица в основном представлена в каталоге pg_class, как обычная таблица. Запись соответствующая ей в pg_foreign_table содержит информацию, относящуюся только к внешним таблицам, а не к какому-либо другому виду связи.

pg_foreign_table столбцы

Имя	Тип	Ссылки	Описание
ftrelid	oid	pg_class.oid	OID записи из pg_class для этой внешней таблицы
ftserver	oid	pg_foreign_server.oid	OID внешнего сервера для этой внешней таблицы
ftoptions	text[]		Параметры внешней таблицы, в виде строки "ключ=значение"

pg_index

Каталог pg_index содержит часть информации об индексах. Остальное - в основном каталоге pg_class.

pg_index столбцы

Имя	Тип	Ссылки	Описание
indexrelid	oid	pg_class.oid	OID записи из pg_class для этого индекса
indrelid	oid	pg_class.oid	OID записи pg_class таблицы для которой индекс предназначен
indnatts	int2		Общее количество столбцов в индексе (повторяет pg_class.relnatts) это число включает в себя как ключевые, так и включенные атрибуты
indnkeyatts	int2		Количество ключевых столбцов в индексе, не считая каких-либо включенных столбцов, которые просто хранятся и не участвуют в семантике индекса
indisunique	bool		Если true, то это уникальный индекс
indisprimary	bool		Если true, то этот индекс представляет собой первичный ключ таблицы (indisunique в этом случае должно быть true)
indisexclusion	bool		Если значение true, то этот индекс поддерживает ограничение исключения
indimmediate	bool		Если true, то проверка уникальности применяется сразу после вставки (не имеет значения, если indisunique false)
indisclustered	bool		Если true, то таблица была кластеризованной по этому индексу
indisvalid	bool		Если значение true, то индекс в настоящее время является допустимым для запросов. False означает, что индекс может быть неполным: и еще должен быть изменен с помощью операций вставки / обновления, но он не может безопасно использоваться для запросов. Если он обозначен как уникальный, свойство уникальности также не гарантируется.
indcheckxmin	bool		Если значение true, запросы не должны использовать индекс до тех пор, пока поле xmin находится ниже их горизонта событий (TransactionXmin) , поскольку таблица может содержать разорванные HOT цепочки с несовместимыми строками, которые запросы могут видеть
indisready	bool		Если true, то индекс в настоящее время готов к вставкам. False означает, что индекс должен быть проигнорирован операциями вставки / обновления.
indislive	bool		Если значение false, индекс находится в процессе удаления и должен игнорироваться при любой попытке использования (включая использования в HOT цепочках)
indisreplident	bool		Если true, то этот индекс был выбран в качестве "идентификатора реплики" с помощью команд ALTER TABLE ... REPLICA IDENTITY USING INDEX ...
indkey	int2vector	pg_attribute.attnum	Массив из значений indnatts, указывающий, на столбцы таблицы которые этот индекс обрабатывает. Например, значение параметра 1 3 означает, что первый и третий столбцы таблицы составляют записи индекса. Ключевые столбцы предшествуют неключевым (включенным) столбцам. Ноль в этом массиве указывает, что соответствующий атрибут индекса является выражением над столбцами таблицы, а не просто ссылкой на столбец.
indcollation	oidvector	pg_collation.oid	Для каждого столбца в ключе индекса (indnkeyatts values),содержит OID параметров сортировки, используемых для индекса,или ноль, если столбец не является типом данных с возможностью сортировки.
indclass	oidvector	pg_opclass.oid	Для каждого столбца в ключе индекса (indnkeyatts values), содержит OID класса оператора для использования. Смотрите дополнительную информацию в разделе pg_opclass.
indoption	int2vector		Массив из indnkeyatts значений, хранящие биты флагов для каждого столбца. Значение битов определяется методом доступа индекса.
indexprs	pg_node_tree		Деревья выражений (nodeToString() представление) для атрибутов индекса, которые не являются простыми ссылками на столбец. Это список с одним элементом для каждой нулевой записи в indkey. Null, если все атрибуты индекса являются простыми ссылками.
indpred	pg_node_tree		Дерево выражений (nodeToString() представление) для частичного индексного предиката. Null, если не является частичным индексом.

pg_inherits

Каталог pg_inherits записывает информацию об иерархиях наследования таблиц. Существует одна запись для каждой прямой связи родительской и дочерней таблиц в базе данных. (Косвенное наследование может быть определено цепочками записей.)

pg_inherits столбцы

Имя	Тип	Ссылки	Описание
inhrelid	oid	pg_class.oid	OID дочерней таблицы
inparent	oid	pg_class.oid	OID родительской таблицы
inhseqno	int4		Если для дочерней таблицы существует более одного прямого родителя (множественное наследование), это число указывает порядок, в котором должны быть упорядочены наследуемые столбцы. Отсчет начинается с 1.

pg_init_privs

Каталог pg_init_privs записывает информацию о начальных привилегиях объектов в системе. Существует одна запись для каждого объекта в базе данных, имеющего начальный набор привилегий отличных от привилегий по умолчанию (не-NULL).

Объекты могут иметь начальные привилегии, задавая эти привилегии при инициализации системы (с помощью qhb_bootstrap) или при создании объекта при выполнении CREATE EXTENSION, а сценарий расширения устанавливает начальные привилегии с помощью системы предоставления привилегий (GRANT). Обратите внимание, что система автоматически обрабатывает запись привилегий во время сценария расширения и что авторам расширения нужно только использовать инструкции GRANT и REVOKE в своем сценарии, чтобы иметь записанные привилегии. Столбец privtype указывает, была ли начальная привилегия установлена qhb_bootstrap или во время выполнения команды CREATE EXTENSION.

Объекты, которые имеют начальные привилегии, установленные qhb_bootstrap, будут иметь записи, где privtype помечается как i, в то время как объекты, которые имеют начальные привилегии, установленные при помощи CREATE EXTENSION, будут помечаться как e.

pg_init_privs столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID конкретного объекта
classoid	oid	pg_class.oid	OID системного каталога, в котором находится объект
objsubid	int4		Для столбца таблицы это номер столбца (objoid и classoid заданы от самой таблицы). Для всех других типов объектов этот столбец равен нулю.
privtype	char		Код, определяющий тип начальной привилегии этого объекта - i или e
initprivs	aclitem[]		Начальные права доступа - смотрите раздел Привилегии для получения дополнительной информации

pg_language

Каталог pg_language регистрирует языки, на которых можно писать функции или хранимые процедуры. Дополнительную информацию об обработчиках языка смотрите в разделе CREATE LANGUAGE.

pg_language столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
lanname	name		Название языка
lanowner	oid	pg_authid.oid	Владелец языка
lanispl	bool		Это значение false для внутренних языков (таких как SQL) и true для пользовательских языков. В настоящее время qhb_dump все еще использует это, чтобы определить, какие языки должны быть сохранены, Но это может быть заменено другим механизмом в будущем.
lanplusted	bool		True, если это доверенный язык, пердполагается, что он, не предоставляет доступ к чему-либо за пределами обычной среды выполнения SQL. Только суперпользователи могут создавать функции на ненадежных языках.
lanplcallfoid	oid	pg_proc.oid	Для языков не использующих внутренние механизмы это ссылка на обработчик языка - специальную функцию, ответственную за выполнение всех предложений, написанных на определенном языке
laninline	oid	pg_proc.oid	Ссылка на функцию, которая отвечает за выполнение “встроенных” анонимных блоков кода ( DO блоков). Ноль, если анонимные блоки не поддерживаются.
lanvalidator	oid	pg_proc.oid	Ссылка на функцию-валидатор языка, которая отвечает за проверку синтаксиса и валидности новых функций при их создании. Ноль, если валидатор не предусмотрен.
lanacl	aclitem[]		Права доступа - смотрите раздел Привилегии для получения дополнительной информации

pg_largeobject

Каталог pg_largeobject содержит данные, составляющие "большие объекты". Большой объект идентифицируется OID, назначенным при его создании. Каждый большой объект разбивается на сегменты или "страницы" достаточно маленькие, чтобы удобно хранить их в виде строк внутри pg_largeobject. Количество данных на странице определяется как LOBLKSIZE (который в настоящее время BLCKSZ / 4, или обычно 2 кб).

Для получения списка OID больших объектов используйте pg_largeobject_metadata.

pg_largeobject столбцы

Имя	Тип	Ссылки	Описание
loid	oid	pg_largeobject_metadata.oid	Идентификатор большого объекта, включающий страницу
pageno	int4		Номер страницы в пределах ее большого объекта (отсчет от нуля)
data	bytea		Фактические данные, хранящиеся в большом объекте. Никогда не будет больше, чем LOBLKSIZE байт а может быть и меньше.

Каждая строка из pg_largeobject содержит данные для одной страницы большого объекта, начиная со смещения в байтах (pageno * LOBLKSIZE) внутри объекта. Реализация позволяет использовать разреженное хранилище: страницы могут отсутствовать и быть короче, чем LOBLKSIZE байты, даже если они не являются последней страницей объекта. Отсутствующие области внутри большого объекта считываются как нули.

pg_largeobject_metadata

Каталог pg_largeobject_metadata содержит метаданные, связанные с большими объектами. Фактические данные большого объекта хранятся в pg_largeobject.

pg_largeobject_metadata столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
lomowner	oid	pg_authid.oid	Владелец большого объекта
lomacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации

pg_namespace

Каталог pg_namespace хранит пространства имен. Пространство имен-это структура, лежащая в основе схем SQL - каждое пространство имен может иметь отдельную коллекцию отношений, типов и т. д.

pg_namespace столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
nspname	name		Имя пространства имен
nspowner	oid	pg_authid.oid	Владелец пространства имен
nspacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации

pg_opclass

Каталог pg_opclass определяет классы операторов метода доступа к индексу. Каждый класс операторов определяет семантику для индексных столбцов определенного типа данных и конкретного метода доступа к индексам. Класс оператора по существу определяет, что определенное семейство операторов применимо к определенному типу данных индексируемого столбца. Набор операторов из семейства, которые фактически используются с индексированным столбцом, являются теми, которые принимают тип данных столбца в качестве их аргумента.

Классы операторов подробно описаны в разделе Расширения для индексов.

pg_opclass столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
opcmethod	oid	pg_am.oid	Класс оператора для метода индексного доступа
opcname	name		Имя класса оператора
opcnamespace	oid	pg_namespace.oid	Пространство имен класса оператора
opcowner	oid	pg_authid.oid	Владелец класса оператора
opcfamily	oid	pg_opfamily.oid	Семейство операторов, содержащее класс оператора
opcintype	oid	pg_type.oid	Тип данных, который индексирует класс оператора
opcdefault	bool		True, если этот класс оператора является значением по умолчанию для opcintype
opckeytype	oid	pg_type.oid	Тип данных, хранящихся в индексе, или ноль, если он совпадает с opcintype

Класс оператора должен соответствовать opfmethod содержащего его семейства операторов. Кроме того, должно быть не более одной строки в pg_opclass у которой opcdefault true для любой заданной комбинации opcmethod и opcintype.

pg_operator

Каталог pg_operator хранит информацию об операторах. Дополнительную информацию смотрите в разделах CREATE OPERATOR и Пользовательские операторы.

pg_operator столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
oprname	name		Наименование оператора
oprnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот оператор
oprowner	oid	pg_authid.oid	Владелец оператора
oprkind	char		b = инфикс ("оба”), l = префикс ("слева”), r = постфикс ("справа”)
oprcanmerge	bool		Этот оператор поддерживает объединения слиянием
oprcanhash	bool		Этот оператор поддерживает хэш-соединения
oprleft	oid	pg_type.oid	Тип левого операнда
oprright	oid	pg_type.oid	Тип правого операнда
oprresult	oid	pg_type.oid	Тип результата
oprcom	oid	pg_operator.oid	Коммутатор оператора этого типа, если таковой имеется
oprnegate	oid	pg_operator.oid	Отрицание оператора этого типа, если таковое имеется
oprcode	regproc	pg_proc.oid	Функция, реализующая этот оператор
oprrest	regproc	pg_proc.oid	Функция оценки селективности ограничения для данного оператора
oprjoin	regproc	pg_proc.oid	Функция оценки селективности соединения для этого оператора

Неиспользуемые столбцы содержат нули. Например, oprleft равно нулю для префиксного оператора.

pg_opfamily

Каталог pg_opfamily определяет семейства операторов. Каждое семейство операторов представляет собой набор операторов и связанных с ними основных процедур, реализующих семантику, заданную для конкретного метода доступа к индексу. Кроме того, операторы в семействе все “совместимы”, тем способом, который определяет метод доступа. Концепция семейства операторов позволяет использовать операторы разного типа с индексами и использовать знания о семантике метода доступа.

Семейства операторов подробно описаны в разделе Расширения для индексов.

pg_opfamily столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
opfmethod	oid	pg_am.oid	Метода индексного доступа для которго предназначено семейство операторов
opfname	name		Имя этого семейства операторов
opfnamespace	oid	pg_namespace.oid	Пространство имен этого семейства операторов
opfowner	oid	pg_authid.oid	Владелец семейства операторов

Большая часть информации, определяющей семейство операторов, не входит в pg_opfamily, а находится в связанных строках в pg_amop, pg_amproc и pg_opclass.

pg_partitioned_table

Каталог pg_partitioned_table хранит информацию о способе партиционирования таблиц.

pg_partitioned_table столбцы

Имя	Тип	Ссылки	Описание
partrelid	oid	pg_class.oid	OID партиционированой таблицы, запись из pg_class
partstrat	char		Стратегия партиционирования; h = хэш партиционирование, l = партиционирование по списку, r = партиционирование по диапазону
partnatts	int2		Количество столбцов в ключе партиции
partdefid	oid	pg_class.oid	OID из pg_class для партиции по умолчанию этой партиционированой таблицы или ноль, если эта партиционированная таблица не имеет партиции по умолчанию.
partattrs	int2vector	pg_attribute.attnum	Массив из значений partnatts , указывающий, какие столбцы таблицы являются частью ключа партиции. Например, значение параметра 1 3 означает, что первый и третий столбцы таблицы составляют ключ партиции. Ноль в этом массиве указывает, что соответствующий столбец ключа партиции является выражением, а не простой ссылкой на столбец.
partclass	oidvector	pg_opclass.oid	Для каждого столбца в ключе партиционирования содержит OID класса оператора для использования. Смотрите дополнительную информацию в разделе pg_opclass.
partcollation	oidvector	pg_opclass.oid	Для каждого столбца в ключе партиционирования содержит OID параметров сортировки, используемых для партиционирования, или ноль, если столбец не является типом данных с возможностью сортировки.
partexprs	pg_node_tree		Деревья выражений (nodeToString() представление) для столбцов ключа партиции, которые не являются простыми ссылками на столбцы. Это список с одним элементом для каждой нулевой записи в partattrs. Null, если все столбцы ключа партиции являются простыми ссылками.

pg_pltemplate

Каталог pg_pltemplate хранит информацию о "шаблоне" для процедурных языков. Шаблон для языка позволяет создать язык в конкретной базе данных с помощью простой команды CREATE LANGUAGE, без необходимости указывать детали реализации.

В отличие от большинства системных каталогов, pg_pltemplate является общим для всех баз данных кластера: существует только одна копия pg_pltemplate на кластер, а не по одному на каждую базу данных. Это позволяет получить доступ к информации в каждой базе данных по мере необходимости.

pg_pltemplate столбцы

Имя	Тип	Описание
tmplname	name	Название языка для которого предназначен данный шаблон
tmpltrusted	boolean	True, если язык считается доверенным
tmpldbacreate	boolean	True, если язык может быть создан владельцем базы данных
tmplhandler	text	Имя функции обработчика вызовов
tmplinline	text	Имя функции обработчика анонимных блоков или null, если анонимных блоков нет
tmplvalidator	text	Имя функции валидатора, или null, если валидатора нет
tmpllibrary	text	Путь к разделяемой библиотеке, реализующей язык
tmplacl	aclitem[]	Права доступа для шаблона (фактически не используется)

В настоящее время нет никаких команд, которые управляют шаблонами процедурного языка; чтобы изменить встроенную информацию, суперпользователь должен изменить таблицу с помощью обычных команд INSERT, DELETE или UPDATE.

Примечание!!!
Вполне вероятно, что pg_pltemplate будет удален в некоторых будущих выпусках QHB, в пользу сохранения этих знаний о процедурных языках в их соответствующих сценариях установки расширений.

pg_policy

Каталог pg_policy сохраняет политики безопасности на уровне строк для таблиц. Политика включает тип команды, к которой она применяется (возможно, все команды), роли, к которым она применяется, выражение, которое должно быть добавлено в качестве квалификационного барьера безопасности к запросам, включающим таблицу, и выражение, которое должно быть добавлено в опцию WITH CHECK для запросов, которые пытаются добавить новые записи в таблицу.

pg_policy столбцы

Имя	Тип	Ссылки	Описание
polname	name		Название политики
polrelid	oid	pg_class.oid	Таблица, к которой применяется политика
polcmd	char		Тип команды, к которой применяется политика: r для SELECT, a для INSERT, w для UPDATE, d для DELETE, или * для всех
polpermissive	boolean		Является ли эта политика разрешительной или ограничительной?
polroles	oid[]	pg_authid.oid	Роли, к которым применяется политика
polqual	pg_node_tree		Дерево выражений, добавляемое к квалификациям барьеров безопасности для запросов, использующих таблицу
polwithcheck	pg_node_tree		Дерево выражений, которое будет добавлено в квалификацию WITH CHECK для запросов, пытающихся добавить строки в таблицу

Примечание!!!
Политики, хранящиеся в pg_policy применяются только тогда, когда pg_class.relrowsecurity установлено для соот. таблицы.

pg_proc

Каталог pg_proc хранит информацию о функциях, процедурах, агрегатных функциях и оконных функциях (в совокупности также известных как подпрограммы). Дополнительную информацию смотрите в разделах CREATE FUNCTION, CREATE PROCEDURE и Пользовательские функции.

Если prokind указывает, что запись предназначена для агрегатной функции, в ней должна быть соответствующая строка из pg_aggregate.

pg_proc столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
proname	name		Имя функции
pronamespace	oid	pg_namespace.oid	OID пространства имен, содержащего эту функцию
proowner	oid	pg_authid.oid	Владелец функции
prolang	oid	pg_language.oid	Язык реализации или интерфейс вызова этой функции
procost	float4		Расчетная стоимость исполнения (в единицах cpu_operator_cost ), если установлен признак proretset, это стоимость за одну возвращенную строку
prorows	float4		Предполагаемое количество строк результатов (ноль, если не задан proretset)
provariadic	oid	pg_type.oid	Тип данных элементов масива параметров переменной длинны, либо ноль, если функция не имеет переменного числа параметров
prosupport	regproc	pg_proc.oid	Дополнительная функция поддержки планировщика для этой функции (см. раздел Оптимизация функций)
prokind	char		f для нормальной функции, p для процедуры, a для агрегатной функции, или w для оконной функции
prosecdef	bool		Функция- определитель контекста безопасности (т. е. функция "setuid")
proleakproof	bool		Функция не имеет никаких побочных эффектов. Никакая информация о аргументах не передается, иначе чем через возвращаемое значение. Любая функция, которая может вызвать ошибку в зависимости от значений ее аргументов, не является герметичной.
proisstrict	bool		Функция возвращает значение null, если любой аргумент вызова имеет значение null. В этом случае функция по факту не будет вызвана вообще. Функции, которые не являются "строгими"(strict), должны быть подготовлены для обработки нулевых входных данных.
proretset	bool		Функция возвращает набор (т. е. несколько значений указанного типа данных)
provolatile	char		provolatile указывает, зависит ли результат функции только от ее входных аргументов или на него влияют внешние факторы. Для "неизменяемых" функций , которые всегда дают один и тот же результат для одних и тех же входных данных устанавливается значение i. Для "стабильных" функций, результаты которых (для фиксированных входных аргументов) не изменяются в пределах сканирования устанавливается значение s. Для "изменчивых" (volatile) функций, результаты которых могут измениться в любое время устанавливается значение v. (Также v используется для функций с побочными эффектами, так их вызовы не могут быть исключены в процессе оптимизации.)
proparallel	char		Указывает, можно ли безопасно запускать функцию в параллельном режиме. Для функций, которые безопасно запускать в параллельном режиме без ограничений устанавливается значение s.Для функций, которые могут выполняться в параллельном режиме, но их выполнение ограничено процессом - параллельные рабочие процессы не могут вызывать эти функции устанавливается значение r. Для функций, которые небезопасны в параллельном режиме устанавливается значение u - наличие такой функции заставляет оптимизатор строить план последовательного выполнения.
pronargs	int2		Количество входных аргументов
pronargdefaults	int2		Количество аргументов, имеющих значения по умолчанию
prorettype	oid	pg_type.oid	Тип данных возвращаемого значения
proargtypes	oidvector	pg_type.oid	Массив с типами данных аргументов функции. Включает только входные аргументы (включая INOUT и VARIADIC Аргументы), и таким образом представляет сигнатуру вызова функции.
proallargtypes	oid[]	pg_type.oid	Массив с типами данных аргументов функции. Включает в себя все аргументы (в том числе IN и INOUT аргументы), однако, если все аргументы являются IN, это поле будет иметь значение null. Обратите внимание, что индексация массива обычно начинается с 1, тогда как по историческим причинам proargtypes индексируется от 0.
proargmodes	char[]		Массив с режимами аргументов функции, закодированными как i для IN аргументов, о для OUT аргументы, b для INOUT аргументов, v для VARIADIC аргументов, t для TABLE аргументов. Если все аргументы это IN аргументы, это поле будет иметь значение null. Обратите внимание, что индексы соответствуют позициям proallargtypes нет proargtypes.
proargnames	text[]		Массив с именами аргументов функции. Аргументы без имени представляют собой пустые строки в массиве. Если ни один из аргументов не имеет имени, это поле будет иметь значение null. Обратите внимание, что индексы соответствуют позициям proallargtypes но не proargtypes.
proargdefaults	pg_node_tree		Деревья выражений (nodeToString() представление) для значений по умолчанию. Это список pronargdefaults элементов, соответствующих последнему N входным аргументам (т. е. последним N позициям в proargtypes). Если ни один из аргументов не имеет значений по умолчанию, это поле будет иметь значение null.
protrftypes	oid[]		Типы OID данных, для которых необходимо применить преобразования.
prosrc	text		Способ вызвать функцию. Может быть фактический исходный код функции для интерпретируемых языков, символ ссылки, имя файла или почти все остальное, в зависимости от языка и реализации/соглашения о вызове.
probin	text		Дополнительная информация о том, как вызвать эту функцию. Интерпретация зависит от языка.
proconfig	text[]		Локальные настройки функции для переменных конфигурации времени выполнения
proacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации

Для скомпилированных функций, как встроенных, так и динамически загружаемых, prosrc содержит имя функции на языке C (объектную ссылку). Для всех других известных на данный момент типов языков, prosrc содержит исходный текст функции. probin не используется, за исключением динамически загружаемых функций C/RUST, для которых он дает имя файла общей библиотеки, содержащего функцию.

pg_publication

Каталог pg_publication содержит все публикации для логической репликации, созданные в базе данных.

pg_publication столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
pubname	name		Название публикации
pubname	oid	pg_authid.oid	Владелец публикации
puballtables	bool		Если задано значение true, эта публикация автоматически включает все таблицы в базе данных включая те которые созданы в будущем.
pubinsert	bool		При значении true операции вставки реплицируются для таблиц в публикации.
pubupdate	bool		При значении true операции обновления реплицируются для таблиц в публикации.
pubdelete	bool		При значении true операции удаления реплицируются для таблиц в публикации.
pubtruncate	bool		Если задано значение true, то операции truncate реплицируются для таблиц в публикации.

pg_publication_rel

Каталог pg_publication_rel содержит сопоставление между отношениями и публикациями в базе данных в виде отображения многие-ко-многим. Смотрите также раздел pg_publication_tables для более удобного просмотра этой информации.

pg_publication_rel столбцы

Имя	Тип	Ссылки	Описание
prpubid	oid	pg_publication.oid	Ссылка на публикацию
prrelid	oid	pg_class.oid	Ссылка на связь

pg_range

Каталог pg_range хранит информацию о типах диапазона в дополнение к записям типов в pg_type.

pg_range столбцы

Имя	Тип	Ссылки	Описание
rngtypid	oid	pg_type.oid	OID типа диапазона
rngsubtype	oid	pg_type.oid	OID типа элемента (подтипа) данного типа диапазона
rngcollation	oid	pg_collation.oid	OID параметров сортировки, используемых для сравнения диапазонов, или 0, если нет
rngsubopc	oid	pg_opclass.oid	OID класса оператора подтипа, используемого для сравнения диапазонов
rngcanonic	regproc	pg_proc.oid	OID функции для преобразования значения диапазона в каноническую форму или 0, если нет
rngsubdiff	regproc	pg_proc.oid	OID функции для возврата разницы между двумя значениями элементов в виде двойная точность, или 0, если нет

rngsubopc (плюс rngcollation, если тип элемента является collatable) определяет порядок сортировки, используемый типом диапазона. rngcanonic используется, когда тип элемента является дискретным. rngsubdiff является необязательным, но может задаваться для повышения производительности индексов GiST по типу диапазона.

pg_replication_origin

Каталог pg_replication_origin содержит все созданные источники репликации. Дополнительные сведения об источниках репликации.

В отличие от большинства системных каталогов, pg_replication_origin является общим для всех баз данных кластера: существует только одна копия pg_replication_origin на кластер, а не по одному на каждую базу данных.

pg_replication_origin столбцы

Имя	Тип	Ссылки	Описание
roident	oid		Уникальный кластерный идентификатор источника репликации. Никогда должен выходить за границы системы.
roname	text		Внешнее, определяемое пользователем, имя источника репликации.

pg_rewrite

Каталог pg_rewrite хранит правила перезаписи для таблиц и представлений.

pg_rewrite столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
rulename	name		Имя правила
ev_class	oid	pg_class.oid	Таблица для которой предназначено это правило
ev_type	char		Тип события, для которого используется правило: 1 = SELECT, 2 = UPDATE, 3 = INSERT, 4 = DELETE
ev_enabled	char		Элементы управления, в которых срабатывает правило режимы session_replication_role. О = правило срабатывает в режимах origin и local, D = правило отключено, R = правило срабатывает в режиме replica, A = правило срабатывает всегда.
is_instead	bool		True, если правило INSTEAD
ev_qual	pg_node_tree		Дерево выражений (nodeToString() представление) для квалификационного условия правила
ev_action	pg_node_tree		Дерево запросов (nodeToString() представление) для действия правила

Примечание!!!
pg_class.relhasrules должно быть true, если таблица имеет какие-либо правила в этом каталоге.

pg_seclabel

Каталог pg_seclabel сохраняет метки безопасности на объектах базы данных. Метками безопасности можно управлять с помощью команды SECURITY LABEL. Для более простого способа просмотра меток безопасности см. раздел pg_seclabels, а также раздел pg_shseclabel, который содержит аналогичную информацию для меток безопасности объектов базы данных, совместно используемых в кластере баз данных.

pg_seclabel столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID объекта, к которому относится эта метка безопасности
classoid	oid	pg_class.oid	Идентификатор OID системного каталога, в котором отображается этот объект
objsubid	int4		Для метки безопасности в столбце таблицы это номер столбца (в этом случае objoid и classoid определяют саму таблицу). Для всех других типов объектов этот столбец равен нулю.
provider	text		Поставщик меток безопасности, связанный с этой меткой.
label	text		Метка безопасности, применяемая к этому объекту.

pg_sequence

Каталог pg_sequence содержит информацию о последовательностях (sequence). Некоторые сведения о последовательностях, такие как имя и схема, находятся в разделе pg_class.

pg_sequence столбцы

Имя	Тип	Ссылки	Описание
seqrelid	oid	pg_class.oid	OID в pg_class для этой последовательности
seqtypid	oid	pg_type.oid	Тип данных последовательности
seqstart	int8		Начальное значение последовательности
seqincrement	int8		Значение приращения последовательности
seqmax	int8		Максимальное значение последовательности
seqmin	int8		Минимальное значение последовательности
seqcache	int8		Размер кэша последовательности
seqcycle	bool		Циклы последовательности

pg_shdepend

Каталог pg_shdepend содержит зависимости между объектами базы данных и общими объектами, такими как роли. Эта информация позволяет QHB убедиться в том, что эти объекты не используются перед попыткой их удаления.

См. также раздел pg_depend, который содержит аналогичную информацию для зависимостей, включающих объекты в пределах одной базы данных.

В отличие от большинства системных каталогов, pg_shdepend является общим для всех баз данных кластера: существует только одна копия pg_shdepend на кластер, а не по одному на каждую базу данных.

pg_shdepend столбцы

Имя	Тип	Ссылки	Описание
dbid	oid	pg_database.oid	Идентификатор OID базы данных, в которой находится зависимый объект, или ноль для общего объекта
classid	oid	pg_class.oid	OID системного каталога, в котором находится зависимый объект
objid	oid	OID для любого столбца	OID конкретного зависимого объекта
objsubid	int4		Для столбца таблицы это номер столбца (objid и classid определяют саму таблицу). Для всех других типов объектов этот столбец равен нулю.
refclassid	oid	pg_class.oid	OID системного каталога, в котором находится объект ссылки (должен быть общим каталогом)
refobjid	oid	OID для любого столбца	OID конкретного ссылки на объект
deptype	char		Код, определяющий конкретную семантику этого отношения зависимости - см. ниже детальное описание

Во всех случаях запись в pg_shdepend указывает, что объект ссылки не может быть удален без удаления также зависимого объекта. Тем не менее, есть несколько подвидов, которые задаются с помощью deptype:

SHARED_DEPENDENCY_OWNER (о)

Объект на который ссылаются (должен быть ролью) является владельцем зависимого объекта.

SHARED_DEPENDENCY_ACL (a)

Объект на который ссылаются (должен быть ролью) упоминается в списке ACL (access control list, т. е. список привилегий) зависимого объекта. (Запись SHARED_DEPENDENCY_ACL не создаётся для владельца объекта, так как у владельца в любом случае будет SHARED_DEPENDENCY_OWNER .)

SHARED_DEPENDENCY_POLICY (r)

Объект на который ссылаются (должен быть ролью) является целью для зависимого объекта политики.

SHARED_DEPENDENCY_PIN (p)

Не зависимого объекта - этот тип записи означает то, что сама система зависит от объекта на который ссылается, и поэтому этот объект никогда не должен быть удален. Записи этого типа создаются только в команде qhb_bootstrap. Столбцы для зависимого объекта у этой записи содержат нули.

В будущем могут потребоваться и другие виды зависимостей. Обратите внимание, сейчас для объекта на который ссылаются поддерживаются только роли.

pg_shdescription

Каталог pg_shdescription хранит необязательные описания (комментарии) для общих объектов базы данных. Описаниями можно манипулировать с помощью команды COMMENT и просматривать с помощью qsql \d команды.

См. также раздел pg_description, который содержит аналогичную информацию для описаний, включающих объекты в пределах одной базы данных.

В отличие от большинства системных каталогов, pg_shdescription является общим для всех баз данных кластера: существует только одна копия pg_shdescription на кластер, а не по одному на каждую базу данных.

pg_shdescription столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID объекта, к которому относится данное описание
classoid	oid	pg_class.oid	Идентификатор OID системного каталога, в котором отображается этот объект
description	text		Произвольный текст, который служит описанием данного объекта

pg_shseclabel

Каталог pg_shseclabel сохраняет метки безопасности на общих объектах базы данных. Метками безопасности можно управлять с помощью команды SECURITY LABEL. Для простого способа просмотра меток безопасности см. раздел pg_seclabels.

Смотрите также раздел pg_seclabel, который выполняет аналогичную функцию для меток безопасности, включающих объекты в пределах одной базы данных.

В отличие от большинства системных каталогов, pg_shseclabel является общим для всех баз данных кластера: существует только одна копия pg_shseclabel на кластер, а не по одному на каждую базу данных.

pg_shseclabel столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID объекта, к которому относится эта метка безопасности
classoid	oid	pg_class.oid	Идентификатор OID системного каталога, в котором отображается этот объект
provider	text		Поставщик, связанный с этой меткой.
label	text		Метка безопасности, применяемая к этому объекту.

pg_statistic

Каталог pg_statistic хранит статистические данные о содержимом базы данных. Записи создаются при помощи команды ANALYZE и впоследствии используются планировщиком запросов. Обратите внимание, что все статистические данные по своей сути являются приблизительными, даже если они являются актуальными.

Обычно есть одна запись, с stainherit = false, для каждого столбца таблицы, который был проанализирован. Если таблица имеет дочерние элементы наследования, тотакже создается вторая запись с stainherit = true . Эта строка представляет статистику для столбца по всему дереву наследования, т. е. статистику для данных, которые вы видите с помощью SELECT column FROM table*, в то время как stainherit = false строка представляет собой результаты выполнения SELECT column FROM ONLY table.

В pg_statistic также хранятся статистические данные о значениях индексных выражений. Они описываются так, как если бы они были реальными столбцами данных - в частности, starelid ссылается на индекс. Однако для обычного столбца индекса, не содержащего выражения, запись не производится, поскольку она была бы избыточной для записи для базового столбца таблицы. В настоящее время записи для выражений индекса всегда имеют stainherit = false.

Поскольку различные виды статистики подходят для различных видов данных, pg_statistic предназначен не для того, чтобы строить очень много предположений о том, какую статистику он хранит. Только очень общие статистические данные (такие как nullness) приведены в отдельных столбцах в pg_statistic. Все остальное хранится в "слотах", которые представляют собой группы связанных столбцов, содержимое которых определяется кодовым номером в одном из слотов.

pg_statistic она не должна быть доступной для чтения любым пользователем, поскольку даже статистическая информация о содержании таблицы может считаться конфиденциальной. (Например: минимальные и максимальные значения столбца зарплаты могут представлять интерес.) pg_stats - это доступное для чтения всем пользователям представление для pg_statistic оно предоставляет только информацию о тех таблицах, которые доступны на чтение текущему пользователю.

pg_statistic столбцы

Имя	Тип	Ссылки	Описание
starelid	oid	pg_class.oid	Таблица или индекс, к которому принадлежит описываемый столбец
staattnum	int2	pg_attribute.attnum	Номер описываемой колонки
stainherit	bool		Если значение true, то статистика включает дочерние столбцы наследования, а не только значения в указанном отношении
stanullfrac	float4		Доля записей в которых столбец не заполнен
stawidth	int4		Средняя сохраненная ширина записей для ненулевых столбцов в байтах
stadistinct	float4		Число различных значений данных в ненулевом в столбце. Значение больше нуля-это фактическое число различных значений. Значение меньше нуля- взятое по модулю это количество строк в таблице; например, столбец, в котором около 80% значений не имеют значения NULL и каждое ненулевое значение появляется в среднем примерно два раза , может быть представлен следующим образом: stadistinct = -0.4. Нулевое значение означает, что число различных значений неизвестно.
stakindN	int2		Кодовый номер, указывающий вид статистики, хранящейся в N-м "слоте" строки из pg_statistic.
staopN	oid	pg_operator.oid	Оператор, используемый для получения статистики, хранящейся в N-м "слоте". Например, для "слота гистограммы" это будет оператор <, определяющий порядок сортировки данных.
stacollN	oid	pg_collation.oid	Параметры сортировки, используемые для получения статистики, хранящейся в N-м "слоте". Например, "слот гистограммы" для столбца с возможностью сортировки будет отображать параметры сортировки, определяющие порядок сортировки данных. Ноль для непроверяемых данных.
stanumbersN	float4[]		Числовая статистика соответствующего вида для N-го "слота", или null, если вид "слот" не содержит числовых значений
stavaluesN	anyarray		Значения данных столбца соответствующего вида для N-го "слота", или null, если этот вид "слота" не хранит никаких значений для данных. Значения каждого элемента массива фактически относятся к определенному типу данных столбца или связанному типу, такому как тип элемента массива, поэтому нет способа определить тип этих столбцов более конкретно, чем anyarray.

pg_statistic_ext

Каталог pg_statistic_ext содержит определения расширенной статистики планировщика. Каждая строка в этом каталоге соответствует объекту статистики, созданному с помощью команды CREATE STATISTICS.

pg_statistic_ext столбцы

Имя	Тип	Ссылки	Описание
stxrelid	oid	pg_class.oid	Таблица, содержащая столбцы, описываемые данным объектом
stxname	name		Имя объекта статистики
stxnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот объект статистики
stxowner	oid	pg_authid.oid	Владелец объекта статистики
stxkeys	int2vector	pg_attribute.attnum	Массив номеров атрибутов, указывающих, какие столбцы таблицы покрываются этим объектом статистики; например, значение 1 3 это означает, что будут покрыты первый и третий столбцы таблицы
stxkind	char[]		Массив, содержащий коды для включенных типов статистики; допустимыми значениями являются: d для n-различных статистических данных, f для статистики функциональной зависимости, а также m для статистики списка наиболее часто встречающихся значений (MCV)

pg_statistic_ext запись полностью заполняется при выполнении команды CREATE STATISTICS, но фактические статистические значения не вычисляются. Последующие команды ANALYZE вычисляют требуемые значения и заполняют запись в каталоге pg_statistic_ext_data.

pg_statistic_ext_data

Каталог pg_statistic_ext_data содержит данные для расширенной статистики планировщика, определенной в pg_statistic_ext. Каждая строка в этом каталоге соответствует объекту статистики, созданному с помощью команды CREATE STATISTICS.

Так же как pg_statistic, pg_statistic_ext_data этот каталог не должен быть доступен для чтения всем пользователям, поскольку его содержимое может считаться конфиденциальным. (Пример: наиболее распространенные комбинации значений в столбцах базы данных могут предоставлять определённый интерес.) pg_stats_ext-это доступное для чтения представление (view) bp pg_statistic_ext_data (после соединения с pg_statistic_ext) которое предоставляет только информацию о тех таблицах и столбцах, которые могут быть прочитаны текущим пользователем.

pg_statistic_ext_data столбцы

Имя	Тип	Ссылки	Описание
stxoid	oid	pg_statistic_ext.oid	Расширенный статистический объект, содержащий определение для данных
stxdndistinct	pg_ndistinct		количество значений сохранённая как тип pg_ndistinct
stxddependencies	pg_dependencies		Статистика функциональных зависимостей, сохранённая как тип pg_dependenciesп
stxdmcv	pg_mcv_list		Статистика списка MCV (most-common values), сохранённая как тип pg_mcv_list Тип

pg_subscription

Каталог pg_subscription содержит все существующие подписки на логическую репликацию.

В отличие от большинства системных каталогов, pg_subscription является общим для всех баз данных кластера: существует только одна копия pg_subscription на кластер, а не по одному на каждую базу данных.

Доступ к колонке subconninfo отзывается у обычных пользователей, поскольку он может содержать простые текстовые пароли.

pg_subscription столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
subdbid	oid	pg_database.oid	OID базы данных, в которой находится подписка
subname	name		Название подписки
subowner	oid	pg_authid.oid	Владелец подписки
subenabled	bool		Если задано значение true, подписка включена и должна реплицироваться.
subsynccommit	text		Содержит значение параметра настройка synchronous_commit для процессов подписки.
subconninfo	text		Строка подключения к вышестоящей базе данных
subslotname	name		Имя слота репликации в вышестоящей базе данных. Также используется при локальной репликации имя источника.
subpublications	text[]		Массив подписанных имен публикаций которые ссылаются на публикации на сервере.

pg_subscription_rel

Каталог pg_subscription_rel содержит состояние для каждого реплицируемого отношения в каждой подписке. Это отображение хранится как многие-ко-многим.

Этот каталог содержит только таблицы, известные подписке после выполнения команды CREATE SUBSCRIPTION или ALTER SUBSCRIPTION или REFRESH PUBLICATION.

pg_subscription_rel столбцы

Имя	Тип	Ссылки	Описание
srsubid	oid	pg_subscription.oid	Ссылка на подписку
srrelid	oid	pg_class.oid	Ссылка на связь
srsubstate	char		Код состояния: i = инициализация, d = данные копируются, s = синхронизированно, r = готов (нормальная репликация)
srsublsn	pg_lsn		LSN принимающей стороны для состояния s и r.

pg_tablespace

Каталог pg_tablespace хранит информацию о доступных табличных пространствах. Таблицы могут быть размещены в определенных табличных пространствах для облегчения администрирования хранилища.

В отличие от большинства системных каталогов, pg_tablespace является общим для всех баз данных кластера - существует только одна копия pg_tablespace на кластер, а не по одному на каждую базу данных.

pg_tablespace столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
spcname	name		Имя табличного пространства
spcowner	oid	pg_authid.oid	Владелец табличного пространства, обычно пользователь, который его создал
spcacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации
spcoptions	text[]		Параметры табличного пространства, в виде строки "ключ=значение"

pg_transform

Каталог pg_transform хранит информацию о преобразованиях, которые являются механизмом для адаптации типов данных к процедурным языкам.

pg_transform столбцы

Имя	Тип	Ссылки	Описание
trftype	oid	pg_type.oid	OID типа данных, для которого предназначено это преобразование
trflang	oid	pg_language.oid	OID языка, для которого это преобразование предназначено
trffromsql	regproc	pg_proc.oid	OID функции, используемый при преобразовании типа данных для передачи в процедурный язык (например, параметры функции). Ноль - если эта операция не поддерживается.
trftosql	regproc	pg_proc.oid	OID функции, используемый при преобразовании полученных из процедурного языка (например, возвращаемых значений) в тип данных. Ноль - если эта операция не поддерживается.

pg_trigger

Каталог pg_trigger содержит информацию о триггерах в таблицах и представлениях.

pg_trigger столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
tgrelid	oid	pg_class.oid	Таблица, в которой находится этот триггер
tgname	name		Имя триггера (должно быть уникальным среди триггеров одной таблицы)
tgfoid	oid	pg_proc.oid	Вызываемая функция
tgtype	int2		Битовая маска, идентифицирующая условия срабатывания триггера
tgenabled	char		Элементы управления, для которых срабатывает триггер в режиму session_replication_role . О = триггер срабатывает в режимах origin и local, D = триггер отключен, R = триггер срабатывает в режиме replica, A = триггер срабатывает всегда.
tgisinternal	bool		True, если триггер генерируется внутри системы (обычно для принудительного применения ограничения, определенного tgconstraint)
tgconstrrelid	oid	pg_class.oid	Таблица, на которую ссылается ограничение ссылочной целостности
tgconstrindid	oid	pg_class.oid	Индекс, поддерживающий ограничение уникальности, первичного ключа, ссылочной целостности или исключения
tgconstraint	oid	pg_constraint.oid	pg_constraint запись, связанная с триггером, если таковая имеется
tgdeferrable	bool		True, если триггер ограничения является отложенным
tginitdeferred	bool		True, если триггер ограничения изначально отложен
tgnargs	int2		Количество строк аргументов, переданных в функцию trigger
tgattr	int2vector	pg_attribute.attnum	Номера столбцов, если триггер является специфичным для столбца - в противном случае пустой массив
tgargs	bytea		Строки аргументов для передачи триггеру, завершается NULL
tgqual	pg_node_tree		Дерево выражений (nodeToString() представление) для условие триггера WHEN, или NULL, если условия нет
tgoldtable	name		имя предложения REFERENCING для СТАРОЙ ТАБЛИЦЫ, или NULL, если нет
tgnewtable	name		имя предложения REFERENCING для НОВОЙ ТАБЛИЦЫ, или NULL, если условия нет

В настоящее время специфичный для столбца запуск триггера поддерживается только для UPDATE события, соот. tgattr актуально только для этого типа событий. tgtype может также содержать биты для других типов событий, но они считаются независимы от того, что находится внутри tgattr.

Примечание!!!
Когда tgconstraint ненулевое значение оно ссылается на строки из pg_constraint, т.о. tgconstrrelid, tgconstrindid, tgdeferrable, и tginitdeferred избыточны . Тем не менее, возможно, что не отложенный триггер будет связан с ограничением deferrable - ограничения внешнего ключа могут иметь некоторые отложенные и некоторые не отложенные триггеры.

Примечание!!!
pg_class.relhastriggers должно быть true, если отношение имеет какие-либо триггеры в этом каталоге.

pg_ts_config

Каталог *pg_ts_config содержит записи конфигурации полнотекстового поиска. Конфигурация задает определенный синтаксический анализатор полнотекстового поиска и список словарей, которые будут использоваться для каждого из типов выходных маркеров синтаксического анализатора. Синтаксический анализатор хранится в записи pg_ts_config, но сопоставление токен-словарь определяется дочерними записями в pg_ts_config_map.

pg_ts_config столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
cfgname	name		Имя конфигурации текстового поиска
cfgnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего эту конфигурацию
cfgowner	oid	pg_authid.oid	Владелец конфигурации
cfgparser	oid	pg_ts_parser.oid	OID синтаксического анализатора текстового поиска для этой конфигурации

pg_ts_config_map

Каталог pg_ts_config_map содержит записи, показывающие, с какими словарями текстового поиска следует обращаться и в каком порядке, для каждого типа выходного токена синтаксического анализатора каждой конфигурации текстового поиска.

pg_ts_config_map столбцы

Имя	Тип	Ссылки	Описание
mapcfg	oid	pg_ts_config.oid	OID записи из pg_ts_config, владеющий этим отображением
maptokentype	integer		Тип маркера, создаваемого синтаксическим анализатором конфигурации
mapseqno	integer		Порядок, в котором следует ознакомиться с этой записью (ниже mapseqnos первый)
mapdict	oid	pg_ts_dict.oid	OID словаря текстового поиска для консультации

pg_ts_dict

Каталог pg_ts_dict содержит записи, определяющие словари текстового поиска. Словарь зависит от шаблона текстового поиска, который задает все необходимые функции реализации - сам словарь предоставляет значения для настраиваемых пользователем параметров, поддерживаемых шаблоном. Такое разделение позволяет создавать словари непривилегированным пользователям. Параметры задаются текстовой строкой dictinitoption, формат и значение которой различаются в зависимости от шаблона.

pg_ts_dict столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
dictname	name		Название словаря текстового поиска
dictnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот словарь
dictowner	oid	pg_authid.oid	Владелец словаря
dicttemplate	oid	pg_ts_template.oid	OID шаблона текстового поиска для этого справочника
dictinitoption	text		Строка параметра инициализации для шаблона

pg_ts_parser

Каталог pg_ts_parser содержит записи, определяющие синтаксические анализаторы текстового поиска. Синтаксический анализатор отвечает за разбиение входного текста на лексемы и присвоение каждой лексеме типа токена. Поскольку синтаксический анализатор должен быть реализован с помощью функций на языке C\RUST, создание новых синтаксических анализаторов возможно только для суперпользователей базы данных.

pg_ts_parser столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
prsname	name		Имя синтаксического анализатора для поиска текста
prsnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот синтаксический анализатор
prsstart	regproc	pg_proc.oid	OID функции запуска синтаксического анализатора
prstoken	regproc	pg_proc.oid	OID функции поиска следующего маркера синтаксического анализатора
prsend	regproc	pg_proc.oid	OID функции завершения работы синтаксического анализатора
prsheadline	regproc	pg_proc.oid	OID функции заголовка синтаксического анализатора
prslextype	regproc	pg_proc.oid	OID функции анализатора лексического типа

pg_ts_template

Каталог pg_ts_template содержит записи, определяющие шаблоны текстового поиска. Шаблон-это скелет реализации для класса словарей текстового поиска. Поскольку шаблон должен быть реализован с помощью функций на языке C\RUST, создание новых шаблонов возможно только для суперпользователей базы данных.

pg_ts_template столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
tmplname	name		Имя шаблона текстового поиска
tmplnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот шаблон
tmplinit	regproc	pg_proc.oid	OID функции инициализации шаблона
tmpllexize	regproc	pg_proc.oid	OID функции лексера

pg_type

Каталог pg_type хранит информацию о типах данных. Базовые типы и типы перечислений (скалярные типы) создаются с помощью CREATE TYPE, а домены-с помощью CREATE DOMAIN. Составной тип автоматически создается для каждой таблицы в базе данных, чтобы представить структуру строк таблицы. Кроме того, можно создать составные типы с помощью CREATE TYPE AS.

pg_type столбцы

Имя	Тип	Ссылка	Описание
oid	oid		Идентификатор строки
typname	name		Имя типа данных
typnamespace	oid	pg_namespace.oid	OID пространства имен, содержащего этот тип
typowner	oid	pg_authid.oid	Владелец данного типа
typlen	int2		Для типа фиксированного размера, typlen это число байтов во внутреннем представлении типа. Для типа переменной длины, typlen отрицательный. -1 указывает на тип "varlena" (тип переменного размера с указанием длины), -2 указывает на C-строку завершающуюся нулевым символом.
typbyval	bool		typbyval определяет, будут ли внутренние функции передавать значение этого типа по значению или по ссылке. typbyval предпочтительно иметь значение false - если typlen это не 1, 2 или 4 (или 8 на машинах, где Datum составляет 8 байт). Типы переменной длины всегда передаются по ссылке. Обратите внимание, что typbyval может быть false, даже если длина позволит передачу по значению.
typtype	char		typtype имеет значения b для базового типа, s для составного типа (например, тип строки таблицы), d для домена, e для перечислимого типа, p для псевдо-типа, или r для типа диапазона. См/ также typrelid и typbasetype.
typcategory	char		typcategory это произвольная классификация типов данных, которая используется синтаксическим анализатором для определения того, какие неявные приведения должны быть “предпочтительными”. См typcategory Коды.
typispreferred	bool		True, если тип является предпочтительным объектом приведения в пределах его typcategory
typisdefined	bool		True, если тип определен, false, если это запись "заготовка" для еще не определенного типа. Когда typisdefined имеет значение false, ни на что, кроме имени типа, пространства имен и OID, нельзя полагаться.
typdelim	char		Символ, который разделяет два значения этого типа при разборе данных массива. Обратите внимание, что разделитель связан с типом данных элемента массива, а не с самим типом массив.
typrelid	oid	pg_class.oid	Если это составной тип (см. typtype), то этот столбец указывает на то, запись из pg_class которая определяет соответствующую таблицу. (Для отдельно стоящего композитного типа: запись из pg_class на самом деле не представляет собой таблицу, но она все равно необходима для записи из pg_attribute для ссылки на них.) Для несоставных типов значение столбца - Ноль.
typelem	oid	pg_type.oid	Если typelem не равно 0, то он ссылается на другую строку в pg_type. В этом случае текущий тип может использоваться как массив, значений типа typelem. "Настоящий" массив при этом имеет переменную длину (typlen = -1), но некоторые типы фиксированной длины (typlen > 0) также имеют ненулевое значение typelem, например Name и Point. Если для типа фиксированной длины задан typelem тогда его внутреннее представление должно быть некоторым количеством значений (кортежем) с типом данных typelem без каких-либо других данных. Типы массивов переменной длины имеют заголовок, определяемый подпрограммами массива.
typarray	oid	pg_type.oid	Если typarray не равно 0, то он ссылается на другую строку в pg_type, которая и является ”настоящим" массивом, с этотим типом в качестве элемента
typinput	regproc	pg_proc.oid	Функция преобразования ввода (из текста)
typoutput	regproc	pg_proc.oid	Функция преобразования вывода (в текст)
typreceive	regproc	pg_proc.oid	Функция преобразования ввода (двоичный формат), или 0 если такой функции нет
typsend	regproc	pg_proc.oid	Функция преобразования вывода (двоичный формат), или 0, если такой функции нет
typmodin	regproc	pg_proc.oid	Функция модификатора ввода, или 0, если тип не поддерживает модификаторы
typmodout	regproc	pg_proc.oid	Функция модификатора вывода или 0 для использования стандартного формата
typanalyze	regproc	pg_proc.oid	Пользовательская функция ANALYZE, или 0 для использования стандартной функции
typalign	char		Показывает требуется ли выравнивание при хранении значения этого типа. Это относится к хранилищу на диске, а также к большинству представлений значения внутри QHB. Когда несколько значений хранятся последовательно, например в представлении строки данных на диске, заполнение числами вставляется перед Datum для этого типа так, чтобы он начинался на указанной границе. Ссылка на выравнивание является началом первого Datum в последовательности. Возможные значения:: c = посимвольное выравнивание (char alignment), т. е. выравнивание не требуется. s = выравнивание по границе слова (short alignment) 2 байта на большинстве процессоров. i = выравнивание по границе целого (int alignment) 4 байта на большинстве процессоров. d = выравнивание по границе двойного слова (double alignment) 8 байт на многих процессорах, но далеко не на всех. Примечание Для типов, используемых в системных таблицах, очень важно, чтобы размер и выравнивание определённые в pg_type были согласованы с тем, как компилятор будет упаковывать столбец в структуру, представляющую строку таблицы.
typstorage	char		typstorage сообщает о типах varlena (те с typlen = -1) подготовлен ли тип к TOAST и какова должна быть стратегия по умолчанию для атрибутов этого типа. Возможные значения: p: Значение всегда должно храниться в обычном виде. e: Значение может быть сохранено в "вторичном" отношении (если отношение имеет один, см. pg_class.reltoastrelid). m: Значение может быть сохранено сжатым в строке. x: Значение может быть сохранено сжатым в строке или сохранено в "вторичном" хранилище. Обратите внимание, что столбцы "m" также можно переместить во вторичное хранилище, но только в крайнем случае ("e" и "x" столбцы перемещаются первыми).
typnotnull	bool		typnotnull представляет собой не нулевое ограничение для типа. Используется только для доменов.
typbasetype	oid	pg_type.oid	Если это домен (см. typtype), тогда typbasetype определяет тип, на котором основан этот вариант. Ноль, если этот тип не является доменом.
typtypmod	int4		Если тип это домен typtypmod нужен для того чтобы задать модификатор приведения к его базовому типу (-1 если базовый тип не typtypmod). -1, если этот тип не является доменом.
typndims	int4		typndims это число измерений массива из доменов (то есть, если typbasetype является массивом). Ноль для типов, отличных от массива из доменов.
typcollation	oid	pg_collation.oid	typcollation задает параметры сортировки типа. Если тип не поддерживает параметры сортировки, столбец равен нулю. Базовый тип, который поддерживает параметры сортировки будет иметь ненулевое значение, как правило DEFAULT_COLLATION_OID. Домен над типом collatable вкачестве значения может иметь OID параметров сортировки, отличный от базового типа, если он был указан для домена.
typdefaultbin	pg_node_tree		Если typdefaultbin не ноль, это то nodeToString() для выражения по умолчанию данного типа. Используется только для доменов.
typdefault	text		typdefault имеет значение null, если тип не имеет связанного значения по умолчанию. Если typdefaultbin не равно нулю, typdefault должно содержать удобочитаемую версию выражения по умолчанию, представленного в typdefaultbin. Если typdefaultbin имеет значение null а typdefault нет, значит typdefault является внешним представлением значения по умолчанию типа, которое может быть подано в функцию преобразования типа для получения константы.
typacl	aclitem[]		Права доступа; смотрите раздел Привилегии для получения дополнительной информации

В таблице pg_type столбцы перечислены определяемые системой значения следующих параметров: typcategory. Любые будущие дополнения к этому списку также будут прописными буквами ASCII. Все остальные символы ASCII зарезервированы для пользовательских категорий.

typcategory Коды

Код	Категория
A	Массив
B	Булевый тип
C	Составной тип
D	Типы даты / времени
E	Тип enum
G	Геометрические типы
I	Типы сетевых адресов
N	Числовой тип
P	Псевдо-типы
R	Тип диапазон
S	Строковый тип
T	Типы Timespan
U	Определяемые пользователем типы
V	Типы битовых строк
X	Неизвестный тип

pg_user_mapping

Каталог pg_user_mapping содержит сопоставления для локального и удаленного пользователя. Доступ к этому каталогу ограничен для обычных пользователей, используйте вместо этого представление pg_user_mappings.

pg_user_mapping столбцы

Имя	Тип	Ссылки	Описание
oid	oid		Идентификатор строки
umuser	oid	pg_authid.oid	OID сопоставляемой локальной роли, 0, если пользовательское сопоставление является общедоступным
umserver	oid	pg_foreign_server.oid	OID внешнего сервера, содержащий это сопоставление
umoptions	text[]		Параметры сопоставления, в виде строки "ключ=значение"

Системные представления

Помимо системных каталогов, QHB предоставляет ряд встроенных представлений. Некоторые системные представления обеспечивают удобный доступ к некоторым часто используемым запросам в системных каталогах. Другие представления предоставляют доступ к внутреннему состоянию сервера.

Информационная схема (information_schema) предоставляет альтернативный набор представлений, которые перекрывают функциональные возможности системных представлений. Поскольку информационная схема является частью стандарта SQL, а представления, описанные здесь, являются специфичными для QHB, обычно лучше использовать информационную схему, если она предоставляет всю необходимую информацию.

В таблице "системные представления" перечислены системные представления, описанные в этом разделе. Более подробная документация по каждому представлению приведена ниже. Существуют некоторые дополнительные представления, обеспечивающие доступ к результатам работы сборщика статистических данных; они описаны в разделе Сборщик статистики

За исключением тех случаев, когда это отмечено, все представления, описанные здесь, доступны только для чтения.

системные представления

имя представления	Цель
pg_available_extensions	доступные расширения
pg_available_extension_versions	доступные версии расширений
pg_config	параметры конфигурации во время компиляции
pg_cursors	открытый курсор
pg_file_settings	сводка содержимого файла конфигурации
pg_group	группы пользователей баз данных
pg_hba_file_rules	сводка содержимого файла конфигурации проверки подлинности клиента
pg_indexes	индексы
pg_locks	замки в настоящее время удерживаются или ожидаются
pg_matviews	материализованное представление
pg_policies	политики
pg_prepared_statements	подготовленное заявление
pg_prepared_xacts	подготовленные сделки
pg_publication_tables	публикации и связанные с ними таблицы
pg_replication_origin_status	сведения об источниках репликации, включая ход выполнения репликации
pg_replication_slots	сведения о слоте репликации
pg_roles	роль базы данных
pg_rules	правила
pg_seclabels	метка безопасности
pg_sequences	последовательности
pg_settings	настройка параметров
pg_shadow	пользователь базы данных
pg_stats	статистика планировщика
pg_stats_ext	расширенная статистика планировщика
pg_tables	таблицы
pg_timezone_abbrevs	сокращения часовых поясов
pg_timezone_names	названия часовых поясов
pg_user	пользователь базы данных
pg_user_mappings	сопоставление пользователей
pg_views	число просмотров

pg_available_extensions

Представление pg_available_extensions содержит список расширений, доступных для установки. См. также каталог pg_extension, в котором отображаются установленные в данный момент расширения.

pg_available_extensions столбцы

Имя	Тип	Описание
name	name	Имя расширения
default_version	text	Имя версии по умолчанию, или NULL если версия не указана
installed_version	text	Версия расширения установленного сейчас, или NULL если расширение не установлено
comment	text	Строка комментария из управляющего файла расширения

Представление pg_available_extensions доступно только для чтения.

pg_available_extensions_versions

Представление pg_available_extension_versions содержит список конкретных версий расширений, доступных для установки. См. также каталог pg_extension, в котором отображаются установленные в данный момент расширения.

pg_available_extension_versions столбцы

Имя	Тип	Описание
name	name	Имя расширения
version	text	Версия
installed	bool	True, если эта версия данного расширения уже установлена
superuser	bool	True, если только суперпользователям разрешено устанавливать это расширение
relocatable	bool	True, если расширение можно переместить в другую схему
schema	name	Имя схемы, в которую необходимо установить расширение, или NULL при частичном или полном перемещении
requires	name[]	Имена необходимых для работы расширений (зависимости), или NULL если зависимостей нет
comment	text	Строка комментария из управляющего файла расширения

Представление pg_available_extension_versions доступно только для чтения.

pg_config

Представление pg_config описывает параметры конфигурации во время компиляции текущей установленной версии QHB. Оно предназначено, например, для использования программными пакетами, которые хотят взаимодействовать с QHB, чтобы облегчить поиск необходимых заголовочных файлов и библиотек. Оно предоставляет ту же основную информацию, что и утилита qhb_config из поставки QHB.

По умолчанию, представление pg_config может быть прочитано только суперпользователями.

pg_config столбцы

Имя	Тип	Описание
name	text	Имя параметра
setting	text	Значение параметра

pg_cursors

Представление pg_cursors - список курсоров, которые в настоящее время доступны. Курсоры могут быть определены несколькими способами:

через оператор DECLARE в SQL
через сообщение привязки в сетевом протоколе QHB
через интерфейс программирования сервера (SPI), как описано в соот. разделе документации SPI

Представление pg_cursors отображает курсоры, созданные любым из этих средств. Курсоры существуют только в течение транзакции, которая их определяет, если они не были объявлены WITH HOLD. Таким образом, не удерживаемые курсоры присутствуют в представлении только до конца транзакции их создавшей.

Примечание!!!
Курсоры используются в системе для реализации некоторых компонентов QHB, таких как процедурные языки. Поэтому представление pg_cursors может содержать курсоры, которые не были явно созданы пользователем.

pg_cursors столбцы

Имя	Тип	Описание
name	text	Имя курсора
statement	text	Строка запроса (полностью), отправленная для объявления этого курсора
is_holdable	boolean	True если курсор является удерживаемым (то есть он может быть доступен после транзакции, объявшей курсор) - иначе false
is_binary	boolean	True если курсор был объявлен BINARY - иначе false
is_scrollable	boolean	True если курсор двунаправленный (то есть он позволяет извлекать строки непоследовательным образом)- иначе false
creation_time	timestamptz	Время когда был объявлен курсор

Представление pg_cursors доступно только для чтения.

pg_file_settings

Представление pg_file_settings предоставляет сводку содержимого файла(ов) конфигурации сервера. В этом представлении отображается строка для каждой записи "имя = значение", появляющейся в файлах, с примечаниями, указывающими, может ли это значение быть успешно применено. Дополнительные строки могут отображаться для проблем, не связанных с записью "имя = значение", например синтаксических ошибок в файлах.

Это представление полезно для проверки того, будут ли работать запланированные изменения в файлах конфигурации, или для диагностики предыдущего сбоя. Обратите внимание, что это представление сообщает о текущем содержимом файлов, а не о том, что было применено сервером в последний раз. (Для этого обычно достаточно представления pg_settings).

По умолчанию, представление pg_file_settings может быть прочитано только суперпользователями.

pg_file_settings столбцы

Имя	Тип	Описание
sourcefile	text	Полный путь к файлу конфигурации
sourceline	integer	Номер строки в файле конфигурации, где появляется запись
seqno	integer	Порядок, в котором обрабатываются операции (1..N)
name	text	Имя параметра конфигурации
setting	text	Значение, которое будет присвоено параметру
applied	boolean	True, если значение может быть применено успешно
error	text	Если не null - в столбце содержится сообщение об ошибке, указывающее, почему эта запись не может быть применена

Если файл конфигурации содержит синтаксические ошибки или недопустимые имена параметров, сервер не будет пытаться применить какие-либо параметры из файла, а следовательно, все значения поля applied будут false. В таком случае в представлении будет одна или несколько строк с ненулевым значением error, указывающие на проблему(ы). В противном случае, если это возможно, будут применены отдельные настройки. Если индивидуальный параметр не может быть применен (например, недопустимое значение или параметр не может быть изменен после запуска сервера), он будет иметь соответствующее сообщение в поле error. Другой способ, при котором applied = false означает, что параметр переопределяется более поздней записью для того же имени параметра; этот случай не считается ошибкой, поэтому ничто не появляется в поле error.

Дополнительную информацию о различных способах изменения параметров времени выполнения см. в разделе Настройка параметров

pg_group

Представление pg_group показывает имена и члены всех ролей, которые помечены как not rolcanlogin, т.е. отображает роли как группы.

pg_group столбцы

Имя	Тип	Ссылки	Описание
groname	name	pg_authid.rolname	Название группы
grosysid	oid	pg_authid.oid	ID этой группы
grolist	oid[]	pg_authid.oid	Массив, содержащий идентификаторы ролей в этой группе

pg_hba_file_rules

Представление pg_hba_file_rules предоставляет сводку содержимого файла конфигурации для проверки подлинности клиента, qhb_hba.conf. В этом представлении отображается строка для каждой непустой строки файла, не содержащей комментариев, с примечаниями, указывающими на возможность успешного применения правила.

Это представление может быть полезно для проверки того, будут ли работать запланированные изменения в файле конфигурации проверки подлинности, или для диагностики предыдущего сбоя. Обратите внимание, что это представление сообщает о текущем содержимом файла, а не о том, что было загружено последним сервером.

По умолчанию, представление pg_hba_file_rules может быть прочитано только суперпользователями.

pg_hba_file_rules столбцы

Имя	Тип	Описание
line_number	integer	Номер строки этого правила в qhb_hba.conf
type	text	Тип соединения
database	text[]	Список имен баз данных, к которым применяется данное правило
user_name	text[]	Список имен пользователей и ролей, к которым применяется данное правило
address	text	Имя хоста или IP-адрес, либо одно из значений all, samehost, или samenet, или null для локальных соединений
netmask	text	Маска IP-адреса, или null, если не применимо
auth_method	text	Способ аутентификации
options	text[]	Параметры, указанные для метода аутентификации, если таковые имеются
error	text	Если не null, то сообщение об ошибке, указывающее, почему эта строка не может быть обработана

Обычно строка, отражающая неверную запись, будет иметь значения только для line_number и error.

pg_indexes

Представление pg_indexes предоставляет доступ к полезной информации о каждом индексе в базе данных.

pg_indexes столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу и индекс
tablename	name	pg_class.relname	Имя таблицы, для которой используется индекс
indexname	name	pg_class.relname	Имя индекса
tablespace	name	pg_tablespace.spcname	Имя табличного пространства, содержащего индекс (null, если пространство по умолчанию для базы данных)
indexdef	text		Определение индекса (восстановленная команда CREATE INDEX)

pg_locks

Представление pg_locks предоставляет доступ к информации о блокировках, удерживаемых активными процессами на сервере базы данных. Дополнительную информацию о блокировке смотрите в разделе посвященном блокировкам

pg_locks содержит одну строку на активный блокируемый объект, запрошенный режим блокировки и соответствующий процесс. Таким образом, один и тот же блокируемый объект может появляться много раз, если несколько процессов удерживают или ожидают блокировки на нем. Однако объект, который в настоящее время не имеет блокировок - не будет отображаться вообще.

Существует несколько различных типов блокируемых объектов: отношения целиком (например, таблицы), отдельные страницы отношений, отдельные кортежи отношений, идентификаторы транзакций (как виртуальные, так и постоянные идентификаторы) и общие объекты базы данных (идентифицируемые классом OID и объектным OID, таким же образом, как и в pg_description или pg_depend). Также запрос на расширение отношения представляется в виде отдельного блокируемого объекта. Кроме того, "необязательные" блокировки могут быть иметь номера, значения которых определяет пользователь.

pg_locks столбцы

Имя	Тип	Ссылки	Описание
locktype	text		Тип блокируемого объекта: отношение (relation), расширение (extend), Страница (page), кортеж (tuple), транзакция ( transactionid, virtualxid), объект (object), userlock, или необязательная (advisory)
database	oid	pg_database.oid	OID базы данных, в которой существует цель блокировки, или ноль, если цель является общим объектом, или null, если цель является идентификатором транзакции
relation	oid	pg_class.oid	OID отношения, на которое направлена блокировка, или null, если цель не является отношением или частью отношения
page	integer		Номер страницы, на которую направлена блокировка в пределах отношения, или значение null, если цель не является страницей отношения или кортежем
tuple	smallint		Номер кортежа, на который направлена блокировка внутри страницы, или значение null, если цель не является кортежем
virtualxid	text		Виртуальный идентификатор транзакции, на которую направлена блокировка, или значение null, если цель не является виртуальным идентификатором транзакции
transactionid	xid		Идентификатор транзакции, на которую направлена блокировка, или значение null, если цель не является идентификатором транзакции
classid	oid	pg_class.oid	OID системного каталога, содержащего целевой объект блокировки, или значение null, если целевой объект не является общим объектом базы данных
objid	oid	OID для любого столбца	OID целевого объекта блокировки в системном каталоге или значение null, если целевой объект не является общим объектом базы данных
objsubid	smallint		Номер столбца, на который направлена блокировка (classid и objid определяет саму таблицу), или ноль, если целевой объект является каким-либо другим общим объектом базы данных, или null, если целевой объект не является общим объектом базы данных
virtualtransaction	text		Виртуальный идентификатор транзакции, которая удерживает или ожидает эту блокировку
pid	integer		Идентификатор серверного процесса (PID), удерживающего или ожидающего эту блокировку, или значение null, если блокировка удерживается подготовленной транзакцией
mode	text		Название режима блокировки, удерживаемого или ожидаемого этим процессом (см. раздел Блокировки на уровне таблицы и раздел Уровень изоляции Serializable)
granted	boolean		True, если блокировка удерживается, false, если блокировка ожидается
fastpath	boolean		True, если блокировка была получена через fastpath, false, если получена через главную таблицу блокировки

granted имеет значение true в строке, представляющей блокировку, удерживаемую указанным процессом. Значение False указывает, что этот процесс в настоящее время ожидает получения этой блокировки, что означает, что по крайней мере один другой процесс удерживает или ожидает разрешения конфликтного режима блокировки на том же самом заблокированном объекте. Процесс ожидания будет находиться в спящем режиме до тех пор, пока не будет снята другая блокировка (или обнаружена ситуация взаимоблокировки). Один процесс может ожидать получения не более одной блокировки за один раз.

Во время выполнения транзакции серверный процесс удерживает монопольную блокировку виртуального идентификатора транзакции. Если постоянному идентификатору присваивается транзакция (что обычно происходит только в том случае, если транзакция изменяет состояние базы данных), он также удерживает монопольную блокировку на постоянном идентификаторе транзакции до ее завершения. Когда процесс считает необходимым специально дождаться окончания другой транзакции, он делает это, пытаясь получить общую блокировку идентификатора другой транзакции (виртуальный или постоянный идентификатор в зависимости от ситуации). Это произойдет только тогда, когда другая транзакция завершится и освободит свои блокировки.

Хотя кортежи являются блокируемым типом объекта, информация о блокировках на уровне строк хранится на диске, а не в памяти, и поэтому блокировки на уровне строк обычно не отображаются в этом представлении. Если процесс ожидает блокировки уровня строки, он обычно отображается в представлении как Ожидание постоянного идентификатора транзакции текущего держателя блокировки этой строки.

Необязательные блокировки можно приобрести для ключей состоящих из любого одиночного значения bigint или двух integer. Старшая часть отображается в колонке classid, младшая в objid, а objsubid равно 1. Оригинал значения bigint можно собрать заново с помощью выражения (classid::bigint << 32) | objid::bigint. Ключи integer отображаются так: первый в столбце classid колонка, второй в столбце objid, а objsubid равно 2. Фактическое значение ключей зависит от пользователя. Необязательные блокировки являются локальными для каждой базы данных, поэтому столбец database имеет значение для необязательной блокировки.

pg_locks обеспечивает глобальное представление всех блокировок в кластере баз данных, а не только тех, которые относятся к текущей базе данных. Хотя через соединение по столбцу relation с pg_class.oid можно определить заблокированные отношения, это будет правильно работать только для отношений в текущей базе данных (те, для которых столбец database - это либо OID текущей базы данных, либо ноль).

Столбец pid можно соединить со столбцом pid представления pg_stat_activity, что позволяет получить дополнительную информацию о сессии для каждой блокировки, например

SELECT * FROM pg_locks pl LEFT JOIN pg_stat_activity psa
    ON pl.pid = psa.pid;

Кроме того, если вы используете подготовленные транзакции, то virtualtransaction столбец можно соединить со столбцом transaction представления pg_prepared_xacts, что позволяет получить дополнительную информацию о подготовленных транзакциях, содержащих блокировки. (Подготовленная транзакция никогда не может ждать блокировки, но она продолжает удерживать блокировки, полученные во время выполнения)

Например:

SELECT * FROM pg_locks pl LEFT JOIN pg_prepared_xacts ppx
    ON pl.virtualtransaction = '-1/' || ppx.transaction;

При этом можно получить информацию о том, какие процессы блокируют какие другие процессы путем присоединения pg_locks с самим собой, но у такого соединения много сложных деталей - такой запрос должен был бы кодировать знания о том, какие режимы блокировки конфликтуют с другими. Хуже того, чем pg_locks представление не предоставляет сведения о том, какие процессы опережают другие в очереди ожидания блокировки, а также сведения о том, какие процессы являются параллельными рабочими (workers), выполняющимися от имени каких других сеансов клиента. Это лучше всего использовать при помощи функции pg_blocking_pids() (см. раздел Системные информационные функции и операторы) для определения того, какой процесс (ы) процесс ожидают каких блокировок.

Представление pg_locks отображает данные как из обычного диспетчера блокировки, так и из диспетчера блокировки предикатов, которые являются отдельными системами, кроме того, обычный менеджер блокировки подразделяет свои блокировки на регулярные и быстрые блокировки (fastpath). Т.о. данные в pg_locks не гарантируют полной согласованности. Когда представление запрашивает, данные о блокировках быстрого доступа (с fastpath = true) данные собираются с каждого бэкенда последовательно, не "замораживая" состояние всего менеджера блокировок, поэтому можно устанвить или снять блокировки во время сбора информации. Обратите внимание, что эти блокировки, как известно, не конфликтуют с любой другой блокировкой во время получения информации. После того, как все бэкенды были опрошены для получения быстрых блокировок, оставшаяся часть обычного менеджера блокировок блокируется как единое целое, и согласованный снимок всех оставшихся блокировок собирается атомарно. После разблокировки обычного диспетчера блокировки диспетчер блокировки предикатов точно также блокируется, и все блокировки предикатов собираются как атомарно. Таким образом, за исключением быстрых блокировок, каждый менеджер блокировок будет выдавать последовательные наборы результатов, но поскольку мы не блокируем оба менеджера блокировок одновременно, возможно, что блокировки будут захвачены или освобождены после опроса обычного менеджера блокировок и до опроса менеджера блокировки предикатов.

Блокировка обычного и / или диспетчера блокировки и / или диспетчера предикатов может оказать некоторое влияние на производительность базы данных, если к этому представлению очень часто обращаются. Блокировки удерживаются только в течение минимального количества времени, необходимого для получения данных от менеджеров блокировки, но это полностью не исключает возможность влияния на производительность.

pg_matviews

Представление pg_matviews предоставляет доступ к полезной информации о каждом материализованном представлении в базе данных.

pg_matviews столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей материализованное представление
matviewname	name	pg_class.relname	Имя материализованного представления
matviewowner	name	pg_authid.rolname	Имя владельца материализованного представления
tablespace	name	pg_tablespace.spcname	Имя табличного пространства, содержащего материализованное представление (null, если пространство по умолчанию для базы данных)
hasindexes	boolean		True, если материализованное представление имеет (или недавно имело) какие-либо индексы
ISP populated	boolean		True, если материализованное представление заполнено в данный момент
definition	text		Определение материализованного представления (реконструированный запрос SELECT)

pg_policies

Представление pg_policies предоставляет доступ к полезной информации о каждой политике безопасности на уровне строк в базе данных.

pg_policies столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей табличную политику включено
tablename	name	pg_class.relname	Имя таблицы с включённой политикой
policyname	name	pg_policy.polname	Название политики
polpermissive	text		Является ли эта политика разрешительной или ограничительной?
roles	name[]		Роли, к которым применяется эта политика
cmd	text		Тип команды, к которой применяется политика
qual	text		Выражение, добавленное к условиям барьеров безопасности для запросов, к которым применяется эта политика
with_check	text		Выражение, добавленное в условие WITH CHECK для запросов, которые пытаются добавить строки в эту таблицу

pg_prepared_statements

Представление pg_prepared_statements отображает все подготовленные инструкции, доступные в текущем сеансе.

pg_prepared_statements содержит одну строку для каждого подготовленного оператора. Строки добавляются в представление при создании нового подготовленного оператора и удаляются при освобождении подготовленного оператора (например, с помощью команды DEALLOCATE).

pg_prepared_statements столбцы

Имя	Тип	Описание
name	text	Идентификатор подготовленного заявления
statement	text	Строка запроса, отправленная клиентом для создания этого подготовленного оператора. Для подготовленных операторов, созданных с помощью SQL, это оператор PREPARE, представленный клиентом. Для подготовленных операторов, созданных с помощью сетевого протокола, это текст самого подготовленного оператора.
prepare_time	timestamptz	Время, в которое был создан prepared оператор
parameter_types	regtype[]	Ожидаемые типы параметров для подготовленного оператора в виде массива regtype. OID, соответствующий элементу этого массива, может быть получен путем приведения regtype значение к oid.
from_sql	boolean	True, если подготовленный оператор был создан с помощью SQL команды PREPARE - False если оператор было подготовлен через сетевой протокол

Представление pg_prepared_statements доступно только для чтения.

pg_prepared_xacts

Представление pg_prepared_xacts отображает информацию о транзакциях, которые в настоящее время подготовлены для двухфазной фиксации (см. раздел PREPARE TRANSACTION для получения подробной информации).

pg_prepared_xacts содержит одну строку на подготовленную транзакцию. Запись удаляется при фиксации или откате транзакции.

pg_prepared_xacts столбцы

Имя	Тип	Ссылки	Описание
transaction	xid		Числовой идентификатор подготовленной транзакции
gid	text		Глобальный идентификатор, присвоенный транзакции
prepared	timestamp with time zone		Время, в которое транзакция была подготовлена к фиксации
owner	name	pg_authid.rolname	Имя пользователя, выполнившего транзакцию
database	name	pg_database.datname	Имя базы данных, в которой была выполнена транзакция

Когда осуществляется доступ к представлению pg_prepared_xacts, внутренние структуры данных диспетчера транзакций на мгновение блокируются, а для отображения d представлении создается копия. Это гарантирует, что представление создает согласованный набор результатов, не блокируя при этом обычные операции дольше, чем это необходимо. Тем не менее, если к этому представлению часто обращаться, это может оказать определенное влияние на производительность базы данных.

pg_publication_tables

Представление pg_publication_tables предоставляет информацию о сопоставлении публикаций и таблиц, которые они содержат. В отличие от базового каталога pg_publication_rel, это представление расширяет список публикаций, определённых как FOR ALL TABLES, таким образом, для таких публикаций будет строка для каждой подходящей таблицы.

pg_publication_tables столбцы

Имя	Тип	Ссылки	Описание
pubname	name	pg_publication.pubname	Название публикации
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу
tablename	name	pg_class.relname	Имя таблицы

pg_replication_origin_status

Представление pg_replication_origin_status содержит информацию о том, как далеко продвинулось воспроизведение изменений для определенного источника.

pg_replication_origin_status столбцы

Имя	Тип	Ссылки	Описание
local_id	oid	pg_replication_origin.roident	внутренний идентификатор узла
external_id	text	pg_replication_origin.roname	идентификатор внешнего узла
remote_lsn	pg_lsn		Номер LSN исходного узла, до которого были реплицированы данные.
local_lsn	pg_lsn		Номер LSN этого узла, в котором remote_lsn был реплицирован. Используется для очистки записей фиксации транзакции (COMMIT) перед сохранением данных на диске при использовании асинхронных commit.

pg_replication_slots

Представление pg_replication_slots предоставляет список всех слотов репликации, которые в настоящее время существуют в кластере баз данных, а также их текущее состояние.

pg_replication_slots столбцы

Имя	Тип	Ссылки	Описание
slot_name	name		Уникальный кластерный идентификатор для слота репликации
plugin	name		Базовое имя разделяемого объекта, содержащего модуль вывода, который использует этот логический слот, или null для физических слотов.
slot_type	text		Тип слота - физический или логический
datoid	oid	pg_database.oid	Идентификатор OID базы данных, с которой связан этот слот, или значение null. Только логические слоты имеют связанную базу данных.
database	text	pg_database.datname	Имя базы данных, с которой связан этот слот, или null. Только логические слоты имеют связанную базу данных.
temporary	boolean		True, если это слот временной репликации. Временные слоты не сохраняются на диске и автоматически сбрасываются при ошибке или по завершении сеанса.
active	boolean		True, если этот слот в настоящее время активно используется
active_pid	integer		Идентификатор процесса сеанса, использующего этот слот, если слот в настоящее время активно используется. NULL если неактивен.
xmin	xid		Самая старая транзакция, которую этот слот должен сохранить в базе данных. VACUUM не сможет удалить кортежи, удаленные любой более поздней транзакцией.
catalog_xmin	xid		Самая старая транзакция, влияющая на системные каталоги, которые этот слот должен сохранить в базе данных. VACUUM не сможет удалить кортежи каталога, удаленные любой более поздней транзакцией.
restart_lsn	pg_lsn		Адрес (номер LSN) самого старого WAL, который все еще может потребоваться потребителю этого слота и, следовательно, не будет автоматически удален во время контрольных точек. NULL если номер LSN этого слота никогда не был зарезервирован.
confirmed_flush_lsn	pg_lsn		Адрес (номер LSN) до которого потребитель логического слота подтвердил получение данных. Данные старше этого больше не доступны. NULL для физических слотов.

pg_roles

Представление pg_roles предоставляет доступ к информации о ролях базы данных. Это просто общедоступное представление pg_authid, которое скрывает поле пароля.

pg_roles столбцы

Имя	Тип	Ссылки	Описание
rolname	name		Имя роли
rolsuper	bool		Роль имеет привилегии суперпользователя
rolinherit	bool		Роль автоматически наследует привилегии ролей, членом которых она является
rolcreaterole	bool		Роль может создавать другие роли
rolcreatedb	bool		Роль может создавать базы данных
rolcanlogin	bool		Роль может войти в систему. То есть эта роль может быть задана в качестве идентификатора авторизации начального сеанса
rolreplication	bool		Роль - это роль репликации. Роль репликации может инициировать подключения репликации и создавать и удалять слоты репликации.
rolconnlimit	int4		Для ролей, которые могут войти в систему, задает максимальное число одновременных подключений, которые может создать эта роль. -1 означает отсутствие ограничений.
rolpassword	text		Скрытый пароль (всегда читается как ********)
rolvaliduntil	timestamptz		Срок действия пароля (используется только для парольной аутентификации - null, если нет срока действия
rolbypassrls	bool		Роль обходит любую политику безопасности уровня строки, см. раздел Политики безопасности строк для получения дополнительной информации.
rolconfig	text[]		Значения в роли по умолчанию для переменных конфигурации времени выполнения
oid	oid	pg_authid.oid	Идентификатор роли

pg_rules

Вид pg_rules предоставляет доступ к полезной информации о правилах перезаписи запросов.

pg_rules столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу
tablename	name	pg_class.relname	Имя таблицы, для которой используется правило
rulename	name	pg_rewrite.rulename	Название правила
definition	text		Определение правила (восстановленная команда создания)

Из представления pg_rules исключены возможности правил ON SELECT для представлений и материализованных представлений те, которые можно увидеть в pg_views и pg_matviews.

pg_seclabels

Представление pg_seclabels предоставляет информацию о метках безопасности. Это как более простая для запроса версия каталога pg_seclabel.

pg_seclabels столбцы

Имя	Тип	Ссылки	Описание
objoid	oid	OID для любого столбца	OID объекта, к которому относится эта метка безопасности
classoid	oid	pg_class.oid	Идентификатор OID системного каталога, в котором отображается этот объект
objsubid	int4		Для метки безопасности в столбце таблицы это номер столбца (objoid и classoid определяют саму таблицу). Для всех других типов объектов этот столбец равен нулю.
objtype	text		Тип объекта, к которому применяется эта метка (текст).
objnamespace	oid	pg_namespace.oid	OID пространства имен для этого объекта, если применимо; в противном случае значение NULL.
objname	text		Имя объекта, к которому применяется эта метка (текст).
provider	text	pg_seclabel.provider	Поставщик меток, связанный с этой меткой.
label	text	pg_seclabel.label	Метка безопасности, применяемая к этому объекту.

pg_sequences

Представление pg_sequences предоставляет доступ к полезной информации о каждой последовательности в базе данных.

pg_sequences столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей последовательность
sequencename	name	pg_class.relname	Имя последовательности
sequenceowner	name	pg_authid.rolname	Имя владельца последовательности
data_type	regtype	pg_type.oid	Тип данных последовательности
start_value	bigint		Начальное значение последовательности
min_value	bigint		Минимальное значение последовательности
max_value	bigint		Максимальное значение последовательности
increment_by	bigint		Значение приращения последовательности
cycle	boolean		Цикличность последовательности (возможность)
cache_size	bigint		Размер кэша последовательности
last_value	bigint		Последнее значение последовательности, записанное на диск. Если используется кэширование, это значение может быть больше, чем последнее значение, выдаваемое из последовательности. Значение Null, если последовательность еще не была прочитана. Кроме того, если текущий пользователь не имеет прав USAGE или SELECT на последовательность, значение равно null.

pg_settings

Представление pg_settings предоставляет доступ к параметрам времени выполнения сервера. Это по существу альтернативный интерфейс к командам SHOW и SET. Оно также предоставляет доступ к некоторым фактам о каждом параметре, которые непосредственно не доступны из SHOW, таким как минимальные и максимальные значения.

pg_settings столбцы

Имя	Тип	Описание
name	text	Имя параметра конфигурации времени выполнения
setting	text	Текущее значение параметра
unit	text	Неявная единица измерения параметра
category	text	Логическая группа параметра
short_desc	text	Краткое описание параметра
extra_desc	text	Дополнительное, более детальное, описание параметра
context	text	Контекст, необходимый для установки значения параметра (см. ниже)
vartype	text	Тип параметра (bool, перечисление, integer, real, или строка)
source	text	Источник текущего значения параметра
min_val	text	Минимальное допустимое значение параметра (null для нечисловых значений)
max_val	text	Максимально допустимое значение параметра (null для нечисловых значений)
enumvals	text[]	Допустимые значения параметра enum (null для значений, отличных от enum)
boot_val	text	Значение параметра принимается при запуске сервера, если параметр не задан иным образом
reset_val	text	Значение, которое будет сброшено для параметра в текущем сеансе
sourcefile	text	Файл конфигурации в котором текущее значение было установлено (null для значений, заданных из источников, отличных от файлов конфигурации, или при проверке пользователем, который не является ни суперпользователем, ни членом pg_read_all_settings); полезно при использовании использовать директивы include в файлах конфигурации
sourceline	integer	Номер строки в файле конфигурации в котором текущее значение было установлено (null для значений, заданных из источников, отличных от файлов конфигурации, или при проверке пользователем, который не является ни суперпользователем, ни членом pg_read_all_settings).
pending_restart	boolean	True если значение было изменено в файле конфигурации, но нуждается в перезапуске; иначе False.

Существует несколько возможных значений: контекста. В порядке уменьшения сложности изменения настроек, ими являются:

internal

Эти параметры не могут быть изменены непосредственно; они отражают внутренне определенные значения. Некоторые из них могут быть изменены через изменения параметров, предоставляемых в qhb_bootstrap.

postmaster

Эти параметры могут применяться только при запуске сервера, поэтому любое изменение требует перезагрузки сервера. Значения для этих параметров обычно хранятся в qhb.conf файл, либо передаются в командной строке при запуске сервера. Конечно же, настройки с любым из нижеследующих контекстов типы также могут быть установлены во время запуска сервера.

sighup

Изменения в этих настройках могут быть внесены в qhb.conf без перезагрузки сервера. Пошлите сигнал SIGHUP к qhbmaster для того чтобы перечитать qhb.conf и применить изменения. Qhbmaster также переадресует сигнал SIGHUP своим дочерним процессам, чтобы все они приняли новое значение.

superuser-backend

Изменения в этих настройках могут быть внесены в qhb.conf без перезагрузки сервера. Они также могут быть установлены для определенного сеанса в пакете запроса на подключение (например, через переменную окружения PGOPTIONS), но только если подключающийся пользователь является суперпользователем. Однако эти параметры никогда не изменяются в сеансе после его запуска. Если вы измените их внутри qhb.conf, необходимо отправить сигнал SIGHUP к qhbmaster, для того чтобы инициировать перечитывание qhb.conf. Новые значения будут влиять только на последующие запущенные сеансы.

backend

Изменения в этих настройках могут быть внесены в qhb.conf без перезагрузки сервера. Они также могут быть установлены для определенного сеанса в пакете запроса на подключение (например, через переменную окружения PGOPTIONS); любой пользователь может внести такое изменение для своей сессии. Однако эти параметры никогда не изменяются в сеансе после его запуска. Если вы измените их внутри qhb.conf, пошлите сигнал SIGHUP к qhbmaster для того чтобы инициировать перечитывание qhb.conf. Новые значения будут влиять только на последующие запущенные сеансы.

superuser

Эти настройки можно установить из qhb.conf, или в течение сеанса с помощью команды SET; но только суперпользователи могут изменить их с помощью SET. Изменения в составе qhb.conf будет влиять на существующие сеансы только в том случае, если не было установлено значение session-local с WITH SET.

user

Эти настройки можно установить из qhb.conf, или в течение сеанса с помощью команды SET. Любой пользователь может изменить свое локальное значение сеанса. Изменения в составе qhb.conf будет влиять на существующие сеансы только в том случае, если не было установлено значение session-local с WITH SET.

Представление pg_settings не может быть вставлено или удалено, но его можно обновить. UPDATE, для pg_settings эквивалентен выполнению команды SET для этого именованного параметра. Это изменение влияет только на значение, используемое в текущем сеансе. Если обновление выполняется в рамках транзакции, которая позже прерывается, последствия команды UPDATE исчезают при откате транзакции. После фиксации окружающей транзакции эффекты будут сохраняться до конца сеанса, если только они не будут переопределены другим UPDATE или SET.

pg_shadow

Представление pg_shadow показывает свойства всех ролей, которые помечены как rolcanlogin в pg_authid.

Это имя связано с тем, что эта таблица не должна быть доступна для чтения любыми пользователями, поскольку она содержит пароли. pg_user-это доступное всем представление для pg_shadow, но со скрытым полем пароля.

pg_shadow столбцы

Имя	Тип	Ссылки	Описание
usename	name	pg_authid.rolname	Имя пользователя
usesysid	oid	pg_authid.oid	ID этого пользователя
usecreatedb	bool		Пользователь может создавать базы данных
usesuper	bool		Пользователь является суперпользователем
userepl	bool		Пользователь может инициировать потоковую репликацию и вывести систему из режима резервного копирования.
usebypassrls	bool		Пользователь игнорирует любую политику безопасности уровня строки, см. раздел Политики безопасности строк для получения дополнительной информации.
passwd	text		Пароль (возможно зашифрованный); null, если нет. Смотрите pg_authid для получения подробной информации о том, как хранятся зашифрованные пароли.
valuntil	timestamptz		Срок действия пароля (используется только для аутентификации пароля)
useconfig	text[]		Значения по умолчанию сеанса для переменных конфигурации времени выполнения

pg_stats

Представление pg_stats предоставляет доступ к информации, хранящейся в каталоге pg_statistic. Это представление позволяет получить доступ только к строкам pg_statistic это соответствует таблицам, на которые у пользователя есть разрешение для чтения, и поэтому безопасно разрешать публичный доступ для чтения к этому представлению.

pg_stats также предназначена для представления информации в более удобочитаемом формате, чем базовый каталог — за счет того, что его схема должна быть расширена всякий раз, когда определяются новые типы слотов для pg_statistic.

pg_stats столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу
tablename	name	pg_class.relname	Имя таблицы
attname	name	pg_attribute.attname	Имя столбца, описываемого этой строкой
inherited	bool		Если true, то эта строка содержит дочерние столбцы наследования, а не только значения в указанной таблице
null_frac	real		Доля записей столбцов, имеющих значение null
avg_width	integer		Средняя ширина в байтах записей столбца
n_distinct	real		Если больше нуля, то показывает примерное число различных значений в столбце. Если меньше нуля, то модуль числа показывает количество различных значений разделённое на число строк. (Отрицательная форма используется, когда ANALYZE считает, что число различных значений, вероятно, будет увеличиваться по мере роста таблицы; положительная форма используется, когда считается, что столбец имеет фиксированное число возможных значений.) Например, значение -1 указывает на уникальный столбец, в котором число различных значений совпадает с числом строк.
most_common_vals	anyarray		Список наиболее распространенных значений в столбце. (Null, если никакие значения не более распространенны, чем любые другие.)
most_common_freqs	real[]		Список частот наиболее частых значений, т. е. количество вхождений каждого значения делится на общее количество строк. (Null, если most_common_vals тоже null.)
histogram_bounds	anyarray		Список значений, разделяющих значения столбца на группы примерно одинаковой наборы называемые "популяции". Значения внутри most_common_vals, если они присутствует, то они исключаются из этого расчета гистограммы. (Столбец имеет значение null, если тип данных столбца не имеет оператора < или если most_common_vals список охватывает все популяции.)
correlation	real		Статистическая корреляция между физическим упорядочением строк и логическим упорядочением значений столбцов. Значение колеблется от -1 до +1. Когда значение близко к -1 или +1, сканирование индекса по столбцу будет оценено как более дешевое, чем когда оно близко к нулю, из-за уменьшения случайного доступа к диску. (Столбец имеет значение null, если тип данных столбца не имеет оператора <.)
most_common_elems	anyarray		Список ненулевых значений элементов, наиболее часто появляющихся в пределах значений столбца. (Null для скалярных типов.)
most_common_elem_freqs	real[]		Список частот наиболее распространенных значений элементов, т. е. доля строк, содержащих хотя бы один экземпляр данного значения. Два или три дополнительных значения следуют за частотами каждого элемента; это минимум и максимум предыдущих частот каждого элемента и, возможно, частота нулевых элементов. (Null, когда заполнен most_common_elems.)
elem_count_histogram	real[]		Гистограмма подсчетов различных ненулевых значений элементов в пределах значений столбца, за которыми следует среднее число различных ненулевых элементов. (Null для скалярных типов.)

Максимальное число записей в полях массива можно контролировать по столбцам с помощью команды ALTER TABLE SET STATISTICS или глобально, задавая параметр времени выполнения default_statistics_target.

pg_stats_ext

Представление pg_stats_ext предоставляет доступ к информации, хранящейся в каталогах pg_statistic_ext и pg_statistic_ext_data. Это представление позволяет получить доступ к строкам pg_statistic_ext и pg_statistic_ext_data которые соответствует таблицам, для которые у пользователя есть разрешение на чтение, и поэтому безопасно разрешить доступ на чтение к этому представлению.

pg_stats_ext также предназначена для представления информации в более удобочитаемом формате, чем базовые каталоги — и потому должна быть расширена всякий раз, когда добавляются новые типы расширенной статистики pg_statistic_ext.

pg_stats_ext столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу
tablename	name	pg_class.relname	Имя таблицы
statistics_schemaname	name	pg_namespace.nspname	Имя схемы, содержащей расширенную статистику
statistics_name	name	pg_statistic_ext.stxname	Наименование расширенной статистики
statistics_owner	oid	pg_authid.oid	Владелец расширенной статистики
attnames	name[]	pg_attribute.attname	Имена столбцов, на которых определяется расширенная статистика
kinds	text[]		Типы расширенной статистики, включенной для этой записи
n_distinct	pg_ndistinct		Если больше нуля, то показывает примерное число различных значений в столбце. Если меньше нуля, то модуль числа показывает количество различных значений разделённое на число строк. (Отрицательная форма используется, когда ANALYZE считает, что число различных значений, вероятно, будет увеличиваться по мере роста таблицы; положительная форма используется, когда считается, что столбец имеет фиксированное число возможных значений.) Например, значение -1 указывает на уникальный столбец, в котором число различных значений совпадает с числом строк.
dependencies	pg_dependencies		Статистика для функциональной зависимости
most_common_vals	anyarray		Список наиболее распространенных комбинаций значений в столбцах. (Null, если никакие комбинации не считаются более распространенными, чем любые другие.)
most_common_val_nulls	anyarray		Список нулевых флагов для наиболее распространенных комбинаций значений. (Null, если задан most_common_vals)
most_common_freqs	real[]		Список частот наиболее распространенных комбинаций, т. е. количество вхождений каждой делится на общее количество строк. (Null, если задан most_common_vals)
most_common_base_freqs	real[]		Список базовых частот наиболее распространенных комбинаций, т. е. произведение частот на значение. (Null, если задан most_common_vals)

Максимальное число записей в полях массива можно контролировать для столбцов с помощью команды ALTER TABLE SET STATISTICS или глобально, задавая параметр времени выполнения default_statistics_target.

pg_tables

Представление pg_tables предоставляет доступ к полезной информации о каждой таблице в базе данных.

pg_tables столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей таблицу
tablename	name	pg_class.relname	Имя таблицы
tableowner	name	pg_authid.rolname	Имя владельца таблицы
tablespace	name	pg_tablespace.spcname	Имя табличного пространства, содержащего таблицу (null, если пространство по умолчанию для базы данных)
hasindexes	boolean	pg_class.relhasindex	True, если таблица имеет (или недавно имела) какие-либо индексы
hasrules	boolean	pg_class.relhasrules	True, если таблица имеет (или когда-то имела) правила
hastriggers	boolean	pg_class.реластриггеры	True, если таблица имеет (или когда-то имела) триггеры
rowsecurity	boolean	pg_class.relrowsecurity	True, если в таблице включена защита строк

pg_timezone_abbrevs

Представление pg_timezone_abbrevs предоставляет список сокращений часовых поясов, которые в настоящее время распознаются как корректные для функций datetime. Содержание этого представления изменяется при изменении параметра времени выполнения timezone_abbreviations.

pg_timezone_abbrevs столбцы

Имя	Тип	Описание
abbrev	text	Аббревиатура часового пояса
utc_offset	интервал	Смещение от UTC (положительное значение означает на восток от Гринвича)
is_dst	boolean	True, если это аббревиатура необходима для перехода на летнее время

Хотя большинство сокращений часовых поясов представляют собой фиксированные смещения от UTC, есть некоторые, которые исторически менялись в таких случаях этот представление содержит их текущее значение.

pg_timezone_names

Представление pg_timezone_names предоставляет список имен часовых поясов, которые распознаются командой SET TIMEZONE, а также связанные с ними сокращения, смещения UTC и состояние летнего времени. (Технически QHB не использует UTC, потому что координация для високосных секунд не обрабатываются). В отличие от сокращений, показанных в pg_timezone_abbrevs, многие из этих имен подразумевают набор правил перехода на летнее время. Таким образом, связанная информация изменяется через локальные границы для летнего времени. Отображаемая информация вычисляется на основе текущего значения параметра CURRENT_TIMESTAMP.

pg_timezone_names столбцы

Имя	Тип	Описание
name	text	Название часового пояса
abbrev	text	Аббревиатура часового пояса
utc_offset	интервал	Смещение от UTC (положительное значение означает восток от Гринвича)
is_dst	boolean	True, если в настоящее время наблюдается переход на летнее время

pg_user

Представление pg_user доступ к информации о пользователях базы данных. Это просто общедоступное представление pg_shadow которое скрывает поле пароля.

pg_user столбцы

Имя	Тип	Описание
usename	name	Имя пользователя
usesysid	oid	ID этого пользователя
usecreatedb	bool	Пользователь может создавать базы данных
usesuper	bool	Пользователь является суперпользователем
userepl	bool	Пользователь может инициировать потоковую репликацию и вывести систему из режима резервного копирования.
usebypassrls	bool	Пользователь обходит каждую политику безопасности уровня строки, см. раздел Политики безопасности строк для получения дополнительной информации.
passwd	text	Не пароль (всегда читается как ********)
valuntil	timestamptz	Срок действия пароля (используется только для парольной аутентификации)
useconfig	text[]	Значения по умолчанию сеанса для переменных конфигурации времени выполнения

pg_user_mappings

Представление pg_user_mappings доступ к информации о сопоставлениях пользователей. Это по существу общедоступное представление pg_user_mapping, которое оставляет столбец umoptions, если у пользователя нет прав на его использование.

pg_user_mappings столбцы

Имя	Тип	Ссылки	Описание
umid	oid	pg_user_mapping.oid	OID сопоставления пользователей
srvid	oid	pg_foreign_server.oid	OID внешнего сервера, содержащий это сопоставление
srvname	name	pg_foreign_server.srvname	Имя внешнего сервера
umuser	oid	pg_authid.oid	OID сопоставляемой локальной роли, 0, если пользовательское сопоставление является общедоступным
usename	name		Имя локального пользователя для сопоставления
umoptions	text[]		Пользователь сопоставляет определенные параметры, в виде строки "ключ=значение"

Чтобы защитить информацию о пароле, сохраненную в качестве параметра сопоставления пользователей, umoptions столбец будет считываться как null, если не применяется одно из следующих условий:

текущий пользователь-это сопоставляемый пользователь, который владеет сервером или имеет USAGE для него
текущий пользователь является владельцем сервера и сопоставление для PUBLIC
текущий пользователь является суперпользователем

pg_views

Представление pg_views предоставляет доступ к полезной информации о каждом представлении (view) в базе данных.

pg_views столбцы

Имя	Тип	Ссылки	Описание
schemaname	name	pg_namespace.nspname	Имя схемы, содержащей представление
viewname	name	pg_class.relname	Имя представления
viewowner	name	pg_authid.rolname	Имя владельца объекта (view)
определение	text		Определение представления (реконструированный запрос SELECT)

Определение интерфейса метода доступа к таблице

В этой главе описывается интерфейс между основной системой QHB и методами доступа к таблицам (access method), которые управляют хранилищем для таблиц. Основная система мало что знает об этих методах доступа, кроме того, что описано в этой главе. Поэтому можно разработать новые типы методов доступа, написав дополнительный код.

Каждый метод доступа к таблице описывается строкой в системном каталоге pg_am. Запись в pg_am задает имя и функцию-обработчик (handler function) для метода доступа к таблице. Эти записи могут быть созданы и удалены с помощью команд SQL CREATE ACCESS METHOD и DROP ACCESS METHOD.

Функция обработчика метода доступа к таблице должна быть объявлена, чтобы принять один аргумент типа internal и чтобы вернуть псевдо-тип table_am_handler. Аргумент является фиктивным значением, которое необходимо для предотвращения вызова функции непосредственно из команд SQL. Результатом работы функции должен быть указатель на структуру типа TableAmRoutine, который содержит все необходимое для использования метода доступа к таблице. Возвращаемое значение должно иметь время жизни самого сервера, что обычно достигается путем определения его как static const переменной в глобальной области видимости. Структура TableAmRoutine, также называемая API-структурой метода доступа, определяет поведение метода доступа с помощью функций обратного вызовова. Эти обратные вызовы являются указателями на обычные C-функции и не являются видимыми или вызываемыми на уровне SQL. Все обратные вызовы и их поведение определяются в структурe TableAmRoutine (с комментариями внутри структуры, определяющими требования к обратным вызовам). Большинство обратных вызовов имеют оберточные функции, которые документируются для пользователя (а не исполнителя) метода доступа к таблице. Для получения дополнительной информации обратитесь к файлу src/include/access/tableam.h.

Для реализации метода доступа исполнителю, как правило, требуется реализовать определенный для этого метода тип слота таблицы кортежей (см. src/include/executor/tuptable.h), который позволяет реализации иметь ссылки на кортежи метода доступа и получать доступ к столбцам кортежа.

В настоящее время способ, которым метод доступа фактически хранит данные, довольно неограничен. Например, можно, но не обязательно, использовать общий буферный кэш. В случае его использования, вероятно, имеет смысл использовать стандартную структуру страницы QHB, как описано в разделе Внутренняя структура страницы базы данных.

Одно довольно большое ограничение API метода доступа к таблице заключается в том, что в настоящее время, если метод доступа хочет поддерживать модификации и/или индексы, то необходимо, чтобы каждый кортеж имел идентификатор кортежа (TID), состоящий из номера блока и номера элемента (см. также раздел Внутренняя структура страницы базы данных). Нет строгой необходимости в том, чтобы части TIDs имели то же значение, которое они, например, имеют для кучи, но если требуется опциональная поддержка битового сканирования, тогда номер блока должен обеспечивать локальность.

Для обработки аварийного завершения метод доступа может использовать WAL или же пользовательские механизмы. Если выбран параметр WAL, можно использовать Общие записи WAL или реализовать новый тип записей WAL. Общие записи WAL просты, но требуют большего объема данных. Реализация нового типа записи WAL в настоящее время требует внесения изменений в основной код (в частности, src/include/access/rmgrlist.h).

Для реализации транзакционной поддержки таким образом, чтобы различные методы доступа к таблицам были доступны в рамках одной транзакции, вероятно, необходимо тесно интегрироваться с механизмом в src/backend/access/transam/xlog.c.

Любой разработчик нового способа доступа к таблице может обратиться к существующей реализации кучи, которая находится в src/backend/access/heap/ heapam_handler.c.

Определение интерфейса метода доступа к индексу

В этой главе описывается интерфейс между ядром QHB и методами доступа к индексам, которые управляют отдельными типами индексов. Ядро системы ничего не знает об индексах, кроме того, что описано здесь, поэтому можно разработать совершенно новые типы индексов, написав дополнительный код.

Все индексы в QHB - это то, что технически известно как вторичные индексы, то есть индекс физически отделен от файла таблицы, который он описывает. Каждый индекс хранится как собственное физическое отношение и описывается записью в каталоге pg_class. Содержание индекса полностью находится под контролем его метода доступа к индексу. На практике все методы доступа к индексам разделяют индексы на страницы стандартного размера, чтобы они могли использовать обычный диспетчер хранилища и диспетчер буферов для доступа к содержимому индекса. (Все существующие методы доступа к индексам, кроме того, используют стандартный макет страницы, описанный в разделе Внутренняя структура страницы базы данных, и большинство используют тот же формат для заголовков индексных записей, но эти решения не являются обязательными для метода доступа).

Индекс это средство эффективного сопоставления некоторых значений ключей с идентификаторами записей (TID) версий строк (записей) в родительской таблице индекса. TID состоит из номера блока и номера записи внутри этого блока (см. раздел Внутренняя структура страницы базы данных). Этой информации достаточно для извлечения определенной версии строки из таблицы. Индексы непосредственно не знают, что при использовании MVCC, может существовать несколько версий одной и той же логической строки; для индекса каждая запись является независимым объектом, который требует своей собственной записи в индексе. Таким образом, обновление строки всегда создает новые записи для всех индексов, в которых участвует запись, даже если значения ключей не изменились. (HOT оптимизация обновления записей является исключением из этого утверждения, но индексы не имеют с ней дело). Индексные записи для мертвых записей в таблице удаляются во время вакуума вместе с удалением самих мертвых записей.

Базовая структура API для индексов

Каждый метод доступа к индексу описывается строкой в системном каталоге pg_am. Запись в pg_am содержит имя и функцию-обработчик метода доступа к индексу. Эти записи могут быть созданы и удалены с помощью SQL команд CREATE ACCESS METHOD и DROP ACCESS METHOD.

Функция-обработчик индексного метода доступа должна принимать один аргумент типа internal и возвращать псевдо-тип index_am_handler. Аргумент является фиктивным значением, предназначенным для предотвращения вызова функций обработчика непосредственно из команд SQL. Результатом работы функции должна быть структура типа IndexAmRoutine, размещенная в куче с помощью palloc и содержащая всё, что ядро должно знать, чтобы использовать метод доступа к индексу. Структура IndexAmRoutine, также называемая API-структурой метода доступа, включает поля, задающие различные фиксированные свойства метода доступа, например, возможность поддержки многоколоночных индексов. Что еще более важно, она содержит указатели на функции, выполняющие всю реальную работу для индексного метода доступа. Эти вспомогательные функции являются простыми функциями на C и не видны и не вызываются на уровне SQL. Вспомогательные функции описаны в разделе Функции доступа к индексу .

Структура IndexAmRoutine определяется таким образом:

typedef struct IndexAmRoutine
{
    NodeTag     type;

    /*
     * Total number of strategies (operators) by which we can traverse/search
     * this AM.  Zero if AM does not have a fixed set of strategy assignments.
     */
    uint16      amstrategies;
    /* total number of support functions that this AM uses */
    uint16      amsupport;
    /* does AM support ORDER BY indexed column's value? */
    bool        amcanorder;
    /* does AM support ORDER BY result of an operator on indexed column? */
    bool        amcanorderbyop;
    /* does AM support backward scanning? */
    bool        amcanbackward;
    /* does AM support UNIQUE indexes? */
    bool        amcanunique;
    /* does AM support multi-column indexes? */
    bool        amcanmulticol;
    /* does AM require scans to have a constraint on the first index column? */
    bool        amoptionalkey;
    /* does AM handle ScalarArrayOpExpr quals? */
    bool        amsearcharray;
    /* does AM handle IS NULL/IS NOT NULL quals? */
    bool        amsearchnulls;
    /* can index storage data type differ from column data type? */
    bool        amstorage;
    /* can an index of this type be clustered on? */
    bool        amclusterable;
    /* does AM handle predicate locks? */
    bool        ampredlocks;
    /* does AM support parallel scan? */
    bool        amcanparallel;
    /* does AM support columns included with clause INCLUDE? */
    bool        amcaninclude;
    /* type of data stored in index, or InvalidOid if variable */
    Oid         amkeytype;

    /* interface functions */
    ambuild_function ambuild;
    ambuildempty_function ambuildempty;
    aminsert_function aminsert;
    ambulkdelete_function ambulkdelete;
    amvacuumcleanup_function amvacuumcleanup;
    amcanreturn_function amcanreturn;   /* can be NULL */
    amcostestimate_function amcostestimate;
    amoptions_function amoptions;
    amproperty_function amproperty;     /* can be NULL */
    ambuildphasename_function ambuildphasename;   /* can be NULL */
    amvalidate_function amvalidate;
    ambeginscan_function ambeginscan;
    amrescan_function amrescan;
    amgettuple_function amgettuple;     /* can be NULL */
    amgetbitmap_function amgetbitmap;   /* can be NULL */
    amendscan_function amendscan;
    ammarkpos_function ammarkpos;       /* can be NULL */
    amrestrpos_function amrestrpos;     /* can be NULL */

    /* interface functions to support parallel index scans */
    amestimateparallelscan_function amestimateparallelscan;    /* can be NULL */
    aminitparallelscan_function aminitparallelscan;    /* can be NULL */
    amparallelrescan_function amparallelrescan;    /* can be NULL */
} IndexAmRoutine;

Чтобы быть полезным, метод доступа к индексу также должен иметь одно или несколько семейств операторов и классов операторов, определенных в pg_opfamily, pg_opclass, pg_amop и pg_amproc. Эти записи позволяют планировщику определить, какие виды запросов могут использоваться с индексами данного метода доступа. Семейства операторов и классы описаны в Интерфейсные расширения для индексов, который является необходимым материалом для чтения этой главы.

Индивидуальный индекс определяется записью в pg_class, описывающей его как физическое отношение, плюс запись в pg_index, показывающей логическое содержимое индекса, то есть набор столбцов входящих в индекс, и семантику этих столбцов, то есть связь с классами операторов. Столбцы индекса (ключевые значения) могут быть либо простыми столбцами таблицы, для которой строится индекс, либо выражениями над строками этой таблицы. Обычно для индексного метода доступа не имеет значения, откуда берутся значения ключей индекса (ему всегда передаются предварительно вычисленные значения ключей), но очень важна информация о классе оператора в pg_index. Обе эти записи каталога могут быть доступны в составе структуры данных Relation, которая передается всем операциям с индексом.

Некоторые из полей флагов структуры IndexAmRoutine имеют нетривиальное назначение. Требования, предъявляемые к amcanunique, обсуждаются в разделе Проверка уникальности индекса. Флаг amcanmulticol утверждает, что метод доступа поддерживает многоколоночные индексы, в то время как amoptionalkey указывает, что метод доступа разрешает сканирование, когда для первого столбца индекса не задано ограничение. Когда amcanmulticol равен false, amoptionalkey, говорит, что метод доступа поддерживает сканирование с полным перебором без каких-либо ограничительных условий. Методы доступа, поддерживающие несколько столбцов в индексе, должны поддерживать сканирования, позволяющие пропускать ограничения для любого или всех столбцов после первого; однако им разрешено требовать, чтобы использовались ограничения для первого столбца индекса, об этом сигнализирует флаг amoptionalkey равный false. Одна из причин, по которой метод доступа может установить значение amoptionalkey равным false, если он не индексирует нулевые значения. Поскольку большинство индексируемых операторов являются строгими и, следовательно, не могут возвращать true, если поле содержит NULL, на первый взгляд кажется правильным не хранить записи индекса для нулевых значений: они никогда не могут быть возвращены при сканировании индекса. Однако этот аргумент неверен, если проверка индекса не содержит условия ограничения для данного столбца индекса. На практике это означает, что индексы, у которых amoptionalkey равным true, должен индексировать значения NULL, так как планировщик может решить использовать такой индекс без ключей сканирования вообще. Связанное с этим ограничение заключается в том, что метод доступа к индексам, поддерживающий несколько столбцов индекса, должен поддерживать индексирование NULL значений в столбцах после первого, поскольку планировщик будет предполагать, что индекс может использоваться для запросов, которые не ограничивают эти столбцы. Например, рассмотрим индекс на (a, b) и запрос с WHERE a = 4. Система будет считать, что индекс может быть использован для сканирования строк с помощью а = 4, что неверно, если индекс пропускает строки, где b - это null. Однако допустимо пропускать строки, в которых первый индексированный столбец имеет значение NULL. Метод доступа к индексу, позволяющий индексировать значения NULL, также может установить значение amsearchnulls в true, указывая, что он поддерживает предложения IS NULL и IS NOT NULL в условиях поиска.

Функции доступа к индексу

Функции построения и обслуживания индекса

Функции построения и обслуживания индекса, которые должен предоставить метод доступа к индексу в структуре IndexAmRoutine:

ambuild

IndexBuildResult *
ambuild (Relation heapRelation,
         Relation indexRelation,
         IndexInfo *indexInfo);

Создает новый индекс. Отношение индекса физически создано, но является пустым. Метод должен заполнить отношение любыми фиксированными данными, необходимыми для собственного функционирования, а также записями для всех строк, уже существующих в таблице. Обычно функция ambuild будет вызывать table_index_build_scan() для сканирования таблицы на наличие существующих записей и вычисления ключей, которые необходимо вставить в индекс. Функция должна возвращать структуру, размещенную в куче с помощью palloc и содержащую статистику о новом индексе.

ambuildempty

void
ambuildempty (Relation indexRelation);

Создает пустой индекс и записывает его в слой инициализации (INIT_FORKNUM) данного отношения. Этот метод вызывается только для нежурналируемых индексов. Пустой индекс, записанный в слой инициализации, будет скопирован поверх основного слоя отношения при каждом перезапуске сервера.

aminsert

bool
aminsert (Relation indexRelation,
          Datum *values,
          bool *isnull,
          ItemPointer heap_tid,
          Relation heapRelation,
          IndexUniqueCheck checkUnique,
          IndexInfo *indexInfo);

Вставляет новую запись в существующий индекс. Входные массивы values и isnull задают значения ключей для индексирования, heap_tid - это TID для индексации. Если метод доступа поддерживает уникальные индексы (его флаг amcanunique равен true), тогда аргумент checkUnique указывает выполняется или нет проверка уникальности. Это зависит от того, является ли ограничение уникальности откладываемым; смотрите раздел Проверка уникальности индекса для получения подробной информации. Обычно метод доступа требует только параметр heapRelation при выполнении проверки уникальности (так как должен будет заглянуть в таблицу, чтобы проверить живучесть записи).

Логическое значение результата функции является значимым только тогда, когда значение параметра checkUnique является UNIQUE_CHECK_PARTIAL. В этом случае true означает, что новая запись является уникальной, тогда как false означает, что она может быть неуникальной (и отложенная проверка уникальности должна быть запланирована). В других случаях рекомендуется всегда возвращать false.

Некоторые индексы могут индексировать не все записи. Если запись не будет индексироваться, параметр aminsert надо просто вернуть, ничего не делая.

Если индексный метод доступа хочет кэшировать данные через последовательные вставки индекса в инструкции SQL, он может выделить пространство в indexInfo->ii_Context и хранить указатель на данные внутри indexInfo->ii_AmCache (который изначально будет равен нулю).

ambulkdelete

IndexBulkDeleteResult *
ambulkdelete (IndexVacuumInfo *info,
              IndexBulkDeleteResult *stats,
              IndexBulkDeleteCallback callback,
              void *callback_state);

Удаляет запись(и) из индекса. Это операция "массового удаления", которая должна быть реализована путем сканирования всего индекса и проверки каждой записи, чтобы определить, следует ли ее удалить. Для каждой записи нужно вызвать функцию обратного вызова: callback( __TID__, callback_state) и проверить возвращаемое значение типа bool. Если возвращаемое значение равно true, запись необходимо удалить из индекса. Метод ambulkdelete должен возвращать либо NULL, либо структуру, размещенную в куче с помощью palloc и содержащую статистику о результатах операции удаления. Можно вернуть NULL, если индекс не был изменен в процессе операции VACUUM, в противном случае должна быть возвращена корректная статистика.

Из-за ограничения maintenance_work_mem, функцию ambulkdelete, возможно, потребуется вызывать несколько раз, когда требуется удалить много записей. Аргумент stats является результатом предыдущего вызова для этого индекса (он равен NULL для первого вызова в рамках операции VACUUM). Это позволяет методу доступа накапливать статистику по всей операции. Как правило, ambulkdelete будет изменять и возвращать ту же структуру, если переданная stats не является нулем.

amvacuumcleanup

IndexBulkDeleteResult *
amvacuumcleanup (IndexVacuumInfo *info,
                 IndexBulkDeleteResult *stats);

Выполнить очистку после операции VACUUM (до этого могло быть 0 или больше вызовов ambulkdelete). Функция не должна делать ничего, кроме возврата статистики, но может выполнить массовую очистку, такую как удаление пустых страниц индекса. Параметр stats содержит результат последнего вызова метода ambulkdelete, или NULL, если ambulkdelete не был вызван, потому что никакие записи не нужно было удалять. Результат функции является структурой, размещенной в куче с помощью palloc. Содержащаяся в нем статистика будет использована для обновления pg_class и выводится операцией VACUUM, если задан ключ VERBOSE. Метод может вернуть NULL, если индекс не изменялся во время операции VACUUM, в противном случае должна возвращаться корректная статистика..

Метод amvacuumcleanup также будет вызван по завершении операции ANALYZE. В этом случае параметр stats всегда имеет значение NULL, и любое возвращаемое значение игнорируется. Этот случай можно отличить проверкой info->analyze_only. Рекомендуется, чтобы в таком вызове метод доступа не делал ничего, кроме очистки после вставки, и это только в рабочем процессе autovacuum.

amcanreturn

bool
amcanreturn (Relation indexRelation, int attno);

Проверяет, поддерживает ли индекс сканирование только по индексу для данного столбца, возвращая его значение из индексной записи в виде структуры IndexTuple. Нумерация атрибутов начинается с 1, т.е. параметр attno для первого столбца должен быть равен 1. Метод возвращает true, если поддерживается, иначе false. Если метод доступа вообще не поддерживает сканирование только по индексу, то поле amcanreturn в его структуре IndexAmRoutine можно установить в значение NULL.

amcostestimate

void
amcostestimate (PlannerInfo *root,
                IndexPath *path,
                double loop_count,
                Cost *indexStartupCost,
                Cost *indexTotalCost,
                Selectivity *indexSelectivity,
                double *indexCorrelation,
                double *indexPages);

Оценивает стоимость на сканирование индекса. Эта функция полностью описана в разделе Функции оценки стоимости индекса ниже.

amoptions

bytea *
amoptions (ArrayType *reloptions,
           bool validate);

Разбирает и анализирует массив reloptions. Метод вызывается только, когда для индекса существует ненулевой массив reloptions. Аргумент reloptions это текстовый массив, содержащий записи форме name=value. Функция должна сформировать bytea значение, которое будет скопировано в поле rd_options записи индекса в relcache. Содержимое bytea определяется самим методом доступа; большинство стандартных методов доступа используют структуру StdRdOptions. Когда аргумент validate равен true, функция должна выдавать соответствующее сообщение об ошибке, если какой-либо из параметров в массиве reloptions не распознан или имеет недопустимое значение; если validate имеет значение false, недопустимые значения должны молча игнорироваться. (validate имеет значение false при загрузке уже сохраненных параметров из pg_catalog; недопустимая запись может быть найдена только в том случае, если метод доступа изменил свои правила для опций, и в этом случае игнорирование устаревших записей является уместным). Можно вернуть значение NULL, если требуется поведение по умолчанию.

amproperty

bool
amproperty (Oid index_oid, int attno,
            IndexAMProperty prop, const char *propname,
            bool *res, bool *isnull);

Метод amproperty позволяет методу доступа переопределить поведение по умолчанию pg_index_column_has_property и связанных функций. Если метод доступа не имеет никакого специального поведения для запросов свойств индекса, то поле amproperty в структуре IndexAmRoutine можно установить в значение NULL. В противном случае, метод amproperty будет вызван с аргументами index_oid и attno равными нулю для pg_indexam_has_property, или с валидным значением в index_oid и attno больше нуля для pg_index_column_has_property. Атрибут prop является значением enum, идентифицирующим проверяемое свойство, в то время как атрибут propname является исходной строкой имени свойства. Если ядро не распознает имя свойства, то параметр prop будет содержать AMPROP_UNKNOWN. Методы доступа могут определять имена настраиваемых свойств путем проверки propname на соответствие (используйте pg_strcasecmp, чтобы проверить соответствие единообразно с основным кодом); для имен, известных ядру базы данных, лучше проверить параметр prop. Если метод amproperty возвращает true, значит он определил результат проверки свойства. В этом случае он должен установить значение res или значение *isnull в true, чтобы вернуть NULL. (Обе указанные переменные инициализируются в false перед вызовом). Если метод amproperty возвращает false, тогда ядро базы данных продолжит свою обычную логику для определения результата проверки свойства.

Методы доступа, поддерживающие операторы сортировки, должны реализовывать проверку свойства AMPROP_DISTANCE_ORDERABLE, так как ядро не знает, как это сделать, и вернет значение NULL. Также стоит реализовать проверку AMPROP_RETURNABLE, если это можно сделать дешевле, чем открыть индекс и вызвать метод amcanreturn, что является поведением ядра базы данных по умолчанию. Поведение по умолчанию должно быть удовлетворительным для всех других стандартных свойств.

ambuildphasename

char *
ambuildphasename (int64 phasenum);

Возвращает текстовое имя заданного номера фазы сборки. Номера фаз-это те, которые сообщаются во время построения индекса через вызов pgstat_progress_update_param. Названия фаз затем доступны во view pg_stat_progress_create_index.

amvalidate

bool
amvalidate (Oid opclassoid);

Проверяет записи каталога для указанного класса операторов, насколько метод доступа может сделать это. Например, может убедится, что реализованы всех обязательные функций в методе доступа. Метод amvalidate должен вернуть false, если opclass является недопустимым. О проблемах следует сообщать с помощью вызова ereport.

Функции поддержки сканирования

Цель индекса, конечно же, заключается в поддержке сканирования для записей, соответствующих индексируемому условию WHERE, часто называемым квалификатором или ключом сканирования. Семантика индексного сканирования более подробно описана в разделе Индексное сканирование ниже. Метод доступа к индексу может поддерживать "простые" индексные сканирования, bitmap индексные сканирования или оба. Связанные со сканированием функции, которые должен или может предоставить метод доступа к индексам:

ambeginscan

IndexScanDesc
ambeginscan (Relation indexRelation,
             int nkeys,
             int norderbys);

Выполняет подготовку к сканированию индекса. Параметры nkeys и norderbys указывают количество операторов сравнения и сортировки, которые будут использоваться в сканировании; это может быть полезно для целей выделения памяти. Обратите внимание, что фактические значения ключей сканирования еще не предоставлены. Результатом работы должна быть структура, выделенная в куче с помощью palloc. В связи с особенностями реализации, метод доступа к индексу должен создать эту структуру путем вызова функции RelationGetIndexScan(). В большинстве случаев ambeginscan мало что делает, кроме данного вызова и, возможно, получения блокировок; интересные части запуска сканирования индекса находятся в функции amrescan.

amrescan

void
amrescan (IndexScanDesc scan,
          ScanKey keys,
          int nkeys,
          ScanKey orderbys,
          int norderbys);

Запускает или перезапускает сканирование индекса, возможно, с новыми ключами сканирования. (Для перезапуска с использованием ранее переданных ключей параметры keys и/или orderbys устанавливаются в NULL). Обратите внимание, что не допускается, чтобы количество ключей или операторов сортировки было больше, чем то, что передано ambeginscan. На практике функция перезапуска используется, когда в соединении со вложенным циклом выбирается новая внешняя запись и, поэтому, требуется новое сравнение с ключем, но структура, содержащая состояние сканирования, остается прежней.

amgettuple

boolean
amgettuple (IndexScanDesc scan,
            ScanDirection direction);

Выбирает следующую запись в заданном сканировании, двигаясь в указанном направлении (вперед или назад в индексе). Возвращает true, если запись получена, false, если не осталось совпадающих записей. Если запись найдена, ее TID сохраняется в структуре сканирования. Обратите внимание, что "успех" означает только то, что индекс содержит запись, соответствующую ключам сканирования, а не то, что запись обязательно все еще существует в таблице или пройдет тест видимости в снимке вызывающего объекта. В случае успеха, функция amgettuple должна также установить scan->xs_recheck в true или false. False означает, что запись индекса обязательно соответствует ключам сканирования. True означает, что это не обязательно, и условия, представленные ключами сканирования, должны быть повторно проверены после извлечения записи из таблицы. Это условие поддерживает операторы индекса c ”потерями". Обратите внимание, что повторная проверка будет распространяться только на условия сканирования; частичный индексный предикат (если таковой имеется) никогда не перепроверяется кодом, который вызывал amgettuple.

Если индекс поддерживает сканирование только по индексу (т.е. функция amcanreturn возвращает true для соответствующего свойства), тогда в случае успешного сканирования, метод доступа также должен проверить значение scan->xs_want_itup, и оно равно true, метод доступа обязан вернуть исходные индексированные данные для записи индекса. Данные могут быть возвращены в виде указателя IndexTuple, сохраненного в scan->xs_itup, с дескриптором записи scan->xs_itupdesc; или в форме указателя HeapTuple, сохраненного в scan->xs_hitup, с дескриптором записи scan->xs_hitupdesc. (Последний формат следует использовать при возврате данных, которые могут не вписываться в IndexTuple). В любом случае, управление данными, на которые ссылается указатель, является ответственностью метода доступа. Данные должны оставаться хорошими по крайней мере до следующего вызова amgettuple, amrescan, или amendscan.

Функция amgettuple должна быть реализована только в том случае, если метод доступа поддерживает “простые” индексные сканирования. Если это не так, то поле amgettuple в структуре IndexAmRoutine необходимо установить в значение NULL.

amgetbitmap

int64
amgetbitmap (IndexScanDesc scan,
             TIDBitmap *tbm);

Извлекает все записи в данном сканировании и добавляет их в TIDBitmap, переданной на вход (то есть добавляет TID найденных записей к уже находящимся в битовой карте). Функция возвращает количество извлеченных записей (это может быть только приблизительное значение, например, некоторые методы доступа не обнаруживают дубликаты). При вставке идентификаторов записей в коллекцию, amgettbitmap может сигнализировать, что для некоторых записей требуется повторная проверка условий сканирования. Это аналогично выходному параметру xs_recheck функции amgettuple. Примечание: в текущей реализации поддержка этой функции объединена с поддержкой хранилища с потерями самой битовой карты, поэтому вызывающий код повторно проверяет и условия сканирования, и частичный индексный предикат (если таковой имеется) для записей, помеченных для повторной проверки. Однако это не всегда может быть правдой. Функции amgettbitmap и amgettuple нельзя использовать в одном и том же сканировании индекса; есть и другие ограничения при использовании amgettbitmap, более подробно они описаны в разделе Индексное сканирование .

Функция amgettbitmap должна быть реализована только в том случае, если метод доступа поддерживает “bitmap” сканирование индекса. Если это не так, то поле amgettbitmap в его структуре IndexAmRoutine необходимо установить в значение NULL.

amendscan

void
amendscan (IndexScanDesc scan);

Завершает сканирование и освобождает ресурсы. Сама структура сканирования не должна быть освобождена, но любые блокировки и закрепления, полеченные внутри метода доступа, должны быть освобождены, а также любая другая память, выделенная методом ambeginscan и другими функциями поддержки сканирования.

ammarkpos

void
ammarkpos (IndexScanDesc scan);

Отмечает текущее положение сканирования. Метод доступа должен поддерживать только одно запоминание позиции на сканирование.

Функция ammarkpos должна быть реализована только в том случае, если метод доступа поддерживает упорядоченные сканирования. Если это не так, то поле ammarkpos в его структуре IndexAmRoutine можно установить в значение NULL.

amrestrpos

void
amrestrpos (IndexScanDesc scan);

Восстанавливает сканирование до самой последней отмеченной позиции.

функция amrestrpos должна быть реализована только в том случае, если метод доступа поддерживает упорядоченные сканирования. Если это не так, то поле amrestrpos в его структуре IndexAmRoutine можно установить в значение NULL.

Функции поддержки параллельного сканирования

В дополнение к поддержке обычных индексных сканирований, некоторые типы индексов могут поддерживать параллельные индексные сканирования, позволяющие нескольким бэкендам совместно выполнять сканирования индекса. Метод доступа к индексам должен организовать все так, чтобы каждый взаимодействующий процесс возвращал подмножество записей, полученных обычным, непараллельным сканированием индекса, но таким образом, чтобы объединение этих подмножеств было равно набору записей, которые будут возвращены обычным, непараллельным сканированием индекса. Кроме того, хотя не требуется никакого глобального упорядочения записей, возвращаемых параллельным сканированием, порядок внутри этих подмножеств записей, возвращаемых в каждом взаимодействующем процессе, должен соответствовать запрошенному порядку. Для поддержки параллельного сканирования индексов могут быть реализованы следующие функции:

amestimateparallelscan

Size
amestimateparallelscan (void);

Оценивает и возвращает количество байт в динамической общей памяти, которое необходимо методу доступа для выполнения параллельного сканирования. (Это число является дополнением, а не заменой, объема памяти, необходимого для хранения независимой от метода доступа данных структуры ParallelIndexScanDescData).

Нет необходимости реализовывать эту функцию для методов доступа, которые не поддерживают параллельное сканирование или для которых требуется нулевое количество дополнительных байт памяти.

aminitparallelscan

void
aminitparallelscan (void *target);

Эта функция вызывается для инициализации динамической общей памяти в начале параллельного сканирования. Параметр target будет указывать, по крайней мере, на количество байт, возвращенных ранее функцией amestimateparallelscan, и эта функция может использовать данное количество памяти для хранения любых данных, которые ей требуются.

Нет необходимости реализовывать эту функцию для методов доступа, которые не поддерживают параллельное сканирование, или в тех случаях, когда требуемая общая память, не требует инициализации.

amparallelrescan

void
amparallelrescan (IndexScanDesc scan);

Эта функция, если она реализована, будет вызвана при необходимости перезапуска параллельного сканирования индекса. Она должен сбросить любое общее состояние, настроенное с помощью aminitparallelscan таким образом, чтобы перезапустить сканирование с самого начала.

Индексное сканирование

В индексном сканировании метод доступа отвечает за возврат TID всех записей, соответствующих ключам сканирования. Метод доступа не участвует в фактической выборке этих записей из родительской таблицы индекса, а также в определении того, проходят ли они проверку видимости сканирования в снимке данных или другие условия.

Ключ сканирования-это внутреннее представление условия WHERE в форме index_key operator constant, где ключ индекса является одним из столбцов индекса, а оператор-одним из членов семейства операторов, связанных с этим столбцом индекса. Сканирование индекса имеет ноль или более ключей сканирования, связанных через И, то есть ожидается, что возвращенные записи, удовлетворяют всем указанным условиям.

Метод доступа может сообщить, что индекс является индексом с потерями или требует повторных проверок для конкретного запроса. Это означает, что сканирование индекса вернет все записи, удовлетворяющие ключу сканирования, а также, возможно, дополнительные записи, которые не удовлетворяют. Часть ядра базы данных, отвечающая за индексное сканирование, затем снова применит условия индекса к записи из таблицы, чтобы проверить, действительно ли она должна быть выбрана. Если опция повторной проверки не задана, сканирование индекса должно возвращать набор данных, полученный от метода доступа.

Обратите внимание, что метод доступа обязан убедиться, что он правильно находит все и только удовлетворяющие всем заданным ключам сканирования записи. Кроме того, ядро базы данных просто передаст все условия WHERE, соответствующие ключам индекса, и семейства операторов, без какого-либо семантического анализа на избыточность или противоречивовсть. Например, в выражении WHERE x>4 AND x>14, где x является столбцом в B-tree индексе, только в функции amrescan функции B-tree индекса можно понять, что первый ключ сканирования является избыточным и может быть отброшен. Необходимая степень предварительной обработки в функции amrescan зависит от степени, которая требуется методу доступа к индексу, чтобы уменьшить ключи сканирования до ”нормализованной" формы.

Некоторые методы доступа возвращают записи индекса в строго определенном порядке, другие-нет. Существует, фактически, два различных способа, которые метод доступа может поддерживать для сортировки вывода:

Методы доступа, всегда возвращающие записи в порядке хранения данных в индексе (например, btree), должны установить amcanorder в true. В настоящее время такие методы доступа должны использовать btree-совместимые стратегии для их операторов равенства и сортировки.
Методы доступа, поддерживающие операторы сортировки должны установить amcanorderbyop в true. Это указывает на то, что индекс способен возвращать записи в порядке, удовлетворяющем ORDER BY index_key operator constant. Модификаторы сканирования этой формы могут быть переданы в функцию amrescan как описано ранее.

Функция amgettuple имеет аргумент direction, который может принимать значения или ForwardScanDirection (обычный случай), или BackwardScanDirection. Если первый вызов после amrescan получит BackwardScanDirection, тогда набор совпадающих индексных записей должен сканироваться назад-вперед, а не в обычном направлении вперед-назад, поэтому методу amgettuple необходимо вернуть последнюю совпадающую запись в индексе, а не первую, как это обычно делается. (Это будет происходить только для методов доступа, установивших флаг amcanorder в true). После первого вызова, функции amgettuple необходимо быть готовым к дальнейшему сканированию в любом направлении от последней возвращенной записи. (Но если флаг amcanbackward имеет значение false, все последующие вызовы будут иметь то же направление, что и первый).

Методы доступа, поддерживающие упорядоченное сканирование, должны поддерживать "маркировку" позиции в сканировании и последующий возврат к отмеченной позиции. Одна и та же позиция может быть восстановлена несколько раз. Однако, необходимо сохранять только одно положение на сканирование; новый вызов функции ammarkpos переопределяет ранее отмеченную позицию. Методам доступа, не поддерживающим упорядоченное сканирование, не нужно реализовывать функции ammarkpos и amrestrpos внутри IndexAmRoutine; вместо этого установите эти указатели в значение NULL.

Текущее положение сканирования и отмеченная позиция (если такая есть) должны оставаться в согласованном состоянии во время одновременных вставок или удалений из индекса. Это нормально, если только что вставленная запись не возвращается сканированием, которое обнаружило бы запись, если бы она существовала, когда сканирование началось. Так же нормально для сканирования вернуть такую запись при повторном сканировании или возврате, даже если она не была возвращена в первый раз. Аналогично, одновременное удаление может быть отражено или не отражено в результатах сканирования. Важно, чтобы вставки или удаления не приводили к пропуску или к дублированию возвращаемых записей, которые не были вставлены или удалены.

Если индекс хранит исходные значения индексированных данных (а не некоторое их представление с потерями), полезно поддерживать сканирование только по индексу, в котором индекс возвращает фактические данные, а не только TID записи в таблице. Это позволит избежать ввода-вывода только в том случае, если карта видимости показывает, что TID находится на полностью видимой странице; в противном случае требуется прочитать запись из таблицы, чтобы проверить видимость согласно MVCC. Но это уже не касается метода доступа.

Вместо использования функции amgettuple, сканирование индекса можно выполнить с помощью вызова amgettbitmap, чтобы получить все записи в одном вызове. Это может быть заметно более эффективным, чем amgettuple, потому что это позволяет избежать циклов блокировки/разблокировки в рамках метода доступа. В принципе, вызов amgettbitmap должен иметь такие же последствия, как и последовательные вызовы amgettuple, но есть несколько ограничений, чтобы упростить дело. Прежде всего, amgettbitmap возвращает все записи сразу и маркировка или восстановление позиции сканирования не поддерживается. Во-вторых, записи возвращаются в виде битовой карты, которая не имеет никакой сортировки, поэтому amgettbitmap не принимает аргумент direction. (Операторы сортировки также никогда не будут предоставлены для такого сканирования). Кроме того, не предусмотрено использование только индексных сканирований с помощью amgettbitmap, так как нет никакого способа вернуть содержимое индексных записей. В-третьих, amgettbitmap не гарантирует никакой блокировки возвращенных записей, с последствиями, указанными в разделе Вопросы блокировки индекса .

Обратите внимание, что для метода доступа разрешено реализовать только amgettbitmap и не реализовывать amgettuple или наоборот, если его внутренняя реализация не подходит для одного API или другого.

Вопросы блокировки индекса

Методы доступа к индексам должны обрабатывать одновременные обновления индекса несколькими процессами. Ядро QHB получает AccessShareLock на индекс во время сканирования индекса и RowExclusiveLock при обновлении индекса (включая обычный VACUUM). Поскольку эти типы блокировок не конфликтуют, метод доступа отвечает за обработку любых более мелких блокировок, которые можгут потребоваться. Исключительная блокировка индекса целиком может потребоваться только во время его создания, уничтожения или REINDEX .

Реализация типа индекса, поддерживающего одновременные обновления, обычно требует тщательного и подробного анализа требуемого поведения.

Помимо собственных внутренних требований к согласованности индекса, параллельные обновления создают проблемы согласованности между родительской таблицей и индексом. Поскольку QHB отделяет доступ и обновления таблицы от доступа и обновления индекса, существуют окна, в которых индекс может быть несовместим с таблицей. Эта проблема решается с помощью следующих правил:

Новая запись в таблице создается перед созданием для нее записи в индексе. (Поэтому одновременное сканирование индекса, скорее всего, не сможет увидеть запись в таблице. Это нормально, потому что читатель индекса не заинтересован в получении незафиксированной строки в любом случае. Для более детальной информации смотрите раздел Проверка уникальности индекса).
Когда запись удаляется из таблицы (с помощью VACUUM), все ее индексные записи должны быть удалены первыми.
Сканирование индекса должно закреплять страницу индекса, содержащую элемент, возвращенный последним вызовом amgettuple, и функция ambulkdelete не может удалить записи со страниц, закрепленных другими бэкэндами. Необходимость в этом правиле объясняется ниже.

Без третьего правила читатель индекса может видеть запись индекса непосредственно перед ее удалением VACUUM, а затем получить соответствующую запись из таблицы после того, как она была удалена VACUUM. Это не создает никаких серьезных проблем, если этот номер элемента еще не используется (после очистки), когда читатель достигает его, так как пустой слот элемента будет игнорироваться при извлечении записей из таблицы. Но что делать, если третий сервер уже повторно использовал данный слот элемента для чего-то другого? При использовании моментального снимка, совместимого с MVCC, нет никаких проблем, потому что новый пользователь слота наверняка будет слишком новым, чтобы пройти тест видимости для моментального снимка. Однако с моментальным снимком, не совместимым с MVCC (например SnapshotAny), возможна ситуация, когда будет принята и возвращена строка, которая фактически не соответствует ключам сканирования. Можно защититься от этого сценария, требуя, перепроверки ключей сканирования для записи из таблицы во всех случаях, но это слишком дорого. Вместо этого используется закрепление страницы индекса в качестве прокси, как указание, что читатель все еще может быть “в процессе” обращение от записи индекса к соответствующей записи в таблице. Создание таких блоков функцией ambulkdelete гарантирует, что VACUUM не сможет удалить запись из таблицы до того, как читатель закончит работать с ней. Это решение не требует больших затрат во время выполнения и добавляет накладные расходы на блокировку только в редких случаях, когда на самом деле существует конфликт.

Такое решение требует, чтобы сканирование индекса было “синхронным”: необходимо прочитать запись из таблицы сразу после сканирования соответствующей записи индекса. Это дорого по ряду причин. "Асинхронное" сканирование, при котором собирается много TID из индекса, a только через некоторое время выполняется чтение таблицы, требует гораздо меньше накладных расходов на блокировку индекса и позволяет более эффективно реализовать доступ к таблице. В соответствии с приведенным выше анализом, синхронный подход необходимо использовать для не-MVCC-совместимых снимков, а асинхронное сканирование применимо для запроса, использующего снимок MVCC.

В функции amgetbitmap, метод доступа не сохраняет защелок индексных страниц для возвращенных записей. Поэтому безопасно использовать такие сканирования только с MVCC-совместимыми моментальными снимками.

Когда флаг ampredlocks не установлен, любое сканирование, использующее этот метод доступа к индексу в сериализуемой транзакции, получит неблокирующую блокировку предиката на весь индекс. Это приведет к возникновению конфликта чтения и записи при вставке любой записи в этот индекс в параллельной сериализуемой транзакции. Если определенные шаблоны конфликтов чтения и записи обнаруживаются среди набора параллельных сериализуемых транзакций, одна из этих транзакций может быть отменена для защиты целостности данных. Когда флаг установлен, это указывает, что метод доступа к индексу реализует более мелкую блокировку предиката, которая будет стремиться к уменьшению частоты таких отмен транзакций.

Проверка уникальности индекса

QHB реализует ограничения уникальности SQL через использование уникальных индексов, которые являются индексами, запрещающими несколько записей с одинаковыми ключами. Метод доступа, поддерживающий эту функцию, устанавливает для флага amcanunique значение true. (В настоящее время его поддерживают только B-tree индексы). Столбцы, перечисленные в предложении INCLUDE не учитываются при обеспечении уникальности.

Из-за MVCC необходимо всегда разрешать наличие повторяющихся записей в индексе: записи могут ссылаться на последовательные версии одной логической строки. Поведение, которое требуется добиться, заключается в том, что ни один снимок MVCC не может включать две строки с одинаковыми ключами индекса. Это разбивается на следующие случаи, которые необходимо проверить при вставке новой строки в уникальный индекс:

Если конфликтующая валидная строка была удалена текущей транзакцией, это нормально. (В частности, поскольку обновление всегда удаляет старую версию строки перед вставкой новой версии, это позволит обновить строку без изменения ключа).
Если конфликтующая строка была вставлена пока еще незафиксированной транзакцией, необходимо дождаться, завершения этой транзакции. Если она откатывается назад, тогда нет никакого конфликта. Если транзакция фиксируется, не удаляя конфликтующую строку снова, существует нарушение уникальности. (На практике просто выполняется ожидание другой транзакции, а затем повторение проверки видимости).
Аналогично, если конфликтующая допустимая строка была удалена пока еще незафиксированной транзакцией, необходимо дождаться фиксации или прерывания этой транзакции, а затем повторить тест.

Кроме того, непосредственно перед сообщением о нарушении уникальности в соответствии с вышеуказанными правилами, метод доступа должен повторно проверить жизнеспособность вставляемой строки. Если запись мертва, то не нужно сообщать о каких-либо нарушениях. (Этот случай не может произойти во время обычного сценария вставки строки, только что созданной текущей транзакцией. Однако, это может произойти при выполнении CREATE UNIQUE INDEX CONCURRENTLY.)

Метод доступа к индексу обязан выполнять данные тесты сам, а это означает, что он должен проверить в таблице состояние фиксации любой строки, которая имеет дубликат ключа в соответствии с содержимым индекса. Это, без сомнения, некрасиво и немодульно, но это позволяет избежать избыточной работы: если бы ядро базы данных делало отдельную проверку, то поиск конфликтующей строки в индексе был бы фактически повторен в процессе поиска места для вставки новой записи индекса строки. Более того, нет очевидного способа избежать гонок, если только проверка конфликта не является неотъемлемой частью вставки новой записи индекса.

Если ограничение уникальности является отложенным, возникает дополнительная сложность: нужно иметь возможность вставлять запись индекса для новой строки, но откладывать любую ошибку нарушения уникальности до конца оператора или даже позже. Чтобы избежать ненужных повторных поисков индекса, метод доступа к индексу должен выполнить предварительную проверку уникальности во время начальной вставки. Если проверка показывает, что нет конфликтующей живой записи, дальнейшие проверки не проводятся. В противном случае планируется повторная проверка, когда придет время применить ограничение. Если во время повторной проверки и вставленный запись, и какая-то другая запись с тем же ключом являются живыми, то необходимо сообщить об ошибке. (Обратите внимание, что в данном случае “живая” фактически означает “в HOT цепочке в индексе существует живая запись”). Чтобы реализовать повторные проверки, в функцию aminsert передается параметр checkUnique, имеющий одно из следующих значений:

UNIQUE_CHECK_NO указывает, что проверка уникальности не должна выполняться (это не уникальный индекс).
UNIQUE_CHECK_YES указывает, что этот уникальный индекс без отложенной проверки, и проверка уникальности должна быть выполнена немедленно, как описано выше.
UNIQUE_CHECK_PARTIAL указывает, что ограничение уникальности является отложенным. QHB будет использовать этот режим для вставки каждой строки в индекс. Метод доступа должен разрешать повторяющиеся записи в индексе и сообщать о любых потенциальных дубликатах, возвращая false из aminsert. Для каждой строки, для которой возвращается false, будет запланирована отложенная повторная проверка.

Метод доступа должен идентифицировать любые строки, которые могут нарушить ограничение уникальности. Ложные срабатывания не являются ошибкой. Это позволяет выполнить проверку, не дожидаясь завершения других транзакций; конфликты, сообщенные здесь, не рассматриваются как ошибки и будут перепроверены позже, к этому времени они могут больше не быть конфликтами.
UNIQUE_CHECK_EXISTING указывает, что это отложенная повторная проверка строки, промеченной как потенциальное нарушение уникальности. Хотя это реализуется путем вызова aminsert, метод доступа не должен вставлять новую запись индекса в этом случае. Запись индекса уже присутствует. Вместо этого метод доступа должен проверить, есть ли другая "живая" запись в индексе. Если это так, и если целевая строка также все еще активна, сообщить об ошибке.

Рекомендуется, чтобы в вызове UNIQUE_CHECK_EXISTING, метод доступа далее проверял, что целевая строка, действительно, имеет существующую запись в индексе, и сообщает об ошибке, если ее нет. Это хорошая идея, потому что значения индексной записи, переданной в aminsert, будут пересчитаны. Если определение индекса включает в себя функции, которые на самом деле не являются неизменяемыми, возможна проверка неправильной области индекса. Верификация того, что целевая строка найдена при повторной проверке, убеждается, что сканируются те же значения записи, которые использовались в исходной вставке.

Функции оценки стоимости индекса

Функция amcostestimate предоставляет информацию, описывающую возможное сканирование индекса, включая списки Where и ORDER BY, которые были определены для использования с индексом. Метод должен возвращать оценку стоимости доступа к индексу и селективность предложений WHERE (то есть доли строк родительской таблицы, которые будут получены во время сканирования индекса). Для простых случаев почти вся работа оценщика затрат может быть выполнена путем вызова стандартных подпрограмм в оптимизаторе; смысл наличия функции amcostestimate заключается в том, чтобы позволить методу доступа к индексам предоставлять специфические знания о конкретных типах индексов, если это может улучшить стандартные оценки.

Каждая функция amcostestimate должна иметь следующие параметры:

void
amcostestimate (PlannerInfo *root,
                IndexPath *path,
                double loop_count,
                Cost *indexStartupCost,
                Cost *indexTotalCost,
                Selectivity *indexSelectivity,
                double *indexCorrelation,
                double *indexPages);

Первые три параметра являются входными данными:

root

Информация планировщика об обрабатываемом запросе.

path

Рассматривается путь доступа к индексу. Все поля, кроме indexTotalCost и indexSelectivity являются валидными.

loop_count

Число повторений сканирования индекса, которое должно быть учтено в оценке стоимости. Значение обычно будет больше единицы при рассмотрении параметризованного сканирования для использования внутри соединения с помощью вложенных запросов. Обратите внимание, что оценка стоимости все еще должна быть только для одного сканирования; большое значение loop_count означает, что его можно учесть для планирования кэширования при нескольких сканированиях.

Последние пять параметров являются выходными данными по ссылке:

indexStartupCost

Значение стоимость начальной обработки индекса

indexTotalCost

Общая стоимость обработки индекса

indexSelectivity

Индекс селективности

indexCorrelation

Коэффициент корреляции между порядком сканирования индекса и порядком базовой таблицы

indexPages

Число листовых страниц индекса

Обратите внимание, что функции оценки затрат необходимо писать на C/RUST, а не на SQL или любом другом доступном процедурном языке, поскольку они должны иметь доступ к внутренним структурам данных планировщика/оптимизатора.

Стоимость доступа к индексу должна быть рассчитана с использованием параметров, используемых src/backend/optimizer/path/costsize.c: последовательная выборка дискового блока имеет стоимость seq_page_cost, произвольная выборка имеет стоимость random_page_cost, и стоимость обработки одной строки индекса обычно следует принимать как cpu_index_tuple_cost. Кроме того, следует использовать соответствующее умножение на cpu_operator_cost для любых операторов сравнения, вызываемых во время обработки индекса (особенно вычисление самих условий индекса).

Затраты на доступ должны включать все дисковые и процессорные затраты, связанные со сканированием самого индекса, но не затраты на извлечение или обработку строк родительской таблицы, идентифицированных индексом.

indexStartupCost - это часть общей стоимости сканирования, которая должна быть израсходована, прежде чем станет возможно извлечь первую строку. Для большинства индексов это значение можно принять равным нулю, но тип индекса с высокой начальной стоимостью может захотеть установить его ненулевым.

В indexSelectivity должно быть записано значение предполагаемой доли строк родительской таблицы, которая будет получена во время сканирования индекса. В случае запроса с потерями, как правило, значение будет выше, чем доля строк, которые фактически удовлетворяют условиям сравнения.

В indexCorrelation следует записать корреляцию (в диапазоне от -1,0 до 1,0) между порядком индекса и порядком таблицы. Это используется для корректировки оценки стоимости извлечения строк из родительской таблицы.

В indexPages необходимо записать количество листовых страниц. Значение используется для оценки количества рабочих процессов для параллельного сканирования индекса.

Когда loop_count больше единицы, возвращаемые числа должны быть средними, ожидаемыми для любого одного сканирования индекса.

Оценка стоимости

Типичный оценщик стоимости будет действовать следующим образом:

Оценивает и возвращает долю строк родительской таблицы, которые будут посещены на основе заданных условий сравнения. При отсутствии каких-либо специфических знаний для данного типа индекса нужно использовать стандартную функцию оптимизатора clauselist_selectivity():

*indexSelectivity = clauselist_selectivity(root, path->indexquals,
                                           path->indexinfo->rel->relid,
                                           JOIN_INNER, NULL);

Оценивает количество строк индекса, которые будут посещены во время сканирования. Для многих типов индексов это то же самое, что indexSelectivity, умноженное на число строк в индексе, но может быть и больше. (Обратите внимание, что размер индекса в страницах и строках доступен из входного параметра path->indexinfo).
Оценивает количество индексных страниц, которые будут прочитаны во время сканирования. Это может быть просто indexSelectivity умноженное на размер индекса в страницах.
Вычисляет стоимость доступа к индексу. Универсальный оценщик может сделать это так:

/*
 * Our generic assumption is that the index pages will be read
 * sequentially, so they cost seq_page_cost each, not random_page_cost.
 * Also, we charge for evaluation of the indexquals at each index row.
 * All the costs are assumed to be paid incrementally during the scan.
 */
cost_qual_eval(&index_qual_cost, path->indexquals, root);
*indexStartupCost = index_qual_cost.startup;
*indexTotalCost = seq_page_cost * numIndexPages +
    (cpu_index_tuple_cost + index_qual_cost.per_tuple) * numIndexTuples;

Однако вышеизложенное не учитывает амортизацию операций чтения индекса при повторных сканированиях индекса.

Оценивает коэффициент корреляции. Для простого упорядоченного индекса по одному полю значение можно получить из pg_statistic. Если корреляция неизвестна, то консервативная оценка равна нулю (без корреляции).

Примеры функций оценки стоимости можно найти в разделе src/backend/utils/adt/selfuncs.c.

Общие записи WAL

Хотя все встроенные модули, использующие упреждающую запись, поддерживают свои собственные типы записей WAL, существует также общий тип записи WAL, который описывает изменения страниц в общем виде. Это полезно для расширений, предоставляющих пользовательские методы доступа, поскольку они не могут зарегистрировать свои собственные процедуры восстановления через WAL.

API для построения универсальных записей WAL определяется в access/generic_xlog.h.

Чтобы выполнить обновление данных защищённых WAL с помощью универсального средства записи WAL, выполните следующие действия:

state = GenericXLogStart(relation) - начать построение общей записи WAL для данного отношения.
page = GenericXLogRegisterBuffer(state, buffer, flags) - зарегистрируйте буфер, который будет изменен в текущей общей записи WAL. Эта функция возвращает указатель на временную копию страницы буфера, где должны быть сделаны изменения. (Не изменяйте содержимое буфера напрямую). Третий аргумент-это битовая маска флагов, применимая к данной операции. В настоящее время единственным таким флагом является GENERIC_XLOG_FULL_IMAGE, что означает, что в запись WAL должен быть включены не конкретные изменения, а полностраничный образ. Обычно этот флаг устанавливается, если страница является новой или была полностью переписана. GenericXLogRegisterBuffer можно повторить, если при помощи журналированного действия необходимо изменить несколько страниц.
Примените изменения к образам страниц, полученным на предыдущем шаге.
GenericXLogFinish(state) - примените изменения к буферам и выдайте общую запись WAL.

Построение записи WAL может быть отменено между любыми из вышеперечисленных шагов путем вызова GenericXLogAbort(state). Это приведет к отмене всех изменений в копии изображения страницы.

Пожалуйста, обратите внимание на следующие моменты при использовании общего средства записи WAL:

Никакие прямые модификации буферов не допускаются! Все изменения должны быть сделаны в копиях, полученных от GenericXLogRegisterBuffer(). Другими словами, код, который делает универсальные записи WAL, никогда не должен вызывать BufferGetPage(). Тем не менее, это остается обязанностью вызывающей стороны закрепить/открепить (pin/unpin) и заблокировать/разблокировать (lock/unlock) буферы в нужный момент. Исключительная блокировка должна быть удержана на каждом целевом буфере перед вызовом GenericXLogRegisterBuffer() до тех пор, пока не будет вызван GenericXLogFinish().
Регистрация буферов (шаг 2) и модификация изображений страниц (шаг 3) могут быть вызваны в любой последовательности. Имейте в виду, что буферы должны быть зарегистрированы в том же порядке, в котором блокировки должны быть получены на них во время воспроизведения.
Максимальное число буферов, которые могут быть зарегистрированы для универсальной записи WAL является MAX_GENERIC_XLOG_PAGES. При превышении этого предела будет выдана ошибка.
Generic WAL предполагает, что изменяемые страницы имеют стандартную компоновку, и в частности, что между ними нет полезных данных pd_lower и pd_upper.
Так как вы изменяете копии буферных страниц, GenericXLogStart() не запускает критическую секцию. Таким образом, вы можете безопасно выполнять выделение памяти, возврат ошибок и т. д. между GenericXLogStart() и GenericXLogFinish(). Единственная критическая секция присутствует внутри GenericXLogFinish(), но находясь внутринеё нет необходимости беспокоиться о вызове GenericXLogAbort() во время выхода из-за ошибки.
GenericXLogFinish() заботится о маркировке грязных буферов и настройке их LSNs. Вам не нужно делать это явно.
Для незарегистрированных отношений все работает одинаково, за исключением того, что не порождается фактическая запись WAL. Таким образом, обычно нет необходимости выполнять явные проверки незарегистрированных отношений.
Универсальная функция восстановления по Wal будет получать эксклюзивные блокировки для буферов в том же порядке, в котором они были зарегистрированы. После повторного внесения всех изменений, блокировки будут освобождены в том же порядке.
Если GENERIC_XLOG_FULL_IMAGE не задается для зарегистрированного буфера, общая запись WAL содержит разницу между старым и новым образами страниц. Эта разность основана на байтовом сравнении. Это не очень компактно для случая перемещения данных в пределах страницы и может быть улучшено в будущем.

Физическое хранилище базы данных

В этой главе представлен обзор формата физического хранилища, используемого базами данных QHB.

Структура файлов базы данных

В этом разделе описывается формат хранения на уровне файлов и каталогов.

Файлы конфигурации и данных, используемые СУБД, обычно хранятся в одном каталоге называемом PGDATA (аналогично имени переменной среды). Обычно PGDATA располагается по следующему пути: /var/lib/qhb/data. Несколько кластеров, управляемых различными экземплярами сервера, могут существовать на одной и той же машине.

Каталог PGDATA содержит несколько подкаталогов и управляющих файлов, как показано в таблице 1. В дополнение к этим необходимым элементам, файлы конфигурации кластера qhb.conf, qhb_hba.conf, и qhb_ident.conf традиционно хранятся в PGDATA, хотя можно разместить их и в другом месте.

Таблица 1. Содержание PGDATA

Файл/каталог	Описание
QHB_VERSION	Файл, содержащий основной номер версии QHB
base	Каталог в котором содержатся подкаталоги для каждой базы данных
current_logfiles	Файл содержащий пути файлов для ведения журнала логгирования
global	Подкаталог, содержащий таблицы общие для кластера, такие как pg_database
pg_commit_ts	Подкаталог, содержащий данные временной метки фиксации транзакций
pg_dynshmem	Подкаталог, содержащий файлы, используемые динамической подсистемой общей памяти
pg_logical	Подкаталог, содержащий статусные данные для логического декодирования
pg_multixact	Подкаталог, содержащий данные о состоянии мультитранзакций (используется для общих блокировок строк)
pg_notify	Подкаталог, содержащий данные о состоянии LISTEN/NOTIFY
pg_replslot	Подкаталог, содержащий данные слота репликации
pg_serial	Подкаталог, содержащий информацию о совершенных сериализуемых транзакциях
pg_snapshots	Подкаталог, содержащий экспортированные снимки
pg_stat	Подкаталог, содержащий постоянные файлы для подсистемы статистики
pg_stat_tmp	Подкаталог, содержащий временные файлы для подсистемы статистики
pg_subtrans	Подкаталог, содержащий данные о состоянии подтранзакции
pg_tblspc	Подкаталог, содержащий символьные ссылки на табличные пространства
pg_twophase	Подкаталог, содержащий файлы состояний для подготовленных транзакций
pg_wal	Подкаталог, содержащий файлы WAL (Журнал упреждающей записи)
pg_xact	Подкаталог, содержащий данные о состоянии фиксации транзакций
qhb.auto.conf	Файл, используемый для хранения параметров конфигурации, которые задаются ALTER SYSTEM
postmaster.opts	Файл, записывающий параметры командной строки, с которыми сервер был запущен в последний раз
qhbmaster.pid	Файл блокировки, записывающий текущий идентификатор процесса postmaster (PID), путь к каталогу данных кластера, метку времени запуска postmaster, номер порта, путь к каталогу сокета Unix-домена, первый допустимый адрес listen_address (IP-адрес или * или пустой, если не прослушивает TCP), и идентификатор сегмента общей памяти (этот файл не присутствует после завершения работы сервера)

Для каждой базы данных в кластере существует подкаталог внутри PGDATA/base, названный по номеру OID базы данных в pg_database. Этот подкаталог по умолчанию используется для файлов базы данных; в частности, там хранятся ее системные каталоги.

Обратите внимание, что в следующих разделах описано поведение встроенного устройства кучи метод доступа к таблице и методы доступа к встроенному индексу. Поскольку QHB является расширяемой системой, другие методы доступа могут работать по-другому.

Каждая таблица и индекс хранятся в отдельном файле. Для обычных отношений эти файлы называются по номеру таблицы или индекса filenode, который можно найти в pg_class.relfilenode. Но для временных отношений имя файла имеет вид tBBB_FFF, где BBB является идентификатором внутреннего сервера, который создал файл, и FFF является номером filenode. В любом случае, помимо основного файла (слоя), каждая таблица и индекс имеют карту свободного пространства (см. раздел Карта свободного пространства), в которой хранится информация о свободном пространстве, доступном в отношении. Карта свободного пространства хранится в файле с именем с номером filenode с суффиксом _fsm. Таблицы также имеют карту видимости, хранящуюся в файле с суффиксом _vm для отслеживания страниц без "мертвых" кортежей. Карта видимости описана далее в разделе Карта видимости. Незарегистрированные таблицы и индексы имеют третий файл, известный как слой инициализации с суффиксом \init (см. раздел Слой инициализации).

!!!! Предупреждение

Обратите внимание, что хотя filenode таблицы часто совпадает с ее OID, это не обязательно так. Некоторые операции, такие как усечение, переиндексация, кластеризация и некоторые формы ALTER TABLE, могут изменить filenode, сохраняя OID. Избегайте предположения, что filenode и table OID-это одно и то же. Кроме того, для некоторых системных каталогов, в частности pg_class, pg_class.relfilenode содержит ноль. Фактическое число filenode этих каталогов хранится в структуре данных более низкого уровня и может быть получен с помощью pg_relation_filenode() функция.

Если объем таблицы или индекса превышает 1 гб, он делится на сегменты размером в гигабайт. Имя файла первого сегмента совпадает с именем filenode; последующие сегменты называются filenode.1, filenode.2, и т.д. Это позволяет избежать проблем на платформах, имеющих ограничения по размеру файлов. (На самом деле, 1 гб-это только размер сегмента по умолчанию. Размер сегмента можно регулировать с помощью опции конфигурации --with-segsize при сборки QHB). В теории, для карт свободного пространства и карт видимости также может потребоваться несколько сегментов, хотя на практике это вряд ли произойдет.

Таблица, содержащая столбцы с потенциально большими записями, будет иметь связанную с ней таблицу TOAST, которая используется для внешнего хранения полей, которые слишком велики, чтобы хранить их непосредственно в строках таблицы. pg_class.reltoastrelid связывает таблицу с ее TOAST таблицами, если таковые имеются. Дополнительную информацию смотрите в разделе TOAST.

Содержание таблиц и индексов рассматривается далее в разделе Внутренняя структура страницы базы данных.

Табличные пространства делают устройство базы данных более сложным. Каждое пользовательское табличное пространство имеет символическую ссылку внутри каталога PGDATA/pg_tblspc, который указывает на физический каталог табличного пространства (т.е. расположение, указанное в команде CREATE TABLESPACE табличного пространства). Эта символьная ссылка названа по номеру OID табличного пространства. Внутри физического каталога табличных пространств есть подкаталог с именем, которое зависит от версии сервера QHB. (Этот подкаталог необходим для того, чтобы последовательные версии базы данных могли использовать одни и те же значение для CREATE TABLESPACE без конфликтов). В подкаталоге для конкретной версии для каждой базы данных, которая имеет элементы в табличном пространстве, существует подкаталог названный по номеру OID базы данных. Таблицы и индексы хранятся в этом каталоге, используя схему именования filenode. Табличное пространство pg_default недоступно через pg_tblspc, но находится в PGDATA/base. Точно так же, как pg_global табличное пространство недоступно через pg_tblspc, но находится в PGDATA/global.

pg_relation_filepath() функция показывает весь путь (относительно PGDATA) любого отношения. Это часто полезно в качестве альтернативы для запоминания многих из вышеперечисленных правил. Но имейте в виду, что эта функция просто дает название первого сегмента основного слоя отношения — вам может понадобиться добавить номер сегмента и/или _fsm, _vm, или _init чтобы найти все файлы, связанные с этим отношением.

Временные файлы (для таких операций как сортировка данных большего размера, чем может поместиться в памяти) создаются внутри PGDATA/base/pgsql_tmp, или в подкаталоге табличного пространства внутри pgsql_tmp, если табличное пространство отличается от pg_default. Имя временного файла имеет вид pgsql_tmpPPP.NNN, где PPP это PID владеющего бэкенда и NNN идентифицирует различные временные файлы этого бэкенда.

TOAST

В этом разделе представлен обзор TOAST (The Oversized-Attribute Storage Technique, техника хранения сверхбольших атрибутов).

QHB использует фиксированный размер страницы (обычно 8 кб) и не позволяет кортежам занимать несколько страниц. Поэтому невозможно хранить очень большие значения полей непосредственно. Чтобы преодолеть это ограничение, большие значения полей сжимаются и/или разбиваются на несколько физических строк. Это происходит прозрачно для пользователя, только с небольшим влиянием на большую часть внутреннего кода. Этот прием называют TOAST. Инфраструктура TOAST также используется для улучшения обработки больших значений данных в памяти.

Только некоторые типы данных поддерживают TOAST — нет необходимости накладывать накладные расходы на типы данных, которые не могут создавать большие значения полей. Для поддержки TOAST тип данных должен иметь представление переменной длины (varlena), в котором обычно первое четырехбайтовое слово содержит общую длину значения в байтах (включая сам размер). TOAST не ограничивает остальную часть представления типа данных. Специальные представления работают путем изменения или интерпретации этого начального слова длины. Поэтому функции уровня C/RUST, использующие тип данных, поддерживающий TOAST, должны быть аккуратны с тем, как они обрабатывают входные значения TOAST: входные данные могут фактически не состоять из четырехбайтового слова длины и содержимого до тех пор, пока они не будут детализированы. (Обычно это делается путем вызова PG_DETOAST_DATUM прежде, чем делать что-либо с входным значением, но в некоторых случаях возможны более эффективные подходы. Дополнительную информацию смотрите в разделе Использование TOAST).

TOAST использует два бита из длины слова varlena (биты старшего порядка на big-endian архитектурах и биты младшего порядка на little-endian архитектурах), тем самым ограничивая логический размер любого значения типа данных с поддержкой TOAST до 1 гб (2³⁰ - 1 байт). Когда оба бита равны нулю, значение является обычным значением соответствующего типа данных, а оставшиеся биты длины содержат общий размер типа данных (включая размер типа длины) в байтах. Когда выставлен бит самого старшего или самого младшего порядка, значение имеет только однобайтовый заголовок вместо обычного четырехбайтового заголовка, а оставшиеся биты этого байта дают общий размер типа данных (включая байт длины) в байтах. Этот подход предоставляет экономичное хранение значений размером менее 127 байт, но при этом позволяет увеличить тип данных до 1 гб при необходимости. Значения с однобайтовыми заголовками не выровнены по какой-либо определенной границе, тогда как значения с четырехбайтовыми заголовками выровнены по крайней мере по четырехбайтовой границе; это отсутствие выравнивания обеспечивает дополнительную экономию пространства, что значительно для коротких значений. В частном случае, если все оставшиеся биты однобайтового заголовка равны нулю (что было бы невозможно для самодостаточной длины), значение является указателем на исходные данные с несколькими возможными альтернативами, как описано ниже. Тип и размер такого а TOAST-указателя определяется кодом, хранящимся во втором байте данных. Наконец, когда бит самого старшего или самого младшего порядка равен нулю, а соседний бит установлен, то содержимое данных сжато и должно быть распаковано перед использованием. В этом случае оставшиеся биты четырехбайтового слова длины дают общий размер сжатых данных, а не исходные данные. Обратите внимание, что сжатие также возможно для данных разделенных на несколько страниц. Это определяется не заголовком varlena, а содержимым по TOAST-указателю.

Как уже упоминалось, существует несколько типов данных для TOAST указателя. Наиболее распространенный тип — это указатель на разделенные по страницам данные, хранящиеся в таблице TOAST. Эта таблица отделена от таблицы, содержащая TOAST-указатель на данные, но связана с ней. Эта информация указателя на диске создается с помощью кода управления TOAST (в access/heap/tuptoaster.c) когда кортеж, который будет храниться на диске, слишком велик, чтобы быть сохраненным как есть. Более подробная информация приводится в разделе Внешнее хранилище TOAST на диске. Кроме того, TOAST-указатель на данные может содержать указатель на исходящие данные, которые отображаются в другом месте в памяти. Такие данные обязательно временны и никогда не появляются на диске, но они очень полезны для предотвращения копирования и избыточной обработки больших значений данных. Более подробная информация приводится в разделе Внешнее хранилище TOAST в памяти.

Метод сжатия, используемый как для одностраничных, так и для многостраничных данных, является довольно простой и очень быстрой реализацией алгоритма из семейства методов сжатия LZ, реализация представлена в src/common/pg_lzcompress.c.

Внешнее хранилище TOAST на диске

Если любой из столбцов таблицы поддерживает TOAST, таблица будет иметь связанную таблицу TOAST, OID которой хранится в записи таблицы pg_class.reltoastrelid. Значения TOAST на диске хранятся в таблице TOAST, как описано ниже более подробно.

Разделенные значения делятся (если используется сжатие) на порции длиной не более чем TOAST_MAX_CHUNK_SIZE байт (по умолчанию это значение выбрано таким образом, что четыре строки chunk поместятся на странице, что составляет около 2000 байт). Каждый фрагмент хранится в виде отдельной строки в таблице TOAST, принадлежащей таблице-владельцу. Каждая таблица TOAST имеет столбцы chunk_id (OID, определяющий конкретное TOAST значение), chunk_seq (порядковый номер для фрагмента в пределах его значения), и chunk_data (фактические данные фрагмента). Уникальный индекс на chunk_id и chunk_seq обеспечивает быстрое доступ к значениям. Таким образом, указатель на данные, представляющий собой устаревшее значение на диске, должен хранить OID таблицы TOAST, в которой нужно искать, и OID конкретного значения (его chunk_id). Для удобства, указатели на данные также хранят логический размер данных (исходная несжатая длина) и физический сохраненный размер (различен, если сжатие было применено). Учитывая байты заголовка varlena, общий размер TOAST-указателя на диске составляет 18 байт независимо от фактического размера представленного значения.

Код для обработки TOAST запускается только тогда, когда значение строки, подлежащее хранению в таблице, больше, чем TOAST_TUPLE_THRESHOLD байт (обычно 2 кб). Код TOAST будет сжимать и/или перемещать значения полей из строки до тех пор, пока значение строки не станет короче, чем TOAST_TUPLE_TARGET байт (также 2 кб по-умолчанию) или до тех пор, пока объем строки будет невозможно уменьшить. Во время операции UPDATE значения неизмененных полей обычно сохраняются как есть; поэтому обновление строки с значениями разделенных на несколько страниц не несет никаких дополнительных затрат, если ни одно из таких значений не изменилось.

Код для обработки TOAST определяет четыре различных стратегии для хранения столбцов с поддержкой TOAST на диске:

PLAIN предотвращает сжатие или хранение вне строки; кроме того, он отключает использование однобайтовых заголовков для типов varlena. Это единственная возможная стратегия для столбцов типов данных, не допускающих TOAST.
EXTENDED позволяет как сжатие, так и хранение вне строки. Это значение по умолчанию для большинства типов данных с поддержкой TOAST. Сначала будет предпринята попытка сжатия, затем хранение вне строки, если строка все еще слишком велика.
EXTERNAL позволяет хранить вне строки, но не сжимать. Использование EXTERNAL сделает операции с подстрокой в больших text и bytea столбцах быстрее (в ущерб большему требованию к памяти), потому что такие операции оптимизированы для выборки только необходимых частей вне строки, когда оно не сжато.
MAIN позволяет сжатие, но не вне хранилища. (На самом деле, для таких столбцов по-прежнему будет выполняться автономное хранение, но только в крайнем случае, когда нет другого способа сделать строку достаточно маленькой, чтобы поместиться на странице).

Каждый тип данных поддерживающий TOAST задает стратегию по умолчанию для столбцов этого типа данных. Также стратегию для указанного столбца таблицы можно изменить с помощью ALTER TABLE ... SET STORAGE.

TOAST_TUPLE_TARGET можно настроить для каждой таблицы с помощью ALTER TABLE ... SET (toast_tuple_target = N)

По сравнению с более простым подходом, который позволяет значениям строк пересекать границы странцы, эта схема имеет ряд преимуществ. Предполагая, что запросы обычно имеют сравнения с относительно маленькими значениями ключа, большая часть работы будет выполнена с использованием записи основной строки. Большие значения TOAST-атрибутов будут извлечены только (если они вообще выбраны) во время отправки результата клиенту. Таким образом, основная таблица намного меньше, а значит больше строк помещается в общий буферный кэш, чем могло быть без использования внешнего хранения аттрибутов. Данные для сортировки также уменьшаются, и сортировка чаще всего будет выполняться полностью в памяти. Небольшой тест показал, что в таблице, которая содержит типичные HTML-страницы и их URL-адреса, хранится примерно в два раза меньший объем необработанных данных, включая таблицу TOAST, и что основная таблица содержит только около 10% всех данных (URL-адреса и некоторые небольшие HTML-страницы). При этом не было никакой разницы во времени выполнения по сравнению с таблицей без TOAST аттрибутов, в которой все HTML-страницы были сокращены до 7 КБ, для соответствия.

Внешнее хранилище TOAST в памяти

TOAST-указатели могут указывать на данные, которые не находятся на диске, а находятся в другом месте в памяти текущего серверного процесса. Такие указатели, очевидно, не могут быть долговечными, но они тем не менее полезны. В настоящее время существует два вида: указатели на косвенные (indirect) данные и указатели на расширенные (expanded) данные.

Косвенный указатель TOAST указывает на значение varlena, хранящееся где-то в памяти. Изначально он был создан просто как доказательство концепции, но в настоящее время он используется во время логического декодирования, чтобы избежать потенциального создания физических кортежей более 1 гб (что может произойти при объединении всех разделенных полей в один кортеж). У такого способа весьма ограниченное применение: владелец такого указателя самостоятельно должен учитывать, что ссылаемые данные существуют до тех пор, пока существует указатель.

Расширенные TOAST-указатели полезны для сложных типов данных, представление которых на диске не особенно подходит для вычислительных целей. Например, стандартное представление varlena массива включает информацию о размерности, битовый массив с null-значениями, если таковые имеются и далее все значения по порядку. Когда сам тип элемента имеет переменную длину, единственный способ найти N-ный элемент — это просмотреть все предыдущие элементы. Такое представление подходит для хранения на диске из-за его компактности, но для вычислений с массивом гораздо лучше иметь “расширенное” или “деконструированное” представление, в котором определены все начальные местоположения элементов. Механизм TOAST-указателя поддерживает эту потребность, позволяя данным, переданным по ссылке, указывать либо на стандартное значение varlena (представленного на диске), либо на TOAST-указатель, который указывает на расширенное представление где-то в памяти. Детали этого расширенного представления зависят от типа данных, тем не менее он должен иметь стандартный заголовок и соответствовать другим требованиям API, приведенным в src/include/utils/expandeddatum.h. функции уровня C/RUST, работающие с типом данных, могут выбрать для обработки любое представление. Функции, которые не знают о расширенном представлении, а просто применяют PG_DETOAST_DATUM к их входам будет, прозрачно получают обычное представление varlena; поэтому поддержка расширенного представления может вводиться постепенно, по одной функции за раз.

Указатели TOAST на расширенные значения далее разбиваются на указатели для чтения-записи и только для чтения. Представление с указанием на объект является одинаковым в любом случае, но функция, получающая указатель на чтение и запись, может изменять указанное значение на месте, тогда как функция, получающая указатель только на чтение, не должна этого делать; она должна сначала создать копию, если она хочет сделать измененную версию значения. Это различие и некоторые связанные с ним соглашения позволяют избежать ненужного копирования расширенных значений во время выполнения запроса.

Для всех типов указателей TOAST в памяти код управления TOAST гарантирует, что никакие данные указателя не может оказаться на диске. Указатели TOAST в памяти автоматически расширяются до обычных линейных значений varlena перед хранением, и затем, возможно, преобразуются в указатели TOAST на диске, если содержащийся кортеж был слишком большим.

Карта свободного пространства

Каждое отношение кучи и индекса, за исключением хэш-индексов, имеет карту свободного пространства (FSM) для отслеживания доступного пространства в отношении. Она хранится вместе с основными данными отношения в отдельном слое отношений, названной по номеру filenode отношения вместе с _fsm суффиксом. Например, если filenode отношения равен 12345, то FSM хранится в файле с именем 12345_fsm, в том же каталоге, что и основной файл отношения.

Карта свободного пространства организована в виде дерева страниц FSM. Страницы FSM нижнего уровня хранят свободное пространство, доступное на каждой странице кучи (или индекса), используя один байт для представления каждой такой страницы. Верхние уровни агрегируют информацию с нижних уровней.

Внутри каждой страницы FSM находится двоичное дерево, хранящееся в массиве с одним байтом на узел. Каждый конечный узел представляет собой страницу кучи или страницу FSM более низкого уровня. В каждом не-листовом узле хранится максимум из его дочерних значений. Поэтому максимальное значение всех листовых узлах хранится в корне.

Посмотрите src/backend/storage/freespace/README для получения более подробной информации о том, как структурирован FSM, и как он обновляется и ищется. Модуль pg_freespacemap может использоваться для изучения информации, хранящейся на картах свободного пространства.

Карта видимости

Каждое отношение кучи имеет карту видимости (VM), чтобы отслеживать, какие страницы содержат только кортежи, которые, как известно, видны для всех активных транзакций; она также отслеживает, какие страницы содержат только замороженные кортежи. Она хранится вместе с основными данными отношения в отдельном слое отношений, названной по номеру filenode отношения вместе с _vm суффиксом. Например, если filenode отношения равен 12345, то VM хранится в файле с именем 12345_vm, в том же каталоге, что и основной файл отношения. Обратите внимание, что индексы не имеют карту видимости.

Карта видимости хранит два бита на странице кучи. Первый бит, если он установлен, указывает, что страница является полностью видимой, или другими словами, что страница не содержит никаких кортежей, которые необходимо очистить. Эта информация также может использоваться сканированиями по индексу для ответа на запросы, с использованием только кортежа индекса. Второй бит, если он установлен, означает, что все Кортежи на странице были заморожены. Это означает, что даже вакуум с защитой от переполнения счетчика транзакции не должен повторно просматривать страницу.

Карта является консервативной в том смысле, что мы удостоверяемся, что всякий раз, когда бит установлен, мы знаем, что условие истинно, но если бит не установлен, он может быть или не быть истинным. Биты карты видимости задаются только вакуумом, но очищаются любыми операциями изменения данных на странице.

Модуль pg_visibility можно использовать для изучения информации, хранящейся в карте видимости.

Слой инициализации

Каждая нежурналируемая таблица и каждый индекс нежурналируемой таблицы имеют слой инициализации. Слой инициализации — это пустая таблица или индекс соответствующего типа. Когда нежурналируемая таблица должна быть сброшена к пустому состоянию из-за сбоя, слой инициализации копируется поверх основного слоя, а все другие слои стираются (они будут автоматически воссозданы по мере необходимости).

Внутренняя структура страницы базы данных

В этом разделе представлен обзор формата страницы, используемого в таблицах и индексах QHB¹. Последовательности и таблицы TOAST представляются так же, как обычная таблица.

В следующем объяснении предполагается, что байт содержит 8 битов. Кроме того, термин элемент относится к значению данных, которое хранится на странице. В таблице элемент является строкой; в индексе элемент является записью индекса.

Каждая таблица и индекс хранятся в виде массива страниц фиксированного размера (обычно 8 кб, хотя при компиляции сервера можно выбрать другой размер страницы). В таблице все страницы логически эквивалентны, поэтому определенный элемент (строка) может храниться на любой странице. В индексах первая страница обычно зарезервирована как метастраница, содержащая управляющую информацию, и в индексе могут быть разные типы страниц, в зависимости от метода доступа к индексу.

В таблице 2 показана общая компоновка страницы. На каждой странице есть 5 частей.

Таблица 2. Общая Структура Страницы

Предмет	Описание
PageHeaderData	24 байта длиной. Содержит общую информацию о странице, включая указатели на свободное места.
ItemIdData	Массив идентификаторов элементов, указывающих на фактические элементы. Каждая запись является парой (смещение,длина). 4 байта на элемент.
Free space	Свободное пространство. Новые идентификаторы элементов выделяются с начала этой области, новые элементы — с конца.
Items	Собственно сами элементы.
Special space	Специальная область для методов индексного доступа. Различные методы хранят различные данные. Пустое поле для обычных таблиц.

Первые 24 байта каждой страницы состоят из заголовка страницы (PageHeaderData). Его формат подробно описан в таблице 3. Первое поле отслеживает самую последнюю запись WAL, связанную с этой страницей. Второе поле содержит контрольную сумму страницы, если контрольные суммы включены. Далее идет 2-байтовое поле, содержащее биты флагов. Далее следуют три 2-байтных целочисленных поля (pd_lower, pd_upper, и pd_special). Они содержат смещения в байтах от начала страницы до начала свободного пространства, до конца свободного пространства и до начала специального пространства. Следующие 2 байта заголовка страницы, pd_pagesize_version, содержат размер страницы и индикатор версии.

Размер страницы в основном присутствует только в качестве перекрестной проверки; нет поддержки страниц разных размеров при установке. Последнее поле служит подсказкой для того, будет ли полезно очистить страницу: он отслеживает самый старый XMAX на странице, из тех что не был очищен.

Таблица 3. Структура PageHeaderData

Поле	Тип	Длина	Описание
pd_lsn	PageXLogRecPtr	8 байт	LSN: следующий байт после последнего байта WAL-записи для последнего изменения на этой странице
pd_checksum	uint16	2 байта	Контрольная сумма страницы
pd_flags	uint16	2 байта	Биты флагов
pd_lower	LocationIndex	2 байта	Смещение до начала свободного места
pd_upper	LocationIndex	2 байта	Смещение до конца свободного пространства
pd_special	LocationIndex	2 байта	Смещение до начала специального пространства
pd_pagesize_version	uint16	2 байта	Размер страницы и номер версии макета информация
pd_prune_xid	TransactionId	4 байта	Самый старый неочищенный XMAX на странице, или ноль, если отсутствует

Все подробности можно узнать в разделе src/include/storage/bufpage.h.

После заголовка страницы идут идентификаторы элементов (ItemIdData), каждый из которых требует четыре байта. Идентификатор элемента содержит смещение в байтах до начала элемента, его длину в байтах и несколько битов атрибутов, влияющих на его интерпретацию. Новые идентификаторы элементов выделяются по мере необходимости с начала свободного пространства. Количество присутствующих идентификаторов элементов можно определить, посмотрев на pd_lower, который увеличивается при выделении нового идентификатора. Поскольку идентификатор элемента никогда не перемещается до тех пор, пока он не будет освобожден, его индекс можно использовать в долгосрочной основе для ссылки на элемент, даже если сам элемент перемещается по странице для сжатия свободного пространства. На самом деле, каждый указатель на элемент (ItemPointer, также известный как CTID) созданный QHB состоит из номера страницы и индекса идентификатора элемента.

Сами элементы хранятся в пространстве, выделенном с конца свободного пространства. Точная структура варьируется в зависимости от того, что должна содержать таблица. В таблицах и последовательностях используется структура с именем HeapTupleHeaderData, описанная ниже.

Последний раздел - это "специальный раздел", который может содержать все, что метод доступа желает сохранить. Например, B-дерево хранит ссылки на левый и правый родственные элементы страницы, а также некоторые другие данные, относящиеся к структуре индекса. Обычные таблицы вообще не используют специальный раздел (указывается при настройке pd_special для выравнивания размера страницы).

На рис. 1 показано, как эти части располагаются на странице.

Рис. 1. Структура страницы

Структура страницы

Расположение Строк Таблицы

Все строки таблицы структурированы аналогичным образом. Существует заголовок фиксированного размера (занимающий 23 байта на большинстве машинах), за которым следует необязательное битовый массив с null-элементами, необязательное поле с идентификатором объекта и пользовательские данные. Заголовок подробно описан в таблице 4. Сами же пользовательские данные (столбцы строки) начинаются со смещения, указанного в t_hoff, который всегда должен быть кратен MAXALIGN для платформы. Битовый массив с null-элементами присутствует только в том случае, если установлен бит HEAP_HASNULL в t_infomask. Если он присутствует, то он начинается сразу после фиксированного заголовка и занимает достаточно байт, чтобы иметь один бит на столбец данных (т.е. количество битов, равное количеству атрибутов в столбце). t_infomask2). В этом списке битов выставленный бит указывает, что элемент не null, пустой - null. Когда битовый массив отсутствует, все столбцы считаются не null. Идентификатор объекта присутствует только в том случае, если установлен бит HEAP_HASOID_OLD в t_infomask. Если присутствует, то он появляется непосредственно перед смещением t_hoff. Чтобы сделать t_hoff кратным MAXALIGN между битовым массивом и идентификатором объекта добавляется отступ произвольного размера. (Это в свою очередь гарантирует, что идентификатор объекта соответствующим образом выровнен.)

Таблица 4. Структура Heaptupleheaderdata

Поле	Тип	Длина	Описание
t_xmin	TransactionId	4 байта	значение XID при вставке
t_xmax	TransactionId	4 байта	значение XID при удалении
t_cid	CommandId	4 байта	значение CID при вставке и/или удалении (пересекается с t_xvac)
t_xvac	TransactionId	4 байта	XID для операции вакума при перемещении версии строки
t_ctid	ItemPointerData	6 байт	TID текущий или более новой версии строки
t_infomask2	uint16	2 байта	количество атрибутов плюс различные флаговые биты
t_infomask	uint16	2 байта	различные флаговые биты
t_hoff	uint8	1-байтовый	смещение до данных пользователя

Все подробности можно узнать в разделе src/include/access/htup_details.h.

Интерпретация фактических данных может быть выполнена только с помощью информации, полученной из других таблиц, в основном pg_attribute. Ключевые значения, необходимые для определения местоположения полей: attlen и attalign. Доступ к произвольному атрибуту возможен только тогда, когда все поля имеют фиксированную длину и нет нулевых значений. Все эти особенности определены в функциях heap_getattr, fastgetattr и heap_getsysattr.

Чтобы прочитать данные, необходимо прочитать каждый атрибут по очереди. Первым делом нужно проверить, является ли поле NULL в соответствии с битовым массивом null-значений. Если это так, то элемент отсутствует в данных. После этого необходимо убедиться, что есть правильное выравнивание. Если поле имеет фиксированную ширину, то все байты помещаются как есть. Если это поле переменной длины (attlen = -1), то это немного сложнее. Все типы данных переменной длины имеют общую структуру заголовка struct varlena, который включает в себя общую длину сохраненного значения и некоторые флаговые биты. В зависимости от флагов, данные могут быть либо встроенными, либо хранится отдельно в таблице TOAST; они также могут быть сжаты (см. раздел TOAST).

На самом деле, использование этого формата страницы не требуется ни для методов доступа к таблице, ни для методов доступа к индексу. Метод heap доступа к таблице всегда использует этот формат. Все существующие методы индексирования также используют базовый формат, но данные, хранящиеся на мета-страницах индекса, обычно не следуют правилам компоновки элементов.

Как планировщик использует статистику

Эта глава основана на материалах, описанных в разделах Использование EXPLAIN и Статистика, используемая планировщиком, чтобы описать некоторые детали о том, как планировщик использует системную статистику для оценки количества строк, которые может возвратить каждая часть запроса. Это существенная часть процесса планирования, обеспечивающая большую часть информации для расчета стоимости запроса.

Цель этой главы состоит не в том, чтобы подробно документировать код, а в том, чтобы представить обзор того, как он работает. Это, возможно, сгладит кривую обучения для тех, кто впоследствии захочет изучить код.

Примеры оценок строк

В приведенных ниже примерах используются таблицы в базе данных регрессионного теста QHB. Обратите также внимание, что поскольку ANALYZE использует случайную выборку при создании статистики, результаты немного изменятся после нового анализа.

Начнем с очень простого запроса:

EXPLAIN SELECT * FROM tenk1;

                         QUERY PLAN
-------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..458.00 rows=10000 width=244)

Как планировщик определяет размер (мощность) таблицы tenk1 рассматривается в разделе Статистика, используемая планировщиком, но повторяется здесь для полноты картины. Количество страниц и строк находится в поле pg_class:

SELECT relpages, reltuples FROM pg_class WHERE relname = 'tenk1';

 relpages | reltuples
----------+-----------
      358 |     10000

Эти числа являются текущими по состоянию на последний вызов VACUUM или ANALYZE в таблице. Затем планировщик выбирает фактическое количество страниц в таблице (это дешевая операция, не требующая сканирования таблицы). Если это значение отличается от relpages тогда reltuples пропорционально изменяется, чтобы получить текущую оценку количества строк. В приведенном выше примере значение параметра relpages является актуальным, поэтому оценка строк такая же, как reltuples.

Давайте перейдем к примеру с диапазоном в условии WHERE:

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 1000;

                                   QUERY PLAN
--------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=24.06..394.64 rows=1007 width=244)
   Recheck Cond: (unique1 < 1000)
   ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..23.80 rows=1007 width=0)
         Index Cond: (unique1 < 1000)

Планировщик проверяет условие WHERE и ищет функцию селективности (оценка размера выборки) для оператора < в pg_operator. Это проводится в колонке oprrest, и запись в этом случае является scalarltsel. scalarltsel функция извлекает гистограмму для unique1 из pg_statistic. Для запросов выполняемых вручную удобнее искать информацию в более простом pg_stats:

SELECT histogram_bounds FROM pg_stats
WHERE tablename='tenk1' AND attname='unique1';

                   histogram_bounds
------------------------------------------------------
 {0,993,1997,3050,4040,5036,5957,7057,8029,9016,9995}

Далее обрабатывается доля гистограммы в пределах 1000. Это и есть селективность. Гистограмма делит диапазон на равные частотные сегменты, поэтому все, что нам нужно сделать, это найти группу, в которой находится наше значение, и подсчитать пропорциональную долю и все предыдущие группы. Значение 1000 явно находится во второй группе (993-1997). Предполагая линейное распределение значений внутри каждой группы, мы можем рассчитать селективность как:

selectivity = (1 + (1000 - bucket[2].min)/(bucket[2].max - bucket[2].min))/num_buckets
            = (1 + (1000 - 993)/(1997 - 993))/10
            = 0.100697

то есть одна целая группа плюс пропорциональная доля второй, разделенная на количество групп. Конечное число строк теперь может быть рассчитано как произведение селективности и мощности tenk1:

rows = rel_cardinality * selectivity
     = 10000 * 0.100697
     = 1007  (rounding off)

Далее рассмотрим пример с условием равенства в WHERE:

EXPLAIN SELECT * FROM tenk1 WHERE stringu1 = 'CRAAAA';

                        QUERY PLAN
----------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..483.00 rows=30 width=244)
   Filter: (stringu1 = 'CRAAAA'::name)

Опять же, планировщик изучает условие в WHERE и ищет функцию селективности для =, который является eqsel. Для оценки равенства гистограмма не полезна; вместо этого для определения селективности используется список наиболее распространенных значений (most common value - MCV). Давайте посмотрим на MCV, с некоторыми дополнительными столбцами, которые будут полезны позже:

SELECT null_frac, n_distinct, most_common_vals, most_common_freqs FROM pg_stats
WHERE tablename='tenk1' AND attname='stringu1';

null_frac         | 0
n_distinct        | 676
most_common_vals  | {EJAAAA,BBAAAA,CRAAAA,FCAAAA,FEAAAA,GSAAAA,JOAAAA,MCAAAA,NAAAAA,WGAAAA}
most_common_freqs | {0.00333333,0.003,0.003,0.003,0.003,0.003,0.003,0.003,0.003,0.003}

Селективность определяется записью соответствующей записью CRAAAA в списке наиболее распространенных частот (MCFs):

selectivity = mcf[3]
            = 0.003

Как и прежде, расчетное число строк — это просто произведение селективности с кардинальностью tenk1:

rows = 10000 * 0.003
     = 30

Теперь рассмотрим тот же запрос, но с константой, которая не находится в списке MCV:

EXPLAIN SELECT * FROM tenk1 WHERE stringu1 = 'xxx';

                        QUERY PLAN
----------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..483.00 rows=15 width=244)
   Filter: (stringu1 = 'xxx'::name)

Это совсем другая проблема: как оценить селективность, когда значение не находится в списке MCV. Для решения можно использовать знание о том, что искомое значение не находится в списке вместе со всем значениями частот для MCV:

selectivity = (1 - sum(mvf))/(num_distinct - num_mcv)
            = (1 - (0.00333333 + 0.003 + 0.003 + 0.003 + 0.003 + 0.003 +
                    0.003 + 0.003 + 0.003 + 0.003))/(676 - 10)
            = 0.0014559

Нужно сложить все частоты для MCV и вычесть их из единицы, а затем разделить на количество других различных значений. Это равнозначно, что часть столбца, которая не является ни одним из MCV, равномерно распределена между всеми другими различными значениями. Обратите внимание, что нет никаких нулевых значений, поэтому нам не нужно беспокоиться о них (в противном случае мы бы вычитали нулевую дробь из числителя). Приблизительное число строк затем вычисляется как обычно:

rows = 10000 * 0.0014559
     = 15  (rounding off)

В предыдущем примере с условием unique1 < 1000 было упрощением того, что действительно делает scalarltsel. Теперь, когда мы увидели пример использования MCVs, мы можем описать процесс более детально. Этот пример был верен, поскольку unique1 это уникальный столбец, а значит у него нет MCV (очевидно, что никакое значение не встречается чаще, чем любое другое значение). Для неуникального столбца обычно существуют гистограмма и список MCV, и гистограмма не включает значения из списка MCV. Это сделано для более точной оценки. В этой ситуации scalarltsel непосредственно применяет данное условие (например, "<1000") к каждому значению списка MCV и суммирует частоты MCV, для которых условие является истинным. Это дает точную оценку селективности для той части таблицы, которая содержит значения MCVs. Аналогичным образом используется гистограмма для оценки селективности в той части таблицы, которая не содержит значения MCVs, а затем эти два числа складываются для оценки общей селективности. Например, рассмотрим

EXPLAIN SELECT * FROM tenk1 WHERE stringu1 < 'IAAAAA';

                         QUERY PLAN
------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..483.00 rows=3077 width=244)
   Filter: (stringu1 < 'IAAAAA'::name)

Мы уже видели информацию MCV для stringu1, и вот его гистограмма:

SELECT histogram_bounds FROM pg_stats
WHERE tablename='tenk1' AND attname='stringu1';

                                histogram_bounds
--------------------------------------------------------------------------------
 {AAAAAA,CQAAAA,FRAAAA,IBAAAA,KRAAAA,NFAAAA,PSAAAA,SGAAAA,VAAAAA,XLAAAA,ZZAAAA}

Проверяя список MCV, мы обраруживаем, что условие stringu1 удовлетворяется первыми шестью записями, а не последними четырьмя, поэтому селективность для значений из множества MCV определяется как

selectivity = sum(relevant mvfs)
            = 0.00333333 + 0.003 + 0.003 + 0.003 + 0.003 + 0.003
            = 0.01833333

Суммирование всех MCFs также говорит нам, что общая доля значений из множества MCVs, составляет 0.03033333, и поэтому доля значений, представленная гистограммой, составляет 0.96966667 (опять же, нет NULL-значений, иначе мы должны были бы их здесь исключить). Видно, что значение IAAAAA расположено почти в конце третьей группы гистограммы. Используя довольно грубые предположения о частоте различных символов, планировщик приходит к оценке 0,298387 для части значений из гистограммы, которая меньше, чем IAAAAA. Затем мы объединяем оценки для MCV и не-MCV значений:

selectivity = mcv_selectivity + histogram_selectivity * histogram_fraction
            = 0.01833333 + 0.298387 * 0.96966667
            = 0.307669

rows        = 10000 * 0.307669
            = 3077  (rounding off)

В этом конкретном примере коррекция полученная из списка MCV незначительна, потому что распределение столбцов на самом деле довольно плоское (статистика, показывающая эти конкретные значения как более распространенные, чем другие, в основном из-за ошибки выборки). В более типичном случае, когда некоторые значения являются значительно более распространенными, чем другие, этот сложный процесс повышает точность, поскольку селективность для MVC найдена точно.

Теперь рассмотрим случай с несколькими условиями в WHERE:

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 1000 AND stringu1 = 'xxx';

                                   QUERY PLAN
--------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=23.80..396.91 rows=1 width=244)
   Recheck Cond: (unique1 < 1000)
   Filter: (stringu1 = 'xxx'::name)
   ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..23.80 rows=1007 width=0)
         Index Cond: (unique1 < 1000)

Планировщик предполагает, что эти два условия являются независимыми, так что селективности их оценок могут быть умножены:

selectivity = selectivity(unique1 < 1000) * selectivity(stringu1 = 'xxx')
            = 0.100697 * 0.0014559
            = 0.0001466

rows        = 10000 * 0.0001466
            = 1  (rounding off)

Обратите внимание, что количество строк, которые должны быть возвращены при сканирования битового индекса, отражает только условие, используемое в индексе. Это важно, так как оно влияет на оценку стоимости для последующих выборок из таблицы.

Наконец, мы рассмотрим запрос, который включает в себя соединение таблиц:

EXPLAIN SELECT * FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 50 AND t1.unique2 = t2.unique2;

                                      QUERY PLAN
--------------------------------------------------------------------------------------
 Nested Loop  (cost=4.64..456.23 rows=50 width=488)
   ->  Bitmap Heap Scan on tenk1 t1  (cost=4.64..142.17 rows=50 width=244)
         Recheck Cond: (unique1 < 50)
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..4.63 rows=50 width=0)
               Index Cond: (unique1 < 50)
   ->  Index Scan using tenk2_unique2 on tenk2 t2  (cost=0.00..6.27 rows=1 width=244)
         Index Cond: (unique2 = t1.unique2)

Ограничение на tenk1, unique1< 50, вычисляется перед циклом соединения. Это обрабатывается аналогично предыдущему примеру с диапазоном. На этот раз значение 50 попадает в первую корзину гистограммы unique1:

selectivity = (0 + (50 - bucket[1].min)/(bucket[1].max - bucket[1].min))/num_buckets
            = (0 + (50 - 0)/(993 - 0))/10
            = 0.005035

rows        = 10000 * 0.005035
            = 50  (rounding off)

Ограничение для соединения является t2.unique2 = t1.unique2. Оператор — это уже разобранный =, однако функцию селективности (eqjoinsel.eqjoinsel) находится в столбце oprjoin таблицы pg_operator. Эта функция ищет статистическую информацию для обоих tenk2 и tenk1:

SELECT tablename, null_frac,n_distinct, most_common_vals FROM pg_stats
WHERE tablename IN ('tenk1', 'tenk2') AND attname='unique2';

tablename  | null_frac | n_distinct | most_common_vals
-----------+-----------+------------+------------------
 tenk1     |         0 |         -1 |
 tenk2     |         0 |         -1 |

В этом случае отсутствует информация MCV для unique2 поскольку все значения выглядят уникальными, а значит используется алгоритм, который полагается только на число различных значений для обоих отношений вместе с их нулевыми фракциями:

selectivity = (1 - null_frac1) * (1 - null_frac2) * min(1/num_distinct1, 1/num_distinct2)
            = (1 - 0) * (1 - 0) / max(10000, 10000)
            = 0.0001

В этом случае это определяется как вычитание доли null элеменов из единицы для каждого из отношений и деление на максимальное число различных значений. Число строк, которые будет получиено при соединении, вычисляется как мощность декартова произведения двух входных данных, умноженная на селективность:

rows = (outer_cardinality * inner_cardinality) * selectivity
     = (50 * 10000) * 0.0001
     = 50

Если бы существовали списки MCV для двух столбцов, eqjoinsel использовал бы прямое сравнение списков MCV для определения селективности соединения для той части значений, что содержится в MCVs. Оценка для остальной части данных следует по такому же подходу.

Обратите внимание, что мы показали inner_cardinality как 10000, то есть неизмененный размер tenk2. При проверке выходных данных EXPLAIN может показаться, что оценка соединяемых строк исходит из 50 * 1, то есть число внешних строк умножается на предполагаемое число строк, полученных каждым внутренним индексным сканированием на tenk2. Но это не так: размер отношения соединения оценивается до того, как был рассмотрен какой-либо конкретный план соединения. Если все работает хорошо, то два способа оценки размера соединения дадут примерно один и тот же результат, но из-за ошибки округления и других факторов они иногда значительно расходятся.

Для тех, кто заинтересован в более подробной информации, оценка размера таблицы (перед любым условием WHERE) делается в src/backend/ optimizer/util/plancat.с. Общая логика для селективности условий находится в src/backend/optimizer/path/clausesel.с. Специфичные для операторов функции селективности можно найти внутри src/backend/utils/adt/selfuncs.с.

Примеры многомерной статистики

Функциональная зависимость

Многомерная корреляция может быть продемонстрирована с помощью очень простого набора данных — таблицы с двумя столбцами, содержащими одинаковые значения:

CREATE TABLE t (a INT, b INT);
INSERT INTO t SELECT i % 100, i % 100 FROM generate_series(1, 10000) s(i);
ANALYZE t;

Как объяснено в разделе Статистика, используемая планировщиком, планировщик может определить размер таблицы t используя количество страниц и строк, полученных из pg_class:

SELECT relpages, reltuples FROM pg_class WHERE relname = 't';

 relpages | reltuples
----------+-----------
       45 |     10000

Распределение данных очень простое; в каждом столбце есть только 100 различных значений распределенных равномерно.

В следующем примере показан результат оценки условия WHERE для столбца a:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1;
                                 QUERY PLAN                                  
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..170.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: (a = 1)
   Rows Removed by Filter: 9900

Планировщик изучает условие и определяет, что селективность равна 1% Сравнивая эту оценку и фактическое число строк, мы видим, что оценка является очень точной (фактической, так как таблица очень мала). При использования столбца b в условии WHERE генерируется идентичный план. Но обратите внимание, что произойдет, если мы применим одно и то же условие к обоим столбцам, объединив их с AND:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                 QUERY PLAN                                  
-----------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

Планировщик оценивает селективность для каждого условия индивидуально, приходя к тем же самым оценкам 1%, что и выше. Затем он предполагает, что условия независимы, и поэтому он умножает их селективность, производя окончательную оценку селективности равной всего 0,01%. Это является значительной недооценкой, поскольку фактическое число строк, соответствующих условиям (100), на два порядка выше.

Эта проблема может быть решена путем создания объекта статистики, который укажет ANALYZE вычислить многомерную статистику функциональной зависимости по двум столбцам:

CREATE STATISTICS stts (dependencies) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                  QUERY PLAN                                   
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

Подсчет групп многомерных значений

Аналогичная проблема возникает с оценкой мощности множеств нескольких столбцов, таких как число групп, которые будут генерироваться выражением GROUP BY. Когда GROUP BY передан один столбец, оценка различных значений (которые можно увидеть в значении количества строк, возвращаемых узлом HashAggregate) очень точна:

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a;
                                       QUERY PLAN                                        
-----------------------------------------------------------------------------------------
 HashAggregate  (cost=195.00..196.00 rows=100 width=12) (actual rows=100 loops=1)
   Group Key: a
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=4) (actual rows=10000 loops=1)

Но без многомерной статистики оценка количества групп в запросе с двумя столбцами в GROUP BY, в частности в следующем примере, отклоняется на порядок:

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN                                        
--------------------------------------------------------------------------------------------
 HashAggregate  (cost=220.00..230.00 rows=1000 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

При переопределении объекта статистики для включения подсчета групп для двух столбцов оценка значительно улучшается:

DROP STATISTICS stts;
CREATE STATISTICS stts (dependencies, ndistinct) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN                                        
--------------------------------------------------------------------------------------------
 HashAggregate  (cost=220.00..221.00 rows=100 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

MCV списки

Как пояснялось в разделе ранее, функциональные зависимости являются очень дешевым и эффективным классом статистики, но у них есть основное ограничение в глобальном характере (отслеживается зависимости на уровне столбцов, а не между отдельными значениями столбцов).

Этот раздел вводит многомерный вариант множеств MCV (наиболее распространенных значений), расширение статистики по столбцам, описанной в разделе, с примерами оценок строк. Этот вариант решают проблему путем хранения отдельных значений, но это, естественно, более дорого, как с точки зрения построения статистики в ходе ANALYZE, так и времени затрачиваемом на хранение и планирование.

Давайте еще раз посмотрим на запрос из раздела функциональной зависимости, но на этот раз со списком MCV, созданным на том же наборе столбцов (не забудьте удалить функциональные зависимости, чтобы убедиться, что планировщик использует только новую статистику).

DROP STATISTICS stts;
CREATE STATISTICS stts2 (mcv) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                   QUERY PLAN
-------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

Оценка так же точна, как и с функциональными зависимостями, в основном благодаря тому, что таблица довольно мала и имеет простое распределение с небольшим количеством различных значений. Прежде чем рассматривать второй запрос, который не так хорошо работают функциональные зависимости, давайте немного рассмотрим список MCV.

Проверка списка MCV возможна с помощью функции pg_mcv_list_items.

SELECT m.* FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid),
                pg_mcv_list_items(stxdmcv) m WHERE stxname = 'stts2';
 index |  values  | nulls | frequency | base_frequency
-------+----------+-------+-----------+----------------
     0 | {0, 0}   | {f,f} |      0.01 |         0.0001
     1 | {1, 1}   | {f,f} |      0.01 |         0.0001
   ...
    49 | {49, 49} | {f,f} |      0.01 |         0.0001
    50 | {50, 50} | {f,f} |      0.01 |         0.0001
   ...
    97 | {97, 97} | {f,f} |      0.01 |         0.0001
    98 | {98, 98} | {f,f} |      0.01 |         0.0001
    99 | {99, 99} | {f,f} |      0.01 |         0.0001
(100 rows)

Это подтверждает, что в двух столбцах есть 100 различных комбинаций, и все они примерно равновероятны (частота 1% для каждого из них). base_frequency — это частота, вычисляемая из статистики по каждому столбцу независимо от статистики по нескольким столбцам. Если бы в любом из столбцов были какие-либо нулевые значения, это было бы указано в столбце nulls.

При оценке селективности планировщик применяет все условия для элементов в списке MCV, а затем суммирует частоты эквивалентных элементов. За подробностями можно обратиться к функции mcv_clauselist_selectivity в файле src/backend/статистика/mcv.с.

По сравнению с функциональными зависимостями, списки MCV имеют два основных преимущества. Во-первых, в списке хранятся фактические значения, что позволяет решить, какие комбинации совместимы.

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 10;
                                 QUERY PLAN
---------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a = 1) AND (b = 10))
   Rows Removed by Filter: 10000

Во-вторых, списки MCV обрабатывают больше видов условий, а не только условия равенства как функциональные зависимости. Например, взгляните на следующий запрос с диапазоном значений для той же таблицы:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a <= 49 AND b > 49;
                                QUERY PLAN
---------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a <= 49) AND (b > 49))
   Rows Removed by Filter: 10000

Планировщик статистики и безопасности

Доступ к таблице pg_statistic ограничивается суперпользователями, так что обычные пользователи не могут узнать о содержании таблиц других пользователей из него. Некоторые функции оценки селективности будут использовать предоставленный пользователем оператор (либо оператор, появляющийся в запросе, либо связанный с ним оператор) для анализа сохраненной статистики. Например, чтобы определить, применимо ли сохраненное MCV, оценщик селективности должен будет выполнить соответствующее оператор = для сравнения константы в запросе с сохраненным значением. Таким образом, данные в pg_statistic потенциально могут передаваться пользовательским операторам. Правильно созданный оператор может намеренно пропускать переданные операнды (например, регистрируя их или записывая в другую таблицу), или случайно пропускать их, показывая их значения в сообщениях об ошибках, в обоих случаях возможно получить данные из pg_statistic для пользователя, который не должен видеть его.

Чтобы предотвратить это, к всем встроенным функциям оценки селективности применяется следующее. При планировании запроса, чтобы иметь возможность использовать сохраненную статистику, текущий пользователь должен либо иметь привилегию SELECT на таблицу или вовлеченные столбцы, или используемый оператор должны быть LEAKPROOF (точнее, функция, на которой основан оператор). Если нет, то оценщик селективности будет вести себя так, как если бы никакой статистики не было доступно, и планировщик будет продолжать использовать предположения по умолчанию.

Если пользователь не имеет необходимых прав доступа к таблице или столбцам, то во многих случаях запрос в конечном итоге получит ошибку прав доступа, и в этом случае такой механизм на практике невидим. Но если пользователь читает из представления с барьером безопасности, то планировщик может захотеть проверить статистику базовой таблицы, которая в противном случае недоступна для пользователя. В этом случае оператор должен быть leak-proof, иначе статистика не будет использоваться. Единственное в чем могут быть наблюдаемые отличия это неоптимальность плана. Если кто-то подозревает, что это так, можно попробовать запустить запрос от имени более привилегированного пользователя, чтобы увидеть, выбирается ли другой план.

Это ограничение применяется только в тех случаях, когда планировщику необходимо выполнить оператор, определенный пользователем, для одного или нескольких значений из pg_statistic. Таким образом, планировщику разрешается использовать общую статистическую информацию, такую как доля нулевых значений или количество различных значений в столбце, независимо от прав доступа.

Содержащиеся в сторонних расширениях функции оценки селективности, которые потенциально работают со статистикой с пользовательскими операторами, должны следовать тем же правилам безопасности. Обратитесь к исходному коду QHB для получения подробных деталей.

Асинхронный пул соединений QCP

Асинхронный пул соединений (Quantum Connection Pool или QCP) обеспечивает подключение и поддержку связи с удаленными клиентами.

Общий принцип работы

QCP принимает входящие подключения от удалённых клиентов по адресу listening_address (по умолчанию — 0.0.0.0:8080) и "проксирует" их серверам баз данных, перечисленных в настройке servers. Соединения до серверов устанавливаются (и завершаются) автоматически, по мере необходимости.

В зависимости от режима работы, задаваемого параметром relay_mode, проксирование данных от клиентов к серверам осуществляется одним из следующих способов:

relay_mode: Session: при первом обращении к серверу, клиенту выделяется уникальное соединение до базы данных, которое возвращается в пул только при отключении клиента.
relay_mode: Smart: при обращении к серверу, клиенту выделяется уникальное соединение до базы данных, которое возвращается в пул тогда и только тогда, когда в ответе от сервера будет стоять флаг "Idle" (PostgreSQL Documentation: Message Formats, сообщение ReadyForQuery).

С полным описанием настроек можно ознакомиться в примере конфигурационного файла qcp/config-example.yaml.

Запуск и работа

Запуск осуществляется с помощью утилиты qcp (qcp --help для списка опций), остановка — утилитой qcp-ctrl (qcp-ctrl --help для списка опций). Например, чтобы остановить запущенный экземпляр QCP, необходимо выполнить команду qcp-ctrl quit.

Вывод логов в процессе работы QCP контролируется настройкой log_output (см. qcp/config-example.yaml), при этом уровень логирования задаётся настройкой log_level (подробнее про уровни логирования смотри — LevelFilter). Например, чтобы выводить логи уровня Info и выше в файл /tmp/qcp.log, необходимо задать следующие настройки в файле конфигурации:

log_level: Info
log_output:
    file: /tmp/qcp.log

Потребление памяти

При старте программы единовременно выделяется количество памяти, указанное в разделе arena файла конфигурации:

# Конфигурация памяти (опционально)
arena:
    chunk_size: 66560  # Размер одного "куска" памяти, в байтах

    # Общее количество потребляемой памяти можно указать либо используя параметр
    # "количество кусков памяти":
    chunks_count: 3150 # Количество таких "кусков"
    # ... или указав общее количество напрямую:
    total_size: 3.1 GB # Поддерживаются суффиксы B, KB, MB, GB

Внешнее хранение двоичных данных Rbytea

Тип данных rbytea

Тип данных rbytea предназначен для хранения двоичных данных. Он аналогичен типу bytea, с той лишь разницей, что сами данные хранятся не в табличном пространстве базы, а во внешнем хранилище. В качестве внешнего хранилища, в текущей версии QHB, выступает файловая система. Это может быть смонтированный в определённую точку файловой системы сервера внешний том или символическая ссылка.

Основной целью расширения является вынос двоичных данных из таблиц базы данных в нетранзакционное хранилище, разгрузив тем самым саму базу данных. Зачастую, двоичные данные имеют большой объём, который занимает значительный процент от общего размера базы, усложняя администрирование и обслуживание.

Тип данных rbytea в записи базы данных оставляет только небольшой заголовок, в котором содержатся служебные поля и ссылку на файл во внешнем хранилище. В качестве ссылки используется тип данных uuid, а генерация случайных идентификаторов использует возможности модулем pgcrypto.

Данные во внешнем хранилище могут быть зашифрованы алгоритмом Кузнечик.

Установка расширения

Установка расширения производится командой CREATE EXTENSION:

create extension rbytea cascade;

Установку должен запускать суперпользователь баз данных. Эту команду следует запускать в той базе данных, в которой предполагается использовать модуль. Для работы фонового процесса необходимо обеспечить предварительную загрузку разделяемой библиотеки расширения, указав к конфигурации параметр:

shared_preload_libraries = 'librbytea'

Описание параметров расширения приведены ниже в разделе Параметры конфигурации расширения

Функции для работы с типом rbytea

Имя	Тип результата	Описание
uuid(col rbytea)	uuid	Получить идентификатор данных
len(col rbytea)	bigint	Получить длину данных в байтах
len_full(col rbytea)	bigint	Получить длину в байтах данных с учетом выравнивания для шифрования
qss_mode(col rbytea)	bigint	Возвращает признак шифрования данных (1) или его отсутствия (0)
md5sum(col rbytea)	text	Возвращает md5 сумму данных
sha256sum(col rbytea)	text	Возвращает sha256 сумму данных
md5store(col rbytea)	text	Возвращает md5 сумму зашифрованных данных во внешнем хранилище
sha256store(col rbytea)	text	Возвращает sha256 сумму зашифрованных данных во внешнем хранилище
rvacuum()	bigint	Выполняет очистку устаревших данных в хранилище

Фоновый процесс очистки устаревших копий

Поскольку на файловую систему не распространяется транзакционность базы данных, во внешнем хранилище могут оставаться данные полей таблиц типа rbytea, которые удалены или были сохранены в незаконченных, отмененных транзакциях. Фоновый процесс очистки периодически запускается, проходит по некоторому диапазону транзакций, очищая данные. Файлы перемещаются в каталог TRASH, который создаётся для каждой базы данных указанной в параметре rbytea.databases_for_vacuuming.

После каждого запуска максимальный номер транзакции запоминается и при следующем запуске используется как минимальный для диапазона сканирования. В качестве максимального номера диапазона сканирования используется последняя завершённая транзакция.

Параметры запуска указаны в разделе Параметры конфигурации расширения

Параметры конфигурации расширения

Для работы расширений нужно установить несколько параметров в конфигурационном файле:

Определение каталога (точки монтирования файловой системы / тома) для сохранения образов данных

rbytea.filesystem_storage_path = '/mnt/fs'

Двоичные данные будут сохранятся в данном каталоге сервера. Для каждой базы будет создаваться свой подкаталог (по oid базы), а внутри него, во множестве подкаталогов - собственно файлы с данными.

Имена вложенных каталогов от каталога базы данных до файла будут составлять uuid типа rbytea, а расширение файла - номер транзакции, в которой данные впервые появились в системе.

Каталог должен быть доступен на чтение и запись в него для пользователя, от имени которого запускается сервер базы данных.

По-умолчанию, если параметр опущен или пуст, каталогом для сохранения двоичных данных назначается <каталог базы данных>/rbytea.

Загрузка разделяемой библиотеки при старте QHB:

shared_preload_libraries = 'librbytea'

Данный параметр обеспечивает загрузку разделяемой библиотеки при старте QHB и инициализацию фонового процесса для очистки устаревших образов. В противном случае, автоочистка устаревших образов производится не будет.

Внимание*
Если параметр shared_preload_libraries уже содержит указание на загрузку других библиотек, нужно не перезаписать его значение, а добавить через разделитель librbytea

Интервал запуска фонового процесса очистки

rbytea.worker_restart_time = 86400

Фоновый процесс не работает постоянно. Поскольку данные достаточно статичны, запускать процесс очистки с большой частотой не требуется. Задержка от окончания предыдущего запуска до следующего запуска задаётся в данном параметре.

Значение указано в секундах. По умолчанию, параметр устанавливается в значение 86400 секунд (сутки).

Задание баз данных для фонового процесса очистки

rbytea.databases_for_vacuuming = 'qhb'

Параметр указывает, какие базы данных подлежат очистке. Указываются названия баз данных через запятую. Главный процесс базы данных будет запускать столько фоновых процессов очистки, сколько баз данных перечислено в данном параметре.

Включение фонового шифрования

rbytea.filesystem_qss_mode = 0

Если в системе доступно фоновое шифрование при записи на диск, данный параметр позволяет зашифровывать также и двоичные данные rbytea. Для шифрования параметр необходимо установить в значение 1.

При шифровании данных, данные дополняются (выравниваются) до границы 16-байтных блоков. Поэтому функции len(rbytea) и len_full(rbytea) для одних и тех же данных могут возвращать разное значение. А функции md5store(rbytea) и sha256store(rbytea) подсчитывают контрольные суммы для зашифрованных данных, дополненных до границы 16-байтного блока.

Вопросы смены ключа шифрования должны решаться администратором базы данных.

По-умолчанию, параметр устанавливается в значение 0.

Модуль прямой загрузки данных QDL

Модуль прямой загрузки данных (Quantum Direct Loader, QDL) - утилита, позволяющая осуществить загрузку из файла формата CSV в таблицу формата QHB согласно конфигурации. Скорость работы существенно превосходит INSERT и COPY за счёт использования оптимизированного многопоточного кода, отсутствия блокировок таблицы и обхода транзакционного ядра.

Поддерживаемые типы полей

Типы	Названия
Целочисленные	`smallint`, `int2`, `integer`, `int4`, `int`, `bigint`, `int8`
Числовые с плавающей запятой	`float4`, `real`, `float8`, `double precision`
Текстовые	`character`, `char`, `varchar`, `character varying`, `text`
Числа с указанной точностью	`decimal`, `numeric`, `dec`
Булевы	`bool`, `boolean`
Идентификаторы	`uuid`
Временные	`timestamp`, `date`

Примечание.
В текущей версии QDL допускается использование значений NaN (Not a Number) в таких типах данных как float (числовые с плавающей запятой) и numeric (числа с указанной точностью). В дополнение к обычным числовым значениям и NaN, float также имеют специальные значения: Infinity и -Infinity. Обратите внимание, что все значения находящиеся в файле формата CSV не заключаются в кавычки.

Идентификаторы UUID записываются в виде последовательности шестнадцатеричных цифр в нижнем регистре, разделенных знаками минуса на несколько групп, в таком порядке: группа из 8 цифр, за ней три группы из 4 цифр и, наконец, группа из 12 цифр, что в сумме составляет 32 цифры. Пример UUID в этом стандартном виде:

a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11

Временные типы поддерживают такие специальные значения как infinity, -infinity и epoch.

Синтаксис

USAGE:
    qdl <SUBCOMMAND>

FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information

SUBCOMMANDS:
    create_table     Generate SQL script to create a table
    insert_values    Populate a table file with values
    validate         Validates csv data file
    help             Prints this message or the help of the given subcommand(s)

Команда `create_table`

Генерирует SQL-скрипт, создающий таблицу СУБД согласно конфигурации, а также заполняет её первыми тремя кортежами CSV-таблицы. Это требуется для создания структуры таблицы, которая будет заполнена данными. Также это позволяет нам получить пути расположения файлов и их названия(OID, требуемый для генерации командой insert_values).

USAGE:
    qdl create_table [FLAGS] [OPTIONS] --config <config>

FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information
    -v, --verbose    Display debug messages

OPTIONS:
    -c, --config <config>    Path to config
    -d, --data <data>        Path to csv file with data

Примечание.
В формате CSV все символы являются значимыми. Значение в таблице, дополненное пробелами или любыми другими символами, кроме DELIMITER, будет включать эти символы. Это может приводить к ошибкам при заполнении таблицы данными из системы, дополняющей строки CSV пробельными символами до некоторой фиксированной ширины. В случае возникновения такой проблемы необходимо обработать файл CSV и удалить из него замыкающие пробельные символы, прежде чем загружать данные из него в QHB.

Пример использования

qdl create_table \
  --config config.yml \
  --data data.csv

Команда `insert_values`

Производит загрузку из файла в формате CSV в таблицу формата используемого QHB. Данная команда выполняется многопоточно; количество ядер, отводимое под параллельную обработку, указывается в файле конфигурации.
Также рекомендуется предварительно удостовериться, что версия компоновки страницы QHB равна 4. Сделать это можно, например, при помощи расширения pageinspect::page_header.

USAGE:
    qdl insert_values [FLAGS] [OPTIONS] --config <config> --out-dir <out-dir>
FLAGS:
    -h, --help           Prints help information
    -s, --skip-errors    Continue adding rows despite errors
    -V, --version        Prints version information
    -v, --verbose        Display debug messages

OPTIONS:
    -c, --config <config>            Path to config
    -d, --data <data>                Path to csv file with data
    -o, --out-dir <out-dir>          Output directory

Пример использования

qdl insert_values \
  --config config.yml \
  --data data.csv \
  --out-dir output/

Команда `validate`

Проверяет логическую целостность CSV-файла и согласованность структуры данных с файлом конфигурации, сигнализируя об ошибках соответствующим кодом возврата. Сообщение об успехе выводится только в случае, если был активирован флаг --verbose, в противном случае выполнение этой команды не сопровождается выводом сообщений в консоль.

USAGE:
    qdl validate [FLAGS] [OPTIONS] --config <config>

FLAGS:
    -h, --help       Prints help information
    -V, --version    Prints version information
    -v, --verbose    Display debug messages

OPTIONS:
    -c, --config <config>    Path to config
    -d, --data <data>        Path to csv file with data

Пример использования

qdl validate \
  --config config.yml \
  --data data.csv

Файл конфигурации

Файл конфигурации имеет следующие партиции:

general -- базовая конфигурация приложения. Содержит поля threads(целочисленное) и chunk_size(целочисленное, опциональное). Первое ответственно за количество потоков-обработчиков сырых данных. Второе ответственно за размер внутреннего буфера передачи данных, данный параметр может меняться с целью оптимизации в нестандартных аппаратных конфигурациях.
input -- конфигурация входных данных. Содержит поля path(путь), encoding(строковое), delimiter(строковое, опциональное). Первое -- путь до входного файла; второе -- кодировка; третье -- разделитель столбцов для человекочитаемых входных форматов.
output -- конфигурация выходных данных. Содержит поля segment_size(целочисленное, опциональное) и oid(целочисленное). Первое -- максимальное количество страниц в сегменте БД; второе -- Object IDentifier, который составит часть пути до сегментов.
table -- конфигурация таблицы. Содержит поля name(строковое) и fields(повторяющиеся field). Первое -- имя таблицы; второе -- описание каждого из полей(field_1 : varchar и опциональной пометки [nullable]).

Пример конфигурации:

# Конфигурация системы:
general:
    # Количество потоков, выделяемых для парсинга и сериализации строк.
    # Прошу обратить внимание, что помимо этих потоков обязательно выделяются ещё два:
    # поток чтения и поток записи в файл.
    threads: 2

# Конфигурация исходных данных:
input:
    # Кодировка:
    encoding: "utf8"
    # Разделитель столбцов для CSV:
    delimiter: ";"

# Конфигурация получаемых данных:
output:
    # Object IDentifier. Определяет целочисленный идентификатор для группы файлов целевой таблицы.
    oid: 16385

# Конфигурация целевой таблицы:
table:
    # Имя таблицы. Требуется для `generate_sql`, чтобы задать имя создаваемой таблицы.
    name: "t_qdl"
    # Колонки в формате "имя": "тип"
    fields:
        id : integer
        social_id : integer [nullable]
        first_name : varchar
        last_name : varchar
        city : varchar (30)
        profession : varchar (30) [nullable]
        salary : double precision
        description : varchar [nullable]

Сценарий использования

ВНИМАНИЕ. Во избежание проблем с правами доступа, все последующие операции требуется производить от имени пользователя, который запускает экземпляр БД.

ШАГ 0(опциональный). qdl validate --config config.yml --data data.csv -- Валидируем CSV файл, проверяем на согласованность с конфигурацией. Это может сэкономить большое количество времени в случаях, когда мы конвертируем CSV-файл большого объёма, т.к. если в ходе работы функции insert_values будет обнаружена ошибка, её выполнение придётся повторить после исправления причин её возникновения.

ШАГ 1. qdl create_table --config config.yml --data data.csv -- Создаём SQL-скрипт создания таблицы, в которую мы хотим загрузить, а в последствии использовать в СУБД. Также этот скрипт получает OID (Object Identifier; потребуется для файла конфигурации insert_values) и пути файлов БД. Эти операции могут быть произведены вручную, но во избежание возможных ошибок рекомендуется использовать скрипт.

ШАГ 2. Исполнение SQL-скрипта. OID, полученный в ходе выполнения, требуется разместить в файле конфигурации config.yml.

ШАГ 3. qdl insert_values --config config.yml --data data.csv --out-dir ./output_dir/ -- Загружаем таблицу - этот процесс может занять значительное время в зависимости от объёма загружаемых данных. Потоки, выполняющие чтение/конвертацию/запись, имеют определённые названия; это позволит системному администратору оценить загруженность каждого отдельно взятого потока\ядра и определить их количеством таким образом, чтобы добиться оптимальной производительности. Также нужно заметить, что внутренние буфера qdl не имеют ограничения размера, а значит при очень медленной записи на диск возможна ситуация, когда эти буфера займут всю оперативную память.

ШАГ 4. Заменяем файлы СУБД сгенерированными при помощи qdl - копируем файлы при помощи команд операционной системы. После этого нам нужно выполнить переподключение БД на вновь сгенерированные файлы, для этого можно выполнить перезагрузку СУБД или выполнить SELECT qhb_drop_rel_cache('table_name');.

Пример использования QDL

Описание задачи

Допустим, у нас имеется таблица, партиционированная по диапазонам дат. Пусть каждый диапазон охватывает один год. В качестве примера возьмем таблицу, у которой три поля c типами timestamp, int и text. Пусть на данный момент имеется две партиции с данными за 2019 и 2020 годы. Предположим, необходимо максимально быстро и эффективно загрузить данные за 2021 год. Для этих целей можно использовать утилиту QDL (Quantum Direct Loader). Утилита позволяет на основе заданного описания структуры таблицы и соответствующих данных в CSV-файле сформировать в многопоточном режиме файл таблицы, минуя обычные механизмы базы данных. Полученный файл может быть скопирован в качестве файла таблицы в директорию базы данных.

Установка модуля, ссылки на документацию

QDL - формально совершенно отдельный модуль, который можно поставить даже независимо от QHB (хотя при этом все-таки подразумевается, что база должна уже быть установлена и доступна).

Описание модуля в документации представлено в разделе Модуль прямой загрузки данных QDL, но далее будут подробно рассмотрены все типовые шаги использования инструмента на основе законченного примера.

Формирование данных тестовой таблицы

-- Партиционированная таблица qdl_test
DROP TABLE IF EXISTS qdl_test;
CREATE TABLE qdl_test (
    timestamp_value timestamp not null,
    int_value       int not null,
    text_value      text
) PARTITION BY RANGE (timestamp_value);

-- Тестовые данные за 2019 год
DROP TABLE IF EXISTS qdl_test_y2019;
CREATE TABLE qdl_test_y2019 PARTITION OF qdl_test
   FOR VALUES FROM ('2019-01-01') TO ('2020-01-01');
   
INSERT INTO qdl_test_y2019
SELECT to_timestamp(extract('epoch' FROM to_timestamp('2019-01-01','yyyy-mm-dd')) + random()*60*60*24*365)::timestamp AS timestamp_value,
       round(random()*1000000)::int AS int_value, 
       substr(md5(random()::text), 0, 30) AS text_value 
  FROM generate_series(1,1000);    

-- Тестовые данные за 2020 год
DROP TABLE IF EXISTS qdl_test_y2020;
CREATE TABLE qdl_test_y2020 PARTITION OF qdl_test
   FOR VALUES FROM ('2020-01-01') TO ('2021-01-01');
   
INSERT INTO qdl_test_y2020
SELECT to_timestamp(extract('epoch' from to_timestamp('2020-01-01','yyyy-mm-dd')) + random()*60*60*24*365)::timestamp AS timestamp_value,
       round(random()*1000000)::int AS int_value, 
       substr(md5(random()::text), 0, 30) AS text_value 
  FROM generate_series(1,1000);

Генерация загружаемых из CSV-файла данных

В целях тестирования сгенерируем данные за 2021 год в файле /tmp/qdl_data.csv, используя возможности команды COPY. В качестве символа разделителя выберем точку с запятой. Этот же символ необходимо будет использовать в файле конфигурации QDL.

Примечание
При работе QDL подразумевается, что первая строка должна содержать заголовок строки, поэтому необходимо добавить параметр header со значением true для формата CSV. Иначе первая строка с данными будет пропущена вместо заголовка и не попадет в загружаемую таблицу.

COPY (SELECT to_timestamp(extract('epoch' from to_timestamp('2021-01-01','yyyy-mm-dd')) + random()*60*60*24*365)::timestamp AS timestamp_value
           , round(random()*1000000) AS int_value
           , substr(md5(random()::text), 0, 30) AS text_value 
        FROM generate_series(1,1000)) 
  TO '/tmp/qdl_data.csv' 
  WITH (format csv, delimiter ';', header true);

Создание конфигурационного файла /tmp/config.yml, содержащего описание загружаемой таблицы для QDL

Следует отметить, что на первом этапе параметр oid в секции output не играет роли, поэтому его значение можно оставить нулевым Важными здесь являются параметры кодировки, символа-разделителя, описание таблицы и ее полей. Если поле может принимать пустое значение, после наименования типа нужно добавить ключевое слово [nullable].

# Конфигурация системы:
general:
    # Количество потоков, выделяемых для парсинга и сериализации строк.
    # Следует обратить внимание, что помимо этих потоков обязательно выделяются ещё два:
    # поток чтения и поток записи в файл.
    threads: 2

# Конфигурация исходных данных:
input:
    # Кодировка:
    encoding: "utf8"
    # Разделитель столбцов для CSV:
    delimiter: ";"

# Конфигурация получаемых данных:
output:
    # Object IDentifier. Определяет целочисленный идентификатор для группы файлов целевой таблицы. 
    # Не важен до выполнения этапа создания таблицы
    oid: 0

# Конфигурация целевой таблицы:
table:
    # Имя таблицы. Требуется для `generate_sql`, чтобы задать имя создаваемой таблицы.
    name: "qdl_test_y2021"
    # Колонки в формате "имя": "тип"
    fields:
        timestamp_value : timestamp
        int_value : integer
        text_value : text [nullable]

Проверка целостности описания таблицы и данных в CSV-файле

Это опциональный шаг, но его желательно выполнить для того, чтобы не терять результаты, быть может, многочасовой работы в процессе формирования данных таблицы, если вдруг формат данных в какой-то строке окажется неверным.

Следующая команда проверяет логическую целостность CSV-файла и согласованность структуры данных с файлом конфигурации, сигнализируя об ошибках соответствующим кодом возврата.

/usr/bin/qdl validate --config /tmp/config.yml --data /tmp/qdl_data.csv --verbose

В случае успешной проверки сообщение, похожее на следующее:

[20210319_140056][qdl::validate_csv][DEBUG] /tmp/qdl_data.csv is valid csv file

Получение скрипта для создания таблицы и вывода значения OID

/usr/bin/qdl create_table --config /tmp/config.yml --data /tmp/qdl_data.csv > /tmp/table_script.sql

Вывод результата работы команды выглядит следующим образом:

create table qdl_test_y2021("timestamp_value" timestamp NOT NULL, "int_value" integer NOT NULL, "text_value" text);

BEGIN TRANSACTION;
insert into qdl_test_y2021("timestamp_value", "int_value", "text_value")
values ('2021-01-22 18:48:32.683962', 135563, '5eb8ab78966be8bf2048e9a4bd83a');
insert into qdl_test_y2021("timestamp_value", "int_value", "text_value")
values ('2021-03-08 22:54:53.465401', 899737, '21926559632ba26460cc2eafcf3c7');
insert into qdl_test_y2021("timestamp_value", "int_value", "text_value")
values ('2021-02-02 16:45:35.763331', 742323, '37ea89be376354fe2f0797aa8b471');
COMMIT TRANSACTION;
checkpoint;
SELECT pg_relation_filepath('qdl_test_y2021');

Скрипт нужно выполнить в базе данных. Если имеются реплики, команды выполнятся там автоматически. В данный скрипт попадают команды INSERT только для первых трех строк загружаемых данных. Впоследствии мы заменим данные этой таблицы на те, которые будут сформированы утилитой QDL, поэтому вставка этих трех строк в итоге ни на что не повлияет. Последний запрос скрипта выведет путь к таблице относительно каталога кластера баз данных.

Формирование файла таблицы

Это основная и самая ресурсоемкая операция. Важно выбрать эффективное значение для количества параллельных потоков (параметр threads в секции general), участвующих в формировании файла таблицы. Это значение будет зависеть от количества процессоров на используемой машине.

Значение OID таблицы нужно прописать в файле /tmp/config.yml в качестве значения параметра oid в секции output. Допустим, в приведенном скрипте в результате последнего запроса функция pg_relation_filepath вывела значение base/13676/16463, тогда для OID таблицы пропишем значение 16463. Имя сформированного в результате файла таблицы будет соответствовать этому параметру.

В результате работы утилиты в директории --out-dir появится файл с заданным OID в качестве имени, в приведенном примере это будет файл 16463. В случае, если размер данных окажется более 1 Gb, создадутся дополнительные файлы с соответствующими расширениями (16463.1, 16463.2 и так далее).

/usr/bin/qdl insert_values --config /tmp/config.yml --data /tmp/qdl_data.csv --out-dir /tmp

Копирование полученного файла средствами OS в директорию базы данных на главном сервере и на репликах

Если обработка данных происходит непосредственно на сервере базы данных, команда копирования может выглядеть приблизительно следующим образом:

cp /tmp/16463 <путь к каталогу данных>/base/13676/16463

Данные, скопированные через команду операционной системы, не попадут через репликацию на сервера реплик. Чтобы они там оказались, необходимо также скопировать их в соответствующие директории на каждом из этих серверов. Если этого не сделать, на серверах реплик останутся те три строки, которые были внесены в таблицу на главном сервере скриптом, созданным в результате работы команды QDL create_table.

Сброс данных таблицы

Этот шаг необходим для того, чтобы закешированные данные таблицы сбросились. Если имеются реплики, необходимо выполнить приведенный запрос как на главном сервере, так и на серверах реплик.

SELECT qhb_drop_rel_cache('qdl_test_y2021');

Проверка данных таблицы

Можно убедиться, что данные доступны как на главном сервере, так и на серверах реплик, если они имеются.

select * from qdl_test_y2021 limit 10;
select count(*) from  qdl_test_y2021; -- опционально можно убедиться в соответствии количеству строк в файле

Если нужно, теперь можно построить необходимые индексы.

Примечание
Следует отметить, что загрузка данных в обход стандартных механизмов работы базы данных сказывается на том, что при восстановлении базы из бэкапа и при применении архивных журналов данные в таблицах, загруженных через QDL, не восстановятся. При выполнении массовой загрузки данных через QDL желательно сразу после этого выполнить полный бэкап базы.

Включение данных в партиционированную таблицу

Сделаем таблицу qdl_test_y2021 частью таблицы qdl_test, превратив ее в партицию и добавив ограничения по диапазону дат.

ALTER TABLE qdl_test ATTACH PARTITION qdl_test_y2021
  FOR VALUES FROM ('2021-01-01') TO ('2022-01-01');

При этом на серверах реплик уже будет иметься заранее подготовленная таблица qdl_test_y2021 и команда успешно выполнится на репликах.

Теперь при запросе данных 2021 года в таблице qdl_test используется обращение к новой партиции.

qhb=# explain select count(*) from qdl_test where timestamp_value >= to_timestamp('2021-01-01','YYYY-MM_DD');
                                           QUERY PLAN                                            
-------------------------------------------------------------------------------------------------
 Aggregate  (cost=79.79..79.80 rows=1 width=8)
   ->  Append  (cost=0.00..78.84 rows=379 width=0)
         Subplans Removed: 2
         ->  Seq Scan on qdl_test_y2021  (cost=0.00..26.95 rows=377 width=0)
               Filter: (timestamp_value >= to_timestamp('2021-01-01'::text, 'YYYY-MM_DD'::text))
(5 rows)

В плане запроса отражено обращение к партиции qdl_test_y2021.

Заключение

Таким образом, используя QDL, можно эффективно загружать в базу объемные дынные. Тестирование показывает, что общее время загрузки данных с помощью QDL и время копирования полученного файла в три с половиной раза меньше по сравнению с продолжительностью загрузки тех же данных с помощью команды COPY.

Приведенный подход может быть использован в хранилищах и витринах данных, где время загрузки новых данных является критичным показателем, а данные, как правило, поступают из других источников.

Менеджер кеша дисковых блоков TARQ

Менеджер кеша дисковых блоков - самобалансирующийся менеджер кеша дисковых блоков с автоматической компенсацией нагрузки на дисковую систему.

Алгоритм вытеснения из кеша нужен для работы в среде где, для ускорения операций с диском, часть быстродействующей памяти используется для размещения наиболее часто востребованных блоков. Алгоритм служит для определения блока который можно выбросить с наименьшими потерями для общей производительности. Т.е. такого блока, который будет использоваться не так часто и/или интенсивно как остальные.

QHB может запускаться с усовершенствованным алгоритмом вытеснения - TARQ.

Алгоритм предполагает поддержку двух списков страниц - L1 и L2. Максимальная длина обоих списков составляет 2c, где c - размер кэша в страницах. Оба списка формируются в стиле LRU. При перемещении в кэш страницы, номер которой отсутствует в обоих списках, этот номер заносится в начало списка L1. При обращении к странице, номер которой фигурирует в одном из списков, этот номер переносится в начало списка L2. Важной особенностью алгоритма является то, что только в начале каждого из списков (подсписках T1 и T2) находятся номера страниц, находящихся в кэше, т.е. поддерживается история страниц, недавно вытесненных из кэша. Страница для замещения выбирается из конца списка T1 или T2 в зависимости от значения параметра p, определяющего текущую допустимую длину списка T1, а тем самым, и длину T2. Адаптивность алгоритма состоит в том, что значение p изменяется в зависимости от вида рабочей нагрузки.

Для включения и управления новым алгоритмом вытеснения используются параметры в конфигурационном файле:

use_qhb_cache - булевый параметр при установке значения в TRUE будет использоваться новая версия кеша
qhb_cache_size - общий размер буферного кеша (при включении use_qhb_cache=true значение shared_buffers не используется)
shared_buffers_partition - размер фрагментов кеша (партиций, не имеют отношения к партициям таблицы), обращение к каждому фрагменту происходит независимо от остальных, слишком большой размер приведёт к возрастанию конкуренции за блокировки, слишком маленький может привести к задержкам если в партиции не окажется пригодных к вытеснению блоков (все грязные или занятые фоновым процессом).
Рекомендуемое значение: 128
tarq_cache.touch_queue_ignore - целое число от 1 до 100, процент заполнения фрагмента кеша при котором обращения начинают приводить к операциям балансировки, для незаполненного или заполненного немного фрагмента балансировок не требуется.
Рекомендуемое значение: 50

Ребалансировка - дорогая операция, в нагруженной среде к некоторым буферам (содержимое системных таблиц, словари, последовательности) может быть много тысяч обращений в секунду, существенно не влияющих на общий баланс. Для сглаживания можно использовать следующие параметры:

tarq_cache.touch_window - время в секундах, все обращения в течение этого "окна" считаются одним обращением.
Рекомендуемое значение: 3
tarq_cache.touch_threshold - количество обращений к буферу по достижению которого происходит операция ребалансировки. \ Рекомендуемое значение: 5

Параметр `HOLDMEM` и дополнительные кэши дисковых блоков

Внимание! Эта функциональность QHB является экспериментальной, её использование в инсталляциях на продуктивной среде не рекомендовано.

В QHB для ускорения работы с таблицами имеется возможность создавать их особым параметром HOLDMEM, который указывает, где они будут размещаться. Существуют три параметра: OFF, POSSIBLY и ONLY.

Примеры создания таблиц:

CREATE TABLE cats (id int) WITH (HOLDMEM = OFF);
-- то же самое, что и CREATE TABLE cats (id int);

CREATE TABLE dogs (id int) WITH (HOLDMEM = POSSIBLY);

CREATE UNLOGGED TABLE cows (id int) WITH (HOLDMEM = ONLY);
-- обратите внимание, что таблицы с HOLDMEM = ONLY должны быть UNLOGGED;

Описание параметров `HOLDMEM`:

OFF — это обычные таблицы. При создании таблицы этот параметр можно опустить. Обычно он нужен, когда требуется изменить свойство таблицы:
```
ALTER TABLE dogs SET (HOLDMEM = OFF);
```
POSSIBLY — это таблицы, которые по возможности находятся в памяти:
```
ALTER TABLE dogs SET (HOLDMEM = POSSIBLY);
```
ONLY — это таблицы, которые всегда находятся в памяти:
```
ALTER TABLE dogs SET UNLOGGED, SET (HOLDMEM = ONLY);
```
Примечание Все таблицы с параметром HOLDMEM = ONLY должны быть UNLOGGED.

`HOLDMEM = POSSIBLY`

Таблицы, созданные с параметром HOLDMEM = POSSIBLY, предназначены для хранения данных, к которым требуется быстрый доступ. Для них используется отдельный LRU cache, за счёт простоты которого достигается быстродействие при обращении к нему во время поиска страницы. Однако данный кэш менее качественный, чем TARQ, поэтому его использование нужно в особых случаях: при работе с данными, к которым требуется частое обращение.

Для включения и управления алгоритмом вытеснения для таблиц, по возможности хранящихся в памяти, используются параметры в конфигурационном файле:

use_possible_buffer — логический параметр. При установке значения в TRUE будет использоваться этот кэш.
qhb_possible_buffers_size — общий размер буферного кэша.
shared_buffers_partition (используется общий параметр с TARQ) — размер фрагментов кеша (партиций; не имеют отношения к партициям таблицы), обращение к каждому фрагменту происходит независимо от остальных, слишком большой размер приведёт к возрастанию конкуренции за блокировки, слишком маленький может привести к задержкам, если в партиции не окажется пригодных к вытеснению блоков (все «грязные» или занятые фоновым процессом).
Рекомендуемое значение: 128.

`HOLDMEM = ONLY`

Таблицы, созданные с параметром HOLDMEM = ONLY, предназначены для хранения данных, к которым требуется максимально быстрый доступ.

Однако нужно знать некоторые особенности при работе с ним. Так как все данные хранятся в памяти, переполнение этого буфера приведёт к ошибке. Также при сбое или экстренном завершении данные не могут быть и не будут восстановлены.

use_qhb_onlymem_cache — логический параметр. При установке значения в TRUE будет использоваться этот кэш.
qhb_onlymem_cache_size — общий размер буферного кэша.

Совместимость

Параметр HOLDMEM, так же как и значения OFF, POSSIBLY и ONLY, реализованные в QHB, является расширением стандарта SQL.

Таблицы APPEND_ONLY

В QHB для ускорения работы с таблицами имеется возможность создавать их с особым параметром APPEND_ONLY. Параметр предназначен для таблиц, с которыми не производятся модификаций, например журналы, данные с датчиков и т.п. В такие таблицы можно только добавлять записи, но делается это с максимальной скоростью, т.к. не выполняется полноценного MVCC анализа.

Для этого варианта хранилища характерны также следующие свойства:

Отсутствует необходимость в автоочистке.
Поддерживаются все типы индексов.
Для удаления старых данных можно использовать секционирование таблицы и удалять данные секциями, либо использовать команду TRUNCATE.
Не поддерживается механизм TOAST.

Создание APPEND_ONLY таблицы выполняется запросом:

CREATE TABLE TABLE_NAME (...) USING APPEND_ONLY;

Сервер метрик

Сервер метрик используется в инфраструктуре QHB для сбора, агрегации и пересылки метрик в систему мониторинга Graphite.

Тема установки и настройки Graphite выходит за рамки данной документации. Пожалуйста, обратитесь к документации Graphite, доступной по адресу https://graphite.readthedocs.io/en/latest/.

Сервер метрик должен быть установлен и настроен на каждой машине, где работают компоненты QHB (сам сервер баз данных или QCP), смотрите раздел Установка.

Настройка сервера метрик

Пример файла конфигурации устанавливается по пути /etc/metricsd/config-example.yaml.

Для работы сервиса, необходимо скопировать его в /etc/metricsd/config.yaml и подправить необходимые параметры. Особого внимания требует секция aggregation → backends:

  # Backends configuration. At least one backend must be configured.
  backends:
    # Configuration of graphite backend
    - graphite:
      # The address of the Graphite TCP endpoint for text protocol. Default port is 2003.
      # Only TCP protocol is available, so if Graphite is not listening on this port, you will get an error!
      address: "graphite:2003"
      # A prefix which is prepended to the name of each metric. Optional, defaults to empty string.
      prefix: ""
      # Connection timeout. Optional, defaults to 30 seconds.
      connection_timeout: "30 sec"
      # Send data timeout. Optional, defaults to 5 seconds.
      send_timeout: "5 sec"

Исправьте параметр address на реальный адрес сервера Graphite в вашей сети, также рекомендуется изменить значение параметра prefix на, например, имя машины, на которой запущен сервис. Этот префикс будет добавляться ко всем генерируемым метрикам.

Для автоматического запуска сервера при старте системы, активируйте соответствующий сервис systemd:

$ sudo systemctl enable --now metricsd.service

Часть II. Установка и настройка

В этой части рассматриваются темы, представляющие интерес для администратора базы данных QHB. Это включает в себя установку программного обеспечения, настройку сервера, управление пользователями и базами данных, а также задачи по обслуживанию. Любой, кто запускает сервер QHB, даже для личного использования, особенно в производственной среде, должен быть знаком с темами, описанными в этой части.

Информация в этой части расположена приблизительно в том порядке, в котором её должен прочитать новый пользователь. Однако главы являются автономными и, по желанию, могут быть прочитаны независимо друг от друга в любом порядке. Информация в этой части представлена в повествовательной форме. Читателям, ищущим полное описание конкретной команды, следует обратиться к главе Команды SQL.

Первые несколько глав написаны так, чтобы их можно было понять без предварительных знаний, чтобы новые пользователи, которым необходимо настроить собственный сервер, спокойно могли начать свое исследование. Остальные же главы этой — о настройке и управлении — предполагают, что читатель уже знаком с общими принципами использования базы данных QHB. Для получения дополнительной информации, рекомендуется ознакомиться с внутренним устройством и языком SQL.

Установка
Начало работы
- Создание базы данных
- Доступ к базе данных
Настройка и эксплуатация сервера
Конфигурация сервера
Советы по производительности
Провайдер пользовательского сканирования
Роли в базе данных
Управление базами данных
Методы выборки из таблицы
- Функции поддержки метода выборки
Регулярные задачи обслуживания базы данных
Резервное копирование и восстановление
Мониторинг активности базы данных
Мониторинг использования диска
- Определение использования диска
- Ошибка диска
Надежность и журнал упреждающей записи
Процедурные языки
- Установка процедурных языков
Клиентские приложения QHB
- clusterdb - кластеризация базы данных QHB
- createdb - создать новую базу данных QHB
- createuser - определить новую учетную запись пользователя QHB
- dropdb - удалить базу данных QHB
- dropuser - удалить учетную запись пользователя QHB
- vacuumdb сбор мусора и анализ базы данных QHB
- qhb_basebackup - сделать базовую резервную копию кластера QHB
- reindexdb - переиндексировать базу данных QHB
- qhb_config - получить информацию об установленной версии QHB
- qhb_dump - извлекает базу данных QHB в файл сценария или другой архив
- qhb_dumpall - извлекает кластер базы данных QHB в файл сценария
- qhb_isready - проверить состояние соединения с сервером QHB
- qhb_receivewal - потоковые журналы записи с сервера QHB
- qhb_recvlogical - управление потоками логического декодирования QHB
- qhb_restore - восстанавливает базу данных QHB из файла архива, созданного qhb_dump
- qsql - QHB интерактивный терминал
Серверные приложения QHB
- initdb - создать новый кластер базы данных QHB
- qhb_archivecleanup - очистить архивные файлы QHB WAL
- qhb_checksums - включить, отключить или проверить контрольные суммы данных в кластере базы данных QHB
- qhb_controldata - отображать управляющую информацию кластера базы данных QHB
- qhb_ctl - инициализация, запуск, остановка или управление сервером QHB
- qhb_resetwal - сбросить журнал предварительной записи и другую управляющую информацию кластера базы данных QHB
- qhb_rewind - синхронизирует каталог данных QHB с другим каталогом данных, который был разветвлен из него
- qhb_upgrade - обновить экземпляр сервера QHB
- qhb_waldump - отображает удобочитаемый рендеринг журнала записи с опережением кластера базы данных QHB
Написание обёртки сторонних данных
Инструмент резервного копирования qbackup

Установка

Поддерживаемые платформы

Платформа, то есть комбинация архитектуры процессора и операционной системы, считается поддерживаемой сообществом разработчиков QHB.

Для QHB версии 1.3.0 поддерживаются:

Centos Linux 7, x86_64
Centos Linux 8, x86_64
Альт Сервер 9, x86_64
Fedora 32, x86_64
Fedora 33, x86_64
Linux Debian 9, x86_64
Astra Linux Special Edition, «Смоленск» 1.6, x86_64
в docker контейнере

Состав поставки

QHB поставляется в виде следующих пакетов

qhb-core - ядро QHB
qhb-contrib - расширения QHB
qcp - пулер соединений
qdl - средство быстрой загрузки
qbackup - инструмент резервного копирования
metricsd - сервер метрик

Установка из репозитория пакетов

Внимание!
Если вы обновляете версию QHB или мигрируете базы данных с других СУБД, обратитесь к разделу Установка с обновлением.

В этой главе описывается установка QHB из предварительно упакованного дистрибутива. Двоичные пакеты QHB для поддерживаемых платформ можно найти на Странице загрузки

Стандартная процедура установки QHB выглядит так:

Подключение репозитория и установка пакетов

Подключите репозиторий пакетов и установите пакеты для выбранной платформы со Страницы загрузки.

Инициализация кластера базы данных

Инициализируйте кластер базы данных при помощи утилиты initdb или qhb_bootstrap. В данном примере /opt/qhb/data — расположение каталога базы данных:

Внимание!
Запуск утилит необходимо производить из под пользователя qhb, владельца экземпляра.
Или предворять запуск командой sudo -u qhb .

/usr/local/qhb/bin/initdb -D /opt/qhb/data -U qhb

или

/usr/local/qhb/bin/qhb_bootstrap -D /opt/qhb/data -U qhb

Замечание.
Использование утилиты qhb_bootstrap предпочтительно.
Утилита initdb планируется к удалению в будущих версиях QHB.

Настройка сервиса

Если необходимо, настройте сервис базы данных, см. Настройка сервиса базы данных.

Создание базы данных и конфигурирование

Следуйте инструкция по созданию и настройке базы данных, см. Начало работы.

Установка с обновлением

Обновление версии QHB и миграция баз данных с других СУБД.

При переходе с одной версии QHB к другой, иногда происходят такие изменения в структурах данных каталога СУБД, которые делают невозможным функционирование новой версии без преобразования данных старой базы.

Для такого преобразованияя предусмотрена специальная утилита обновления экземпляра qhb_upgrade.

Некоторые обновления не требуют запуска qhb_upgrade:

обновление пакетов из репозитория, если база данных ещё не была создана или планируется создание новой, а старая не важна,
установка QHB впервые или
миграция базы с помощью утилит qhb_dump / qhb_dumpall.

Если же планируется перенос или миграция базы данных, перед обновлением нужно обратиться утилите qhb_upgrade. Утилита может обновлять данные не только при обновлении версии QHB, но даже при миграции с PostgreSQL некоторых версий.

Некоторые минорные обновления QHB не меняют структуру данных, и их установка не требуют каких-то специальных действий. В этом случае, утилита qhb_upgrade об этом сообщит.

Начало работы

Создание базы данных

Первый тест, чтобы увидеть, можете ли вы получить доступ к серверу базы данных - попытаться создать базу данных. Работающий сервер QHB может управлять многими базами данных. Как правило, отдельная база данных используется для каждого проекта или для каждого пользователя.

Возможно, ваш администратор уже создал базу данных для вашего использования. В этом случае вы можете пропустить этот шаг и перейти к следующему разделу.

Чтобы создать новую базу данных, в этом примере с именем mydb, вы используете следующую команду:

createdb mydb -h localhost

Если в ответ на такой запуск нет ошибки, то этот шаг был успешным, и вы можете пропустить оставшуюся часть этого раздела.

Если вы видите сообщение, похожее на:

createdb: command not found

тогда QHB не был установлен должным образом. Либо он вообще не был установлен, либо путь поиска вашей оболочки не был настроен на его включение. Попробуйте вместо этого вызвать команду с абсолютным путем:

/usr/local/qhb/bin/createdb mydb

Ваш путь может быть другим. Обратитесь к вашему администратору или ознакомьтесь с инструкциями по установке, чтобы исправить ситуацию.

Другой ответ может быть таким:

createdb: could not connect to database qhb: could not connect to server: No such file or directory
        Is the server running locally and accepting
        connections on Unix domain socket "/tmp/.s.PGSQL.5432"?

Это означает, что сервер не был запущен или не был запущен там, где ожидал createdb. Снова, проверьте инструкции по установке или проконсультируйтесь с администратором.

Другой ответ может быть таким:

createdb: could not connect to database qhb: FATAL:  role "joe" does not exist

где упоминается ваше имя пользователя. Это произойдет, если администратор не создал для вас учетную запись пользователя QHB. (Учетные записи пользователей QHB отличаются от учетных записей пользователей операционной системы). Если вы являетесь администратором, обратитесь к главе Роли в базе данных за помощью в создании учетных записей. Вам нужно стать пользователем операционной системы, под которой был установлен QHB (обычно qhb), чтобы создать первую учетную запись пользователя. Возможно также, что вам было присвоено имя пользователя QHB, отличающееся от имени пользователя вашей операционной системы; в этом случае вам нужно использовать ключ -U или установить окружение PGUSER, чтобы указать свое имя пользователя в QHB.

Если у вас есть учетная запись пользователя, но у нее нет прав, необходимых для создания базы данных, вы увидите следующее:

createdb: database creation failed: ERROR:  permission denied to create database

Не каждый пользователь имеет право создавать новые базы данных. Если QHB отказывается создавать базы данных для вас, ваш администратор должен предоставить вам разрешение на создание баз данных. Обратитесь к вашему администратору, если это произойдет. Если вы установили QHB самостоятельно, вы должны войти в систему в целях данного руководства под учетной записью пользователя, с которой вы запустили сервер¹.

Вы также можете создавать базы данных с другими именами. QHB позволяет создавать любое количество баз данных. Имена баз данных должны иметь алфавитный первый символ и иметь длину не более 63 байтов. Удобный выбор - создать базу данных с тем же именем, что и ваше текущее имя пользователя. Многие инструменты предполагают, что имя базы данных используется как имя по умолчанию, поэтому оно поможет вам сэкономить время при наборе текста. Чтобы создать эту базу данных, просто введите:

createdb

Если вы больше не хотите использовать свою базу данных, вы можете удалить ее. Например, если вы являетесь владельцем (создателем) базы данных mydb, вы можете уничтожить ее, используя следующую команду:

dropdb mydb

(Для этой команды имя базы данных по умолчанию не совпадает с именем учетной записи пользователя. Вы всегда должны указывать его.) Это действие физически удаляет все файлы, связанные с базой данных, и не может быть отменено, так что это должно быть сделано только с большим количеством предусмотрительности.

Больше информации по командам createdb и dropdb можно найти в соответствующих разделах.

В качестве объяснения того, почему это работает: имена пользователей QHB отделены от учетных записей пользователей операционной системы. Когда вы подключаетесь к базе данных, вы можете выбрать, какое имя пользователя QHB будет подключаться; если вы этого не сделаете, по умолчанию будет использоваться то же имя, что и ваша текущая учетная запись операционной системы. Как это бывает, всегда будет учетная запись пользователя QHB, имя которой совпадает с именем пользователя операционной системы, запустившего сервер, и также бывает, что этот пользователь всегда имеет разрешение на создание баз данных. Вместо входа в систему под этим пользователем вы также можете указать опцию -U везде, чтобы выбрать имя пользователя QHB для подключения.

Доступ к базе данных

Создав базу данных, вы можете получить к ней доступ одним из следующих способов:

С помощью интерактивного терминала QHB, называемого qsql, который позволяет в интерактивном режиме вводить, редактировать и выполнять команды SQL.
С использованием существующего графического инструмента внешнего интерфейса, например, pgAdmin, DBeaver или офисного пакета с поддержкой ODBC или JDBC. Эти возможности не рассматриваются в этом руководстве.
Написав собственное приложение с использованием одной из нескольких доступных языковых привязок.

Возможно, вы захотите запустить qsql, чтобы попробовать примеры из этого урока. Его можно запустить для базы данных mydb, набрав команду:

$ qsql -h localhost -d mydb

Если вы не укажете имя базы данных, по умолчанию будет использоваться имя вашей учетной записи. Мы уже сталкивались с этой схемой в предыдущем разделе, при работе с createdb.

Внутри qsql вы увидите следующее сообщение:

qsql - Interactive terminal qhb (1.2.0)
Enter "\help" in order to get help

mydb(username)=#

Это будет означать, что вы являетесь суперпользователем базы данных, что наиболее вероятно, если вы установили экземпляр QHB самостоятельно. Суперпользователь имеет неограниченный доступ к базе данных; впрочем, для целей урока это не имеет значения.

Если вы столкнулись с проблемами при запуске qsql, вернитесь к предыдущему разделу. Диагностика createdb и qsql схожи, и если первый сработал, последний также должен сработать.

Последняя строка, напечатанная qsql является приглашением и указывает, что qsql ожидает ввод, то есть вы можете вводить запросы SQL в рабочее пространство. Попробуйте эти команды:

mydb(username)=# select version();
version   
----------
QHB 1.2.0 
(1 строка)

mydb(username)=# SELECT current_date;
    date
------------
 2020-10-07

mydb(username)=# SELECT 2 + 2;
 ?column?
----------
4
(1 строка)

Программа qsql имеет ряд внутренних команд, которые не являются командами SQL. Они начинаются с символа обратной косой черты "\". Например, чтобы выйти из qsql, введите:

mydb(username)=# \q

и qsql завершит работу и вернёт вас в командную оболочку.

Все возможности qsql описаны в соответствующем разделе: qsql.

Настройка и эксплуатация сервера

В этой главе рассказывается, как настроить и запустить сервер базы данных и как он взаимодействует с операционной системой.

Учетная запись пользователя

Как и любой серверный процесс, доступный для внешнего мира, рекомендуется запускать QHB под отдельной учетной записью пользователя. Эта учетная запись пользователя должна владеть только данными, которыми управляет сервер, и не должна использоваться совместно с другими демонами. (Например, использование пользователя nobody является плохой идеей). Не рекомендуется устанавливать исполняемые файлы, принадлежащие этому пользователю, потому что скомпрометированные системы могут затем изменить свои собственные двоичные файлы.

Чтобы добавить учетную запись пользователя Unix в вашу систему, используйте команду useradd или adduser. Имя пользователя qhb часто используется, и предполагается в этой книге, но возможно использовать другое имя, если необходимо.

Создание кластера базы данных

Прежде чем что-либо делать, вы должны инициализировать область хранения базы данных на диске. В документации это называется кластером базы данных. (В стандарте SQL используется термин кластер каталога). Кластер баз данных — это набор баз данных, который управляется одним экземпляром работающего сервера баз данных. После инициализации кластер базы данных будет содержать базу данных с именем qhb, которая является базой данных по умолчанию для использования утилитами, пользователями и сторонними приложениями. Сам сервер базы данных не требует существования базы данных qhb, но многие внешние утилиты предполагают, что она существует. Другая база данных, созданная в каждом кластере во время инициализации, называется template1. Как следует из названия, она будет использоваться в качестве шаблона для впоследствии созданных баз данных и не должна использоваться для фактической работы. (Информацию о создании новых баз данных в кластере см. в главе Управление базами данных).

С точки зрения файловой системы, кластер базы данных - это один каталог, в котором будут храниться все данные. Он называется каталогом данных или областью данных. Где хранить свои данные - полностью зависит от пользователя. Каких-либо жёстких установок не существует, хотя популярны такие места, как /usr/local/qhb/data или /var/lib/qhb/data. Чтобы инициализировать кластер базы данных, используйте команду qhb_bootstrap, которая устанавливается с QHB. Расположение файловой системы вашего кластера баз данных указывается с помощью опции -D, например:

qhb_bootstrap -D /usr/local/qhb/data

Обратите внимание, что вы должны выполнить эту команду при входе в учетную запись пользовател, которая описана в предыдущем разделе.

Заметка
В качестве альтернативы опции -D вы можете установить переменную окружения PGDATA..

qhb_bootstrap попытается создать указанную вами директорию, если она еще не существует. Конечно, это не удастся, если у qhb_bootstrap нет прав на запись в родительский каталог. Обычно рекомендуется, чтобы пользователь QHB владел не только каталогом данных, но и своим родительским каталогом, чтобы это не было проблемой. Если желаемый родительский каталог тоже не существует, вам сначала нужно его создать, используя привилегии суперпользователя, если каталог прародителя недоступен для записи. Так что процесс может выглядеть так:

root# mkdir /usr/local/qhb
root# chown qhb /usr/local/qhb
root# su qhb
qhb$ qhb_bootstrap -D /usr/local/qhb/data

Если работаем от root используем:

root# mkdir /usr/local/qhb/data
root# chown qhb /usr/local/qhb
root# sudo -u qhb ./qhb_bootstrap -D /usr/local/qhb/data

qhb_bootstrap откажется запускаться, если каталог данных существует и уже содержит файлы, что предотвратит случайную перезапись существующей установки.

Поскольку каталог данных содержит все данные, хранящиеся в базе данных, важно, чтобы он был защищен от несанкционированного доступа. Поэтому qhb_bootstrap отзывает права доступа у всех, кроме пользователя QHB и, при необходимости, группы. Групповой доступ, если он включен, доступен только для чтения. Это позволяет непривилегированному пользователю в той же группе, что и владелец кластера, создавать резервную копию данных кластера или выполнять другие операции, для которых требуется только чтение.

Обратите внимание, что включение или отключение группового доступа в существующем кластере требует выключения кластера и установки соответствующего режима для всех каталогов и файлов перед перезапуском QHB. В противном случае в каталоге данных может существовать комбинация режимов. Для кластеров, которые разрешают доступ только владельцу, соответствующие режимы - 0700 для каталогов и 0600 для файлов. Для кластеров, которые также разрешают чтение по группе, соответствующие режимы - 0750 для каталогов и 0640 для файлов.

Однако, хотя содержимое каталога является безопасным, настройка аутентификации клиента по умолчанию позволяет любому локальному пользователю подключаться к базе данных и даже стать суперпользователем базы данных. Если вы не доверяете другим локальным пользователям, мы рекомендуем использовать один из параметров qhb_bootstrap -W, --pwprompt или --pwfile, чтобы назначить пароль суперпользователю базы данных. Кроме того, укажите пароль -A md5 или -A password чтобы режим проверки подлинности по умолчанию не использовался; или измените созданный файл qhb_hba.conf после запуска qhb_bootstrap, но перед первым запуском сервера. Другие разумные подходы включают использование peer аутентификации или разрешений файловой системы для ограничения соединений.

qhb_bootstrap также инициализирует локаль по умолчанию для кластера базы данных. Обычно берет используются параметры локали из среды и применяет их к инициализированной базе данных. Можно указать другую локаль для базы данных - более подробную информацию об этом можно найти в разделе Поддержка локали. Порядок сортировки по умолчанию, используемый в конкретном кластере баз данных, устанавливается qhb_bootstrap, и, хотя вы можете создавать новые базы данных, используя другой порядок сортировки, порядок, используемый в базах данных шаблонов, которые создает qhb_bootstrap, нельзя изменить без их удаления и повторного создания. Существует также влияние на производительность при использовании локалей, отличных от C(RUST) или POSIX. Поэтому важно правильно сделать этот выбор с первого раза.

qhb_bootstrap также устанавливает кодировку набора символов по умолчанию для кластера базы данных. Обычно это следует выбирать в соответствии с настройками локали. Подробнее см. раздел Поддержка набора символов.

Языки, отличные от C\RUST полагаются на библиотеку сортировки операционной системы для упорядочения набора символов. Это контролирует порядок ключей, хранящийся в индексах. По этой причине кластер не может переключиться на несовместимую версию библиотеки сортировки, используя восстановление моментальных снимков, двоичную потоковую репликацию, другую операционную систему или обновление операционной системы.

Использование вторичных файловых систем

Многие установки создают свои кластеры базы данных в файловых системах (томах), отличных от «корневого» тома. Если вы решите сделать это, не рекомендуется пытаться использовать самый верхний каталог тома (точку монтирования) в качестве каталога для хранения данных. Рекомендуется создать каталог в каталоге для монтирования, который принадлежит пользователю QHB, а затем создать в нем каталог данных. Это позволяет избежать проблем с разрешениями, особенно для таких операций, как qhb_upgrade, а также гарантирует понятные сообщения об ошибках, если том отключен.

Файловые Системы

Как правило, любая файловая система с семантикой POSIX может использоваться для QHB. Пользователи предпочитают разные файловые системы по разным причинам, включая поддержку поставщиков, производительность и личную экспертизу. Опыт показывает, что при прочих равных условиях не следует ожидать значительных изменений в производительности или в поведении просто от переключения файловых систем или незначительных изменений конфигурации файловой системы.

NFS

Для хранения каталога данных QHB можно использовать файловую систему NFS. QHB не делает ничего неприемлимого для файловых систем NFS, то есть предполагает, что NFS ведет себя точно так же, как локально подключенные диски. QHB не использует никаких функций, о которых известно, что они имеют нестандартное поведение в NFS, таких как блокировка файлов и т.п.

Единственное жесткое требование для использования NFS с QHB - это монтирование файловой системы с использованием опции hard. С помощью опции hard процессы могут «зависать» на неопределенное время, если возникают проблемы с сетью, поэтому такая конфигурация потребует тщательной настройки мониторинга. Опция soft будет прерывать системные вызовы в случае сетевых проблем, но QHB не будет повторять системные вызовы, прерванные таким образом, поэтому любое такое прерывание приведет к сообщению об ошибке ввода-вывода.

Нет необходимости использовать опцию sync. Поведение опции async является достаточным, поскольку QHB делает вызовы fsync в нужное время для очистки кэшей записи, аналогично тому, как это происходит в локальной файловой системе. Однако настоятельно рекомендуется использовать параметр экспорта sync на сервере NFS в системах, где он существует. В противном случае fsync или его эквивалент на клиенте NFS не гарантируют того, что данные достигнут постоянного хранилища на сервере, что может привести к повреждению, аналогично тому которое может случится на сервере с отключенным параметром fsync. Значения по умолчанию этих параметров монтирования и экспорта различаются у разных поставщиков и версий, поэтому рекомендуется в любом случае проверить и, возможно, указать их явно, чтобы избежать двусмысленности.

В некоторых случаях к внешнему храненилищу можно получить доступ через NFS или протокол более низкого уровня, например iSCSI. В последнем случае хранилище выглядит как блочное устройство, и на нем может быть создана любая поддерживаемая файловая система. Такой подход может избавить администратора базы данных от необходимости иметь дело с некоторыми особенностями NFS, но, конечно, сложность управления удаленным хранилищем возникает на других уровнях.

Запуск сервера базы данных

Прежде чем кто-либо сможет получить доступ к базе данных, вы должны запустить сервер базы данных. Программа сервера базы данных называется qhb. Программа qhb должна знать, где найти файлы базы данных, которые она должна использовать. Это делается с помощью опции -D. Таким образом, самый простой способ запустить сервер:

qhb# qhb -D /usr/local/qhb/data

root# sudo -u qhb ./qhb -D /usr/local/qhb/data

эта команда оставит сервер на консоли. Она должна выполнятся из учётной записи пользователя qhb. Без -D сервер попытается использовать каталог данных, названный переменной окружения PGDATA. Если эта переменная также не указана, произойдет сбой.

Обычно лучше запускать qhb в фоновом режиме. Для этого используйте обычный синтаксис оболочки (shell) Unix:

$ qhb -D /usr/local/qhb/data >logfile 2>&1 &

Важно где-то хранить выходные данные сервера stdout и stderr, как показано выше для целей аудита и диагностики проблем. (См. раздел Обслуживание файла журнала для более подробного обсуждения обработки файла журнала).

Программа qhb также принимает ряд других параметров командной строки. Для получения дополнительной информации см. Справочную страницу qhb и главу Конфигурация сервера.

Этот синтаксис трудно запомнить и повторить. Поэтому программа-обертка qhb_ctl предоставляется для упрощения некоторых задач. Например:

qhb_ctl start -l logfile

запустит сервер в фоновом режиме и поместит вывод в именованный файл журнала. Параметр -D имеет то же значение, что и для qhb. qhb_ctl также может остановливать сервер.

Обычно вы хотите запустить сервер базы данных при загрузке компьютера. Сценарии автозапуска зависят от операционной системы. Некоторые из них распространяются с пакетами QHB.

Различные системы имеют разные соглашения для запуска демонов во время загрузки. Многие системы имеют файл /etc/rc.local или /etc/rc.d/rc.local. Другие используют каталоги init.d или rc.d Что бы вы ни делали, сервер должен работать под учетной записью пользователя QHB, а не под учетной записью root или любого другого пользователя. Поэтому вы, вероятно, должны формировать свои команды, используя su qhb -c '...'. Например:

su qhb -c 'qhb_ctl start -D /usr/local/qhb/data -l serverlog'

Вот еще несколько предложений для запуска :

добавьте в /etc/rc.d/rc.local или /etc/rc.local

/usr/local/qhb/bin/qhb_ctl start -l logfile -D /usr/local/qhb/data

или используйте файл contrib/start-scripts/linux в исходном дистрибутиве QHB.
при использовании systemd вы можете использовать следующий файл для systemd (например, в /etc/systemd/system/qhb.service):
```
[Unit]
Description=QHB database server
Documentation=man:qhb(1)

[Service]
Type=notify
User=qhb
ExecStart=/usr/local/qhb/bin/qhb -D /usr/local/qhb/data
ExecReload=/bin/kill -HUP $MAINPID
KillMode=mixed
KillSignal=SIGINT
TimeoutSec=90

[Install]
WantedBy=multi-user.target
```
Тщательно продумайте настройку тайм-аута. На настоящий момент системный тайм-аут по умолчанию составляет 90 секунд и завершит процесс, который не уведомит о готовности в течение этого времени. Но серверу QHB, который может выполнить восстановление после сбоя при запуске, может потребоваться гораздо больше времени, чтобы подготовиться. Предлагаемое значение 0 отключает логику тайм-аута.

Во время работы сервера его PID хранится в файле qhbmaster.pid в каталоге данных. Это используется для предотвращения запуска нескольких экземпляров сервера в одном каталоге данных, а также может использоваться для выключения сервера.

Сбои при запуске сервера

Существует несколько распространенных причин, по которым сервер может не запуститься. Проверьте файл журнала сервера или запустите его вручную (без перенаправления стандартного вывода или стандартной ошибки) и посмотрите, какие сообщения об ошибках появляются. Ниже мы объясним некоторые из наиболее распространенных сообщений об ошибках более подробно.

LOG:  could not bind IPv4 address "127.0.0.1": Address already in use
HINT:  Is another postmaster already running on port 5432? If not, wait a few seconds and retry.
FATAL:  could not create any TCP/IP sockets

Обычно это означает только то, что вы попытались запустить другой сервер на том же порту, на котором он уже запущен. Однако, если сообщение об ошибке в ядре не является Address already in use или каким-либо другим вариантом, это может быть другой проблемой. Например, попытка запустить сервер с зарезервированным номером порта может выдать что-то вроде:

$ qhb -p 777
LOG:  could not bind IPv4 address "127.0.0.1": Permission denied
HINT:  Is another postmaster already running on port 777? If not, wait a few seconds and retry.
FATAL:  could not create any TCP/IP sockets

Сообщение :

FATAL:  could not create shared memory segment: Invalid argument
DETAIL:  Failed system call was shmget(key=5440001, size=4011376640, 03600).

вероятно, означает, что ограничение вашего ядра на размер разделяемой памяти меньше, чем рабочая область, которую пытается создать QHB (4011376640 байт в этом примере). Или это может означать, что в вашем ядре вообще не настроена поддержка разделяемой памяти System V. В качестве временного решения можно попробовать запустить сервер с меньшим, чем обычно, числом буферов ( shared_buffers). В конечном итоге необходимо перенастроить ядро ОС, чтобы увеличить допустимый размер разделяемой памяти. Это сообщение также может появиться при попытке запустить несколько серверов на одном компьютере, если их общее запрошенное пространство превышает ограничение ядра.

Ошибка :

FATAL:  could not create semaphores: No space left on device
DETAIL:  Failed system call was semget(5440126, 17, 03600).

не означает, что вам не хватает места на диске. Это означает, что ограничение вашего ядра на число семафоров System V меньше, чем число, которое QHB хочет создать. Как и в случае выше, можно обойти эту проблему, запустив сервер с меньшим количеством разрешенных соединений ( max_connections), но в конечном итоге необходимо увеличить ограничение ядра.

Если вы получили ошибку «illegal system call», вполне вероятно, что разделяемая память или семафоры вообще не поддерживаются в вашем ядре. В этом случае единственный вариант - перенастроить ядро, чтобы включить эти функции.

Проблемы с клиентским подключением

Хотя возможные ошибки на стороне клиента довольно разнообразны и зависят от приложения, некоторые из них могут быть напрямую связаны с тем, как был запущен сервер. Условия, отличные от указанных ниже, должны быть задокументированы в соответствующем клиентском приложении.

qsql: could not connect to server: Connection refused
        Is the server running on host "server.joe.com" and accepting
        TCP/IP connections on port 5432?

Это общая ошибка «Я не могу найти сервер для связи». Выглядит как ошибка при попытке установить связь TCP/IP. Распространенная ошибка - забыть включить настройки сервера для разрешения соединений по TCP/IP.

В качестве альтернативы, при попытке соединения с локальным сервером с использованием доменных сокетов Unix вы получите:

qsql: could not connect to server: No such file or directory
        Is the server running locally and accepting
        connections on Unix domain socket "/tmp/.s.PGSQL.5432"?

Последняя строка полезна для проверки того, что клиент пытается подключиться в нужное место. Если на самом деле не работает ни один сервер, сообщение об ошибке в ядре обычно будет либо « onnection refused либо No such file or directory, важно понимать, что в этом контексте Connection refused в соединении, не означает, что сервер получил ваш запрос на соединение и отклонил его. В этом случае будет выдано другое сообщение, которое указывают на более фундаментальные проблемы, такие как отсутствие сетевого подключения.

Завершение работы сервера

Есть несколько способов выключить сервер базы данных. Вы управляете типом выключения, посылая различные сигналы основному процессу qhb.

SIGTERM Это режим Smart Shutdown. После получения сигнала SIGTERM сервер запрещает новые подключения, но позволяет существующим сеансам нормально завершать свою работу. Сервер отключается только после завершения всех сеансов. Если сервер находится в режиме горячего резервного копирования, он дополнительно ожидает, пока режим резервного копирования в перестанет быть активным. При активном режиме резервного копирования новые подключения будут по-прежнему разрешены, но только для суперпользователей (это исключение позволяет суперпользователю подключаться для завершения горячего копирования). Если сервер находится в состоянии восстановления, когда запрашивается интеллектуальное отключение, восстановление и потоковая репликация будут остановлены только после завершения всех обычных сеансов.
SIGINT Это режим быстрого отключения. Сервер запрещает новые подключения и отправляет всем существующим серверным процессам сигнал SIGTERM, что заставит их прервать свои текущие транзакции и быстро завершить работу. Затем он ожидает завершения всех серверных процессов и, наконец, сам завершает работу. Если сервер находится в режиме горячего резервного копирования, режим резервного копирования будет прерван, что сделает резервную копированию бесполезной.
SIGQUIT Это режим немедленного отключения. Сервер отправит сигнал SIGQUIT всем дочерним процессам и будет ждать их завершения. Если они не прекратятся в течение 5 секунд, им будут отправлены сигналы SIGKILL. Главный процесс сервера завершается сразу же после завершения всех дочерних процессов без выполнения обычной обработки завершения работы базы данных. Это приведет к восстановлению (путем воспроизведения журнала WAL) при следующем запуске. Рекомендуется только в чрезвычайных ситуациях.

Программа qhb_ctl предоставляет удобный интерфейс для отправки этих сигналов для завершение работы сервера. Кроме того, вы можете отправить сигнал напрямую, используя kill. PID процесса qhb можно найти с помощью программы ps или из файла qhbmaster.pid в каталоге данных. Например, чтобы сделать быстрое отключение:

$ kill -INT `head -1 /usr/local/qhb/data/qhbmaster.pid`

Важно!!!
Лучше не использовать SIGKILL для выключения сервера так как в этом случае не будет выполнено освобождение сервером разделяемой памяти и семафоров. Кроме того, SIGKILL убивает процесс qhb не позволяя ему передавать сигнал своим подпроцессам, поэтому может потребоваться также уничтожить отдельные подпроцессы вручную.

Чтобы завершить отдельный сеанс, одновременно продолжая другие сеансы, используйте pg_terminate_backend() (см. Таблицу ) или отправьте сигнал SIGTERM дочернему процессу, связанному с сеансом.

Конфигурация сервера

Есть много параметров конфигурации, которые влияют на поведение системы базы данных. В первом разделе этой главы мы опишем, как взаимодействовать с параметрами конфигурации. В последующих разделах подробно обсуждается каждый параметр.

Настройка параметров

Имена параметров и значения

Все имена параметров не чувствительны к регистру. Каждый параметр принимает значение одного из пяти типов: логическое, строковое, целое, с плавающей запятой или перечисляемое (enum). Тип определяет синтаксис для установки параметра:

Boolean: значения могут быть записаны как on, off, true, false, yes, no, 1, 0 (без учета регистра) или любым однозначным префиксом одного из них.
String: в общем случае заключайте значение в одинарные кавычки, удваивая любые одинарные кавычки внутри значения. Однако кавычки обычно можно опустить, если значение представляет собой простое число или идентификатор. (Значения, которые соответствуют ключевому слову SQL, требуют кавычек в некоторых контекстах).
Numeric (целое число и число с плавающей запятой): числовые параметры могут быть указаны в обычном формате целого числа и числа с плавающей запятой; дробные значения округляются до ближайшего целого числа, если параметр имеет целочисленный тип. Целочисленные параметры дополнительно принимают шестнадцатеричный ввод (начиная с 0x ) и восьмеричный ввод (начиная с 0), но эти форматы не могут иметь дроби. Не используйте тысячи разделителей. Кавычки не обязательны, за исключением шестнадцатеричного ввода.
Numeric with Unit: некоторые числовые параметры имеют неявную единицу, потому что они описывают количество памяти или времени. Единицей может быть байты, килобайты, блоки (обычно восемь килобайт), миллисекунды, секунды или минуты. Неукрашенное числовое значение для одной из этих настроек будет использовать единицу измерения по умолчанию, которую можно узнать из pg_settings.unit. Для удобства настройки могут быть заданы с явно заданной единицей измерения, например, ’120 ms’ для значения времени, и они будут преобразованы в любую фактическую единицу измерения параметра. Обратите внимание, что значение должно быть записано в виде строки (с кавычками), чтобы использовать эту функцию. Имя устройства чувствительно к регистру, и между числовым значением и единицей может быть пробел.
- Допустимые единицы памяти: B (байты), kB (килобайты), MB (мегабайты), GB (гигабайты) и TB (терабайты). Множитель для блоков памяти равен 1024, а не 1000.
- Допустимые единицы времени: us (микросекунды), ms (миллисекунды), s (секунды), min (минуты), h (часы) и d (дни).
Если дробное значение указано с единицей, оно будет округлено до кратного следующей меньшей единицы, если таковая имеется. Например, 30.1 GB будут преобразованы в 30822 MB не 32319628902 B Если параметр имеет целочисленный тип, окончательное округление до целого числа происходит после любого преобразования единиц.
Enumerated: параметры перечислимого типа записываются так же, как строковые параметры, но имеют ограниченный набор значений. Допустимые значения для такого параметра можно найти в pg_settings.enumvals. Перечисленные значения параметров не чувствительны к регистру.

Взаимодействие параметров через файл конфигурации

Самый фундаментальный способ установить эти параметры - отредактировать файл qhb.conf, который обычно хранится в каталоге данных. Копия по умолчанию устанавливается при инициализации каталога кластера базы данных. Пример того, как может выглядеть этот файл:

# This is a comment
log_connections = yes
log_destination = 'syslog'
search_path = '"$user", public'
shared_buffers = 128MB

В каждой строке указывается один параметр. Знак равенства между именем и значением необязателен. Пробелы незначительны (кроме как в значении параметра в кавычках), а пустые строки игнорируются. Хеш-метки (#) обозначают оставшуюся часть строки как комментарий. Значения параметров, которые не являются простыми идентификаторами или числами, должны быть заключены в одинарные кавычки. Чтобы вставить одинарную кавычку в значение параметра, напишите две кавычки (желательно) или обратную косую черту. Если файл содержит несколько записей для одного и того же параметра, все, кроме последнего, игнорируются.

Параметры, установленные таким образом, предоставляют значения по умолчанию для кластера. Настройки, видимые активными сеансами, будут этими значениями, если они не будут переопределены. В следующих разделах описываются способы, которыми администратор или пользователь могут переопределить эти значения по умолчанию.

Файл конфигурации перечитывается всякий раз, когда основной процесс сервера получает сигнал SIGHUP; этот сигнал легче всего отправить, запустив qhb_ctl reload из командной строки или вызвав функцию SQL pg_reload_conf(). Процесс основного сервера также передает этот сигнал всем запущенным в данный момент процессам сервера, так что существующие сеансы также принимают новые значения (это произойдет после того, как они выполнят любую выполняемую в настоящее время клиентскую команду). Кроме того, вы можете отправить сигнал непосредственно на один серверный процесс. Некоторые параметры могут быть установлены только при запуске сервера; любые изменения их записей в файле конфигурации будут игнорироваться до перезапуска сервера. Неверные настройки параметров в файле конфигурации также игнорируются (но регистрируются) во время обработки SIGHUP.

В дополнение к qhb.conf каталог данных QHB содержит файл qhb.auto.conf, который имеет тот же формат, что и qhb.conf но предназначен для редактирования автоматически, а не вручную. Этот файл содержит настройки, предоставленные командой ALTER SYSTEM. Этот файл читается всякий раз, когда есть qhb.conf, и его настройки действуют аналогичным образом. Настройки в qhb.auto.conf переопределяют настройки в qhb.conf.

Внешние инструменты также могут изменять qhb.auto.conf. Не рекомендуется делать это во время работы сервера, поскольку одновременная команда ALTER SYSTEM может перезаписать такие изменения. Такие инструменты могут просто добавлять новые настройки в конец, или они могут удалить дубликаты настроек и / или комментарии (как ALTER SYSTEM ).

Системное представление pg_file_settings может быть полезно для предварительного тестирования изменений в файлах конфигурации или для диагностики проблем, если сигнал SIGHUP не pg_file_settings желаемых результатов.

Взаимодействие параметров через SQL

QHB предоставляет три команды SQL для установки параметров конфигурации по умолчанию. Уже упомянутая команда ALTER SYSTEM предоставляет доступные для SQL средства изменения глобальных значений по умолчанию; это функционально эквивалентно редактированию qhb.conf. Кроме того, есть две команды, которые позволяют устанавливать значения по умолчанию для каждой базы данных или для каждой роли:

Команда ALTER DATABASE позволяет переопределять глобальные параметры для каждой базы данных.
Команда ALTER ROLE позволяет как глобальным настройкам, так и настройкам для каждой базы данных быть переопределенными пользовательскими значениями.

Значения, установленные с помощью ALTER DATABASE и ALTER ROLE, применяются только при запуске нового сеанса базы данных. Они переопределяют значения, полученные из файлов конфигурации или командной строки сервера, и составляют значения по умолчанию для оставшейся части сеанса. Обратите внимание, что некоторые параметры не могут быть изменены после запуска сервера, и поэтому не могут быть установлены с помощью этих команд (или перечисленных ниже).

После подключения клиента к базе данных QHB предоставляет две дополнительные команды SQL (и эквивалентные функции) для взаимодействия с локальными настройками конфигурации сеанса:

Команда SHOW позволяет проверить текущее значение всех параметров. Соответствующая функция - current_setting(setting_name text).
Команда SET позволяет изменять текущее значение тех параметров, которые могут быть установлены локально для сеанса; это не влияет на другие сеансы. Соответствующая функция set_config(setting_name, new_value, is_local).

Кроме того, системное представление pg_settings может использоваться для просмотра и изменения локальных значений сеанса:

Запрос этого представления аналогичен использованию SHOW ALL но предоставляет более подробную информацию. Это также более гибко, так как можно задавать условия фильтрации или объединяться с другими отношениями.
Использование UPDATE в этом представлении, в частности обновление столбца setting, эквивалентно выдаче команд SET. Например, эквивалентом

SET configuration_parameter TO DEFAULT;

является:

UPDATE pg_settings SET setting = reset_val WHERE name = 'configuration_parameter';

Взаимодействие параметров через оболочку

Помимо установки глобальных значений по умолчанию или добавления переопределений на уровне базы данных или роли, вы можете передавать настройки в QHB с помощью средств оболочки. И сервер, и клиентская библиотека libpq принимают значения параметров через оболочку.

Во время запуска сервера настройки параметров могут быть переданы команде qhb через параметр командной строки -c. Например,

qhb -c log_connections=yes -c log_destination='syslog'

Параметры, предоставляемые таким образом, переопределяют параметры, заданные с помощью qhb.conf или ALTER SYSTEM, поэтому их нельзя изменить глобально без перезапуска сервера.

При запуске клиентского сеанса через libpq настройки параметров можно указать с помощью переменной среды PGOPTIONS. Установленные таким образом настройки представляют собой значения по умолчанию для жизни сеанса, но не влияют на другие сеансы. По историческим причинам формат PGOPTIONS похож на тот, который используется при запуске команды qhb ; в частности, должен быть указан флаг -c. Например,

env PGOPTIONS="-c geqo=off -c statement_timeout=5min" psql

Другие клиенты и библиотеки могут предоставлять свои собственные механизмы через оболочку или иным образом, которые позволяют пользователю изменять настройки сеанса без непосредственного использования команд SQL.

Управление содержимым файла конфигурации

QHB предоставляет несколько функций для разбиения сложных файлов qhb.conf на вложенные файлы. Эти функции особенно полезны при управлении несколькими серверами со связанными, но не идентичными конфигурациями.

В дополнение к отдельным настройкам параметров файл qhb.conf может содержать директивы include, которые определяют другой файл для чтения и обработки, как если бы он был вставлен в файл конфигурации на данном этапе. Эта функция позволяет разделить файл конфигурации на физически отдельные части. Директивы include просто выглядят так:

include ’filename’

Если имя файла не является абсолютным путем, оно берется относительно каталога, содержащего ссылочный файл конфигурации. Включения могут быть вложенными.

Существует также директива include_if_exists, которая действует так же, как директива include, за исключением случаев, когда указанный файл не существует или не может быть прочитан. Обычное include будет считать это условием ошибки, но include_if_exists просто регистрирует сообщение и продолжает обрабатывать файл конфигурации, на который ссылаются.

Файл qhb.conf также может содержать директивы include_dir, которые указывают весь каталог файлов конфигурации, который нужно включить. Это выглядит как

include_dir 'directory'

Неабсолютные имена каталогов берутся относительно каталога, содержащего ссылочный файл конфигурации. В указанном каталоге будут включены только файлы, не являющиеся каталогами, имена которых заканчиваются суффиксом .conf. Имена файлов, начинающиеся с cимвола . также игнорируется, чтобы избежать ошибок, поскольку такие файлы скрыты на некоторых платформах. Несколько файлов в каталоге include обрабатываются в порядке имен файлов (в соответствии с правилами языка C, т.е. цифрами перед буквами и заглавными буквами перед строчными).

Включаемые файлы или каталоги могут использоваться для логического разделения частей конфигурации базы данных, вместо того, чтобы иметь один большой файл qhb.conf. Рассмотрим компанию с двумя серверами баз данных, каждый с разным объемом памяти. Есть вероятные элементы конфигурации, которые будут совместно использоваться для таких вещей, как ведение журнала. Но связанные с памятью параметры на сервере будут различаться между двумя. И там могут быть специфические настройки сервера тоже. Один из способов справиться с этой ситуацией - разбить пользовательские изменения конфигурации вашего сайта на три файла. Вы можете добавить это в конец вашего файла qhb.conf чтобы включить их:

include 'shared.conf'
include 'memory.conf'
include 'server.conf'

Все системы будут иметь одинаковый shared.conf. Каждый сервер с определенным объемом памяти может использовать один и тот же memory.conf; у вас может быть один для всех серверов с 8 ГБ ОЗУ, другой для тех, у кого 16 ГБ. И, наконец, server.conf может содержать действительно специфическую для сервера информацию о конфигурации.

Другая возможность - создать каталог с файлами конфигурации и поместить эту информацию в файлы. Например, на каталог conf.d можно ссылаться в конце qhb.conf :

include_dir 'conf.d'

Затем вы можете назвать файлы в каталоге conf.d следующим образом:

00shared.conf
01memory.conf
02server.conf

Это соглашение об именах устанавливает четкий порядок загрузки этих файлов. Это важно, потому что будет использоваться только последний параметр, обнаруженный для определенного параметра, когда сервер читает файлы конфигурации. В этом примере что-то, установленное в conf.d/02server.conf, переопределит значение, установленное в .d/01memory.conf.

Вместо этого вы могли бы использовать этот подход для описательного именования файлов:

00shared.conf
01memory-8GB.conf
02server-foo.conf

Такое расположение дает уникальное имя для каждого варианта файла конфигурации. Это может помочь устранить неоднозначность, когда конфигурации нескольких серверов хранятся в одном месте, например в репозитории контроля версий. (Хранение файлов конфигурации базы данных под управлением версиями - это еще одна полезная практика).

Расположение файлов

В дополнение к уже упомянутому файлу qhb.conf QHB использует два других редактируемых вручную файла конфигурации, которые управляют аутентификацией клиента. По умолчанию все три файла конфигурации хранятся в каталоге данных кластера базы данных. Параметры, описанные в этом разделе, позволяют размещать файлы конфигурации в другом месте. (Это может упростить администрирование. В частности, зачастую проще обеспечить правильное резервное копирование файлов конфигурации, если они хранятся отдельно).

Параметры расположения файлов конфигурации

data_directory (string)

Определяет основной файл конфигурации сервера (обычно называется qhb.conf). Этот параметр можно установить только при запуске сервера.

config_file (string)

Определяет основной файл конфигурации сервера (обычно называется qhb.conf). Этот параметр можно установить только в командной строке .

hba_file (string)

Указывает файл конфигурации для аутентификации на основе хоста (обычно называется qhb_hba.conf). Этот параметр можно установить только при запуске сервера.

external_pid_file (string)

Задает имя дополнительного файла идентификатора процесса (PID), который сервер должен создать для использования программами администрирования сервера. Этот параметр можно установить только при запуске сервера.

При установке по умолчанию ни один из вышеперечисленных параметров не устанавливается явно. Вместо этого каталог данных указывается параметром командной строки -D или переменной среды PGDATA, и все файлы конфигурации находятся в каталоге данных.

Если вы хотите сохранить файлы конфигурации в другом месте, кроме каталога данных, параметр командной строки qhb -D или переменная среды PGDATA должны указывать на каталог, содержащий файлы конфигурации, а параметр data_directory должен быть установлен в qhb.conf (или в командная строка), чтобы показать, где на самом деле находится каталог данных. Обратите внимание, что data_directory переопределяет -D и PGDATA для расположения каталога данных, но не для расположения файлов конфигурации.

При желании вы можете указать имена файлов конфигурации и их расположение по отдельности, используя параметры config_file, hba_file и/или ident_file. config_file может быть указан только в командной строке qhb, но остальные могут быть установлены в основном файле конфигурации. Если все три параметра плюс data_directory установлены явно, указывать -D или PGDATA не обязательно.

При установке любого из этих параметров относительный путь будет интерпретироваться относительно каталога, в котором запущен qhb.

Соединения и Аутентификация

Настройки соединения

listen_addresses (string)

Указывает адрес (а) TCP / IP, на котором сервер должен прослушивать соединения от клиентских приложений. Значение принимает форму разделенного запятыми списка имен хостов и / или числовых IP-адресов. Специальная запись * соответствует всем доступным IP-интерфейсам. Запись 0.0.0.0 позволяет прослушивать все адреса IPv4 и :: позволяет прослушивать все адреса IPv6. Если список пуст, сервер вообще не прослушивает ни один IP-интерфейс, и в этом случае для подключения к нему можно использовать только сокеты Unix-домена. Значением по умолчанию является localhost, что позволяет устанавливать только локальные « петлевые » соединения TCP / IP. В то время как аутентификация клиента (глава 20) позволяет детально контролировать, кто может получить доступ к серверу, listen_addresses контролирует, какие интерфейсы принимают попытки соединения, что может помочь предотвратить повторные запросы злонамеренного соединения на незащищенных сетевых интерфейсах. Этот параметр можно установить только при запуске сервера.

port (integer)

TCP-порт, который прослушивает сервер; 5432 по умолчанию. Обратите внимание, что один и тот же номер порта используется для всех IP-адресов, которые прослушивает сервер. Этот параметр можно установить только при запуске сервера.

max_connections (integer)

Определяет максимальное количество одновременных подключений к серверу базы данных. По умолчанию обычно используется 100 соединений, но может быть и меньше, если настройки ядра не будут его поддерживать (как определено во время initdb). Этот параметр можно установить только при запуске сервера.
При запуске резервного сервера вы должны установить для этого параметра то же или более высокое значение, чем на главном сервере. В противном случае запросы не будут разрешены на резервном сервере.

superuser_reserved_connections (integer)

Определяет количество « слотов » для соединений, которые зарезервированы для соединений суперпользователями QHB. В большинстве случаев соединения max_connections могут быть активными одновременно. Всякий раз, когда число активных одновременных подключений составляет не менее max_connections минус superuser_reserved_connections, новые подключения будут приниматься только для суперпользователей, и новые подключения репликации не будут приниматься.
Значение по умолчанию - три соединения. Значение должно быть меньше, чем max_connections. Этот параметр можно установить только при запуске сервера.

unix_socket_directories (string)

Указывает каталог сокетов Unix-домена, в которых сервер должен прослушивать соединения от клиентских приложений. Можно создать несколько сокетов, перечислив несколько каталогов, разделенных запятыми. Пробелы между записями игнорируются; окружите имя каталога двойными кавычками, если вам нужно включить в имя пробел или запятые. Пустое значение указывает, что прослушивание не происходит ни в одном из сокетов Unix-домена, и в этом случае для подключения к серверу могут использоваться только сокеты TCP / IP. Значением по умолчанию обычно является /tmp, но его можно изменить во время сборки. Этот параметр можно установить только при запуске сервера.
В дополнение к самому файлу сокета, который называется .s.PGSQL. nnnn .s.PGSQL. nnnn где nnnn - номер порта сервера, обычный файл с именем .s.PGSQL. nnnn .lock .s.PGSQL. nnnn .lock будет создан в каждом из каталогов unix_socket_directories. Ни один файл не должен быть удален вручную.

unix_socket_group (string)

Устанавливает группу-владельца сокетов Unix-домена. (Владельцем пользователя сокетов всегда является пользователь, запускающий сервер). В сочетании с параметром unix_socket_permissions это может использоваться в качестве дополнительного механизма контроля доступа для соединений Unix-домена. По умолчанию это пустая строка, которая использует группу по умолчанию пользователя сервера. Этот параметр можно установить только при запуске сервера.

unix_socket_permissions (integer)

Устанавливает права доступа для сокетов Unix-домена. Сокеты домена Unix используют обычный набор разрешений файловой системы Unix. Ожидается, что значением параметра будет числовой режим, указанный в формате, принятом системными вызовами chmod и umask. (Для использования обычного восьмеричного формата число должно начинаться с 0 (ноль)).
Разрешения по умолчанию - 0777, что означает, что любой может подключиться. Разумными альтернативами являются 0770 (только пользователь и группа, см. Также unix_socket_group ) и 0700 (только пользователь). (Обратите внимание, что для сокета Unix-домена только права на запись имеют значение, поэтому нет смысла устанавливать или отзывать разрешения на чтение или выполнение).

Этот параметр можно установить только при запуске сервера.
Этот параметр не имеет отношения к системам, особенно Solaris с Solaris 10, которые полностью игнорируют разрешения сокетов. Там можно достичь аналогичного эффекта, указав unix_socket_directories на каталог с разрешением поиска, ограниченным желаемой аудиторией. Этот параметр также не имеет значения в Windows, где нет сокетов Unix-домена.

bonjour (boolean)

Позволяет рекламировать существование сервера через Bonjour. По умолчанию выключено. Этот параметр можно установить только при запуске сервера.

bonjour_name (string)

Указывает имя службы Bonjour. Имя компьютера используется, если для этого параметра задана пустая строка ” (по умолчанию). Этот параметр игнорируется, если сервер не был скомпилирован с поддержкой Bonjour. Этот параметр можно установить только при запуске сервера.

tcp_keepalives_idle (integer)

Задает время бездействия сети, по истечении которого операционная система должна отправлять клиенту сообщение поддержки активности TCP. Если это значение указано без единиц измерения, оно принимается за секунды. Значение 0 (по умолчанию) выбирает операционную систему по умолчанию. Этот параметр поддерживается только в системах, которые поддерживают TCP_KEEPIDLE или эквивалентный параметр сокета, и в Windows; в других системах оно должно быть равно нулю. В сеансах, подключенных через сокет Unix-домена, этот параметр игнорируется и всегда читается как ноль.

tcp_keepalives_interval (integer)

Задает время, по истечении которого сообщение подтверждения активности TCP, которое не было подтверждено клиентом, должно быть повторно передано. Если это значение указано без единиц измерения, оно принимается за секунды. Значение 0 (по умолчанию) выбирает операционную систему по умолчанию. Этот параметр поддерживается только в системах, которые поддерживают TCP_KEEPINTVL или эквивалентный параметр сокета, и в Windows; в других системах оно должно быть равно нулю. В сеансах, подключенных через сокет Unix-домена, этот параметр игнорируется и всегда читается как ноль.

tcp_keepalives_count (integer)

Задает количество сообщений поддержки активности TCP, которые могут быть потеряны до того, как соединение сервера с клиентом будет считаться разорванным. Значение 0 (по умолчанию) выбирает операционную систему по умолчанию. Этот параметр поддерживается только в системах, которые поддерживают TCP_KEEPCNT или эквивалентную опцию сокета; в других системах оно должно быть равно нулю. В сеансах, подключенных через сокет Unix-домена, этот параметр игнорируется и всегда читается как ноль.

tcp_user_timeout (integer)

Задает время, в течение которого передаваемые данные могут оставаться неподтвержденными до принудительного закрытия TCP-соединения. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение 0 (по умолчанию) выбирает операционную систему по умолчанию. Этот параметр поддерживается только в системах, которые поддерживают TCP_USER_TIMEOUT ; в других системах оно должно быть равно нулю. В сеансах, подключенных через сокет Unix-домена, этот параметр игнорируется и всегда читается как ноль.

Аутентификация

authentication_timeout (integer)

Максимальное время, необходимое для завершения аутентификации клиента. Если потенциальный клиент не завершил протокол аутентификации за это время, сервер закрывает соединение. Это не позволяет зависшим клиентам занимать соединение бесконечно. Если это значение указано без единиц измерения, оно принимается за секунды. Значение по умолчанию составляет одну минуту (1m). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

password_encryption (enum)

Если в CREATE ROLE или ALTER ROLE указан пароль, этот параметр определяет алгоритм, который будет использоваться для шифрования пароля. Значением по умолчанию является md5, в котором пароль хранится в виде хэша MD5 (также допускается on качестве псевдонима для md5 ). Установка этого параметра в scram-sha-256 зашифрует пароль с помощью SCRAM-SHA-256.
Обратите внимание, что старые клиенты могут не поддерживать механизм аутентификации SCRAM и, следовательно, не работать с паролями, зашифрованными с помощью SCRAM-SHA-256.

krb_server_keyfile (string)

Устанавливает расположение файла ключа сервера Kerberos. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

krb_caseins_users (boolean)

Устанавливает, должны ли имена пользователей GSSAPI обрабатываться без учета регистра. По умолчанию off (чувствительно к регистру). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

db_user_namespace (boolean)

Этот параметр включает имена пользователей для каждой базы данных. По умолчанию он выключен. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Если это включено, вы должны создавать пользователей как username@dbname. Когда username передается подключающимся клиентом, @ и имя базы данных добавляются к имени пользователя, и это специфичное для базы данных имя пользователя ищется сервером. Обратите внимание, что когда вы создаете пользователей с именами, содержащими @ в среде SQL, вам нужно будет указывать имя пользователя в кавычках.
Если этот параметр включен, вы все равно можете создавать обычных глобальных пользователей. Просто добавьте @ при указании имени пользователя в клиенте, например, joe@. Символ @ будет удален до того, как сервер найдет имя пользователя.
db_user_namespace вызывает различия в представлении имени пользователя клиента и сервера. Проверка подлинности всегда выполняется с именем пользователя сервера, поэтому методы проверки подлинности должны быть настроены для имени пользователя сервера, а не клиента. Поскольку md5 использует имя пользователя в качестве соли как на клиенте, так и на сервере, md5 нельзя использовать с db_user_namespace.

SSL

ssl (boolean)

Включает SSL- соединения. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию off.

ssl_ca_file (string)

Указывает имя файла, содержащего центр сертификации сервера SSL (CA). Относительные пути относятся к каталогу данных. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию пусто, что означает, что файл CA не загружен, и проверка сертификата клиента не выполняется.

ssl_cert_file (string)

Указывает имя файла, содержащего сертификат сервера SSL. Относительные пути относятся к каталогу данных. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию это server.crt.

ssl_crl_file (string)

Указывает имя файла, содержащего список отзыва сертификатов сервера SSL (CRL). Относительные пути относятся к каталогу данных. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию пусто, что означает, что файл CRL не загружен.

ssl_key_file (string)

Задает имя файла, содержащего закрытый ключ сервера SSL. Относительные пути относятся к каталогу данных. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию это server.key.

ssl_ciphers (string)

Задает список наборов шифров SSL, которые разрешено использовать для защищенных соединений. См. Страницу руководства по шифрам в пакете OpenSSL для ознакомления с синтаксисом этого параметра и списком поддерживаемых значений. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. Значением по умолчанию является HIGH:MEDIUM:+3DES:!aNULL. По умолчанию это обычно разумный выбор, если у вас нет особых требований к безопасности.
Объяснение значения по умолчанию:
- HIGH - Наборы шифров, которые используют шифры из группы HIGH (например, AES, Camellia, 3DES)
- MEDIUM - Наборы шифров, которые используют шифры из группы MEDIUM (например, RC4, SEED)
- +3DES - Порядок OpenSSL по умолчанию для HIGH проблематичен, потому что он заказывает 3DES выше, чем AES128. Это неправильно, потому что 3DES предлагает меньше безопасности, чем AES128, и это также намного медленнее. +3DES переупорядочивает его после всех других шифров HIGH и MEDIUM.
- !aNULL - Отключает анонимные наборы шифров, которые не выполняют аутентификацию. Такие комплекты шифров уязвимы для атак «человек посередине» и поэтому не должны использоваться.
Доступные подробности комплекта шифров зависят от версии OpenSSL. Используйте команду openssl ciphers -v 'HIGH:MEDIUM:+3DES:!aNULL' чтобы увидеть фактические данные для текущей установленной версии OpenSSL. Обратите внимание, что этот список фильтруется во время выполнения в зависимости от типа ключа сервера.

ssl_prefer_server_ciphers (boolean)

Указывает, следует ли использовать настройки шифрования SSL сервера, а не настройки клиента. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию включено.

ssl_ecdh_curve (string)

Задает имя кривой для использования в обмене ключами ECDH. Он должен поддерживаться всеми подключенными клиентами. Это не обязательно должна быть та же кривая, которая используется ключом эллиптической кривой сервера. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. Значение по умолчанию - prime256v1.
Имена OpenSSL для наиболее распространенных кривых: prime256v1 (NIST P-256), secp384r1 (NIST P-384), secp521r1 (NIST P-521). Полный список доступных кривых можно openssl ecparam -list_curves с помощью команды openssl ecparam -list_curves. Не все из них можно использовать в TLS.

ssl_min_protocol_version (enum)

Устанавливает минимальную версию протокола SSL / TLS для использования. Допустимые значения: TLSv1, TLSv1.1, TLSv1.2, TLSv1.3. Старые версии библиотеки OpenSSL не поддерживают все значения; ошибка будет возникать, если выбрана неподдерживаемая настройка. Версии протокола до TLS 1.0, а именно версии 2 и 3 SSL, всегда отключены.
По умолчанию используется TLSv1, в основном для поддержки старых версий библиотеки OpenSSL. Возможно, вы захотите установить более высокое значение, если все программные компоненты могут поддерживать более новые версии протокола.

ssl_max_protocol_version (enum)

Устанавливает максимальную версию протокола SSL / TLS для использования. Допустимые значения такие же, как для ssl_min_protocol_version, с добавлением пустой строки, которая допускает любую версию протокола. По умолчанию разрешена любая версия. Установка максимальной версии протокола в основном полезна для тестирования или если у некоторых компонентов возникают проблемы при работе с более новым протоколом.

ssl_dh_params_file (string)

Указывает имя файла, содержащего параметры Диффи-Хеллмана, используемые для так называемого эфемерного семейства DH-шифров SSL. По умолчанию пусто, и в этом случае используются скомпилированные по умолчанию параметры DH. Использование пользовательских параметров DH уменьшает воздействие, если злоумышленнику удается взломать хорошо известные скомпилированные параметры DH. Вы можете создать свой собственный файл параметров DH с помощью команды openssl dhparam -out dhparams.pem 2048.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

ssl_passphrase_command (string)

Устанавливает внешнюю команду, которая будет вызываться, когда требуется получить ключевую фразу для расшифровки файла SSL, такого как закрытый ключ. По умолчанию этот параметр пуст, что означает, что используется встроенный механизм подсказок.
Команда должна распечатать парольную фразу на стандартный вывод и выйти с кодом 0. В значении параметра %p заменяется строкой приглашения. (Напишите %% для литерала %). Обратите внимание, что строка приглашения, вероятно, будет содержать пробелы, поэтому убедитесь, что в ней указаны соответствующие кавычки. Единственная новая строка удаляется с конца вывода, если она есть.
На самом деле команда не должна запрашивать у пользователя пароль. Он может прочитать его из файла, получить его из цепочки для ключей или подобного. Пользователь сам должен убедиться, что выбранный механизм надежно защищен.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

ssl_passphrase_command_supports_reload (boolean)

Этот параметр определяет, будет ли команда passphrase, установленная ssl_passphrase_comman, также вызываться во время перезагрузки конфигурации, если файл ключа нуждается в парольной фразе. Если этот параметр отключен (по умолчанию), то ssl_passphrase_command будет игнорироваться во время перезагрузки, и конфигурация SSL не будет перезагружаться, если требуется пароль. Этот параметр подходит для команды, для запроса которой требуется TTY, который может быть недоступен во время работы сервера. Установка этого параметра в on может быть целесообразной, если, например, пароль получен из файла.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Потребление ресурсов

Память

shared_buffers (integer)

Устанавливает объем памяти, используемый сервером базы данных для буферов общей памяти. Значение по умолчанию обычно составляет 128 мегабайт (128MB), но может быть меньше, если настройки ядра не будут его поддерживать (как определено во время initdb). Этот параметр должен быть не менее 128 килобайт. Тем не менее, настройки, значительно превышающие минимальные, обычно необходимы для хорошей производительности. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. (Значения BLCKSZ от значений по BLCKSZ изменяют минимальное значение). Этот параметр можно установить только при запуске сервера.
Если у вас есть выделенный сервер базы данных с 1 ГБ или более ОЗУ, разумное начальное значение для shared_buffers составляет 25% памяти в вашей системе. Существуют некоторые рабочие нагрузки, в которых эффективны даже большие настройки для shared_buffers, но поскольку QHB также опирается на кэш операционной системы, маловероятно, что выделение более 40% ОЗУ для shared_buffers будет работать лучше, чем меньшее количество. Большие настройки для shared_buffers обычно требуют соответствующего увеличения max_wal_size, чтобы распространить процесс записи большого количества новых или измененных данных на более длительный период времени.
В системах с менее чем 1 ГБ ОЗУ необходим меньший процент ОЗУ, чтобы оставить достаточно места для операционной системы.

huge_pages (enum)

Определяет, запрашиваются ли огромные страницы для основной области общей памяти. Допустимые значения: try (по умолчанию), on и off. Если huge_pages настроили try huge_pages, сервер попытается запросить огромные страницы, но в случае сбоя вернется к huge_pages по умолчанию. При on, запрос больших страниц будет препятствовать запуску сервера. С off огромные страницы не будут запрашиваться.
В настоящее время этот параметр поддерживается только в Linux. Эта настройка игнорируется в других системах, если задана try.
Использование огромных страниц приводит к уменьшению таблиц страниц и сокращению затрат времени ЦП на управление памятью, что повышает производительность.
Обратите внимание, что этот параметр влияет только на основную область общей памяти. Операционные системы, такие как Linux, FreeBSD и Illumos, также могут автоматически использовать огромные страницы (также известные как « супер » или « большие » страницы) для обычного распределения памяти без явного запроса QHB. В Linux это называется « прозрачные огромные страницы » (ТНР). Известно, что эта функция может привести к снижению производительности QHB для некоторых пользователей в некоторых версиях Linux, поэтому ее использование в настоящее время не рекомендуется (в отличие от явного использования huge_pages).

temp_buffers (integer)

Устанавливает максимальный объем памяти, используемый для временных буферов в каждом сеансе базы данных. Это локальные буферы сеанса, используемые только для доступа к временным таблицам. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. По умолчанию используется восемь мегабайт (8MB). (Если BLCKSZ не равен 8 КБ, значение по умолчанию масштабируется пропорционально ему). Этот параметр можно изменить в отдельных сеансах, но только перед первым использованием временных таблиц в сеансе; Последующие попытки изменить значение не будут влиять на этот сеанс.
Сеанс будет распределять временные буферы по мере необходимости до предела, заданного temp_buffers. Стоимость установки большого значения в сеансах, которые на самом деле не нуждаются во многих временных буферах, составляет только дескриптор буфера, или около 64 байтов, за приращение в temp_buffers. Однако, если буфер фактически используется, для него будут использованы дополнительные 8192 байта (или, как BLCKSZ байты BLCKSZ).

max_prepared_transactions (integer)

Устанавливает максимальное количество транзакций, которые могут одновременно находиться в « подготовленном » состоянии (см. PREPARE TRANSACTION ). Установка этого параметра в ноль (по умолчанию) отключает функцию подготовленной транзакции. Этот параметр можно установить только при запуске сервера.
Если вы не планируете использовать подготовленные транзакции, этот параметр должен быть установлен на ноль, чтобы предотвратить случайное создание подготовленных транзакций. Если вы используете подготовленные транзакции, вы, вероятно, захотите, чтобы max_prepared_transactions был по крайней мере таким же большим, как max_connections, чтобы у каждого сеанса могла быть ожидающая подготовленная транзакция.
При запуске резервного сервера вы должны установить для этого параметра то же или более высокое значение, чем на главном сервере. В противном случае запросы не будут разрешены на резервном сервере.

work_mem (integer)

Устанавливает максимальный объем памяти, который будет использоваться операцией запроса (такой как сортировка или хеш-таблица) перед записью во временные файлы на диске. Если это значение указано без единиц измерения, оно принимается за килобайты. Значение по умолчанию составляет четыре мегабайта (4MB). Обратите внимание, что для сложного запроса несколько операций сортировки или хеширования могут выполняться параллельно; каждой операции будет разрешено использовать столько памяти, сколько указано в этом значении, прежде чем она начнет записывать данные во временные файлы. Кроме того, несколько запущенных сеансов могут выполнять такие операции одновременно. Следовательно, общая используемая память может многократно превышать значение work_mem ; этот факт необходимо учитывать при выборе значения. Операции сортировки используются для ORDER BY, DISTINCT и объединений слиянием. Хеш-таблицы используются в хеш-соединениях, агрегации на основе хеша и обработке подзапросов IN основе хеша.

maintenance_work_mem (integer)

Задает максимальный объем памяти, который будет использоваться операциями обслуживания, такими как VACUUM, CREATE INDEX и ALTER TABLE ADD FOREIGN KEY. Если это значение указано без единиц измерения, оно принимается за килобайты. По умолчанию это 64 мегабайта (64MB). Поскольку только одна из этих операций может быть выполнена за один раз сеансом базы данных, и у установки обычно нет многих из них, работающих одновременно, можно безопасно установить это значение значительно больше, чем work_mem. Большие настройки могут повысить производительность для очистки и восстановления дампов базы данных.
Обратите внимание, что при запуске autovacuum, до времени autovacuum_max_workers эта память может быть выделена, поэтому будьте осторожны, чтобы не установить слишком высокое значение по умолчанию. Это может быть полезно для контроля, отдельно устанавливая autovacuum_work_mem.

autovacuum_work_mem (integer)

Указывает максимальный объем памяти, который будет использоваться каждым рабочим процессом автоочистки. Если это значение указано без единиц измерения, оно принимается за килобайты. По умолчанию используется значение -1, указывающее, что вместо этого следует использовать значение maintenance_work_mem. Этот параметр не влияет на поведение VACUUM при запуске в других контекстах.

max_stack_depth (integer)

Задает максимальную безопасную глубину стека выполнения сервера. Идеальным параметром для этого параметра является фактический предел размера стека, установленный ядром (установленный ulimit -s или локальным эквивалентом), за вычетом запаса прочности в мегабайте или около того. Запас безопасности необходим, потому что глубина стека проверяется не в каждой подпрограмме на сервере, а только в ключевых потенциально-рекурсивных подпрограммах. Если это значение указано без единиц измерения, оно принимается за килобайты. Значение по умолчанию составляет два мегабайта (2MB), что является консервативно небольшим и вряд ли приведет к сбою. Однако он может быть слишком маленьким, чтобы разрешить выполнение сложных функций. Только суперпользователи могут изменять эту настройку.
Установка max_stack_depth выше фактического лимита ядра будет означать, что убегающая рекурсивная функция может привести к сбою отдельного внутреннего процесса. На платформах, где QHB может определить ограничение ядра, сервер не допустит, чтобы для этой переменной было установлено небезопасное значение. Однако не все платформы предоставляют информацию, поэтому при выборе значения рекомендуется соблюдать осторожность.

shared_memory_type (enum)

Определяет реализацию совместно используемой памяти, которую сервер должен использовать для основной области совместно используемой памяти, которая содержит совместно используемые буферы QHB и другие совместно используемые данные. Возможные значения: mmap (для анонимной разделяемой памяти, выделенной с помощью mmap ), sysv (для разделяемой памяти System V, выделенной с помощью shmget ). Не все значения поддерживаются на всех платформах; первая поддерживаемая опция используется по умолчанию для этой платформы. Использование опции sysv, которая не используется по умолчанию на какой-либо платформе, обычно не рекомендуется, потому что обычно для нее требуются нестандартные настройки ядра для больших выделений .

dynamic_shared_memory_type (enum)

Определяет реализацию динамической разделяемой памяти, которую должен использовать сервер. Возможные значения: posix (для разделяемой памяти POSIX, выделенной с помощью shm_open ), sysv (для разделяемой памяти System V, выделенной с помощью shmget), windows (для разделяемой памяти Windows) и mmap (для имитации разделяемой памяти с использованием отображенных в памяти файлов, хранящихся в данных каталог). Не все значения поддерживаются на всех платформах; первая поддерживаемая опция используется по умолчанию для этой платформы. Использование параметра mmap, который не используется по умолчанию на любой платформе, обычно не рекомендуется, поскольку операционная система может многократно записывать измененные страницы на диск, увеличивая нагрузку на ввод-вывод системы; однако это может быть полезно для отладки, когда каталог pg_dynshmem хранится на диске RAM, или когда другие средства общей памяти недоступны.

Диск

temp_file_limit (integer)

Задает максимальный объем дискового пространства, который процесс может использовать для временных файлов, таких как временные файлы сортировки и хэширования, или файл хранилища для удерживаемого курсора. Транзакция, пытающаяся превысить этот лимит, будет отменена. Если это значение указано без единиц измерения, оно принимается за килобайты. -1 (по умолчанию) означает отсутствие ограничений. Только суперпользователи могут изменять эту настройку.
Этот параметр ограничивает общее пространство, используемое в любой момент всеми временными файлами, используемыми данным процессом QHB. Следует отметить, что дисковое пространство, используемое для явных временных таблиц, в отличие от временных файлов, используемых за кулисами при выполнении запросов, не учитывается в этом ограничении.

Использование ресурсов ядра

max_files_per_process (integer)

Устанавливает максимальное количество одновременно открытых файлов, разрешенное для каждого подпроцесса сервера. По умолчанию используется тысяча файлов. Если ядро применяет безопасный лимит для каждого процесса, вам не нужно беспокоиться об этом параметре. Но на некоторых платформах (особенно в большинстве систем BSD) ядро позволяет отдельным процессам открывать гораздо больше файлов, чем может реально поддерживать система, если все процессы пытаются открыть такое количество файлов. Если вы обнаружите, что видите « Слишком много открытых файлов », попробуйте уменьшить этот параметр. Этот параметр можно установить только при запуске сервера.

Определение предела стоимости работы процесса очистки

Во время выполнения команд VACUUM и ANALYZE система поддерживает внутренний счетчик, который отслеживает оценочную стоимость различных выполняемых операций ввода-вывода. Когда накопленная стоимость достигает предела (указанного в vacuum_cost_limit), процесс, выполняющий операцию, будет vacuum_cost_limit в спящем режиме в течение короткого периода времени, как указано в vacuum_cost_delay. Затем он сбросит счетчик и продолжит выполнение.

Цель этой функции - позволить администраторам уменьшить влияние ввода / вывода этих команд на одновременную работу базы данных. Во многих ситуациях не важно, чтобы команды обслуживания, такие как VACUUM и ANALYZE быстро заканчивались; однако, как правило, очень важно, чтобы эти команды не оказывали значительного влияния на способность системы выполнять другие операции с базой данных. Задержка вакуума, основанная на затратах, позволяет администраторам достичь этого.

Эта функция по умолчанию отключена для команд VACUUM введенных вручную. Чтобы включить его, установите для переменной vacuum_cost_delay ненулевое значение.

vacuum_cost_delay (floating point)

Время, в течение которого процесс будет находиться в спящем режиме после превышения предела стоимости. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию равно нулю, что отключает функцию задержки вакуума на основе стоимости. Положительные значения позволяют производить VACUUM на основе затрат.
При использовании vacuum, основанного на стоимости, подходящие значения для vacuum_cost_delay обычно довольно малы, возможно, менее 1 миллисекунды. Несмотря на то, что в параметре vacuum_cost_delay можно задать значения в долях миллисекунды, такие задержки могут не измеряться точно на старых платформах. На таких платформах увеличение расхода ресурсов VACUUM превышающее то, что вы получаете на 1 мс, потребует изменения других параметров стоимости вакуума. Тем не менее, вы должны сохранять vacuum_cost_delay таким же небольшим, как ваша платформа будет постоянно измерять; большие задержки не помогают.

vacuum_cost_page_hit (integer)

Ориентировочная стоимость очистки буфера в общем буферном кеше. Он представляет собой стоимость блокировки пула буферов, поиска общей хеш-таблицы и сканирования содержимого страницы. Значением по умолчанию является один.

vacuum_cost_page_miss (integer)

Ориентировочная стоимость очистки буфера, который должен быть прочитан с диска. Это представляет собой попытку заблокировать пул буферов, найти общую хеш-таблицу, прочитать нужный блок с диска и просканировать его содержимое. Значение по умолчанию 10.

vacuum_cost_page_dirty (integer)

Ориентировочная стоимость взимается, когда вакуум модифицирует блок, который был ранее чистым. Он представляет собой дополнительный ввод / вывод, необходимый для повторной очистки грязного блока на диске. Значением по умолчанию является 20.

vacuum_cost_limit (integer)

Накопленная стоимость, которая заставит процесс уборки спать. Значение по умолчанию составляет 200.

Заметка
Существуют определенные операции, которые удерживают критические блокировки и поэтому должны завершаться как можно быстрее. Вакуумные задержки на основе затрат не возникают во время таких операций. Поэтому возможно, что стоимость накапливается намного выше, чем указанный предел. Чтобы избежать бесполезно длительных задержек в таких случаях, фактическая задержка рассчитывается как vacuum_cost_delay * accumulated_balance / vacuum_cost_limit с максимумом vacuum_cost_delay * 4.

Фоновая запись

Существует отдельный серверный процесс, называемый фоновым модулем записи, функция которого заключается в выдаче записей «грязных» (новых или измененных) общих буферов. Он записывает общие буферы, поэтому серверные процессы обрабатывают пользовательские запросы редко или никогда не должны ждать, пока произойдет запись. Тем не менее, средство записи в фоновом режиме приводит к общему увеличению нагрузки ввода-вывода, поскольку в противном случае страница с многократным загрязнением могла бы быть записана только один раз за интервал контрольной точки, средство записи в фоновом режиме может записать ее несколько раз, так как она загрязнена за тот же интервал, Параметры, обсуждаемые в этом подразделе, могут использоваться для настройки поведения для местных нужд.

bgwriter_delay (integer)

Определяет задержку между раундами активности для фонового писателя. В каждом раунде писатель выдает записи для некоторого количества грязных буферов (управляемых следующими параметрами). Затем он спит по длине bgwriter_delay и повторяется. Когда в пуле буферов нет грязных буферов, он переходит в более длительный режим bgwriter_delay независимо от bgwriter_delay. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 200 миллисекунд (200 200ms). Обратите внимание, что во многих системах эффективное разрешение задержек сна составляет 10 миллисекунд; установка значения bgwriter_delay, не кратного 10, может иметь те же результаты, что и установка следующего более высокого значения, кратного 10. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

bgwriter_lru_maxpages (integer)

В каждом раунде фоновый писатель будет записывать не более этого количества буферов. Установка этого значения в ноль отключает фоновую запись. (Обратите внимание, что контрольные точки, которые управляются отдельным выделенным вспомогательным процессом, не затрагиваются). Значение по умолчанию - 100 буферов. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

bgwriter_lru_multiplier (с floating point)

Количество грязных буферов, записанных в каждом раунде, основано на количестве новых буферов, которые были необходимы серверным процессам во время последних раундов. Средняя потребность за последнее время умножается на bgwriter_lru_multiplier чтобы получить оценку количества буферов, которое потребуется в следующем раунде. Грязные буферы записываются до тех пор, пока не появится столько чистых, многоразовых буферов. (Тем не менее, не более чем буферы bgwriter_lru_maxpages будут записываться за раунд). Таким образом, настройка 1.0 представляет « своевременную » политику записи именно того количества буферов, которое, по прогнозам, необходимо. Большие значения обеспечивают некоторую защиту от всплесков спроса, в то время как меньшие значения преднамеренно оставляют записи для серверных процессов. По умолчанию это 2.0. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

bgwriter_flush_after (integer)

Всякий раз, когда фоновое устройство записи записывает больше этого объема данных, попытайтесь заставить ОС выполнить эти записи в основное хранилище. Это ограничит количество «грязных» данных в кеше страниц ядра, уменьшая вероятность зависаний при fsync в конце контрольной точки или когда ОС записывает данные большими пакетами в фоновом режиме. Зачастую это приводит к значительному снижению задержки транзакций, но также есть некоторые случаи, особенно с рабочими нагрузками, которые больше, чем shared_buffers, но меньше, чем кеш страниц ОС, где производительность может снизиться. Этот параметр может не повлиять на некоторые платформы. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. Допустимый диапазон: от 0, что отключает принудительную обратную запись, до 2MB. По умолчанию 512kB в Linux, 0 другом месте. (Если BLCKSZ не равен 8 КБ, значения по умолчанию и максимальные значения масштабируются пропорционально ему). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Меньшие значения bgwriter_lru_maxpages и bgwriter_lru_multiplier уменьшают дополнительную нагрузку ввода-вывода, вызываемую фоновым bgwriter_lru_maxpages bgwriter_lru_multiplier, но повышают вероятность того, что серверным процессам придется выполнять записи для себя, что задерживает интерактивные запросы.

Асинхронное поведение

effective_io_concurrency (integer)

Устанавливает количество одновременных операций дискового ввода-вывода, которые, как ожидает QHB, могут выполняться одновременно. Увеличение этого значения приведет к увеличению числа операций ввода-вывода, которые каждый отдельный сеанс QHB пытается инициировать параллельно. Допустимый диапазон: от 1 до 1000 или ноль для отключения выдачи асинхронных запросов ввода-вывода. В настоящее время этот параметр влияет только на сканирование кучи растровых изображений.

Для магнитных дисков хорошей отправной точкой для этого параметра является количество отдельных дисков, содержащих полосу RAID 0 или зеркало RAID 1, используемое для базы данных. (Для RAID 5 диск четности не должен учитываться). Однако, если база данных часто занята несколькими запросами, выполняемыми в параллельных сеансах, более низких значений может быть достаточно для сохранения дискового массива занятым. Значение выше, чем необходимо, чтобы диски были заняты, приведет только к дополнительной загрузке ЦП. SSD-накопители и другие хранилища на основе памяти часто могут обрабатывать много одновременных запросов, поэтому наилучшим значением могут быть сотни.

Асинхронный ввод-вывод зависит от эффективной функции posix_fadvise, которой нет в некоторых операционных системах. Если функция отсутствует, то установка этого параметра в любое значение, кроме нуля, приведет к ошибке. В некоторых операционных системах (например, Solaris) функция присутствует, но фактически ничего не делает.

В поддерживаемых системах по умолчанию установлено значение 1, в противном случае - 0. Это значение можно переопределить для таблиц в определенном табличном пространстве, установив параметр табличного пространства с тем же именем (см. ALTER TABLESPACE).

maintenance_io_concurrency (integer)

Схоже с effective_io_concurrency, но используется в работах по обслуживанию БД, которые совершаются в пользу множества клиентских сеансов.

В поддерживаемых системах по умолчанию установлено значение 10, в противном случае - 0. Это значение можно переопределить для таблиц в определенном табличном пространстве, установив параметр табличного пространства с тем же именем (см. ALTER TABLESPACE).

max_worker_processes (integer)

Устанавливает максимальное количество фоновых процессов, которые может поддерживать система. Этот параметр можно установить только при запуске сервера. По умолчанию это 8.

При запуске резервного сервера вы должны установить для этого параметра то же или более высокое значение, чем на главном сервере. В противном случае запросы не будут разрешены на резервном сервере.

Изменяя это значение, рассмотрите также настройку max_parallel_workers, max_parallel_maintenance_workers и max_parallel_workers_per_gather.

max_parallel_workers_per_gather (integer)

Устанавливает максимальное количество рабочих, которое может быть запущено одним узлом Gather или Gather Merge. Параллельные рабочие берутся из пула процессов, установленных max_worker_processes, ограниченного max_parallel_workers. Обратите внимание, что запрошенное количество потоков может быть недоступно во время выполнения. Если это произойдет, план будет работать с меньшим количеством потоков, чем ожидалось, что может быть неэффективным. Значение по умолчанию - 2. Установка этого значения в 0 отключает параллельное выполнение запроса.

Обратите внимание, что параллельные запросы могут потреблять значительно больше ресурсов, чем непараллельные запросы, потому что каждый рабочий процесс является совершенно отдельным процессом, который оказывает примерно то же влияние на систему, что и дополнительный пользовательский сеанс. Это следует учитывать при выборе значения для этого параметра, а также при настройке других параметров, управляющих использованием ресурсов, таких как work_mem. Ограничения ресурсов, такие как work_mem, применяются индивидуально к каждому потоку, что означает, что общее использование может быть намного выше для всех процессов, чем обычно для любого отдельного процесса. Например, параллельный запрос с использованием 4 рабочих может использовать до 5 раз больше процессорного времени, памяти, пропускной способности ввода / вывода и т. д. Как запрос, который вообще не использует рабочих.

max_parallel_maintenance_workers (integer)

Устанавливает максимальное количество параллельных рабочих, которые могут быть запущены одной служебной командой. В настоящее время единственной командой параллельной утилиты, которая поддерживает использование параллельных рабочих, является CREATE INDEX, и только при построении индекса B-дерева. Параллельные рабочие берутся из пула процессов, установленных max_worker_processes, ограниченного max_parallel_workers. Обратите внимание, что запрошенное количество потоков может быть недоступно во время выполнения. Если это произойдет, работа утилиты будет выполняться с меньшим количеством потоков, чем ожидалось. Значение по умолчанию - 2. Установка этого значения в 0 отключает использование параллельных рабочих утилитными командами.

Обратите внимание, что параллельные служебные команды не должны занимать существенно больше памяти, чем эквивалентные непараллельные операции. Эта стратегия отличается от стратегии параллельного запроса, где ограничения ресурсов обычно применяются для каждого рабочего процесса. Параллельные служебные команды рассматривают ограничение ресурса maintenance_work_mem как ограничение, которое применяется ко всей служебной команде независимо от количества параллельных рабочих процессов. Однако параллельные служебные команды могут по-прежнему потреблять значительно больше ресурсов ЦП и пропускной способности ввода-вывода.

max_parallel_workers (integer)

Устанавливает максимальное количество рабочих, которое система может поддерживать для параллельных операций. Значение по умолчанию равно 8. При увеличении или уменьшении этого значения также следует рассмотреть возможность настройки max_parallel_maintenance_workers и max_parallel_workers_per_gather. Также обратите внимание, что настройка для этого значения, которая больше, чем max_worker_processes, не будет иметь никакого эффекта, поскольку параллельные рабочие берутся из пула рабочих процессов, созданного этим параметром.

backend_flush_after (integer)

Всякий раз, когда за один сервер было записано больше этого объема данных, попытайтесь заставить ОС выполнить эти записи в базовое хранилище. Это ограничит количество «грязных» данных в кеше страниц ядра, уменьшая вероятность зависаний при fsync в конце контрольной точки или когда ОС записывает данные большими пакетами в фоновом режиме. Зачастую это приводит к значительному снижению задержки транзакций, но также есть некоторые случаи, особенно с рабочими нагрузками, которые больше, чем shared_buffers, но меньше, чем кеш страниц ОС, где производительность может снизиться. Этот параметр может не повлиять на некоторые платформы. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. Допустимый диапазон: от 0, что отключает принудительную обратную запись, до 2MB. По умолчанию 0, т. е. принудительная обратная запись отсутствует. (Если BLCKSZ не 8 КБ, максимальное значение пропорционально ему).

old_snapshot_threshold (integer)

Устанавливает минимальный период времени, в течение которого снимок запроса может использоваться без риска возникновения ошибки « снимок слишком старый » при использовании снимка. Данные, которые были мертвы дольше, чем этот порог, могут быть удалены. Это может помочь предотвратить вздутие живота на снимках, которые остаются в использовании в течение длительного времени. Чтобы предотвратить неверные результаты из-за очистки данных, которые в противном случае были бы видны для снимка, генерируется ошибка, когда снимок старше этого порога, и снимок используется для чтения страницы, которая была изменена с момента создания снимка.

Если это значение указано без единиц измерения, оно принимается за минуты. Значение -1 (по умолчанию) отключает эту функцию, эффективно устанавливая предел возраста снимка бесконечность. Этот параметр можно установить только при запуске сервера.

Полезные значения для производственной работы, вероятно, варьируются от небольшого количества часов до нескольких дней. Небольшие значения (например, 0 или 1min) допустимы только потому, что иногда они могут быть полезны для тестирования. Несмотря на то, что допустимо значение до 60d, имейте в виду, что во многих рабочих нагрузках экстремальное раздувание или изменение идентификатора транзакции может происходить в гораздо более короткие периоды времени.

Когда эта функция включена, освобожденное пространство в конце отношения не может быть освобождено для операционной системы, так как это может удалить информацию, необходимую для обнаружения условия « снимок слишком старый ». Все пространство, выделенное для отношения, остается связанным с этим отношением для повторного использования только в этом отношении, если только оно явно не освобождено (например, с VACUUM FULL ).

Этот параметр не пытается гарантировать, что ошибка будет сгенерирована при любых конкретных обстоятельствах. Фактически, если правильные результаты могут быть сгенерированы из (например) курсора, который материализовал набор результатов, не будет сгенерировано никакой ошибки, даже если нижележащие строки в ссылочной таблице были удалены. Некоторые таблицы невозможно безопасно очистить на ранней стадии, поэтому этот параметр не будет затронут, например системные каталоги. Для таких таблиц этот параметр не уменьшит раздувание и не создаст возможность ошибки « снимок слишком старый » при сканировании.

Журнал упреждающей записи (wal)

Для получения дополнительной информации о настройке этих параметров см. раздел Конфигурация WAL.

Настройки

wal_level (enum)

wal_level определяет, сколько информации записывается в WAL. Значение по умолчанию - replica, которая записывает достаточно данных для поддержки архивации и репликации WAL, включая выполнение запросов только для чтения на резервном сервере. minimal удаляет все журналы, кроме информации, необходимой для восстановления после сбоя или немедленного выключения. Наконец, logical добавляет информацию, необходимую для поддержки логического декодирования. Каждый уровень включает информацию, зарегистрированную на всех более низких уровнях. Этот параметр можно установить только при запуске сервера.
На minimal уровне WAL-протоколирование некоторых массовых операций может быть безопасно пропущено, что может значительно ускорить эти операции (см. раздел Отключить архивацию WAL и потоковую репликацию). Операции, в которых может применяться эта оптимизация, включают в себя:
- CREATE TABLE AS
- CREATE INDEX
- CLUSTER
- COPY в таблицы, которые были созданы или усечены в одной транзакции
Но минимальный WAL не содержит достаточно информации для восстановления данных из базовой резервной копии и журналов WAL, поэтому для включения архивации WAL (archive_mode) и потоковой репликации необходимо использовать replica или более позднюю версию.
На logical уровне регистрируется та же информация, что и для replica, плюс информация, необходимая для извлечения наборов логических изменений из WAL. Использование logical уровня увеличит объем WAL, особенно если многие таблицы сконфигурированы для REPLICA IDENTITY FULL и выполняется много операторов UPDATE и DELETE.

fsync (boolean)

Если этот параметр включен, сервер QHB попытается убедиться, что обновления физически записаны на диск, fsync() системные вызовы fsync() или различные эквивалентные методы (см. Wal_sync_method). Это гарантирует, что кластер базы данных сможет вернуться в согласованное состояние после сбоя операционной системы или оборудования.
Хотя отключение fsync часто приводит к повышению производительности, это может привести к неустранимому повреждению данных в случае сбоя питания или сбоя системы. Таким образом, рекомендуется отключать fsync случае, если вы можете легко воссоздать всю базу данных из внешних данных.
Примеры безопасных обстоятельств для отключения fsync включают начальную загрузку нового кластера базы данных из файла резервной копии, использование кластера базы данных для обработки пакета данных, после которого база данных будет выброшена и воссоздана, или для базы данных только для чтения клон, который часто воссоздается и не используется для отработки отказа. Высококачественное оборудование само по себе не является достаточным основанием для отключения fsync.
Для надежного восстановления при включении fsync необходимо принудительно установить все измененные буферы в ядре в долговременное хранилище. Это можно сделать, когда кластер выключен или когда fsync, запустив initdb --sync-only, sync, размонтирование файловой системы или перезагрузку сервера.
Во многих ситуациях отключение synchronous_commit для некритических транзакций может обеспечить большую потенциальную выгоду производительности при отключении fsync без сопутствующего риска повреждения данных.
fsync можно установить только в файле qhb.conf или в командной строке сервера. Если вы отключите этот параметр, также рассмотрите возможность отключения full_page_writes.

synchronous_commit (enum)

Указывает, будет ли фиксация транзакции ожидать записи WAL на диск, прежде чем команда вернет клиенту указание «успех». Допустимые значения: on, remote_apply, remote_write, local и off. По умолчанию безопасная настройка включена. В off состоянии возможна задержка между тем, когда клиенту сообщается об успехе, и когда транзакция действительно гарантированно защищена от сбоя сервера. (Максимальная задержка в три раза больше wal_writer_delay). В отличие от fsync, off этого параметра не создает риска несогласованности базы данных: сбой операционной системы или базы данных может привести к потере некоторых недавних якобы зафиксированных транзакций, но состояние базы данных будет быть так же, как если бы эти транзакции были прерваны чисто. Таким образом, отключение synchronous_commit может быть полезной альтернативой, когда производительность важнее точной уверенности в долговечности транзакции. Для получения дополнительной информации см. раздел Асинхронный коммит.
Если synchronous_standby_names не является пустым, этот параметр также определяет, будет ли фиксация транзакции ожидать репликацию своих записей WAL на резервный сервер (ы). При on фиксация будет ожидать до тех пор, пока ответы из текущих синхронных резервных копий не укажут, что они получили запись фиксации транзакции и сбросили ее на диск. Это гарантирует, что транзакция не будет потеряна, если как основной, так и все синхронные резервные серверы не повредят хранилище своей базы данных. Если задано значение remote_apply, коммиты будут ждать, пока ответы из текущего синхронного резерва (-ов) не укажут, что они получили запись фиксации транзакции и применили ее, так что она стала видимой для запросов в резервах. Когда установлено значение remote_write, коммиты будут ждать, пока ответы из текущего синхронного резерва (-ов) не remote_write, что они получили запись фиксации транзакции и записали ее в свою операционную систему. Этот параметр достаточен для обеспечения сохранения данных даже в случае сбоя резервного экземпляра QHB, но не в том случае, если резервный переносит сбой на уровне операционной системы, поскольку данные не обязательно достигли стабильного хранилища в резервном режиме. Наконец, настройка local заставляет коммиты ждать локального сброса на диск, но не репликации. Это обычно нежелательно, когда используется синхронная репликация, но предоставляется для полноты.
Если synchronous_standby_names пусто, параметры on, remote_apply, remote_write и local обеспечивают одинаковый уровень синхронизации: транзакция фиксирует только ожидание локальной загрузки на диск.
Этот параметр может быть изменен в любое время; Поведение любой транзакции определяется настройкой, действующей при ее фиксации. Поэтому возможно и полезно, чтобы некоторые транзакции выполнялись синхронно, а другие - асинхронно. Например, чтобы одна транзакция с несколькими состояниями фиксировалась асинхронно, когда значение по умолчанию противоположное, введите SET LOCAL synchronous_commit TO OFF в транзакции.

wal_sync_method (enum)

Метод, используемый для принудительного обновления WAL на диск. Если fsync выключен, то этот параметр не имеет значения, поскольку обновления файла WAL вообще не будут принудительно обновляться. Возможные значения:
- open_datasync (запись файлов WAL с опцией open() O_DSYNC)
- fdatasync (вызывать fdatasync() при каждом коммите)
- fsync (вызывать fsync() при каждом коммите)
- fsync_writethrough (вызывать fsync() при каждом fsync_writethrough, вызывая сквозную запись любого дискового кэша записи)
- open_sync (запись файлов WAL с опцией open() O_SYNC)
open_* также используют O_DIRECT если доступно. Не все эти варианты доступны на всех платформах. По умолчанию это первый метод в приведенном выше списке, который поддерживается платформой, за исключением того, что fdatasync является значением по умолчанию в Linux. Значение по умолчанию не обязательно идеально; может потребоваться изменить этот параметр или другие аспекты конфигурации вашей системы, чтобы создать безопасную конфигурацию или достичь оптимальной производительности. Эти аспекты обсуждаются в разделе Надежность. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

full_page_writes (boolean)

Когда этот параметр включен, сервер QHB записывает все содержимое каждой страницы диска в WAL во время первой модификации этой страницы после контрольной точки. Это необходимо, поскольку запись страницы, которая выполняется во время сбоя операционной системы, может быть завершена только частично, что приводит к появлению на диске страницы, содержащей смесь старых и новых данных. Данные изменения уровня строки, обычно хранящиеся в WAL, не будут достаточны для полного восстановления такой страницы во время восстановления после сбоя. Хранение полного изображения страницы гарантирует, что страница может быть правильно восстановлена, но за счет увеличения объема данных, которые должны быть записаны в WAL. (Поскольку воспроизведение WAL всегда начинается с контрольной точки, этого достаточно сделать при первом изменении каждой страницы после контрольной точки. Поэтому одним из способов снижения стоимости полностраничных записей является увеличение параметров интервала контрольной точки).
Отключение этого параметра ускоряет нормальную работу, но может привести к неисправимому повреждению данных или повреждению данных без вывода сообщений после сбоя системы. Риски аналогичны отключению fsync, хотя и меньше, и его следует отключать только на основании тех же обстоятельств, которые рекомендованы для этого параметра.
Отключение этого параметра не влияет на использование архивации WAL для восстановления на определенный момент времени (PITR) (см. раздел Непрерывное архивирование и восстановление на момент времени (PITR)).
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию включено.

wal_log_hints (boolean)

Когда этот параметр включен, сервер QHB записывает все содержимое каждой страницы диска в WAL во время первой модификации этой страницы после контрольной точки, даже для некритических модификаций так называемых битов подсказок.
Если контрольные суммы данных включены, обновления битов подсказок всегда регистрируются в WAL, и этот параметр игнорируется. Вы можете использовать этот параметр, чтобы проверить, сколько дополнительных журналов WAL произойдет, если в вашей базе данных будут включены контрольные суммы данных.
Этот параметр можно установить только при запуске сервера. Значение по умолчанию off.

wal_compression (boolean)

Когда этот параметр включен, сервер QHB сжимает полный образ страницы, записанный в WAL, когда full_page_writes включен или во время основного резервного копирования. Сжатый образ страницы будет распакован во время воспроизведения WAL. Значение по умолчанию off. Только суперпользователи могут изменять эту настройку.
Включение этого параметра может уменьшить объем WAL без увеличения риска неустранимого повреждения данных, но за счет некоторого дополнительного ЦП, потраченного на сжатие во время ведения журнала WAL и на декомпрессию во время воспроизведения WAL.

wal_buffers (integer)

Объем общей памяти, используемой для данных WAL, которые еще не были записаны на диск. Значение по умолчанию -1 выбирает размер, равный 1/32 (около 3%) shared_buffers, но не менее 64kB не больше, чем размер одного сегмента WAL, обычно 16MB. Это значение может быть установлено вручную, если автоматический выбор слишком велик или слишком мал, но любое положительное значение менее 32kB будет рассматриваться как 32kB. Если это значение указано без единиц измерения, оно принимается как блоки WAL, то есть байты XLOG_BLCKSZ, обычно 8 КБ. Этот параметр можно установить только при запуске сервера.
Содержимое буферов WAL записывается на диск при каждой фиксации транзакции, поэтому крайне большие значения вряд ли обеспечат значительное преимущество. Однако установка этого значения как минимум в несколько мегабайт может улучшить производительность записи на занятом сервере, где одновременно фиксируются многие клиенты. Автонастройка, выбранная по умолчанию, равной -1, должна в большинстве случаев давать приемлемые результаты.

wal_writer_delay (integer)

Определяет, как часто писатель WAL сбрасывает WAL во временных терминах. После сброса WAL писатель спит в течение отрезка времени, указанного в wal_writer_delay, если только он не проснулся раньше из-за асинхронной фиксации транзакции. Если последний сброс произошел меньше, чем wal_writer_delay назад, и с тех пор был произведен WAL меньше, чем wal_writer_flush_after, то WAL записывается только в операционную систему, а не на диск. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 200 миллисекунд (200 200ms ). Обратите внимание, что во многих системах эффективное разрешение задержек сна составляет 10 миллисекунд; установка для wal_writer_delay значения, не кратного 10, может иметь те же результаты, что и установка следующего более высокого значения, кратного 10. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

wal_writer_flush_after (integer)

Определяет, как часто писатель WAL сбрасывает WAL в объемном выражении. Если последний сброс произошел меньше, чем wal_writer_delay назад, и с тех пор был произведен WAL меньше, чем wal_writer_flush_after, то WAL записывается только в операционную систему, а не на диск. Если wal_writer_flush_after установлен в 0 то данные WAL всегда сбрасываются немедленно. Если это значение указано без единиц измерения, оно принимается как блоки WAL, то есть байты XLOG_BLCKSZ, обычно 8 КБ. По умолчанию это 1MB. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

commit_delay (integer)

Установка commit_delay добавляет задержку перед началом commit_delay WAL. Это может улучшить пропускную способность групповой фиксации, позволяя большему количеству транзакций фиксироваться через один сброс WAL, если загрузка системы достаточно высока, чтобы дополнительные транзакции были готовы к фиксации в течение заданного интервала. Однако это также увеличивает задержку вплоть до commit_delay для каждого commit_delay WAL. Поскольку задержка просто теряется, если никакие другие транзакции не готовы к фиксации, задержка выполняется только в том случае, если по крайней мере commit_siblings другие транзакции активны, когда собирается инициировать сброс. Кроме того, никакие задержки не выполняются, если fsync отключен. Если это значение указано без единиц измерения, оно принимается за микросекунды. По умолчанию commit_delay равен нулю (без задержки). Только суперпользователи могут изменять эту настройку.
В QHB первый процесс, который становится готовым к очистке, ожидает установленный интервал, в то время как последующие процессы ждут только до тех пор, пока лидер не завершит операцию очистки.

commit_siblings (integer)

Минимальное количество одновременных открытых транзакций, которое требуется для выполнения задержки commit_delay. Большее значение повышает вероятность того, что хотя бы еще одна транзакция будет готова к фиксации в течение интервала задержки. По умолчанию используется пять транзакций.

Контрольные точки

checkpoint_timeout (integer)

Максимальное время между автоматическими контрольными точками WAL. Если это значение указано без единиц измерения, оно принимается за секунды. Допустимый диапазон составляет от 30 секунд до одного дня. По умолчанию это пять минут (5min минут). Увеличение этого параметра может увеличить время, необходимое для восстановления после сбоя. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

checkpoint_completion_target (с floating point)

Определяет цель завершения контрольной точки, как часть общего времени между контрольными точками. По умолчанию это 0,5. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

checkpoint_flush_after (integer)

Всякий раз, когда во время выполнения контрольной точки было записано больше этого объема данных, попытайтесь заставить ОС выполнить эти записи в базовое хранилище. Это ограничит количество «грязных» данных в кеше страниц ядра, уменьшая вероятность зависаний при fsync в конце контрольной точки или когда ОС записывает данные большими пакетами в фоновом режиме. Зачастую это приводит к значительному снижению задержки транзакций, но также есть некоторые случаи, особенно с рабочими нагрузками, которые больше, чем shared_buffers, но меньше, чем кеш страниц ОС, где производительность может снизиться. Этот параметр может не повлиять на некоторые платформы. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. Допустимый диапазон: от 0, что отключает принудительную обратную запись, до 2MB. По умолчанию 256kB в Linux, 0 другом месте. (Если BLCKSZ не равен 8 КБ, значения по умолчанию и максимальные значения масштабируются пропорционально ему). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

checkpoint_warning (integer)

Записать сообщение в журнал сервера, если контрольные точки, вызванные заполнением файлов сегментов WAL, max_wal_size ближе друг к другу, чем это количество времени (что говорит о том, что max_wal_size должен быть повышен). Если это значение указано без единиц измерения, оно принимается за секунды. Значение по умолчанию составляет 30 секунд (30s). Ноль отключает предупреждение. Предупреждения не будут генерироваться, если checkpoint_timeout меньше, чем checkpoint_warning. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

max_wal_size (integer)

Максимальный размер, позволяющий WAL расти между автоматическими контрольными точками WAL. Это мягкий предел; Размер WAL может превышать max_wal_size при особых обстоятельствах, таких как большая нагрузка, сбой команды archive_command или высокий параметр wal_keep_segments. Если это значение указано без единиц измерения, оно принимается за мегабайты. По умолчанию это 1 ГБ. Увеличение этого параметра может увеличить время, необходимое для восстановления после сбоя. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

min_wal_size (integer)

Пока использование диска WAL остается ниже этого параметра, старые файлы WAL всегда перерабатываются для использования в будущем на контрольной точке, а не удаляются. Это можно использовать для гарантии того, что достаточно места WAL зарезервировано для обработки пиков при использовании WAL, например, при выполнении больших пакетных заданий. Если это значение указано без единиц измерения, оно принимается за мегабайты. По умолчанию установлено 80 МБ. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Архивирование

archive_mode (enum)

Когда archive_mode включен, заполненные сегменты WAL отправляются в архивное хранилище с помощью параметра archive_command. Помимо off, для отключения есть два режима: on и always. Во время нормальной работы нет никакой разницы между этими двумя режимами, но при установке на always архиватор WAL включается также во время восстановления архива или режима ожидания. В always режиме все файлы, восстановленные из архива или переданные с потоковой репликацией, будут заархивированы (снова). Смотрите раздел 26.2.9 для деталей.
archive_mode и archive_command являются отдельными переменными, так что archive_command можно изменять, не выходя из режима архивирования. Этот параметр можно установить только при запуске сервера. archive_mode не может быть включен, когда wal_level установлен на minimal.

archive_command (string)

Команда локальной оболочки, выполняемая для архивирования завершенного сегмента файла WAL. Любой %p в строке заменяется путем к файлу, который нужно заархивировать, а любой %f заменяется только именем файла. (Путь указывается относительно рабочего каталога сервера, т. %% Каталога данных кластера). Используйте %% для встраивания фактического символа % в команду. Для команды важно возвратить нулевой статус выхода, только если это успешно. Для получения дополнительной информации см. Раздел 25.3.1.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. Он игнорируется, если archive_mode был включен при запуске сервера. Если archive_command является пустой строкой (по умолчанию), а archive_mode включен, архивация WAL временно отключается, но сервер продолжает накапливать файлы сегментов WAL в ожидании, что в ближайшее время будет предоставлена команда. Задание команды archive_command, которая ничего не делает, но возвращает значение true, например /bin/true (REM в Windows), эффективно отключает архивирование, но также разрывает цепочку файлов WAL, необходимых для восстановления архива, поэтому ее следует использовать только в необычных случаях.

archive_timeout (integer)

Команда archive_command вызывается только для завершенных сегментов WAL. Следовательно, если ваш сервер генерирует небольшой трафик WAL (или имеет периоды простоя, когда это происходит), может быть длительная задержка между завершением транзакции и ее безопасной записью в архивном хранилище. Чтобы ограничить возраст неархивированных данных, вы можете установить archive_timeout чтобы сервер периодически переключался на новый файл сегмента WAL. Если этот параметр больше нуля, сервер будет переключаться на новый файл сегмента по истечении этого промежутка времени с момента последнего переключения файла сегмента, и когда-либо было выполнено какое-либо действие с базой данных, включая одну контрольную точку (контрольные точки пропускаются, если есть нет активности базы данных). Обратите внимание, что архивные файлы, которые закрываются рано из-за принудительного переключения, имеют ту же длину, что и полностью заполненные файлы. Следовательно, неразумно использовать очень короткое значение archive_timeout - это приведет к переполнению вашего архивного хранилища. Параметры archive_timeout минуты или около того обычно разумны. Следует рассмотреть возможность использования потоковой репликации вместо архивирования, если вы хотите, чтобы данные копировались с главного сервера быстрее, чем это. Если это значение указано без единиц измерения, оно принимается за секунды. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Восстановление из архива

В этом разделе описываются параметры, которые применяются только на время восстановления. Они должны быть сброшены для любого последующего восстановления, которое вы хотите выполнить.

«Восстановление» охватывает использование сервера в качестве резервного или для целевого восстановления. Как правило, режим ожидания используется для обеспечения высокой доступности и / или масштабируемости чтения, тогда как целевое восстановление используется для восстановления после потери данных.

Чтобы запустить сервер в режиме ожидания, создайте файл с именем standby.signal в каталоге данных. Сервер войдет в режим восстановления и не остановит восстановление после достижения конца архивированной WAL, но будет продолжать пытаться продолжить восстановление, подключившись к серверу-отправителю, как указано параметром primary_conninfo и / или выбрав новые сегменты WAL с помощью команды restore_command. Для этого режима интерес представляют параметры из этого раздела и раздела Резервные серверы. Параметры из раздела Точки восстановления также будут применяться, но, как правило, бесполезны в этом режиме.

Чтобы запустить сервер в целевом режиме восстановления, создайте файл с именем recovery.signal в каталоге данных. Если созданы файлы standby.signal и recovery.signal, режим ожидания имеет приоритет. Целевой режим восстановления заканчивается, когда архивированная WAL полностью воспроизводится или когда достигается recovery_target. В этом режиме будут использоваться параметры из этого раздела и раздела Точки восстановления.

restore_command (string)

Команда локальной оболочки, выполняемая для извлечения заархивированного сегмента серии файлов WAL. Этот параметр необходим для восстановления архива, но необязателен для потоковой репликации. Любой %f в строке заменяется именем файла для извлечения из архива, а любой %p заменяется именем пути назначения копирования на сервере. (Путь указывается относительно текущего рабочего каталога, т.е. Каталога данных кластера). Любой %r заменяется именем файла, содержащего последнюю действительную точку перезапуска. Это самый ранний файл, который необходимо сохранить, чтобы обеспечить возможность перезапуска восстановления, поэтому эту информацию можно использовать для усечения архива до минимума, необходимого для поддержки перезапуска из текущего восстановления. %r обычно используется только в конфигурациях с теплым резервированием . Напишите %% для вставки фактического символа %.
Для команды важно возвратить нулевой статус выхода, только если это успешно. У команды будут запрошены имена файлов, которых нет в архиве; он должен возвращать ненулевое значение, когда это требуется Пример:

restore_command = 'cp /mnt/server/archivedir/%f "%p"'

Исключением является то, что если команда была прервана сигналом (отличным от SIGTERM, который используется как часть отключения сервера базы данных) или ошибкой оболочки (например, команда не найдена), то восстановление будет прервано, и сервер будет не пускай
Этот параметр можно установить только при запуске сервера.

archive_cleanup_command (string)

Этот необязательный параметр указывает команду оболочки, которая будет выполняться при каждой точке перезапуска. Цель archive_cleanup_command - предоставить механизм для очистки старых заархивированных файлов WAL, которые больше не нужны резервному серверу. Любой %r заменяется именем файла, содержащего последнюю действительную точку перезапуска. Это самый ранний файл, который необходимо сохранить, чтобы обеспечить возможность перезапуска восстановления, и поэтому все файлы ранее, чем %r могут быть безопасно удалены. Эта информация может быть использована для усечения архива до минимума, необходимого для поддержки перезапуска из текущего восстановления. Модуль qhb_archivecleanup часто используется в archive_cleanup_command для конфигураций с одним резервом, например:

archive_cleanup_command = 'qhb-archivecleanup /mnt/server/archivedir %r'

Однако обратите внимание, что если несколько резервных серверов восстанавливаются из одного и того же архивного каталога, вам необходимо убедиться, что вы не удаляете файлы WAL, пока они больше не нужны ни одному из серверов. archive_cleanup_command обычно используется в конфигурации с горячим archive_cleanup_command . Напишите %% для вставки фактического символа % в команду.
Если команда возвращает ненулевой статус выхода, будет записано сообщение с предупреждением. Исключением является то, что если команда была прервана сигналом или ошибкой оболочки (например, команда не найдена), возникнет фатальная ошибка.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

recovery_end_command (string)

Этот параметр указывает команду оболочки, которая будет выполнена только один раз в конце восстановления. Этот параметр не является обязательным. Цель recovery_end_command - предоставить механизм для очистки после репликации или восстановления. Любой %r заменяется именем файла, содержащего последнюю действительную точку перезапуска, как в archive_cleanup_command.
Если команда возвращает ненулевой статус выхода, то будет записано сообщение журнала предупреждений, и база данных все равно продолжит запуск. Исключением является то, что если команда была прервана сигналом или ошибкой со стороны оболочки (например, команда не найдена), база данных не продолжит запуск.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Точки восстановления

По умолчанию восстановление будет восстановлено до конца журнала WAL. Следующие параметры могут использоваться для указания более ранней точки остановки. Можно использовать самое большее из recovery_target, recovery_target_lsn, recovery_target_name, recovery_target_time или recovery_target_xid; если в файле конфигурации указано более одного из них, возникнет ошибка. Эти параметры могут быть установлены только при запуске сервера.

recovery_target = ’immediate’

Этот параметр указывает, что восстановление должно завершиться, как только будет достигнуто согласованное состояние, т. Е. Как можно раньше. При восстановлении из оперативной резервной копии это означает точку, на которой завершилось создание резервной копии.
Технически это строковый параметр, но в данный момент допустимым является только значение ’immediate’.

recovery_target_name (string)

Этот параметр указывает именованную точку восстановления (созданную с помощью pg_create_restore_point()), к которой будет продолжено восстановление.

recovery_target_time (timestamp)

Этот параметр указывает метку времени, до которой будет продолжаться восстановление. Точная точка остановки также зависит от recovery_target_inclusive.

recovery_target_xid (string)

Этот параметр указывает идентификатор транзакции, до которой будет продолжаться восстановление. Имейте в виду, что хотя идентификаторы транзакций назначаются последовательно в начале транзакции, транзакции могут выполняться в другом числовом порядке. Будут восстановлены транзакции, совершенные до (и, возможно, включая) указанной транзакции. Точная точка остановки также зависит от recovery_target_inclusive.

recovery_target_lsn (pg_lsn)

Этот параметр указывает номер LSN расположения журнала записи с опережением, до которого будет продолжаться восстановление. Точная точка остановки также зависит от recovery_target_inclusive. Этот параметр анализируется с использованием системного типа данных pg_lsn.

Следующие параметры дополнительно определяют цель восстановления и влияют на то, что происходит при достижении цели:

recovery_target_inclusive (boolean)

Указывает, следует ли останавливаться сразу после указанной цели восстановления (on) Или непосредственно перед целью восстановления (off). Применяется, когда указаны recovery_target_lsn, recovery_target_time или recovery_target_xid. Этот параметр определяет, будут ли транзакции, имеющие точно целевое местоположение WAL (LSN), время фиксации или идентификатор транзакции, соответственно, включаться в восстановление. По умолчанию включено.

recovery_target_timeline (string)

Определяет восстановление в конкретную временную шкалу. Значение может быть числовым идентификатором временной шкалы или специальным значением. current значение восстанавливается по той же временной шкале, которая была текущей, когда была сделана базовая резервная копия. Значение latest восстанавливается до последней временной шкалы, найденной в архиве, что полезно на резервном сервере. latest по умолчанию.
Обычно этот параметр нужно устанавливать только в сложных ситуациях повторного восстановления, когда вам необходимо вернуться в состояние, которое само было достигнуто после восстановления на определенный момент времени. См. Раздел 25.3.5 для обсуждения.

recovery_target_action (enum)

Указывает, какое действие должен предпринять сервер после достижения цели восстановления. По умолчанию используется pause, что означает, что восстановление будет приостановлено. promote означает, что процесс восстановления завершится, и сервер начнет принимать подключения. Наконец, shutdown остановит сервер после достижения цели восстановления.
Предполагаемое использование параметра pause - разрешить выполнение запросов к базе данных, чтобы проверить, является ли эта цель восстановления наиболее желательной точкой для восстановления. Приостановленное состояние может быть восстановлено с помощью pg_wal_replay_resume() (см. Таблицу III.8.86), которая затем приводит к завершению восстановления. Если эта цель восстановления не является желаемой точкой остановки, затем выключите сервер, измените настройки цели восстановления на более позднюю цель и перезапустите, чтобы продолжить восстановление.
Параметр shutdown полезен для того, чтобы экземпляр был готов в нужной точке воспроизведения. Экземпляр по-прежнему сможет воспроизводить больше записей WAL (и фактически должен будет воспроизводить записи WAL с момента последней контрольной точки при следующем запуске).
Обратите внимание, что поскольку recovery.signal не будет удален, если для recovery_target_action задано значение shutdown, любой последующий запуск будет завершен немедленным завершением работы, если не будет изменена конфигурация или файл recovery.signal будет удален вручную.
Этот параметр не действует, если цель восстановления не установлена. Если hot_standby не включен, настройка pause будет действовать так же, как shutdown.

Копирование

Эти параметры управляют поведением встроенной функции потоковой репликации . Серверы будут либо главным, либо резервным сервером. Мастера могут отправлять данные, в то время как резервные всегда являются получателями реплицированных данных. При использовании каскадной репликации резервные серверы также могут быть отправителями и получателями. Параметры в основном для отправляющего и резервного серверов, хотя некоторые параметры имеют значение только на главном сервере. Настройки могут меняться по кластеру без проблем, если это требуется.

Передающий сервер

Эти параметры могут быть установлены на любом сервере, который должен отправлять данные репликации на один или несколько резервных серверов. Мастер всегда является передающим сервером, поэтому эти параметры всегда должны быть установлены на мастере. Роль и значение этих параметров не изменяются после того, как резерв становится главным.

max_wal_senders (integer)

Задает максимальное количество одновременных подключений с резервных серверов или клиентов потокового резервного копирования (т. Е. Максимальное количество одновременно работающих процессов отправителя WAL). По умолчанию 10. Значение 0 означает, что репликация отключена. При резком отключении потокового клиента оставшийся слот подключения может остаться позади до истечения времени ожидания, поэтому этот параметр следует установить немного выше, чем максимальное число ожидаемых клиентов, чтобы отключенные клиенты могли немедленно восстановить соединение. Этот параметр можно установить только при запуске сервера. Кроме того, wal_level должен иметь значение replica или выше, чтобы разрешить подключения с резервных серверов.
При запуске резервного сервера вы должны установить для этого параметра то же или более высокое значение, чем на главном сервере. В противном случае запросы не будут разрешены на резервном сервере.

max_replication_slots (integer)

Задает максимальное количество слотов репликации , которое может поддерживать сервер. По умолчанию установлено значение 10. Этот параметр можно установить только при запуске сервера. Если установить значение, меньшее, чем количество существующих в настоящее время слотов репликации, сервер не запустится. Кроме того, wal_level должен быть установлен на replica или выше, чтобы можно было использовать слоты репликации.

wal_keep_segments (integer)

Задает минимальное количество прошлых сегментов файла журнала, хранящихся в каталоге pg_wal, в случае, если резервному серверу необходимо извлечь их для потоковой репликации. Каждый сегмент обычно составляет 16 мегабайт. Если резервный сервер, подключенный к отправляющему серверу, отстает более чем на сегменты wal_keep_segments, отправляющий сервер может удалить сегмент WAL, все еще необходимый резервному, и в этом случае подключение репликации будет прервано. В результате нисходящие соединения также в конечном итоге потерпят неудачу. (Однако резервный сервер может восстановиться путем извлечения сегмента из архива, если используется архивация WAL).
Это устанавливает только минимальное количество сегментов, сохраняемых в pg_wal ; системе может потребоваться сохранить больше сегментов для архивации WAL или для восстановления с контрольной точки. Если wal_keep_segments равен нулю (по умолчанию), система не сохраняет никаких дополнительных сегментов для резервных целей, поэтому количество старых сегментов WAL, доступных резервным серверам, зависит от местоположения предыдущей контрольной точки и состояния архивации WAL. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

wal_init_zero (boolean)

Если установлено значение on (по умолчанию), эта опция заставляет новые файлы WAL заполняться нулями. В некоторых файловых системах это обеспечивает выделение места перед тем, как нам нужно будет писать записи WAL. Однако файловые системы Copy-On-Write (COW) могут не воспользоваться этой методикой, поэтому предоставляется возможность пропустить ненужную работу. Если установлено значение off, при создании файла записывается только последний байт, так что он имеет ожидаемый размер.

wal_recycle (boolean)

Если этот параметр включен (по умолчанию), этот параметр вызывает перезапись файлов WAL путем их переименования, избегая необходимости создавать новые. В файловых системах COW может быть быстрее создавать новые, поэтому предоставляется возможность отключить это поведение.

wal_sender_timeout (integer)

Завершите соединения репликации, которые неактивны дольше, чем это количество времени. Это полезно для отправляющего сервера для обнаружения аварийного сбоя или отключения сети. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 60 секунд. Нулевое значение отключает механизм тайм-аута.
С кластером, распределенным по нескольким географическим местоположениям, использование различных значений для местоположения обеспечивает большую гибкость в управлении кластером. Меньшее значение полезно для более быстрого обнаружения сбоев в режиме ожидания с сетевым подключением с низкой задержкой, а большее значение помогает лучше оценить работоспособность режима ожидания, если он находится в удаленном месте, с сетевым подключением с высокой задержкой.

track_commit_timestamp (boolean)

Запись времени фиксации транзакций. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. Значение по умолчанию off.

Мастер сервер

Эти параметры могут быть установлены на главном / основном сервере, который должен отправлять данные репликации на один или несколько резервных серверов. Обратите внимание, что в дополнение к этим параметрам wal_level должен быть соответствующим образом установлен на главном сервере, и при желании также может быть включена архивация WAL (см. раздел Архивирование). Значения этих параметров на резервных серверах не имеют значения, хотя вы можете установить их там, чтобы подготовиться к тому, чтобы резервный сервер стал главным.

synchronous_standby_names (string)

Задает список резервных серверов, которые могут поддерживать синхронную репликацию, как описано в разделе 26.2.8. Будет один или несколько активных синхронных резервных серверов; транзакции, ожидающие принятия, будут разрешены после того, как эти резервные серверы подтвердят получение своих данных. Синхронными резервными копиями будут те, чьи имена появляются в этом списке, и которые в настоящее время подключены и передают данные в режиме реального времени (как показано состоянием streaming в представлении pg_stat_replication ). Указание более одного синхронного режима ожидания может обеспечить очень высокую доступность и защиту от потери данных.
Имя резервного сервера для этой цели является параметром application_name для резервного, как установлено в информации о подключении резервного. В случае ожидания физической репликации это должно быть установлено в параметре primary_conninfo ; по умолчанию используется настройка cluster_name, если установлено, иначе walreceiver. Для логической репликации это может быть установлено в информации о соединении подписки, и по умолчанию это имя подписки. Для других потребителей потока репликации обратитесь к их документации.
Этот параметр указывает список резервных серверов, используя любой из следующих синтаксисов:

[FIRST] num_sync ( standby_name [, ...] )
ANY num_sync ( standby_name [, ...] )
standby_name [, ...]

где num_sync - это количество синхронных резервных серверов, от которых транзакции должны ждать ответов, а standby_name - это имя резервного сервера. FIRST и ANY указывают способ выбора синхронных резервных серверов из перечисленных серверов.
Ключевое слово FIRST сочетании с num_sync задает синхронную репликацию на основе приоритетов и заставляет коммиты транзакций ждать, пока их записи WAL реплицируются в синхронные резервные копии num_sync, выбранные на основе их приоритетов. Например, установка FIRST 3 (s1, s2, s3, s4) заставит каждый коммит ожидать ответов от трех резервных серверов с более высоким приоритетом, выбранных из резервных серверов s1, s2, s3 и s4. Резервные устройства, имена которых появляются ранее в списке, имеют более высокий приоритет и будут рассматриваться как синхронные. Другие резервные серверы, появившиеся позже в этом списке, представляют потенциальные синхронные резервы. Если какой-либо из текущих синхронных резервных серверов отключится по какой-либо причине, он будет немедленно заменен следующим резервным сервером с наивысшим приоритетом. Ключевое слово FIRST является необязательным.
Ключевое слово ANY сочетании с num_sync задает синхронную репликацию на основе кворума и заставляет коммиты транзакций ждать, пока их записи WAL будут реплицированы, по крайней мере, в список standbys, указанный в num_sync. Например, установка ANY 3 (s1, s2, s3, s4) заставит каждую фиксацию продолжаться, как только ответят по крайней мере любые три резервных элемента s1, s2, s3 и s4.
FIRST и ANY нечувствительны к регистру. Если эти ключевые слова используются в качестве имени резервного сервера, его имя в режиме ожидания должно быть заключено в двойные кавычки.
Третий синтаксис поддерживается в QHB. Это так же, как первый синтаксис с FIRST и num_sync равными 1. Например, FIRST 1 (s1, s2) и s1, s2 имеют то же значение: либо s1 либо s2 выбран в качестве синхронного режима ожидания.
Специальная запись * соответствует любому резервному имени.
Не существует механизма для обеспечения уникальности резервных имен. В случае дубликатов один из подходящих резервных копий будет рассматриваться как более высокий приоритет, хотя какой именно является неопределенным.

Заметка
Каждое имя standby_name должно иметь форму действительного идентификатора SQL, если это не *. При необходимости вы можете использовать двойные кавычки. Но обратите внимание, что имена в режиме ожидания сравниваются с именами приложений в режиме ожидания без учета регистра, в двойных кавычках или нет.

Если здесь не указаны синхронные резервные имена, синхронная репликация не включена и транзакции не будут ждать репликации. Это конфигурация по умолчанию. Даже когда синхронная репликация включена, отдельные транзакции можно настроить так, чтобы они не ожидали репликации, установив для параметра synchronous_commit значение local или off.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

vacuum_defer_cleanup_age (integer)

Определяет количество транзакций, на которые обновления VACUUM и HOT будут откладывать очистку версий мертвых строк. По умолчанию транзакции равны нулю, это означает, что версии мертвых строк могут быть удалены как можно скорее, то есть, как только они больше не видны для любой открытой транзакции. Вы можете установить ненулевое значение на основном сервере, который поддерживает серверы горячего резервирования, как описано в разделе 26.5. Это дает больше времени для выполнения запросов в режиме ожидания без возникновения конфликтов из-за ранней очистки строк. Тем не менее, поскольку значение измеряется с точки зрения количества транзакций записи, происходящих на первичном сервере, трудно предсказать, сколько дополнительного времени будет предоставлено для резервных запросов. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Вам также следует рассмотреть возможность установки hot_standby_feedback на резервных серверах в качестве альтернативы использованию этого параметра.
Это не предотвращает очистку мертвых строк, которые достигли возраста, указанного в old_snapshot_threshold.

Резервные серверы

Эти параметры управляют поведением резервного сервера, который должен получать данные репликации. Их значения на главном сервере не имеют значения.

primary_conninfo (string)

Задает строку подключения, которая будет использоваться резервным сервером для соединения с отправляющим сервером. Если переменная окружения также не установлена, то используются значения по умолчанию.
Строка подключения должна указывать имя хоста (или адрес) отправляющего сервера, а также номер порта, если он не совпадает со значением резервного сервера по умолчанию. Также укажите имя пользователя, соответствующее роли с соответствующей привилегией на отправляющем сервере . Пароль также необходимо указать, если отправитель требует аутентификации по паролю. Его можно указать в строке primary_conninfo или в отдельном файле ~/.pgpass на резервном сервере (используйте replication качестве имени базы данных). Не указывайте имя базы данных в строке primary_conninfo.
Этот параметр можно установить только при запуске сервера. Этот параметр не действует, если сервер не находится в режиме ожидания.

primary_slot_name (string)

Опционально указывает существующий слот репликации, который будет использоваться при подключении к отправляющему серверу посредством потоковой репликации для управления удалением ресурсов на вышестоящем узле . Этот параметр можно установить только при запуске сервера. Этот параметр не имеет эффекта, если primary_conninfo не установлен.

promote_trigger_file (string)

Указывает файл триггера, присутствие которого завершает восстановление в режиме ожидания. Даже если это значение не установлено, вы все равно можете продвинуть режим ожидания с помощью qhb_ctl promote или вызова pg_promote. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

hot_standby (boolean)

Указывает, можете ли вы подключаться и выполнять запросы во время восстановления, как описано в разделе 26.5. Значение по умолчанию включено. Этот параметр можно установить только при запуске сервера. Это действует только во время восстановления архива или в режиме ожидания.

max_standby_archive_delay (integer)

Когда активен горячий резерв, этот параметр определяет, как долго резервный сервер должен ждать, прежде чем отменять резервные запросы, конфликтующие с записями WAL, подлежащими применению. max_standby_archive_delay применяется, когда данные WAL читаются из архива WAL (и, следовательно, не являются текущими). Если это значение указано без единиц измерения, оно принимается за миллисекунды. По умолчанию 30 секунд. Значение -1 позволяет ждущему клиенту бесконечно ждать завершения конфликтующих запросов. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Обратите внимание, что max_standby_archive_delay отличается от максимальной продолжительности времени, в течение которого запрос может выполняться до отмены; скорее это максимальное общее время, разрешенное для применения данных одного сегмента WAL. Таким образом, если один запрос привел к значительной задержке ранее в сегменте WAL, последующие конфликтующие запросы будут иметь гораздо меньше льготного времени.

max_standby_streaming_delay (integer)

Когда активен горячий резерв, этот параметр определяет, как долго резервный сервер должен ждать, прежде чем отменять резервные запросы, конфликтующие с записями WAL, подлежащими применению. max_standby_streaming_delay применяется, когда данные WAL принимаются посредством потоковой репликации. Если это значение указано без единиц измерения, оно принимается за миллисекунды. По умолчанию 30 секунд. Значение -1 позволяет ждущему клиенту бесконечно ждать завершения конфликтующих запросов. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Обратите внимание, что max_standby_streaming_delay отличается от максимальной продолжительности времени, в течение которого запрос может выполняться до отмены; скорее это максимальное общее время, разрешенное для применения данных WAL после их получения от основного сервера. Таким образом, если один запрос привел к значительной задержке, последующие конфликтующие запросы будут иметь гораздо меньше льготного времени до тех пор, пока резервный сервер не перехватит снова.

wal_receiver_status_interval (integer)

Задает минимальную частоту для процесса приемника WAL в режиме ожидания для отправки информации о ходе репликации в основной или восходящий режим ожидания, где это можно увидеть с помощью представления pg_stat_replication. Резервный сервер сообщит о последнем записанном в журнал месте записи с опережением записи, о последней позиции, которую он записал на диск, и о последней позиции, которую он применил. Значение этого параметра - максимальное время между отчетами. Обновления отправляются каждый раз, когда меняются позиции записи или очистки, или, по крайней мере, так часто, как указано в этом параметре. Таким образом, позиция применения может немного отставать от истинной позиции. Если это значение указано без единиц измерения, оно принимается за секунды. Значение по умолчанию составляет 10 секунд. Установка этого параметра в ноль полностью отключает обновления статуса. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

hot_standby_feedback (boolean)

Указывает, будет ли горячий резерв отправлять отзывы первичному или восходящему резерву о запросах, выполняющихся в данный момент в резерве. Этот параметр можно использовать для устранения отмен запросов, вызванных записями очистки, но может вызвать переполнение базы данных на первичном сервере для некоторых рабочих нагрузок. Сообщения обратной связи не будут отправляться чаще, чем один раз за wal_receiver_status_interval. Значение по умолчанию off. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Если используется каскадная репликация, обратная связь передается в восходящем направлении, пока в конце концов не достигнет первичной. Standbys не использует никакой обратной связи, которую они получают, кроме как для передачи в обратном направлении.
Этот параметр не переопределяет поведение old_snapshot_threshold на первичном сервере; моментальный снимок в режиме ожидания, который превышает возрастной порог основного устройства, может стать недействительным, что приведет к отмене транзакций в режиме ожидания. Это связано с тем, что old_snapshot_threshold предназначен для предоставления абсолютного предела времени, в течение которого мертвые строки могут способствовать раздуванию, что в противном случае было бы нарушено из-за конфигурации режима ожидания.

wal_receiver_timeout (integer)

Завершите соединения репликации, которые неактивны дольше, чем это количество времени. Это полезно для принимающего резервного сервера, чтобы обнаружить сбой первичного узла или отключение сети. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 60 секунд. Нулевое значение отключает механизм тайм-аута. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

wal_retrieve_retry_interval (integer)

Указывает, как долго резервный сервер должен ждать, когда данные WAL недоступны из каких-либо источников (потоковая репликация, локальный pg_wal или архив WAL), прежде чем пытаться снова получить данные WAL. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 5 секунд. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Этот параметр полезен в конфигурациях, где узлу в процессе восстановления необходимо контролировать время ожидания доступности новых данных WAL. Например, при восстановлении архива можно сделать восстановление более отзывчивым при обнаружении нового файла журнала WAL, уменьшив значение этого параметра. В системе с низкой активностью WAL ее увеличение уменьшает количество запросов, необходимых для доступа к архивам WAL, что полезно, например, в облачных средах, где учитывается количество обращений к инфраструктуре.

recovery_min_apply_delay (integer)

По умолчанию резервный сервер восстанавливает записи WAL с отправляющего сервера как можно скорее. Может оказаться полезным иметь копию данных с задержкой по времени, что дает возможность исправить ошибки потери данных. Этот параметр позволяет отложить восстановление на указанное количество времени. Например, если вы установите для этого параметра значение 5min минут, резервный сервер будет воспроизводить каждую транзакцию, только если системное время в режиме ожидания не менее чем через пять минут после времени фиксации, сообщенного мастером. Если это значение указано без единиц измерения, оно принимается за миллисекунды. По умолчанию ноль, добавление без задержки.
Возможно, что задержка репликации между серверами превышает значение этого параметра, и в этом случае задержка не добавляется. Обратите внимание, что задержка рассчитывается между отметкой времени WAL, записанной на главном устройстве, и текущим временем в режиме ожидания. Задержки передачи из-за задержек в сети или каскадных конфигураций репликации могут значительно сократить фактическое время ожидания. Если системные часы на главном и в режиме ожидания не синхронизированы, это может привести к восстановлению, применяя записи раньше, чем ожидалось; но это не главная проблема, потому что полезные настройки этого параметра намного больше, чем типичные временные отклонения между серверами.
Задержка происходит только в записях WAL для фиксации транзакции. Другие записи воспроизводятся как можно быстрее, что не является проблемой, поскольку правила видимости MVCC гарантируют, что их эффекты не видны до тех пор, пока не будет применена соответствующая запись фиксации.
Задержка наступает, когда база данных в процессе восстановления достигает согласованного состояния, пока резервный ресурс не будет повышен или запущен. После этого восстановление завершится без ожидания.
Этот параметр предназначен для использования с развертываниями потоковой репликации; однако, если указан параметр, он будет учитываться во всех случаях, кроме восстановления после сбоя. hot_standby_feedback будет задержан использованием этой функции, которая может привести к раздутию на мастер; используйте оба вместе с осторожностью.

!!! Предупреждение

Этот параметр затрагивает синхронную репликацию, когда для synchronous_commit задано значение remote_apply ; каждый COMMIT должен ждать, пока его не применят.

Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Подписчики

Эти параметры управляют поведением подписчика логической репликации. Их значения для издателя не имеют значения.

Обратите внимание, что параметры конфигурации wal_receiver_timeout, wal_receiver_status_interval и wal_retrieve_retry_interval влияют на потоки логической репликации.

max_logical_replication_workers (int)

Задает максимальное количество потоков логической репликации. Это включает в себя как прикладные потоки, так и потоки синхронизации таблиц.
Потоки логической репликации берутся из пула, определенного max_worker_processes.
Значение по умолчанию 4.

max_sync_workers_per_subscription (integer)

Максимальное количество потоков синхронизации на подписку. Этот параметр управляет степенью параллелизма исходной копии данных во время инициализации подписки или при добавлении новых таблиц.
В настоящее время в таблице может быть только один поток синхронизации.
Рабочие синхронизации взяты из пула, определенного max_logical_replication_workers.
Значением по умолчанию является 2.

Планирование запросов

Конфигурация метода планирования

Эти параметры конфигурации предоставляют грубый метод воздействия на планы запросов, выбранные оптимизатором запросов. Если план по умолчанию, выбранный оптимизатором для определенного запроса, не является оптимальным, временное решение состоит в том, чтобы использовать один из этих параметров конфигурации, чтобы заставить оптимизатор выбрать другой план. Улучшенные способы улучшения качества планов, выбранного оптимизатор включают корректировки констант затрат планировщика (см раздел Константы стоимости планировщика), работают ANALYZE вручную, увеличивая значение default_statistics_target параметра конфигурации, а также увеличение количества статистических данных, собранное для отдельных столбцов используя ALTER TABLE SET STATISTICS.

enable_bitmapscan (boolean)

Включает или отключает использование планировщиком запросов типов планов растрового сканирования. По умолчанию включено.

enable_gathermerge (boolean)

Включает или отключает использование планировщиком запросов типов планов слияния. По умолчанию включено.

enable_hashagg (boolean)

Включает или отключает использование планировщиком запросов типов плана хэширования. По умолчанию включено.

enable_hashjoin (boolean)

Включает или отключает использование планировщиком запросов типов планов хэш-соединения. По умолчанию включено.

enable_indexscan (boolean)

Включает или отключает использование планировщиком запросов типов планов сканирования индекса. По умолчанию включено.

enable_indexonlyscan (boolean)

Включает или отключает использование планировщиком запросов типов планов проверки только для индекса (см. раздел Сканирование только по индексу и покрывающие индексы). По умолчанию включено.

enable_material (boolean)

Включает или отключает использование материализации в планировщике запросов. Невозможно полностью подавить материализацию, но отключение этой переменной не позволяет планировщику вставить узлы материализации, за исключением случаев, когда это требуется для корректности. По умолчанию включено.

enable_mergejoin (boolean)

Включает или отключает использование планировщиком запросов типов планов слиянием и объединением. По умолчанию включено.

enable_nestloop (boolean)

Включает или отключает использование плановиком запросов планов соединения с вложенными циклами. Невозможно полностью исключить соединения с вложенными циклами, но отключение этой переменной не позволяет планировщику использовать ее, если есть другие доступные методы. По умолчанию включено.

enable_parallel_append (boolean)

Включает или отключает использование планировщиком запросов типов планов добавления с параллельной поддержкой. По умолчанию включено.

enable_parallel_hash (boolean)

Включает или отключает использование в планировщике запросов типов планов хеш-соединения с параллельным хешем. Не имеет эффекта, если планы хеш-соединения также не включены. По умолчанию включено.

enable_partition_pruning (boolean)

Включает или отключает возможность планировщика запросов исключать разделы разделенной таблицы из планов запросов. Это также контролирует способность планировщика генерировать планы запросов, которые позволяют исполнителю запросов удалять (игнорировать) разделы во время выполнения запроса. По умолчанию включено. Смотрите раздел Сокращение партиций для деталей.

enable_partitionwise_join (boolean)

Включает или отключает использование планировщиком запросов разбиения по частям, что позволяет выполнять соединение между многораздельными таблицами путем объединения соответствующих разделов. В настоящее время объединение по частям применяется только в том случае, если в условия объединения входят все ключи разделов, которые должны быть одного типа данных и иметь точно совпадающие наборы дочерних разделов. Поскольку планирование объединения по частям может использовать значительно больше процессорного времени и памяти во время планирования, по умолчанию off.

enable_partitionwise_aggregate (boolean)

Включает или отключает использование планировщиком запросов групповой группировки или агрегации по секциям, что позволяет группировать или агрегировать по секционированным таблицам, выполняемым отдельно для каждой секции. Если предложение GROUP BY не включает ключи разделов, только частичное агрегирование может быть выполнено для каждого раздела, а финализация должна быть выполнена позже. Поскольку группировка или агрегация по частям могут использовать значительно больше процессорного времени и памяти во время планирования, по умолчанию off.

enable_seqscan (boolean)

Включает или отключает использование планировщиком запросов типов планов последовательного сканирования. Невозможно полностью отключить последовательное сканирование, но отключение этой переменной не позволяет планировщику использовать один, если есть другие доступные методы. По умолчанию включено.

enable_sort (boolean)

Включает или отключает использование планировщиком запросов явных шагов сортировки. Невозможно полностью исключить явные сортировки, но отключение этой переменной не позволяет планировщику использовать ее, если есть другие доступные методы. По умолчанию включено.

enable_tidscan (boolean)

Включает или отключает использование планировщиком запросов типов планов сканирования TID. По умолчанию включено.

Константы стоимости планировщика

Переменные стоимости, описанные в этом разделе, измеряются в произвольном масштабе. Только их относительные значения имеют значение, следовательно, масштабирование их всех вверх или вниз на один и тот же коэффициент не приведет к изменению выбора планировщика. По умолчанию эти переменные стоимости основаны на стоимости последовательных выборок страниц; то есть seq_page_cost обычно устанавливается seq_page_cost 1.0 а другие переменные стоимости устанавливаются со ссылкой на это. Но вы можете использовать другой масштаб, если хотите, например, фактическое время выполнения в миллисекундах на конкретной машине.

Заметка
К сожалению, нет четко определенного метода определения идеальных значений для переменных стоимости. Их лучше всего рассматривать как средние значения для всего набора запросов, которые получит конкретная установка. Это означает, что менять их на основании всего лишь нескольких экспериментов очень рискованно.

seq_page_cost (с floating point)

Устанавливает оценку планировщика стоимости выборки страницы на диске, которая является частью серии последовательных выборок. По умолчанию это 1.0. Это значение можно переопределить для таблиц и индексов в определенном табличном пространстве, установив параметр табличного пространства с тем же именем (см.ALTER TABLESPACE).

random_page_cost (с floating point)

Устанавливает оценку планировщика стоимости непоследовательной выборки страницы диска. По умолчанию это 4.0. Это значение можно переопределить для таблиц и индексов в определенном табличном пространстве, установив параметр табличного пространства с тем же именем (см. ALTER TABLESPACE).
Уменьшение этого значения относительно seq_page_cost приведет к тому, что система предпочтет сканирование индекса; его увеличение сделает просмотр индекса относительно более дорогим. Вы можете увеличить или уменьшить оба значения вместе, чтобы изменить важность затрат на дисковый ввод-вывод относительно затрат на ЦП, которые описываются следующими параметрами.
Произвольный доступ к механическому дисковому хранилищу обычно намного дороже, чем четырехкратный последовательный доступ. Однако используется более низкий уровень по умолчанию (4.0), поскольку предполагается, что большинство случайных обращений к диску, таких как индексированные операции чтения, находятся в кеше. Значение по умолчанию можно рассматривать как моделирование произвольного доступа как в 40 раз медленнее, чем последовательное, при этом ожидается, что 90% случайных чтений будут кэшироваться.
Если вы считаете, что кэш-память в 90% является неверным допущением для вашей рабочей нагрузки, вы можете увеличить random_page_cost, чтобы лучше отражать истинную стоимость случайного чтения из хранилища. Соответственно, если ваши данные, вероятно, будут полностью в кеше, например, когда база данных меньше общей памяти сервера, может быть целесообразно уменьшение random_page_cost. Хранилище с низкой стоимостью случайного чтения относительно последовательных, например, твердотельных накопителей, также может быть лучше смоделировано с более низким значением random_page_cost.

Заметка
Хотя система позволит вам установить random_page_cost меньше, чем seq_page_cost, это физически seq_page_cost. Однако установка их равными имеет смысл, если база данных полностью кэшируется в ОЗУ, поскольку в этом случае штраф за несоответствие страниц не взимается. Кроме того, в сильно кэшированной базе данных вы должны снизить оба значения относительно параметров ЦП, поскольку стоимость извлечения страницы уже в ОЗУ намного меньше, чем обычно.

cpu_tuple_cost (с floating point)

Устанавливает плановую оценку стоимости обработки каждой строки во время запроса. По умолчанию это 0,01.

cpu_index_tuple_cost (с floating point)

Устанавливает плановую оценку стоимости обработки каждой записи индекса во время сканирования индекса. По умолчанию это 0,005.

cpu_operator_cost (с floating point)

Устанавливает плановую оценку стоимости обработки каждого оператора или функции, выполняемой во время запроса. По умолчанию это 0,0025.

parallel_setup_cost (с floating point)

Устанавливает плановую оценку стоимости запуска параллельных рабочих процессов. По умолчанию это 1000.

parallel_tuple_cost (с floating point)

Устанавливает плановую оценку стоимости переноса одного кортежа из параллельного рабочего процесса в другой процесс. По умолчанию это 0,1.

min_parallel_table_scan_size (integer)

Устанавливает минимальный объем табличных данных, которые необходимо сканировать, чтобы можно было рассмотреть параллельное сканирование. При параллельном последовательном сканировании количество проверенных данных таблицы всегда равно размеру таблицы, но при использовании индексов количество проверенных данных таблицы обычно будет меньше. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. По умолчанию используется 8 мегабайт (8 МБ).

min_parallel_index_scan_size (integer)

Устанавливает минимальный объем индексных данных, которые должны быть отсканированы, чтобы можно было рассмотреть параллельное сканирование. Обратите внимание, что параллельное сканирование индекса обычно не затрагивает весь индекс; это число страниц, которое, по мнению плановика, будет действительно затронуто сканированием. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. По умолчанию используется 512 килобайт (512kB).

effective_cache_size (integer)

Устанавливает предположение планировщика об эффективном размере дискового кэша, доступного для одного запроса. Это учитывается при оценке стоимости использования индекса; чем выше значение, тем выше вероятность того, что будет использоваться индексное сканирование, чем ниже значение, тем больше вероятность того, что будет использовано последовательное сканирование. При установке этого параметра вы должны учитывать как общие буферы QHB, так и часть дискового кэша ядра, которая будет использоваться для файлов данных QHB, хотя некоторые данные могут существовать в обоих местах. Также учитывайте ожидаемое количество одновременных запросов к разным таблицам, так как им придется совместно использовать доступное пространство. Этот параметр не влияет на размер разделяемой памяти, выделяемой QHB, а также не резервирует кэш-память ядра; он используется только для целей оценки. Система также не предполагает, что данные остаются в кеше диска между запросами. Если это значение указано без единиц измерения, оно принимается как блоки, то есть байты BLCKSZ, обычно 8 КБ. По умолчанию используется 4 гигабайта (4GB). (Если BLCKSZ не равен 8 КБ, значение по умолчанию масштабируется пропорционально ему).

jit_above_cost (с floating point)

Задает стоимость запроса, выше которой активируется JIT-компиляция, если она включена . Выполнение JIT стоит времени планирования, но может ускорить выполнение запроса. Установка этого параметра в -1 отключает компиляцию JIT. По умолчанию это 100000.

jit_inline_above_cost (с floating point)

Устанавливает стоимость запроса, выше которой JIT-компиляция пытается встроить функции и операторы. Встраивание добавляет время планирования, но может улучшить скорость выполнения. Не имеет смысла устанавливать это значение меньше, чем jit_above_cost. Установка этого в -1 отключает встраивание. По умолчанию это 500000.

jit_optimize_above_cost (с floating point)

Устанавливает стоимость запроса, выше которой JIT-компиляция применяет дорогостоящие оптимизации. Такая оптимизация добавляет время планирования, но может улучшить скорость выполнения. Не имеет смысла устанавливать это значение меньше, чем jit_above_cost, и вряд ли будет полезно установить его больше, чем jit_inline_above_cost. Установка этого значения в -1 отключает дорогостоящие оптимизации. По умолчанию это 500000.

Генетический оптимизатор запросов

Оптимизатор генетических запросов (GEQO) - это алгоритм, который выполняет планирование запросов с использованием эвристического поиска. Это сокращает время планирования сложных запросов (тех, которые объединяют многие отношения) за счет создания планов, которые иногда уступают тем, которые обнаруживаются обычным алгоритмом исчерпывающего поиска. Для получения дополнительной информации см. Главу 59.

geqo (boolean)

Включает или отключает генетическую оптимизацию запросов. Это включено по умолчанию. Обычно лучше не выключать его в производстве; переменная geqo_threshold обеспечивает более детальный контроль над GEQO.

geqo_threshold (integer)

Используйте генетическую оптимизацию запросов для планирования запросов, по крайней мере, с таким количеством элементов FROM. (Обратите внимание, что конструкция FULL OUTER JOIN считается только одним элементом FROM ). По умолчанию используется значение 12. Для более простых запросов обычно лучше использовать обычный планировщик исчерпывающего поиска, но для запросов со многими таблицами исчерпывающий поиск занимает слишком много времени., часто дольше, чем штраф за выполнение неоптимального плана. Таким образом, пороговое значение размера запроса является удобным способом управления использованием GEQO.

geqo_effort (integer)

Управляет компромиссом между временем планирования и качеством плана запроса в GEQO. Эта переменная должна быть целым числом в диапазоне от 1 до 10. Значением по умолчанию является пять. Большие значения увеличивают время, затрачиваемое на планирование запросов, но также повышают вероятность выбора эффективного плана запросов.
geqo_effort самом деле ничего не делает напрямую; он используется только для вычисления значений по умолчанию для других переменных, которые влияют на поведение GEQO (описано ниже). Если вы предпочитаете, вы можете установить другие параметры вручную.

geqo_pool_size (integer)

Контролирует размер пула, используемого GEQO, то есть количество особей в генетической популяции. Оно должно быть не менее двух, а полезные значения обычно составляют от 100 до 1000. Если оно установлено на ноль (настройка по умолчанию), то подходящее значение выбирается на основе geqo_effort и количества таблиц в запросе.

geqo_generations (integer)

Управляет количеством поколений, используемых GEQO, то есть количеством итераций алгоритма. Должно быть хотя бы одно, а полезные значения находятся в том же диапазоне, что и размер пула. Если он установлен на ноль (настройка по умолчанию), то подходящее значение выбирается на основе geqo_pool_size.

geqo_selection_bias (с floating point)

Управляет смещением выбора, используемым GEQO. Смещение выбора - это избирательное давление в популяции. Значения могут быть от 1,50 до 2,00; последний по умолчанию.

geqo_seed (с floating point)

Управляет начальным значением генератора случайных чисел, используемого GEQO для выбора случайных путей в пространстве поиска порядка соединения. Значение может варьироваться от нуля (по умолчанию) до единицы. Изменение значения изменяет набор исследуемых путей соединения и может привести к тому, что будет найден лучший или худший лучший путь.

Другие варианты планировщика

default_statistics_target (integer)

Устанавливает целевой показатель статистики по умолчанию для столбцов таблицы без определенного для столбца целевого значения через ALTER TABLE SET STATISTICS. Большие значения увеличивают время, необходимое для ANALYZE, но могут улучшить качество оценок планировщика. По умолчанию установлено значение 100. Для получения дополнительной информации об использовании статистики планировщиком запросов QHB см. раздел Статистика, используемая планировщиком.

constraint_exclusion (enum)

Управляет использованием в планировщике запросов ограничений таблиц для оптимизации запросов. Допустимые значения constraint_exclusion : включено (проверить ограничения для всех таблиц), off (никогда не проверять ограничения) и partition (изучить ограничения только для дочерних таблиц наследования и подзапросов UNION ALL ). partition является настройкой по умолчанию. Он часто используется с традиционными деревьями наследования для улучшения производительности.
Когда этот параметр разрешает его для конкретной таблицы, планировщик сравнивает условия запроса с ограничениями таблицы CHECK и пропускает таблицы сканирования, для которых условия противоречат ограничениям. Например:

CREATE TABLE parent(key integer, ...);
CREATE TABLE child1000(check (key between 1000 and 1999)) INHERITS(parent);
CREATE TABLE child2000(check (key between 2000 and 2999)) INHERITS(parent);
...
SELECT * FROM parent WHERE key = 2400;

С включенным исключением ограничений этот SELECT не будет сканировать child1000 вообще, улучшая производительность.
В настоящее время исключение ограничений по умолчанию включено только для случаев, которые часто используются для реализации разбиения таблиц через деревья наследования. Включение его для всех таблиц приводит к дополнительным затратам на планирование, что заметно при простых запросах и чаще всего не дает никаких преимуществ для простых запросов. Если у вас нет таблиц, которые разделены с использованием традиционного наследования, вы можете отключить его полностью. (Обратите внимание, что эквивалентная функция для партиционированных таблиц управляется отдельным параметром enable_partition_pruning).
Обратитесь к разделу Партиционирование и исключение ограничений для получения дополнительной информации об использовании исключения ограничений для реализации разделения.

cursor_tuple_fraction (с floating point)

Устанавливает оценку планировщика доли строк курсора, которые будут получены. По умолчанию это 0,1. Меньшие значения этого параметра смещают планировщик в сторону использования планов «быстрого запуска» для курсоров, которые будут быстро извлекать первые несколько строк, и, возможно, потребуется много времени для извлечения всех строк. Большие значения делают больший акцент на общее расчетное время. При максимальном значении 1,0 курсоры планируются точно так же, как и обычные запросы, с учетом только общего расчетного времени, а не того, как скоро могут быть доставлены первые строки.

from_collapse_limit (integer)

Планировщик объединит подзапросы в верхние запросы, если итоговый список FROM будет содержать не более этого количества элементов. Меньшие значения сокращают время планирования, но могут привести к ухудшению планов запросов. По умолчанию установлено восемь. Для получения дополнительной информации см. раздел Управление планировщиком с помощью явных предложений JOIN.
Установка этого значения в geqo_threshold или более может инициировать использование планировщика GEQO, что приведет к неоптимальным планам. См. раздел Генетический оптимизатор запросов.

jit (boolean)

Определяет, может ли компиляция JIT использоваться QHB, если она доступна . По умолчанию включено.

join_collapse_limit (integer)

Планировщик переписывает явные конструкции JOIN (кроме FULL JOIN) в списки элементов FROM всякий раз, когда получается список, содержащий не более этого количества элементов. Меньшие значения сокращают время планирования, но могут привести к ухудшению планов запросов.
По умолчанию эта переменная установлена так же, как from_collapse_limit, что подходит для большинства применений. Установка его в 1 предотвращает любое изменение порядка явных JOIN. Таким образом, явный порядок соединения, указанный в запросе, будет фактическим порядком, в котором соединяются отношения. Поскольку планировщик запросов не всегда выбирает оптимальный порядок соединения, опытные пользователи могут временно выбрать для этой переменной значение 1, а затем явно указать желаемый порядок соединения. Для получения дополнительной информации см. раздел Управление планировщиком с помощью явных предложений JOIN.
Установка этого значения в geqo_threshold или более может инициировать использование планировщика GEQO, что приведет к неоптимальным планам. См. раздел Генетический оптимизатор запросов.

parallel_leader_participation (boolean)

Позволяет процессу-руководителю выполнять план запроса в узлах Gather и Gather Merge вместо ожидания рабочих процессов. По умолчанию включено. Если для этого значения установлено значение off вероятность того, что потоки будут заблокированы, снижает вероятность того, что лидер не достаточно быстро читает кортежи, но требует, чтобы процесс лидера ожидал запуска рабочих процессов, прежде чем будут созданы первые кортежи. Степень, в которой лидер может помочь или снизить производительность, зависит от типа плана, количества потоков и продолжительности запроса.

force_parallel_mode (enum)

Позволяет использовать параллельные запросы для целей тестирования даже в тех случаях, когда повышение производительности не ожидается. Допустимые значения force_parallel_mode off (использовать параллельный режим только тогда, когда ожидается повышение производительности), on (принудительный параллельный запрос для всех запросов, для которых он считается безопасным), и regress (например, on, но с дополнительными изменениями поведения как объяснено ниже).
Более конкретно, установка этого значения on добавит Gather узел в верхней части любого плана запроса, для которых это является безопасным, так что выполняется запрос внутри параллельного рабочего. Даже если параллельный поток недоступен или не может использоваться, такие операции, как запуск субтранзакции, которая будет запрещена в контексте параллельного запроса, будут запрещены, если только планировщик не считает, что это приведет к сбою запроса. Если при установке этого параметра возникают сбои или неожиданные результаты, возможно, некоторые функции, используемые запросом, должны быть помечены как PARALLEL UNSAFE (или, возможно, PARALLEL RESTRICTED ).
Установка этого значения для regress имеет все те же эффекты, что и его on плюс некоторые дополнительные эффекты, предназначенные для облегчения автоматического регрессионного тестирования. Обычно сообщения от параллельного потока включают в себя строку контекста, указывающую на это, но настройка regress подавляет эту строку, так что выходные данные такие же, как при непараллельном выполнении. Кроме того, узлы Gather добавленные в планы с помощью этого параметра, скрыты в выводе EXPLAIN поэтому выходные данные соответствуют тому, что было бы получено, если этот параметр был off.

plan_cache_mode (enum)

Подготовленные операторы (явно подготовленные или неявно сгенерированные, например, PL / pgSQL) могут быть выполнены с использованием пользовательских или общих планов. Пользовательские планы создаются заново для каждого выполнения с использованием его определенного набора значений параметров, в то время как общие планы не зависят от значений параметров и могут быть повторно использованы при выполнении. Таким образом, использование общего плана экономит время планирования, но если идеальный план сильно зависит от значений параметров, то общий план может быть неэффективным. Выбор между этими параметрами обычно выполняется автоматически, но его можно переопределить с помощью plan_cache_mode. Допустимые значения: auto (по умолчанию), force_custom_plan и force_generic_plan. Этот параметр учитывается при выполнении кэшированного плана, а не при его подготовке. Для получения дополнительной информации см. PREPARE.

Отчеты об ошибках и ведение журнала

Расположение журнала

log_destination (string)

QHB поддерживает несколько методов регистрации сообщений сервера, включая stderr, csvlog и syslog. Задайте для этого параметра список желаемых пунктов назначения журнала, разделенных запятыми. По умолчанию вход только в stderr. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Если csvlog включен в log_destination, записи журнала выводятся в формате "CSV"), что удобно для загрузки журналов в программы. См. раздел Использование вывода журнала в формате CSV для деталей. logging_collector должен быть включен для генерации вывода журнала в формате CSV.
Если включены либо stderr, либо csvlog, создается файл current_logfiles для записи местоположения файла (ов) журнала, который в данный момент используется сборщиком журналов, и связанного с ним места назначения журналирования. Это обеспечивает удобный способ поиска журналов, используемых в данный момент экземпляром. Вот пример содержимого этого файла:

stderr log/qhb.log
csvlog log/qhb.csv

current_logfiles воссоздается при создании нового файла журнала в результате поворота и при перезагрузке log_destination. Он удаляется, когда ни stderr, ни csvlog не включены в log_destination и когда сборщик журналов отключен.

Заметка
В большинстве систем Unix вам потребуется изменить конфигурацию демона системного журнала вашей системы, чтобы использовать параметр системного журнала для log_destination. QHB может регистрироваться в средствах системного журнала с LOCAL0 по LOCAL7 (см. Syslog_facility ), но конфигурация системного журнала по умолчанию на большинстве платформ отбрасывает все такие сообщения. Вам нужно будет добавить что-то вроде: local0. \* / var / log / qhb в файл конфигурации демона системного журнала, чтобы заставить его работать.

logging_collector (boolean)

Этот параметр включает сборщик журналов, который является фоновым процессом, который собирает сообщения журнала, отправленные в stderr, и перенаправляет их в файлы журнала. Этот подход часто более полезен, чем запись в системный журнал, поскольку некоторые типы сообщений могут не отображаться в выходных данных системного журнала. (Один из распространенных примеров - сообщения об ошибках динамического компоновщика; другой - сообщения об ошибках, создаваемые такими сценариями, как archive_command ). Этот параметр можно установить только при запуске сервера.

Заметка
Можно войти в stderr без использования сборщика журналов; сообщения журнала будут отправляться туда, куда направлен серверный stderr. Однако этот метод подходит только для небольших томов журналов, поскольку он не предоставляет удобного способа вращения файлов журналов. Кроме того, на некоторых платформах, не использующих сборщик журналов, может привести к потере или искажению вывода журнала, потому что несколько процессов, записывающих одновременно в один и тот же файл журнала, могут перезаписать вывод друг друга.

Заметка
Сборщик журналов предназначен для того, чтобы никогда не терять сообщения. Это означает, что в случае чрезвычайно высокой нагрузки серверные процессы могут быть заблокированы при попытке отправить дополнительные сообщения журнала, если сборщик отстал. Напротив, системный журнал предпочитает отбрасывать сообщения, если он не может их записать, а это означает, что он может не записывать некоторые сообщения в таких случаях, но не блокирует остальную часть системы.

log_directory (string)

Когда logging_collector включен, этот параметр определяет каталог, в котором будут создаваться файлы журнала. Его можно указать как абсолютный путь или относительно каталога данных кластера. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию это log.

log_filename (string)

Когда logging_collector включен, этот параметр устанавливает имена созданных файлов журнала. Значение обрабатывается как шаблон strftime, поэтому % -escapes можно использовать для указания изменяющихся во времени имен файлов. (Обратите внимание, что при наличии % -escapes, зависящих от часового пояса, вычисления выполняются в зоне, указанной в log_timezone ). Поддерживаемые % -escapes аналогичны тем, которые перечислены в спецификации strftime Open Group. Обратите внимание, что системное время strftime не используется напрямую, поэтому специфичные для платформы (нестандартные) расширения не работают. По умолчанию используется qhb-%Y-%m-%d_%H%M%S.log.
Если вы указываете имя файла без экранирования, вы должны запланировать использование утилиты ротации журналов, чтобы в конечном итоге не заполнить весь диск. В выпусках до 8.4, если бы не было % escape, QHB добавлял бы эпоху времени создания нового файла журнала, но это больше не так.
Если вывод в формате ".csv" включен в log_destination, .csv будет добавлен к имени файла журнала с меткой времени, чтобы создать имя файла для вывода в формате CSV. (Если log_filename оканчивается на .log, вместо него заменяется суффикс).
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

log_file_mode (integer)

В системах Unix этот параметр устанавливает разрешения для файлов журнала, когда включен logging_collector. (В Microsoft Windows этот параметр игнорируется). Ожидается, что значением параметра будет числовой режим, указанный в формате, принятом системными вызовами chmod и umask. (Для использования обычного восьмеричного формата число должно начинаться с 0 (ноль)).
Разрешения по умолчанию - 0600, что означает, что только владелец сервера может читать или записывать файлы журнала. Другой обычно полезный параметр - 0640, позволяющий членам группы владельца читать файлы. Однако обратите внимание, что для использования такой настройки вам нужно изменить log_directory, чтобы хранить файлы где-то за пределами каталога данных кластера. В любом случае неразумно делать файлы журналов доступными для чтения всем, поскольку они могут содержать конфиденциальные данные.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

log_rotation_age (integer)

Когда logging_collector включен, этот параметр определяет максимальное время использования отдельного файла журнала, после которого будет создан новый файл журнала. Если это значение указано без единиц измерения, оно принимается за минуты. По умолчанию это 24 часа. Установите в ноль, чтобы отключить создание новых файлов журнала на основе времени. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

log_rotation_size (integer)

Когда logging_collector включен, этот параметр определяет максимальный размер отдельного файла журнала. После того, как этот объем данных будет записан в файл журнала, будет создан новый файл журнала. Если это значение указано без единиц измерения, оно принимается за килобайты. По умолчанию 10 мегабайт. Установите в ноль, чтобы отключить создание новых файлов журнала на основе размера. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

log_truncate_on_rotation (boolean)

Когда logging_collector включен, этот параметр заставит QHB усекать (перезаписывать), а не добавлять к любому существующему файлу журнала с таким же именем. Однако усечение будет происходить только при открытии нового файла из-за ротации по времени, а не при запуске сервера или ротации по размеру. Если этот параметр отключен, во все случаи будут добавляться уже существующие файлы. Например, использование этого параметра в сочетании с qhb-%H.log например qhb-%H.log приведет к qhb-%H.log 24-часовых файлов журнала и их циклической перезаписи. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.
Пример: чтобы хранить 7 дней журналов, один файл журнала в день с именем server_log.Mon, server_log.Tue и т. Д., И автоматически перезаписывать журнал прошлой недели с журналом этой недели, установите для log_filename значение server_log.%a log_truncate_on_rotation, log_truncate_on_rotation в on и log_rotation_age до 1440 .
Пример: чтобы хранить журналы в течение 24 часов, один файл журнала в час, но также вращаться раньше, если размер файла журнала превышает 1 ГБ, задайте для log_filename значение server_log.%H%M, log_truncate_on_rotation - on, log_rotation_age - 60 и log_rotation_size - 1000000. Включение %M в log_filename позволяет при любых вращениях на основе размера выбирать имя файла, отличное от начального имени файла часа.

syslog_facility (enum)

Когда вход в системный журнал включен, этот параметр определяет « средство » системного журнала, которое будет использоваться. Вы можете выбрать из LOCAL0, LOCAL1, LOCAL2, LOCAL3, LOCAL4, LOCAL5, LOCAL6, LOCAL7 ; по умолчанию это LOCAL0. Смотрите также документацию о системном демоне вашей системы. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

syslog_ident (string)

Когда вход в системный журнал включен, этот параметр определяет имя программы, используемое для идентификации сообщений QHB в журналах системного журнала. По умолчанию используется qhb . Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

syslog_sequence_numbers (boolean)

При входе в системный журнал, который включен (по умолчанию), каждое сообщение будет иметь префикс возрастающего порядкового номера (например, [2]). Это позволяет обойти « --- последнее сообщение, повторенное N раз --- », которое многие реализации системного журнала выполняют по умолчанию. В более современных реализациях системного журнала можно настроить повторное подавление сообщений (например, $RepeatedMsgReduction RepeatedMsgReduction в rsyslog), поэтому это может быть необязательно. Кроме того, вы можете отключить это, если вы действительно хотите подавить повторяющиеся сообщения.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

syslog_split_messages (boolean)

Когда запись в системный журнал включена, этот параметр определяет способ доставки сообщений в системный журнал. При включении (по умолчанию) сообщения разделяются на строки, а длинные строки разделяются так, что они помещаются в 1024 байта, что является типичным пределом размера для традиционных реализаций системного журнала. Когда он выключен, сообщения журнала сервера QHB доставляются в службу системного журнала как есть, и служба системного журнала должна обрабатывать потенциально громоздкие сообщения.
Если в конечном итоге системный журнал регистрируется в текстовом файле, то эффект будет одинаковым в любом случае, и лучше оставить этот параметр включенным, поскольку большинство реализаций системного журнала либо не могут обрабатывать большие сообщения, либо их необходимо специально настраивать для их обработки. Но если системный журнал в конечном итоге записывает данные на какой-либо другой носитель, может оказаться необходимым или более полезным хранить сообщения логически вместе.
Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

event_source (string)

Когда включена запись в журнал событий, этот параметр определяет имя программы, используемое для идентификации сообщений QHB в журнале. По умолчанию используется QHB. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Когда писать в журнал

log_min_messages (enum)

Управляет тем, какие уровни сообщений записываются в журнал сервера. Допустимые значения: DEBUG5, DEBUG4, DEBUG3, DEBUG2, DEBUG1, INFO, NOTICE, WARNING, ERROR, LOG, FATAL и PANIC. Каждый уровень включает в себя все уровни, которые следуют за ним. Чем позже уровень, тем меньше сообщений отправляется в журнал. По умолчанию установлено WARNING. Обратите внимание, что LOG имеет другой ранг, чем в client_min_messages. Только суперпользователи могут изменять эту настройку.

log_min_error_statement (enum)

Управляет тем, какие операторы SQL, вызывающие ошибку, записываются в журнал сервера. Текущий оператор SQL включается в запись журнала для любого сообщения указанной серьезности или выше. Допустимые значения: DEBUG5, DEBUG4, DEBUG3, DEBUG2, DEBUG1, INFO, NOTICE, WARNING, ERROR, LOG, FATAL и PANIC. По умолчанию установлено значение ERROR, что означает, что в журнал будут записываться операторы, вызывающие ошибки, сообщения журнала, фатальные ошибки или паники. Чтобы эффективно отключить запись неудачных операторов, установите для этого параметра значение PANIC. Только суперпользователи могут изменять эту настройку.

log_min_duration_statement (integer)

Приводит к записи продолжительности каждого выполненного оператора, если оператор выполнялся как минимум указанное количество времени. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Установка этого значения в ноль печатает все длительности операторов. Минус один (по умолчанию) отключает продолжительность записи оператора. Например, если вы установите значение 250ms все операторы SQL, выполняющие 250 мс или более, будут записываться в журнал. Включение этого параметра может быть полезно для отслеживания неоптимизированных запросов в ваших приложениях. Только суперпользователи могут изменять эту настройку.
Для клиентов, использующих расширенный протокол запросов, длительности шагов Parse, Bind и Execute регистрируются независимо.

Заметка
При использовании этой опции вместе с log_statement текст операторов, которые регистрируются из-за log_statement, не будет повторяться в сообщении журнала продолжительности. Если вы не используете syslog, рекомендуется зарегистрировать PID или идентификатор сеанса с помощью log_line_prefix, чтобы можно было связать сообщение оператора с более поздним сообщением продолжительности, используя идентификатор процесса или идентификатор сеанса.

log_transaction_sample_rate (real)

Установите долю транзакций, чьи выписки все регистрируются, в дополнение к выпискам, зарегистрированным по другим причинам. Это применяется к каждой новой транзакции независимо от продолжительности ее заявлений. По умолчанию 0, что означает не регистрировать операторы от какой-либо дополнительной транзакции Установка этого значения в 1 регистрирует все операторы для всех транзакций. log_transaction_sample_rate полезен для отслеживания образца транзакции. Только суперпользователи могут изменять эту настройку.

Заметка
Как и все параметры ведения журнала выписок, эта опция может значительно увеличить накладные расходы.

Таблица 1 объясняет уровни серьезности сообщений, используемые QHB. Если выходные данные журнала отправляются в системный журнал или журнал событий Windows, уровни серьезности переводятся, как показано в таблице.

Таблица 1. Уровни серьезности сообщений

Строгость	Использование	Системный журнал	Журнал событий
DEBUG1..DEBUG5	Предоставляет последовательно-более подробную информацию для использования разработчиками.	DEBUG	INFORMATION
INFO	Предоставляет информацию, неявно запрашиваемую пользователем, например, вывод из VACUUM VERBOSE.	INFO	INFORMATION
NOTICE	Предоставляет информацию, которая может быть полезна пользователям, например, уведомление об усечении длинных идентификаторов.	NOTICE	INFORMATION
WARNING	Предоставляет предупреждения о возможных проблемах, например, COMMIT вне блока транзакции.	NOTICE	WARNING
ERROR	Сообщает об ошибке, которая привела к прерыванию текущей команды.	WARNING	ERROR
LOG	Сообщает информацию, представляющую интерес для администраторов, например, действия контрольных точек.	INFO	INFORMATION
FATAL	Сообщает об ошибке, которая привела к прерыванию текущего сеанса.	ERR	ERROR
PANIC	Сообщает об ошибке, которая привела к прерыванию всех сеансов базы данных.	CRIT	ERROR

Что писать в журнал

application_name (string)

NAMEDATALEN может содержать любую строку длиной не более NAMEDATALEN символов (64 символа в стандартной сборке). Обычно он устанавливается приложением при подключении к серверу. Имя будет отображено в представлении pg_stat_activity и включено в записи журнала CSV. Она также может быть включен в регулярные записи в журнале через log_line_prefix параметра. В значении application_name могут использоваться только печатные символы ASCII. Другие символы будут заменены на вопросительные знаки (?).
- debug_print_parse (boolean)
- debug_print_rewritten (boolean)
- debug_print_plan (boolean)
Эти параметры позволяют выводить различные выходные данные отладки. Когда установлено, они печатают результирующее дерево разбора, выходные данные программы переписывания запросов или план выполнения для каждого выполненного запроса. Эти сообщения отправляются на уровне сообщений LOG, поэтому по умолчанию они отображаются в журнале сервера, но не отправляются клиенту. Вы можете изменить это, настроив client_min_messages и / или log_min_messages. Эти параметры по умолчанию отключены.

debug_pretty_print (boolean)

Если установлено, debug_pretty_print от сообщений, созданных debug_print_parse, debug_print_rewritten или debug_print_plan. Это приводит к более удобочитаемому, но намного более длинному выводу, чем « компактный » формат, используемый, когда он выключен. Он включен по умолчанию.

log_checkpoints (boolean)

Заставляет контрольные точки и точки перезапуска регистрироваться в журнале сервера. Некоторая статистика включена в сообщения журнала, включая количество записанных буферов и время, потраченное на их запись. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию выключено.

log_connections (boolean)

Приводит к регистрации каждой попытки подключения к серверу, а также успешного завершения аутентификации клиента. Только суперпользователи могут изменять этот параметр при запуске сеанса, и его нельзя изменить вообще в течение сеанса. По умолчанию off .

Заметка
Некоторые клиентские программы, такие как psql, пытаются подключиться дважды, определяя, требуется ли пароль, поэтому повторяющиеся сообщения « соединение получено » не обязательно указывают на проблему.

log_disconnections (boolean)

Заставляет завершения сеанса регистрироваться. Вывод журнала предоставляет информацию, аналогичную log_connections, плюс продолжительность сеанса. Только суперпользователи могут изменять этот параметр при запуске сеанса, и его нельзя изменить вообще в течение сеанса. По умолчанию off .

log_duration (boolean)

Вызывает продолжительность каждого выполненного оператора для регистрации. По умолчанию off. Только суперпользователи могут изменять эту настройку.
Для клиентов, использующих расширенный протокол запросов, длительности шагов Parse, Bind и Execute регистрируются независимо.

Заметка
Разница между включением log_duration и установкой log_min_duration_statement в ноль заключается в том, что превышение log_min_duration_statement заставляет регистрировать текст запроса, но эта опция не делает. Таким образом, если log_duration и log_min_duration_statement имеет положительное значение, все длительности регистрируются, но текст запроса включается только для операторов, превышающих пороговое значение. Такое поведение может быть полезно для сбора статистики в установках с высокой нагрузкой.

log_error_verbosity (enum)

Управляет количеством сведений, записанных в журнале сервера для каждого зарегистрированного сообщения. Допустимые значения: TERSE, DEFAULT и VERBOSE, каждое из которых добавляет дополнительные поля к отображаемым сообщениям. TERSE исключает регистрацию информации об ошибках DETAIL, HINT, QUERY и CONTEXT. Вывод VERBOSE включает код ошибки SQLSTATE , а также имя файла исходного кода, имя функции и номер строки, которая вызвала ошибку. Только суперпользователи могут изменять эту настройку.

log_hostname (boolean)

По умолчанию в сообщениях журнала подключений отображается только IP-адрес подключающегося хоста. Включение этого параметра также приводит к регистрации имени хоста. Обратите внимание, что в зависимости от настройки разрешения имени вашего хоста это может привести к значительному снижению производительности. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

log_line_prefix (string)

Это строка в стиле printf которая выводится в начале каждой строки журнала. Символы % начинаются с « escape-последовательностей », которые заменяются информацией о состоянии, как показано ниже. Нераспознанные последовательности игнорируются. Другие символы копируются прямо в строку журнала. Некоторые экранирования распознаются только сессионными процессами и будут рассматриваться как пустые фоновыми процессами, такими как процесс основного сервера. Информация о состоянии может быть выровнена влево или вправо, указав числовой литерал после% и перед параметром. Отрицательное значение приведет к тому, что информация о состоянии будет дополнена справа пробелами для придания ей минимальной ширины, тогда как положительное значение будет дополнено слева. Заполнение может быть полезно для облегчения восприятия человеком файлов журнала. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера. По умолчанию используется значение ’%m [%p] ’ которое регистрирует отметку времени и идентификатор процесса.

Последовательность	Эффект	Только сессия
%a	Имя приложения	да
%u	Имя пользователя	да
%d	Имя базы данных	да
%r	Имя удаленного хоста или IP-адрес, а также удаленный порт	да
%h	Имя удаленного хоста или IP-адрес	да
%p	Идентификатор процесса	нет
%t	Отметка времени без миллисекунд	нет
%m	Отметка времени с миллисекундами	нет
%n	Отметка времени с миллисекундами (как эпоха Unix)	нет
%i	Тег команды: тип текущей команды сеанса	да
%e	Код ошибки SQLSTATE	нет
%c	Идентификатор сеанса: см. Ниже	нет
%l	Номер строки журнала для каждого сеанса или процесса, начиная с 1	нет
%s	Отметка времени начала процесса	нет
%v	Идентификатор виртуальной транзакции (backendID / localXID)	нет
%x	ID транзакции (0, если ни один не назначен)	нет
%q	Не выводит никаких данных, но указывает несессионным процессам остановиться в этой точке строки; игнорируется сессионными процессами	нет
%%	Буквальный %	нет

%c escape печатает квазиуникальный идентификатор сеанса, состоящий из двух 4-байтовых шестнадцатеричных чисел (без начальных нулей), разделенных точкой. Числа - это время начала процесса и идентификатор процесса, поэтому %c также можно использовать как способ экономии места для печати этих элементов. Например, чтобы сгенерировать идентификатор сеанса из pg_stat_activity, используйте этот запрос:

SELECT to_hex(trunc(EXTRACT(EPOCH FROM backend_start))::integer) || '.' ||
     to_hex(pid)
FROM pg_stat_activity;

Заметка
Если вы устанавливаете непустое значение для log_line_prefix, вы обычно должны сделать его последний символ пробелом, чтобы обеспечить визуальное отделение от остальной части строки журнала. Также можно использовать знак пунктуации.

Заметка
Системный журнал создает свою собственную метку времени и информацию об идентификаторе процесса, так что вы, вероятно, не захотите включать эти экранированные символы при входе в системный журнал.

Заметка
Экранирование %q полезно при включении информации, доступной только в контексте сеанса (бэкенда), например имени пользователя или базы данных. Например: log_line_prefix = '%m [%p] %q%u@%d/%a '

log_lock_waits (boolean)

Управляет созданием сообщения журнала, когда сеанс ожидает дольше, чем deadlock_timeout, чтобы получить блокировку. Это полезно при определении того, вызывает ли ожидание блокировки низкую производительность. По умолчанию off. Только суперпользователи могут изменять эту настройку.

log_statement (enum)

Управляет тем, какие операторы SQL регистрируются. Допустимые значения: none (off), ddl, mod и all (все операторы). ddl регистрирует все операторы определения данных, такие как операторы CREATE, ALTER и DROP. mod регистрирует все операторы ddl, а также операторы изменения данных, такие как INSERT, UPDATE, DELETE, TRUNCATE и COPY FROM. PREPARE, EXECUTE и EXPLAIN ANALYZE также регистрируются, если содержащиеся в них команды имеют соответствующий тип. Для клиентов, использующих расширенный протокол запросов, ведение журнала происходит при получении сообщения Execute и включении значений параметров Bind (с удвоением всех встроенных одинарных кавычек).
По умолчанию none. Только суперпользователи могут изменять эту настройку.

Заметка
Операторы, которые содержат простые синтаксические ошибки, не регистрируются даже параметром log_statement = all, потому что сообщение журнала log_statement только после того, как был выполнен базовый анализ для определения типа оператора. В случае протокола расширенного запроса этот параметр также не регистрирует операторы, которые не выполняются до фазы выполнения (т. Е. Во время анализа анализа или планирования). Установите log_min_error_statement в ERROR (или ниже) для записи таких операторов.

log_replication_commands (boolean)

Заставляет каждую команду репликации регистрироваться в журнале сервера. Значение по умолчанию off. Только суперпользователи могут изменять эту настройку.

log_temp_files (integer)

Управляет регистрацией временных имен файлов и размеров. Временные файлы могут быть созданы для сортировки, хэшей и результатов временных запросов. Если этот параметр включен, запись журнала создается для каждого временного файла при его удалении. Нулевое значение записывает всю информацию временного файла, в то время как положительные значения регистрируют только файлы, размер которых больше или равен указанному объему данных. Если это значение указано без единиц измерения, оно принимается за килобайты. По умолчанию установлено значение -1, что запрещает такую регистрацию. Только суперпользователи могут изменять эту настройку.

log_timezone (string)

Устанавливает часовой пояс, используемый для отметок времени, записанных в журнале сервера. В отличие от TimeZone, это значение распространяется на весь кластер, поэтому все сеансы будут сообщать метки времени единообразно. Встроенное значение по умолчанию - GMT, но обычно оно переопределяется в qhb.conf; initdb установит там настройку, соответствующую системному окружению. См. раздел Часовые пояса для получения дополнительной информации. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Использование вывода журнала в формате CSV

В том числе csvlog в log_destination списке обеспечивает удобный способ для импорта файлов журнала в таблицу базы данных. Эта опция генерирует строки журнала в формате значений, разделенных запятыми (CSV), со следующими столбцами: отметка времени с миллисекундами, имя пользователя, имя базы данных, идентификатор процесса, хост клиента: номер порта, идентификатор сеанса, номер строки для сеанса, команда тег, время начала сеанса, идентификатор виртуальной транзакции, идентификатор обычной транзакции, серьезность ошибки, код SQLSTATE, сообщение об ошибке, подробность сообщения об ошибке, подсказка, внутренний запрос, который привел к ошибке (если есть), количество символов в позиции ошибки, ошибка контекст, пользовательский запрос, который привел к ошибке (если таковой имеется и активирован log_min_error_statement), количество символов в позиции ошибки в нем, местоположение ошибки в исходном коде QHB (если для log_error_verbosity задано verbose ) и имя приложения. Вот пример определения таблицы для хранения вывода журнала в формате CSV:

CREATE TABLE postgres_log
(
  log_time timestamp(3) with time zone,
  user_name text,
  database_name text,
  process_id integer,
  connection_from text,
  session_id text,
  session_line_num bigint,
  command_tag text,
  session_start_time timestamp with time zone,
  virtual_transaction_id text,
  transaction_id bigint,
  error_severity text,
  sql_state_code text,
  message text,
  detail text,
  hint text,
  internal_query text,
  internal_query_pos integer,
  context text,
  query text,
  query_pos integer,
  location text,
  application_name text,
  PRIMARY KEY (session_id, session_line_num)
);

Чтобы импортировать файл журнала в эту таблицу, используйте команду COPY FROM :

COPY postgres_log FROM '/full/path/to/logfile.csv' WITH csv;

Есть несколько вещей, которые необходимо сделать, чтобы упростить импорт файлов журнала CSV:

Установите log_filename и log_rotation_age чтобы обеспечить согласованную, предсказуемую схему именования для ваших файлов журнала. Это позволяет вам предсказать, каким будет имя файла, и узнать, когда отдельный файл журнала будет завершен и, следовательно, готов к импорту.
Установите для log_rotation_size значение 0, чтобы отключить ротацию журналов на основе размера, поскольку это затрудняет прогнозирование имени файла журнала.
Установите для log_truncate_on_rotation значение on чтобы старые данные журнала не смешивались с новыми в том же файле.
Приведенное выше определение таблицы содержит спецификацию первичного ключа. Это полезно для защиты от случайного импорта одной и той же информации дважды. Команда COPY фиксирует все импортируемые данные за один раз, поэтому любая ошибка приведет к сбою всего импорта. Если вы импортируете частичный файл журнала, а затем снова импортируете файл после его завершения, нарушение первичного ключа приведет к сбою импорта. Дождитесь завершения и закрытия журнала, прежде чем импортировать. Эта процедура также защитит от случайного импорта неполной строки, которая была написана не полностью, что также приведет к сбою COPY .

Название процесса

Эти параметры определяют, как изменяются заголовки процессов сервера. Названия процессов обычно просматриваются с помощью таких программ, как ps. Смотрите раздел Стандартные инструменты Unix для деталей.

cluster_name (string)

Устанавливает имя, которое идентифицирует этот кластер базы данных (экземпляр) для различных целей. Имя кластера появляется в заголовке процесса для всех процессов сервера в этом кластере. Кроме того, это имя приложения по умолчанию для резервного соединения (см. synchronous_standby_names ).
Имя может быть любой строкой длиной не более NAMEDATALEN символов (64 символа в стандартной сборке). В значении cluster_name можно использовать только печатные символы ASCII. Другие символы будут заменены на вопросительные знаки (?). Имя не отображается, если для этого параметра задана пустая строка ” (по умолчанию). Этот параметр можно установить только при запуске сервера.

update_process_title (boolean)

Позволяет обновлять заголовок процесса каждый раз, когда сервер получает новую команду SQL. Этот параметр по умолчанию включен на большинстве платформ, но по умолчанию он off в Windows из-за больших накладных расходов этой платформы при обновлении заголовка процесса. Только суперпользователи могут изменять эту настройку.

Статистика выполнения

Сборщик статистики запросов и индексов

Эти параметры управляют функциями сбора статистики на уровне сервера. Когда сбор статистики включен, к полученным данным можно получить доступ через семейство системных представлений pg_stat и pg_statio . Обратитесь к главе Мониторинг активности базы данных за дополнительной информацией.

track_activities (boolean)

Включает сбор информации о текущей выполняемой команде каждого сеанса, а также время, когда эта команда начала выполнение. Этот параметр включен по умолчанию. Обратите внимание, что даже если эта опция включена, эта информация не видна всем пользователям, только суперпользователям и пользователю, которому принадлежит сеанс, о котором сообщается, поэтому она не должна представлять угрозу безопасности. Только суперпользователи могут изменять эту настройку.

track_activity_query_size (integer)

Определяет объем памяти, зарезервированный для хранения текста текущей выполняемой команды для каждого активного сеанса, для поля pg_stat_activity.query. Если это значение указано без единиц измерения, оно принимается как байты. Значение по умолчанию составляет 1024 байта. Этот параметр можно установить только при запуске сервера.

track_counts (boolean)

Включает сбор статистики о работе базы данных. Этот параметр включен по умолчанию, поскольку демону autovacuum требуется собранная информация. Только суперпользователи могут изменять эту настройку.

track_io_timing (boolean)

Включает синхронизацию вызовов ввода-вывода базы данных. По умолчанию этот параметр отключен, поскольку он будет периодически запрашивать у операционной системы текущее время, что может вызвать значительные издержки на некоторых платформах. Вы можете использовать инструмент pg_test_timing для измерения затрат времени в вашей системе. Информация о времени ввода / вывода отображается в pg_stat_database, в выходных данных EXPLAIN, когда используется опция BUFFERS, и в pg_stat_statements. Только суперпользователи могут изменять эту настройку.

track_functions (enum)

Позволяет отслеживать количество вызовов функций и использованное время. Укажите pl для отслеживания только функций процедурного языка, all также для отслеживания функций языка SQL и C/RUST. По умолчанию установлено значение none, что отключает отслеживание статистики функций. Только суперпользователи могут изменять эту настройку.

Заметка
Функции языка SQL, которые достаточно просты для « встраивания » в вызывающий запрос, отслеживаться не будут, независимо от этого параметра.

stats_temp_directory (string)

Устанавливает каталог для хранения временных данных статистики. Это может быть путь относительно каталога данных или абсолютный путь. По умолчанию используется pg_stat_tmp. Указание этого на файловую систему на основе ОЗУ снизит требования к физическому вводу-выводу и может привести к повышению производительности. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Мониторинг статистики

log_statement_stats (boolean)

log_parser_stats (boolean)

log_planner_stats (boolean)

log_executor_stats (boolean)

Для каждого запроса выведите статистику производительности соответствующего модуля в журнал сервера. Это грубый инструмент профилирования, похожий на средство операционной системы Unix getrusage(). log_statement_stats сообщает общую статистику операторов, в то время как другие представляют статистику по модулям. log_statement_stats нельзя включить вместе с какими-либо опциями для каждого модуля. Все эти параметры по умолчанию отключены. Только суперпользователи могут изменять эти настройки.

Автоматическая очистка

Эти настройки управляют поведением функции автоочистки. Дополнительную информацию см в разделе Процесс «Автовакуум». Обратите внимание, что многие из этих настроек могут быть переопределены для каждой таблицы отдельно; см. подраздел Параметры хранения.

autovacuum (boolean)

Управляет тем, должен ли сервер запускать демон запуска автоочистки. Это включено по умолчанию; однако для работы автоочистки также необходимо включить track_counts. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, автоочистку можно отключить для отдельных таблиц, изменив их параметры хранения.

Обратите внимание, что даже когда этот параметр отключен, система будет при необходимости запускать процессы автоочистки, чтобы предотвратить зацикливание идентификатора транзакции. Дополнительную информацию см. в разделе Предотвращение ошибок зацикливания идентификатора транзакции.

log_autovacuum_min_duration (integer)

Заставляет регистрировать каждое действие, выполненное автоочисткой, если оно выполнялось как минимум указанное количество времени. Установка значения в ноль регистрирует все действия автоочистки. -1 (по умолчанию) отключает запись действий автоочистки. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Например, если установить значение 250ms, будут регистрироваться все автоматические операции очистки и анализа, которые выполняются в течение 250 мс или более. Кроме того, если для этого параметра установлено любое значение, отличное от -1, сообщение будет записано в журнал, если действие автоочистки пропущено из-за конфликтующей блокировки или одновременного удаления отношения. Включение этого параметра может быть полезным для отслеживания активности автоочистки. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_max_workers (integer)

Задает максимальное количество процессов автоочистки (кроме собственно ее запуска), которые могут выполняться одновременно. По умолчанию это три. Этот параметр можно установить только при запуске сервера.

autovacuum_naptime (integer)

Определяет минимальную задержку между запусками автоочистки в любой отдельно взятой базе данных. В каждом раунде демон проверяет базу данных и при необходимости выдает команды VACUUM и ANALYZE для таблиц в этой базе данных. Если это значение указано без единиц измерения, оно принимается за секунды. По умолчанию используется одна минута (1min). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

autovacuum_vacuum_threshold (integer)

Задает минимальное количество обновленных или удаленных кортежей, необходимое для запуска VACUUM в отдельно взятой таблице. По умолчанию это 50 кортежей. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_vacuum_insert_threshold (integer)

Задает количество добавленных кортежей, требующееся для запуска VACUUM в отдельно взятой таблице. По умолчанию это 100 кортежей. Если указано -1, автоочистка не запустит операцию VACUUM с таблицами, основываясь на количестве добавлений. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_analyze_threshold (integer)

Задает минимальное количество добавленных, обновленных или удаленных кортежей, необходимое для запуска ANALYZE в любой отдельно взятой таблице. По умолчанию это 50 кортежей. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_vacuum_scale_factor (floating point)

Задает часть размера таблицы, добавляемую к autovacuum_vacuum_threshold при принятии решения о запуске VACUUM. По умолчанию это 0,2 (20% от размера таблицы). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_vacuum_insert_scale_factor (floating point)

Задает часть размера таблицы, добавляемую к autovacuum_vacuum_insert_threshold при принятии решения о запуске VACUUM. По умолчанию это 0,2 (20% от размера таблицы). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_analyze_scale_factor (floating point)

Задает часть размера таблицы, добавляемую к autovacuum_analyze_threshold при принятии решения о запуске ANALYZE. По умолчанию это 0,1 (10% от размера таблицы). Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_freeze_max_age (integer)

Задает максимальный возраст (в транзакциях), которого может достичь поле таблицы pg_class.relfrozenxid, прежде чем операция VACUUM будет вынуждена предотвратить зацикливание идентификатора транзакции в этой таблице. Обратите внимание, что система будет запускать процессы автоочистки, чтобы предотвратить зацикливание, даже если автоочистка отключена.

Очистка также позволяет удалять старые файлы из подкаталога pg_xact, поэтому по умолчанию это относительно небольшие 200 миллионов транзакций. Этот параметр можно установить только при запуске сервера; тем не менее, его значение можно уменьшить для отдельных таблиц, изменив их параметры хранения. Дополнительную информацию см. в подразделе Предотвращение ошибок зацикливания идентификатора транзакции.

autovacuum_multixact_freeze_max_age (integer)

Задает максимальный возраст (в мультитранзакциях), которого может достичь поле таблицы pg_class.relminmxid, прежде чем операция VACUUM будет вынуждена предотвратить зацикливание идентификаторов мультитранзакций в этой таблице. Обратите внимание, что система будет запускать процессы автоочистки, чтобы предотвратить зацикливание, даже если автоочистка отключена.

Очистка мультитранзакций также позволяет удалять старые файлы из pg_multixact/members и pg_multixact/offsets, поэтому по умолчанию это относительно небольшие 400 миллионов мультитранзакций. Этот параметр можно установить только при запуске сервера; тем не менее, его можно уменьшить для отдельных таблиц, изменив их параметры хранения. Дополнительную информацию см. в подразделе Мультитранзакции и зацикливание.

autovacuum_vacuum_cost_delay (floating point)

Задает значение задержки стоимости, которое будет использоваться в автоматических операциях VACUUM. Если указано -1, будет использовано обычное значение vacuum_cost_delay. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет 2 миллисекунды. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

autovacuum_vacuum_cost_limit (integer)

Указывает предельное значение стоимости, которое будет использоваться в автоматических операциях VACUUM. Если указано -1 (по умолчанию), будет использовано обычное значение vacuum_cost_limit. Обратите внимание, что если работающих потоков автоочистки больше одного, это значение распределяется между ними пропорционально, так что сумма пределов для каждого потока не превышает значения этой переменной. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера; тем не менее, его значение можно переопределить для отдельных таблиц, изменив их параметры хранения.

Клиентское соединение по умолчанию

Поведение команд

client_min_messages (enum)

Управляет тем, какие уровни сообщений отправляются клиенту. Допустимые значения: DEBUG5, DEBUG4, DEBUG3, DEBUG2, DEBUG1, LOG, NOTICE, WARNING и ERROR. Каждый уровень включает в себя все уровни, которые следуют за ним. Чем позже уровень, тем меньше сообщений отправляется. По умолчанию это NOTICE. Обратите внимание, что LOG имеет другой ранг, чем в log_min_messages .
Сообщения уровня INFO всегда отправляются клиенту.

search_path (string)

Эта переменная указывает порядок поиска схем, когда на объект (таблицу, тип данных, функцию и т. д). Ссылается простое имя без указания схемы. Когда в разных схемах есть объекты с одинаковыми именами, используется тот, который был найден первым в пути поиска. На объект, который не входит ни в одну из схем в пути поиска, можно ссылаться только путем указания его содержащей схемы с квалифицированным (пунктирным) именем.
Значение для search_path должно быть разделенным запятыми списком имен схем. Любое имя, которое не является существующей схемой или является схемой, для которой у пользователя нет разрешения USAGE, игнорируется.
Если одним из элементов списка является специальное имя $user, то схема с именем, возвращаемым CURRENT_USER, заменяется, если такая схема существует и у пользователя есть разрешение USAGE для нее. (Если нет, $user игнорируется).
Схема системного каталога, pg_catalog, всегда ищется, независимо от того, упоминается она в пути или нет. Если оно упомянуто в пути, то оно будет найдено в указанном порядке. Если pg_catalog не находится в пути, он будет pg_catalog перед поиском любого из элементов пути.
Аналогично, схема временной таблицы текущего сеанса, pg_temp_ nnn, всегда ищется, если она существует. Он может быть явно указан в пути с помощью псевдонима pg_temp, Если он не указан в пути, то он ищется первым (даже до pg_catalog). Однако во временной схеме ищутся только имена отношений (таблица, представление, последовательность и т.д). И имена типов данных. Никогда не ищется имя функции или оператора.
Когда объекты создаются без указания конкретной целевой схемы, они будут помещены в первую действительную схему с именем в search_path. Об ошибке сообщается, если путь поиска пуст.
Значением по умолчанию для этого параметра является "$user", public. Этот параметр поддерживает совместное использование базы данных (когда ни один пользователь не имеет частных схем, и все используют общее использование public ), частные схемы для каждого пользователя и их комбинации. Другие эффекты можно получить, изменив настройку пути поиска по умолчанию, глобально или для каждого пользователя.
Для получения дополнительной информации об обработке схемы см. Раздел 5.9. В частности, конфигурация по умолчанию подходит только тогда, когда в базе данных есть один пользователь или несколько доверяющих друг другу пользователей.
Текущее эффективное значение пути поиска можно проверить с помощью функции SQL current_schemas (см. Раздел 9.25). Это не совсем то же самое, что изучение значения search_path, поскольку current_schemas показывает, как были разрешены элементы, появляющиеся в search_path .

row_security (boolean)

Эта переменная определяет, будет ли возникать ошибка вместо применения политики безопасности строк. Когда включено, политики применяются нормально. Если установлено значение off, запросы не выполняются, что в противном случае применило бы хотя бы одну политику. По умолчанию включено. off если ограниченная видимость строки может привести к неверным результатам; например, qhb_dump делает это изменение по умолчанию. Эта переменная не влияет на роли, которые обходят каждую политику безопасности строк, то есть на суперпользователей и роли с атрибутом BYPASSRLS .
Для получения дополнительной информации о политиках безопасности строк см. СОЗДАНИЕ ПОЛИТИКИ .

default_table_access_method (string)

Этот параметр указывает метод доступа к таблице по умолчанию, который используется при создании таблиц или материализованных представлений, если команда CREATE явно не указывает метод доступа или когда используется SELECT ... INTO, что не позволяет указать метод доступа к таблице. По умолчанию это heap .

default_tablespace (string)

Эта переменная задает табличное пространство по умолчанию, в котором создаются объекты (таблицы и индексы), когда команда CREATE явно не указывает табличное пространство. Он также определяет табличное пространство, в которое разделенное отношение будет направлять будущие разделы.
Значением является либо имя табличного пространства, либо пустая строка, указанная с использованием табличного пространства по умолчанию для текущей базы данных. Если значение не соответствует имени какого-либо существующего табличного пространства, QHB автоматически будет использовать табличное пространство по умолчанию для текущей базы данных. Если указано табличное пространство не по умолчанию, у пользователя должна быть привилегия CREATE, иначе попытки создания будут неудачными.
Эта переменная не используется для временных таблиц; для них вместо этого используется temp_tablespaces .
Эта переменная также не используется при создании баз данных. По умолчанию новая база данных наследует настройки табличного пространства из базы данных шаблонов, из которой она скопирована.
Для получения дополнительной информации о табличных пространствах см. раздел Табличные пространства.

temp_tablespaces (string)

Эта переменная задает табличные пространства, в которых создаются временные объекты (временные таблицы и индексы для временных таблиц), когда команда CREATE явно не указывает табличное пространство. Временные файлы для таких целей, как сортировка больших наборов данных, также создаются в этих табличных пространствах.
Значение представляет собой список имен табличных пространств. Когда в списке более одного имени, QHB выбирает случайного члена списка каждый раз, когда создается временный объект; за исключением того, что внутри транзакции последовательно созданные временные объекты помещаются в последовательные табличные пространства из списка. Если выбранный элемент списка представляет собой пустую строку, QHB автоматически будет использовать табличное пространство по умолчанию для текущей базы данных.
Когда temp_tablespaces устанавливается интерактивно, указание несуществующего табличного пространства является ошибкой, как и указание табличного пространства, для которого у пользователя нет привилегии CREATE. Однако при использовании ранее установленного значения несуществующие табличные пространства игнорируются, как и табличные пространства, для которых у пользователя нет привилегии CREATE. В частности, это правило применяется при использовании значения, заданного в qhb.conf .
Значением по умолчанию является пустая строка, в результате чего все временные объекты создаются в табличном пространстве по умолчанию текущей базы данных.
Смотрите также default_tablespace .

check_function_bodies (boolean)

Этот параметр обычно включен. Если установлено значение off, отключается проверка строки тела функции во время CREATE FUNCTION . Отключение проверки позволяет избежать побочных эффектов процесса проверки и избежать ложных срабатываний из-за проблем, таких как прямые ссылки. off этот параметр перед загрузкой функций от имени других пользователей; qhb_dump делает это автоматически.

default_transaction_isolation (enum)

Каждая транзакция SQL имеет уровень изоляции, который может быть « прочитано незафиксировано », « зафиксировано чтение », « повторяемое чтение » или « сериализуемо ». Этот параметр контролирует уровень изоляции по умолчанию для каждой новой транзакции. По умолчанию « передано на чтение » .
Обратитесь к главе Параллельный контроль и SET TRANSACTION для получения дополнительной информации.

default_transaction_read_only (boolean)

Доступная только для чтения транзакция SQL не может изменять временные таблицы. Этот параметр контролирует состояние по умолчанию только для чтения каждой новой транзакции. По умолчанию off (чтение / запись).
Обратитесь к SET TRANSACTION для получения дополнительной информации.

default_transaction_deferrable (boolean)

При выполнении на уровне serializable изоляции отложенная транзакция SQL только для чтения может быть отложена до того, как ей будет разрешено продолжить. Однако, как только он начинает выполняться, он не несет никаких накладных расходов, необходимых для обеспечения сериализуемости; поэтому у кода сериализации не будет причин принудительно прерывать его из-за одновременных обновлений, что делает эту опцию подходящей для длительных транзакций только для чтения.
Этот параметр управляет отложенным статусом по умолчанию для каждой новой транзакции. В настоящее время он не влияет на транзакции чтения-записи или те, которые работают на уровнях изоляции ниже, чем serializable. По умолчанию off .
Обратитесь к SET TRANSACTION для получения дополнительной информации.

session_replication_role (enum)

Управляет срабатыванием связанных с репликацией триггеров и правил для текущего сеанса. Установка этой переменной требует привилегий суперпользователя и приводит к отмене любых ранее кэшированных планов запросов. Возможные значения: origin (по умолчанию), replica и local .
Предполагаемое использование этого параметра заключается в том, что системы логической репликации устанавливают его для replica когда они применяют реплицированные изменения. В результате триггеры и правила (которые не были изменены из их конфигурации по умолчанию) не будут срабатывать на реплике. См. Разделы ALTER TABLE ENABLE TRIGGER и ENABLE RULE для получения дополнительной информации.
QHB обрабатывает исходные и local настройки одинаково. Сторонние системы репликации могут использовать эти два значения для своих внутренних целей, например, используя local для обозначения сеанса, изменения которого не должны реплицироваться.
Поскольку внешние ключи реализованы в виде триггеров, установка этого параметра на replica также отключает все проверки внешних ключей, которые могут привести к несогласованности данных в случае неправильного использования.

statement_timeout (integer)

Прервите любое утверждение, которое занимает больше указанного времени. Если для log_min_error_statement задано значение ERROR или ниже, тайм-аут оператора также будет записан в журнал. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Нулевое значение (по умолчанию) отключает тайм-аут.
Время ожидания измеряется с момента поступления команды на сервер до ее завершения сервером. В протоколе расширенных запросов тайм-аут начинает работать, когда поступает какое-либо связанное с запросом сообщение (Parse, Bind, Execute, Describe), и оно отменяется при завершении сообщения Execute или Sync.
Установка statement_timeout в qhb.conf не рекомендуется, потому что это повлияет на все сеансы.

lock_timeout (integer)

Прервите любой оператор, который ожидает дольше указанного времени, пытаясь получить блокировку таблицы, индекса, строки или другого объекта базы данных. Ограничение по времени применяется отдельно для каждой попытки получения блокировки. Ограничение применяется как к явным запросам блокировки (таким как LOCK TABLE или SELECT FOR UPDATE без NOWAIT ), так и к неявно полученным блокировкам. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Нулевое значение (по умолчанию) отключает тайм-аут.
В отличие от statement_timeout, этот тайм-аут может происходить только во время ожидания блокировок. Обратите внимание, что если lock_timeout отличен от нуля, бессмысленно устанавливать для lock_timeout то же самое или большее значение, поскольку время ожидания оператора всегда срабатывает первым. Если для log_min_error_statement задано значение ERROR или ниже, то выдержка времени будет записана в журнал.
Установка lock_timeout в qhb.conf не рекомендуется, потому что это повлияет на все сеансы.

idle_in_transaction_session_timeout (integer)

Завершите любой сеанс открытой транзакцией, которая простаивала дольше указанного времени. Это позволяет снять любые блокировки, удерживаемые этим сеансом, и повторно использовать слот подключения; это также позволяет вакуумировать кортежи, видимые только для этой транзакции. См. раздел Регулярная очистка для более подробной информации об этом.
Если это значение указано без единиц измерения, оно принимается за миллисекунды. Нулевое значение (по умолчанию) отключает тайм-аут.

vacuum_freeze_table_age (integer)

VACUUM выполняет агрессивное сканирование, если таблица pg_class . relfrozenxid достигло возраста, указанного в этом параметре. Агрессивное сканирование отличается от обычного VACUUM тем, что оно посещает каждую страницу, которая может содержать незамерзающие XID или MXID, а не только те, которые могут содержать мертвые кортежи. По умолчанию 150 миллионов транзакций. Хотя пользователи могут установить это значение в диапазоне от нуля до двух миллиардов, VACUUM будет молча ограничивать эффективное значение до 95% autovacuum_freeze_max_age, чтобы периодическое руководство VACUUM могло запускаться до того, как для таблицы будет запущена автоочистка с обходом. Для получения дополнительной информации см. раздел Предотвращение ошибок зацикливания идентификатора транзакции.

vacuum_freeze_min_age (integer)

Определяет конечный возраст (в транзакциях), который VACUUM должен
использовать, чтобы решить, следует ли заморозить версии строк при
сканировании таблицы. По умолчанию 50 миллионов транзакций. Хотя
пользователи могут установить это значение в диапазоне от нуля до
одного миллиарда, `VACUUM` будет молча ограничивать эффективное
значение до половины значения *autovacuum_freeze_max_age*, чтобы не
было неоправданно короткого промежутка времени между принудительными
автоочистками. Для получения дополнительной информации
см. раздел [Предотвращение ошибок зацикливания идентификатора транзакции].

vacuum_multixact_freeze_table_age (integer)

`VACUUM` выполняет агрессивное сканирование, если поле таблицы ***pg_class.
relminmxid*** достигло возраста, указанного в этом параметре.
Агрессивное сканирование отличается от обычной операции `VACUUM` тем, что оно
посещает каждую страницу, которая может содержать незамороженные XID
или MXID, а не только те, которые могут содержать мертвые кортежи.
По умолчанию установлено 150 миллионов мультитранзакций. Хотя
пользователи могут установить это значение в диапазоне от нуля до
двух миллиардов, `VACUUM` будет молча ограничивать эффективное
значение до 95% от [autovacuum\_multixact\_freeze\_max\_age], чтобы
у периодически запускаемой вручную команды `VACUUM` были шансы выполниться до того, как для
таблицы будет запущена автоочистка, предотвращающая зацикливание.
Дополнительную информацию см. в подразделе [Мультитранзакции и зацикливание].

vacuum_multixact_freeze_min_age (integer)

Определяет предельный возраст (в мультитранзакциях), который команда `VACUUM`
должна использовать при решении о том, заменять ли
идентификатор мультитранзакции более новым идентификатором транзакции или
мультитранзакции при сканировании таблицы. По
умолчанию установлено 5 миллионов мультитранзакций. Хотя пользователи
могут установить это значение в диапазоне от нуля до одного
миллиарда, `VACUUM` будет молча ограничивать эффективное значение
половиной значения [autovacuum\_multixact\_freeze\_max\_age], чтобы не
допустить неоправданно коротких периодов между принудительными
автоочистками. Дополнительную информацию см. в
подразделе [Мультитранзакции и зацикливание].

vacuum_cleanup_index_scale_factor (с floating point)

Указывает долю от общего числа кортежей кучи, подсчитанных в предыдущем сборе статистики, которые можно вставить без сканирования индекса на этапе очистки VACUUM. Этот параметр в настоящее время применяется только к B-деревьям.
Если из кучи не было удалено ни одного кортежа, B-деревья по-прежнему сканируются на этапе очистки VACUUM когда выполняется хотя бы одно из следующих условий: статистика индекса устарела или индекс содержит удаленные страницы, которые можно повторно использовать во время очистки, Статистика индекса считается устаревшей, если число вновь вставленных кортежей превышает долю в vacuum_cleanup_index_scale_factor от общего числа кортежей кучи, обнаруженных предыдущим сбором статистики. Общее количество кортежей кучи хранится на мета-странице индекса. Обратите внимание, что мета-страница не включает эти данные до тех пор, пока VACUUM не найдет мертвые кортежи, поэтому сканирование B-дерева на этапе очистки может быть пропущено, только если второй и последующие циклы VACUUM не обнаруживают мертвых кортежей.
Значение может варьироваться от 0 до 10000000000. Если в vacuum_cleanup_index_scale_factor установлено значение 0, сканирование индекса никогда не пропускается во время очистки VACUUM. Значение по умолчанию составляет 0.1 .

bytea_output (enum)

Устанавливает формат вывода для значений типа bytea. Допустимые значения: hex (по умолчанию) и escape (традиционный формат QHB). См. Раздел 8.4 для получения дополнительной информации. Тип bytea всегда принимает оба формата на входе, независимо от этого параметра.

xmlbinary (enum)

Устанавливает, как двоичные значения должны быть закодированы в XML. Это применимо, например, когда значения bytea конвертируются в XML с помощью функций xmlelement или xmlforest. Возможные значения: base64 и hex, которые определены в стандарте XML-схемы. По умолчанию используется base64. Для получения дополнительной информации о функциях, связанных с XML, см. Раздел 9.14 .
Фактический выбор здесь в основном зависит от вкуса, ограниченного только возможными ограничениями в клиентских приложениях. Оба метода поддерживают все возможные значения, хотя шестнадцатеричная кодировка будет несколько больше, чем кодировка base64.

xmloption (enum)

Устанавливает, является ли DOCUMENT или CONTENT неявным при преобразовании между значениями XML и символьных строк. См. раздел Тип XML для описания этого. Допустимые значения: DOCUMENT и CONTENT . По умолчанию используется CONTENT .
Согласно стандарту SQL, команда для установки этой опции

SET XML OPTION { DOCUMENT | CONTENT };

Этот синтаксис также доступен в QHB.

gin_pending_list_limit (integer)

Устанавливает максимальный размер списка ожидания индекса GIN, который используется при fastupdate. Если список становится больше этого максимального размера, он очищается путем массового перемещения записей в нем в основную структуру данных индекса GIN. Если это значение указано без единиц измерения, оно принимается за килобайты. По умолчанию используется четыре мегабайта (4MB). Этот параметр можно переопределить для отдельных индексов GIN, изменив параметры хранения индекса. См. раздел Быстрое обновление GIN и раздел GIN советы и хитрости для получения дополнительной информации.

Язык и форматирование

DateStyle (string)

Устанавливает формат отображения значений даты и времени, а также правила интерпретации неоднозначных значений ввода даты. По историческим причинам эта переменная содержит два независимых компонента: спецификацию выходного формата (ISO, Postgres, SQL или German) и спецификацию ввода / вывода для упорядочивания года / месяца / дня (DMY, MDY или YMD). Они могут быть установлены отдельно или вместе. Ключевые слова Euro и European являются синонимами для DMY; ключевые слова US, NonEuro и NonEuropean являются синонимами для MDY. См. раздел Типы даты / времени для получения дополнительной информации. По умолчанию встроенным является ISO, MDY, но initdb инициализирует файл конфигурации с настройкой, соответствующей поведению выбранного lc_time стандарта lc_time .

IntervalStyle (enum)

Устанавливает формат отображения для значений интервала. Значение sql_standard будет выдавать выходные данные, соответствующие литералам стандартного интервала SQL. Значение iso_8601 будет выдавать выходные данные, соответствующие временному интервалу «формат с указателями», определенному в разделе 4.4.3.2 ISO 8601.
Параметр IntervalStyle также влияет на интерпретацию ввода неоднозначных интервалов. См. раздел Формат ввода интервалов для получения дополнительной информации.

TimeZone (string)

Устанавливает часовой пояс для отображения и интерпретации меток времени. Встроенное значение по умолчанию - GMT, но обычно оно переопределяется в qhb.conf; initdb установит там настройку, соответствующую системному окружению. См. раздел Часовые пояса для получения дополнительной информации.

timezone_abbreviations (string)

Устанавливает коллекцию сокращений часовых поясов, которые будут приняты сервером для ввода даты и времени. По умолчанию используется значение ’Default’, которое является коллекцией, которая работает в большинстве стран мира; Есть также ’Australia’ и ’India’, и другие коллекции могут быть определены для конкретной установки. См. Раздел B.4 для получения дополнительной информации.

extra_float_digits (integer)

Этот параметр регулирует количество цифр, используемых для текстового вывода значений с плавающей запятой, включая float4, float8 и геометрические.
Если значение равно 1 (по умолчанию) или выше, значения с плавающей запятой выводятся в кратчайшем точном формате; см. раздел Типы с плавающей точкой. Фактическое количество генерируемых цифр зависит только от выводимого значения, а не от значения этого параметра. float8 значений float8 требуется не более 17 цифр, а для значений float4 9. Этот формат является быстрым и точным, сохраняя исходное двоичное значение с плавающей точкой точно при правильном чтении. Для исторической совместимости допустимы значения до 3.
Если значение равно нулю или отрицательно, то результат округляется до заданной десятичной точности. Используемая точность - это стандартное количество цифр для типа ( FLT_DIG или DBL_DIG в зависимости от ситуации), уменьшенное в соответствии со значением этого параметра. (Например, указание -1 приведет к float4 значения float4 будут округлены до 5 значащих цифр, а значения float8 округлены до 14 цифр). Этот формат медленнее и не сохраняет все биты двоичного значения с плавающей точкой, но может быть больше человек читаемый.

Заметка
см. раздел Типы с плавающей точкой для дальнейшего обсуждения.

client_encoding (string)

Устанавливает кодировку на стороне клиента (набор символов). По умолчанию используется кодировка базы данных. Наборы символов, поддерживаемые сервером QHB, описаны в разделе Поддерживаемые наборы символов.

lc_messages (string)

Устанавливает язык, на котором отображаются сообщения. Допустимые значения зависят от системы; см. раздел Поддержка локали для получения дополнительной информации. Если для этой переменной задана пустая строка (которая является значением по умолчанию), то значение наследуется от среды выполнения сервера системно-зависимым способом.
В некоторых системах эта категория локали не существует. Установка этой переменной все равно будет работать, но эффекта не будет. Кроме того, существует вероятность того, что переведенных сообщений на желаемом языке не существует. В этом случае вы будете продолжать видеть английские сообщения.
Только суперпользователи могут изменять этот параметр, поскольку он влияет на сообщения, отправляемые в журнал сервера, а также на клиент, и неправильное значение может затенить читаемость журналов сервера.

lc_monetary (string)

Устанавливает языковой стандарт для форматирования денежных сумм, например, с to_char семейства функций to_char. Допустимые значения зависят от системы; см. раздел Поддержка локали для получения дополнительной информации. Если для этой переменной задана пустая строка (которая является значением по умолчанию), то значение наследуется от среды выполнения сервера системно-зависимым способом.

lc_numeric (string)

Устанавливает языковой стандарт для форматирования чисел, например, с to_char семейства функций to_char. Допустимые значения зависят от системы; см. раздел Поддержка локали для получения дополнительной информации. Если для этой переменной задана пустая строка (которая является значением по умолчанию), то значение наследуется от среды выполнения сервера системно-зависимым способом.

lc_time (string)

Устанавливает языковой стандарт для форматирования даты и времени, например, с to_char семейства функций to_char. Допустимые значения зависят от системы; см. раздел Поддержка локали для получения дополнительной информации. Если для этой переменной задана пустая строка (которая является значением по умолчанию), то значение наследуется от среды выполнения сервера системно-зависимым способом.

default_text_search_config (string)

Выбирает конфигурацию текстового поиска, которая используется теми вариантами функций текстового поиска, у которых нет явного аргумента, определяющего конфигурацию. См. Главу 12 для получения дополнительной информации. Встроенное значение по умолчанию - pg_catalog.simple, но initdb инициализирует файл конфигурации с настройкой, соответствующей выбранной локали lc_ctype, если можно определить конфигурацию, соответствующую этой локали.

Предварительная загрузка общей библиотеки

Для предварительной загрузки общих библиотек на сервер доступно несколько параметров, чтобы загрузить дополнительные функции или повысить производительность. Например, установка ’$libdir/mylib’ приведет к mylib.so (или на некоторых платформах mylib.sl) из каталога стандартной библиотеки установки. Различия между настройками заключаются в том, когда они вступают в силу и какие привилегии требуются для их изменения.

Таким образом можно предварительно ’$libdir/plXXX’ библиотеки процедурного языка QHB, обычно используя синтаксис ’$libdir/plXXX’ где XXX - это pgsql, perl, tcl или python .

Только общие библиотеки, специально предназначенные для использования с QHB, могут быть загружены таким образом. Каждая библиотека, поддерживаемая QHB, имеет «магический блок», который проверяется на совместимость. По этой причине не-QHB библиотеки не могут быть загружены таким образом. Для этого вы можете использовать средства операционной системы, такие как LD_PRELOAD .

В общем, обратитесь к документации конкретного модуля за рекомендуемым способом загрузки этого модуля.

local_preload_libraries (string)

Эта переменная указывает одну или несколько общих библиотек, которые должны быть предварительно загружены при запуске подключения. Он содержит разделенный запятыми список имен библиотек, где каждое имя интерпретируется как для команды LOAD. Пробелы между записями игнорируются; окружите имя библиотеки двойными кавычками, если вам нужно включить пробел или запятые в имени. Значение параметра вступает в силу только в начале соединения. Последующие изменения не имеют никакого эффекта. Если указанная библиотека не найдена, попытка подключения завершится неудачно.
Эта опция может быть установлена любым пользователем. Из-за этого загружаемые библиотеки ограничены теми, которые появляются в подкаталоге plugins каталога стандартной библиотеки установки. (Администратор базы данных должен убедиться, что там установлены только « безопасные » библиотеки). Записи в local_preload_libraries могут явно указывать этот каталог, например, $libdir/plugins/mylib, или просто указывать имя библиотеки - mylib будет иметь то же самое эффект как $libdir/plugins/mylib .
Цель этой функции - позволить непривилегированным пользователям загружать библиотеки отладки или измерения производительности в конкретные сеансы, не требуя явной команды LOAD. Для этого было бы типично установить этот параметр с помощью переменной среды PGOPTIONS на клиенте или с помощью ALTER ROLE SET .
Однако, если модуль специально не предназначен для такого использования пользователями, не являющимися суперпользователями, обычно это неправильная настройка для использования. Вместо этого посмотрите на session_preload_libraries .

session_preload_libraries (string)

Эта переменная указывает одну или несколько общих библиотек, которые должны быть предварительно загружены при запуске подключения. Он содержит разделенный запятыми список имен библиотек, где каждое имя интерпретируется как для команды LOAD. Пробелы между записями игнорируются; окружите имя библиотеки двойными кавычками, если вам нужно включить пробел или запятые в имени. Значение параметра вступает в силу только в начале соединения. Последующие изменения не имеют никакого эффекта. Если указанная библиотека не найдена, попытка подключения завершится неудачно. Только суперпользователи могут изменять эту настройку.
Цель этой функции - позволить библиотекам отладки или измерения производительности загружаться в конкретные сеансы без явной команды LOAD. Например, auto_explain можно включить для всех сеансов с данным именем пользователя, установив этот параметр с помощью ALTER ROLE SET. Кроме того, этот параметр может быть изменен без перезапуска сервера (но изменения вступают в силу только при запуске нового сеанса), поэтому проще добавлять новые модули таким образом, даже если они должны применяться ко всем сеансам.
В отличие от shared_preload_libraries, нет большого преимущества в производительности при загрузке библиотеки при запуске сеанса, а не при его первом использовании. Однако при использовании пула соединений есть некоторое преимущество.

shared_preload_libraries (string)

Эта переменная указывает одну или несколько общих библиотек, которые должны быть предварительно загружены при запуске сервера. Он содержит разделенный запятыми список имен библиотек, где каждое имя интерпретируется как для команды LOAD. Пробелы между записями игнорируются; окружите имя библиотеки двойными кавычками, если вам нужно включить пробел или запятые в имени. Этот параметр можно установить только при запуске сервера. Если указанная библиотека не найдена, сервер не запустится.
Некоторые библиотеки должны выполнять определенные операции, которые могут выполняться только при запуске postmaster, такие как выделение общей памяти, резервирование легких блокировок или запуск фоновых рабочих. Эти библиотеки должны быть загружены при запуске сервера через этот параметр. Подробности смотрите в документации каждой библиотеки.
Другие библиотеки также могут быть предварительно загружены. За счет предварительной загрузки общей библиотеки время запуска библиотеки сокращается при первом использовании библиотеки. Однако время запуска каждого нового серверного процесса может немного увеличиться, даже если этот процесс никогда не использует библиотеку. Поэтому этот параметр рекомендуется только для библиотек, которые будут использоваться в большинстве сеансов. Кроме того, изменение этого параметра требует перезапуска сервера, так что, скажем, это неправильная настройка для краткосрочных задач отладки. Вместо этого используйте для этого session_preload_libraries .

Заметка
На хостах Windows предварительная загрузка библиотеки при запуске сервера не сократит время, необходимое для запуска каждого нового процесса сервера; каждый процесс сервера перезагрузит все библиотеки предварительной загрузки. Тем не менее, shared_preload_libraries все еще полезен на хостах Windows для библиотек, которые должны выполнять операции во время запуска postmaster.

jit_provider (string)

Эта переменная является именем используемой библиотеки провайдера JIT . По умолчанию используется llvmjit. Этот параметр можно установить только при запуске сервера.
Если задана несуществующая библиотека, JIT будет недоступен, но ошибки не возникнет. Это позволяет устанавливать поддержку JIT отдельно от основного пакета QHB .

Другие значения по умолчанию

dynamic_library_path (string)

Если необходимо открыть динамически загружаемый модуль и имя файла, указанное в команде CREATE FUNCTION или LOAD, не имеет компонента каталога (т. Е. Имя не содержит косую черту), система будет искать этот путь для поиска требуемого файла.
Значение для dynamic_library_path должно быть списком абсолютных путей к каталогам, разделенных двоеточиями (или точками с запятой в Windows). Если элемент списка начинается со специальной строки $libdir, $libdir скомпилированной библиотеки пакетов QHB заменяется на $libdir; Здесь устанавливаются модули, предоставляемые стандартным дистрибутивом QHB. (Используйте pg_config --pkglibdir чтобы узнать имя этого каталога). Например:

dynamic_library_path = '/usr/local/qhb/lib:/home/my_project/lib:$libdir'

Значением по умолчанию для этого параметра является ’$libdir’. Если в качестве значения задана пустая строка, автоматический поиск пути отключается.
Этот параметр может быть изменен суперпользователями во время выполнения, но настройка, выполненная таким образом, будет сохраняться только до конца клиентского соединения, поэтому этот метод должен быть зарезервирован для целей разработки. Рекомендуемый способ установить этот параметр - в файле конфигурации qhb.conf .

gin_fuzzy_search_limit (integer)

Мягкий верхний предел размера набора, возвращаемого при сканировании индекса GIN. Для получения дополнительной информации см. раздел GIN советы и хитрости.

Управление блокировками

deadlock_timeout (integer)

Это время ожидания блокировки перед проверкой наличия тупиковой ситуации. Проверка на взаимоблокировку является относительно дорогой, поэтому сервер не запускает ее каждый раз, когда ожидает блокировки. Мы с оптимизмом предполагаем, что взаимные блокировки не распространены в рабочих приложениях, и просто подождем некоторое время, прежде чем проверять наличие взаимоблокировок. Увеличение этого значения уменьшает количество времени, затрачиваемого на ненужные проверки взаимоблокировок, но замедляет сообщение о реальных ошибках взаимоблокировок. Если это значение указано без единиц измерения, оно принимается за миллисекунды. Значение по умолчанию составляет одну секунду (1s), что, вероятно, соответствует наименьшему значению, которое вы хотели бы получить на практике. На сильно загруженном сервере вы можете поднять его. В идеале настройка должна превышать ваше типичное время транзакции, чтобы повысить вероятность того, что блокировка будет снята до того, как официант решит проверить тупик. Только суперпользователи могут изменять эту настройку.
Когда установлен параметр log_lock_waits, этот параметр также определяет время ожидания, прежде чем будет выдано сообщение журнала об ожидании блокировки. Если вы пытаетесь исследовать задержки блокировки, вы можете установить короче обычного deadlock_timeout .

max_locks_per_transaction (integer)

Таблица общих блокировок отслеживает блокировки max_locks_per_transaction * ( max_connections + max_prepared_transactions ) (например, таблиц); следовательно, не больше, чем это множество различных объектов могут быть заблокированы одновременно. Этот параметр контролирует среднее количество блокировок объектов, выделенных для каждой транзакции; отдельные транзакции могут блокировать больше объектов, если блокировки всех транзакций помещаются в таблицу блокировок. Это не количество строк, которые могут быть заблокированы; эта ценность не ограничена. Значение по умолчанию, 64, исторически доказано достаточным, но вам может потребоваться повысить это значение, если у вас есть запросы, которые касаются множества разных таблиц в одной транзакции, например, запрос родительской таблицы с множеством дочерних элементов. Этот параметр можно установить только при запуске сервера.
При запуске резервного сервера вы должны установить для этого параметра то же или более высокое значение, чем на главном сервере. В противном случае запросы не будут разрешены на резервном сервере.

max_pred_locks_per_transaction (integer)

Общая таблица блокировки предикатов отслеживает блокировки max_pred_locks_per_transaction * ( max_connections + max_prepared_transactions ) (например, таблиц); следовательно, не больше, чем это множество различных объектов могут быть заблокированы одновременно. Этот параметр контролирует среднее количество блокировок объектов, выделенных для каждой транзакции; отдельные транзакции могут блокировать больше объектов, если блокировки всех транзакций помещаются в таблицу блокировок. Это не количество строк, которые могут быть заблокированы; эта ценность не ограничена. Стандартное значение 64 обычно достаточно для тестирования, но вам может потребоваться увеличить это значение, если у вас есть клиенты, которые касаются множества разных таблиц в одной сериализуемой транзакции. Этот параметр можно установить только при запуске сервера.

max_pred_locks_per_relation (integer)

Это контролирует, сколько страниц или кортежей одного отношения может быть заблокировано предикатом, прежде чем блокировка будет повышена до полного отношения. Значения, большие или равные нулю, означают абсолютный предел, а отрицательные значения означают max_pred_locks_per_transaction, деленное на абсолютное значение этого параметра. По умолчанию используется значение -2, которое сохраняет поведение предыдущих версий QHB. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

max_pred_locks_per_page (integer)

Это контролирует, сколько строк на одной странице может быть заблокировано предикатом, прежде чем блокировка будет повышена до всей страницы. Значение по умолчанию - 2. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

Совместимость версий и платформ

Предыдущие версии QHB

array_nulls (boolean)

Определяет, распознает ли входной синтаксический анализатор массива NULL кавычек как указание элемента массива null. По умолчанию это включено, что позволяет вводить значения массива, содержащие нулевые значения.
Обратите внимание, что можно создавать значения массива, содержащие нулевые значения, даже если эта переменная off.

backslash_quote (enum)

Это определяет, может ли знак кавычки быть представлен \’ в строковом литерале. Предпочтительный стандартный способ представления знака кавычки в SQL - это удвоение его (”), но QHB также принимает \’. Однако использование \’ создает риски безопасности, потому что в некоторых кодировках клиентского набора символов существуют многобайтовые символы, в которых последний байт численно эквивалентен ASCII \. Если код на стороне клиента экранирует некорректно, то возможна атака SQL-инъекцией. Этот риск можно предотвратить, заставив сервер отклонять запросы, в которых знак кавычки, по-видимому, экранирован обратной косой чертой. Допустимые значения backslash_quote : safe_encoding (всегда разрешено), off (всегда отклонено) и безопасное safe_encoding (разрешено только в том случае, если клиентское кодирование не позволяет ASCII \ в многобайтовом символе). safe_encoding является настройкой по умолчанию.
Обратите внимание, что в строковом литерале, соответствующем стандарту, в любом случае \ just означает \. Этот параметр влияет только на обработку нестандартных литералов, включая синтаксис escape-строки (E’...’).

escape_string_warning (boolean)

Когда включено, выдается предупреждение, если в обычном строковом литерале (’...’ синтаксис) появляется обратная косая черта (\), а standard_conforming_strings выключено. По умолчанию включено.
Приложения, которые хотят использовать обратную косую черту в качестве escape, должны быть модифицированы для использования синтаксиса escape-строки (E’...’), потому что поведение обычных строк по умолчанию теперь обрабатывает обратную косую черту как обычный символ в соответствии со стандартом SQL. Эта переменная может быть включена, чтобы помочь найти код, который необходимо изменить.

lo_compat_privileges (boolean)

Установка этой переменной в положение on отключает новые проверки привилегий для совместимости с предыдущими выпусками. По умолчанию off. Только суперпользователи могут изменять эту настройку.
Установка этой переменной отключает не все проверки безопасности, связанные с большими объектами.

operator_precedence_warning (boolean)

Когда он включен, синтаксический анализатор будет выдавать предупреждение для любой конструкции, которая могла бы изменить значения, в результате изменений в приоритетах операторов. Это полезно для аудита приложений, чтобы увидеть, не изменились ли изменения приоритета; но он не предназначен для того, чтобы его оставляли включенным в работе, поскольку он будет предупреждать о каком-то совершенно корректном, стандартно совместимом коде SQL. По умолчанию off .
См. раздел Приоритет оператора для получения дополнительной информации.

quote_all_identifiers (boolean)

Когда база данных генерирует SQL, принудительно заключите в кавычки все идентификаторы, даже если они не являются (в настоящее время) ключевыми словами. Это повлияет на вывод EXPLAIN а также на результаты функций, таких как pg_get_viewdef. Смотрите также параметр --quote-all-identifiers в qhb_dump и qhb_dumpall.

standard_conforming_strings (boolean)

Контролирует, будут ли обычные строковые литералы (’...’) обрабатывать обратную косую черту буквально, как указано в стандарте SQL. По умолчанию включено. Приложения могут проверить этот параметр, чтобы определить, как будут обрабатываться строковые литералы. Наличие этого параметра также может рассматриваться как указание на то, что синтаксис escape-строки (E’...’) поддерживается. Синтаксис Escape-строки (раздел Строковые константы с экранированием в стиле C) следует использовать, если приложение хочет, чтобы обратные слэши обрабатывались как escape-символы.

synchronize_seqscans (boolean)

Это позволяет синхронизировать друг с другом последовательное сканирование больших таблиц, так что одновременное сканирование считывает один и тот же блок примерно в одно и то же время и, следовательно, разделяет рабочую нагрузку ввода-вывода. Когда это включено, сканирование может начаться в середине таблицы, а затем « обернуться» вокруг конца, чтобы покрыть все строки, чтобы синхронизироваться с активностью сканирований, которые уже выполняются. Это может привести к непредсказуемым изменениям порядка строк, возвращаемых запросами, в которых нет предложения ORDER BY. Отключение этого параметра обеспечивает поведение до 8.3, при котором последовательное сканирование всегда начинается с начала таблицы. По умолчанию включено.

Совместимость платформы и клиента

transform_null_equals (boolean)

Когда включено, выражения вида expr = NULL (или NULL = expr) обрабатываются как expr IS NULL, то есть они возвращают true, если expr оценивается как нулевое значение, и false в противном случае. Правильное SQL-совместимое поведение expr = NULL - всегда возвращать ноль (неизвестно). Поэтому этот параметр по умолчанию off .
Однако отфильтрованные формы в Microsoft Access генерируют запросы, которые, по-видимому, используют expr = NULL для проверки на нулевые значения, поэтому, если вы используете этот интерфейс для доступа к базе данных, вы можете включить эту опцию. Поскольку выражения вида expr = NULL всегда возвращают нулевое значение (используя стандартную интерпретацию SQL), они не очень полезны и не часто появляются в обычных приложениях, поэтому этот параметр на практике приносит мало вреда. Но новых пользователей часто смущает семантика выражений, содержащих нулевые значения, поэтому по умолчанию эта опция отключена.
Обратите внимание, что этот параметр влияет только на точную форму = NULL, но не на другие операторы сравнения или другие выражения, которые в вычислительном отношении эквивалентны некоторому выражению, включающему оператор равенства (например, IN). Таким образом, эта опция не является общим исправлением для плохого программирования.
Обратитесь к разделу Функции сравнения и операторы за соответствующей информацией.

Обработка ошибок

exit_on_error (boolean)

Если включено, любая ошибка прервет текущий сеанс. По умолчанию это отключено, так что только ФАТАЛЬНЫЕ ошибки прервут сеанс.

restart_after_crash (boolean)

Если установлено значение on, которое используется по умолчанию, QHB автоматически переинициализируется после сбоя бэкэнда. Если оставить это значение включенным, обычно это лучший способ максимизировать доступность базы данных. Однако в некоторых обстоятельствах, например, когда QHB вызывается кластерным программным обеспечением, может быть полезно отключить перезапуск, чтобы кластерное программное обеспечение могло получить контроль и предпринимать любые действия, которые оно сочтет целесообразными.

data_sync_retry (boolean)

Если установлено значение off, которое используется по умолчанию, QHB выдаст ошибку уровня PANIC при невозможности сброса измененных файлов данных в файловую систему. Это приводит к сбою сервера базы данных. Этот параметр можно установить только при запуске сервера.
В некоторых операционных системах состояние данных в кеше страниц ядра после сбоя обратной записи неизвестно. В некоторых случаях это могло быть полностью забыто, что делает небезопасным повторение; вторая попытка может быть объявлена успешной, когда фактически данные были потеряны. В этих обстоятельствах единственный способ избежать потери данных - это восстановление из WAL после того, как сообщается о любом сбое, предпочтительно после расследования основной причины сбоя и замены любого неисправного оборудования.
Если установлено значение on, QHB будет вместо этого сообщать об ошибке, но продолжит работу, чтобы можно было повторить операцию сброса данных на более поздней контрольной точке. Включайте его только после изучения обработки операционной системы буферизованных данных в случае сбоя обратной записи.

Предустановленные параметры

Следующие « параметры » доступны только для чтения и определяются при компиляции QHB или при его установке. Как таковые, они были исключены из примера файла qhb.conf. Эти опции сообщают о различных аспектах поведения QHB, которые могут представлять интерес для определенных приложений, в частности, административных интерфейсов.

block_size (integer)

Сообщает размер блока диска. Это определяется значением BLCKSZ при сборке сервера. Значение по умолчанию составляет 8192 байта. Значение некоторых переменных конфигурации (например, shared_buffers ) зависит от block_size. См. раздел Потребление ресурсов для информации.

data_checksums (boolean)

Сообщает, включены ли контрольные суммы данных для этого кластера. Смотрите контрольные суммы данных для получения дополнительной информации.

data_directory_mode (integer)

В системах Unix этот параметр сообщает о разрешениях каталога данных, определенных (data_directory) при запуске. (В Microsoft Windows этот параметр всегда будет отображать 0700 ). Смотрите групповой доступ для получения дополнительной информации.

debug_assertions (boolean)

Сообщает, был ли QHB собран с включенными утверждениями. Это тот случай, если макрос USE_ASSERT_CHECKING определен при USE_ASSERT_CHECKING QHB (выполняется, например, с configure параметра configure --enable-cassert ). По умолчанию QHB собран без утверждений.

integer_datetimes (boolean)

Сообщает, был ли построен QHB с поддержкой 64-битных целых дат и времени. По умолчанию - on.

lc_collate (string)

Сообщает локаль, в которой выполняется сортировка текстовых данных. См. раздел Поддержка локали для получения дополнительной информации. Это значение определяется при создании базы данных.

lc_ctype (string)

Сообщает о локали, определяющей классификации персонажей. См. Раздел 23.1 для получения дополнительной информации. Это значение определяется при создании базы данных. Обычно это будет то же самое, что и lc_collate, но для специальных приложений он может быть установлен по-другому.

max_function_args (integer)

Сообщает максимальное количество аргументов функции. Это определяется значением FUNC_MAX_ARGS при сборке сервера. Значение по умолчанию составляет 100 аргументов.

max_identifier_length (integer)

Сообщает максимальную длину идентификатора. Он определяется на единицу меньше значения NAMEDATALEN при сборке сервера. Значение по умолчанию NAMEDATALEN - 64; поэтому значение по умолчанию max_identifier_length составляет 63 байта, что может быть меньше 63 символов при использовании многобайтовых кодировок.

max_index_keys (integer)

Сообщает максимальное количество индексных ключей. Это определяется значением INDEX_MAX_KEYS при сборке сервера. Значение по умолчанию составляет 32 ключа.

segment_size (integer)

Сообщает о количестве блоков (страниц), которые могут быть сохранены в сегменте файла. Это определяется значением RELSEG_SIZE при сборке сервера. Максимальный размер файла сегмента в байтах равен block_size умноженному на block_size; по умолчанию это 1 ГБ.

server_encoding (string)

Сообщает кодировку базы данных (набор символов). Определяется при создании базы данных. Обычно клиенты должны иметь дело только со значением client_encoding .

server_version (string)

Сообщает номер версии сервера. Это определяется значением PG_VERSION при сборке сервера.

server_version_num (integer)

Сообщает номер версии сервера как целое число. Это определяется значением PG_VERSION_NUM при сборке сервера.

ssl_library (string)

Сообщает имя библиотеки SSL, с которой был построен этот сервер QHB (даже если SSL в настоящее время не настроен или не используется в этом экземпляре), например OpenSSL, или пустая строка, если ее нет.

wal_block_size (integer)

Сообщает размер блока диска WAL. Это определяется значением XLOG_BLCKSZ при сборке сервера. Значение по умолчанию составляет 8192 байта.

wal_segment_size (integer)

Сообщает размер сегментов журнала записи вперед. Значение по умолчанию составляет 16 МБ. См. Раздел 29.4 для получения дополнительной информации.

Индивидуальные параметры

Эта функция была разработана для того, чтобы позволить параметрам, обычно не известным QHB, добавляться дополнительными модулями (такими как процедурные языки). Это позволяет настраивать модули расширения стандартными способами.

У пользовательских параметров есть имена из двух частей: имя расширения, затем точка, затем собственно имя параметра, очень похожее на квалифицированные имена в SQL. Примером является plpgsql.variable_conflict .

Поскольку в процессах, которые не загрузили соответствующий модуль расширения, может потребоваться установка пользовательских параметров, QHB примет настройку для любого имени параметра из двух частей. Такие переменные рассматриваются как заполнители и не имеют функции до тех пор, пока модуль, который их определяет, не будет загружен. Когда модуль расширения загружается, он добавляет свои определения переменных, преобразует любые значения заполнителей в соответствии с этими определениями и выдает предупреждения для любых нераспознанных заполнителей, начинающихся с его имени расширения.

Параметры разработчика

Следующие параметры предназначены для работы с исходным кодом QHB, а в некоторых случаях - для восстановления сильно поврежденных баз данных. Не должно быть никаких причин использовать их в производственной базе данных. Как таковые, они были исключены из примера файла qhb.conf. Обратите внимание, что для многих из этих параметров требуются специальные флаги компиляции исходного кода.

allow_system_table_mods (boolean)

Позволяет изменять структуру системных таблиц. Это используется initdb. Этот параметр можно установить только при запуске сервера.

ignore_system_indexes (boolean)

Игнорировать системные индексы при чтении системных таблиц (но все же обновлять индексы при изменении таблиц). Это полезно при восстановлении с поврежденных системных индексов. Этот параметр нельзя изменить после начала сеанса.

post_auth_delay (integer)

Время задержки при запуске нового серверного процесса после проведения процедуры аутентификации. Это предназначено, чтобы дать разработчикам возможность присоединить к серверу процесс с помощью отладчика. Если это значение указано без единиц измерения, оно принимается за секунды. Нулевое значение (по умолчанию) отключает задержку. Этот параметр нельзя изменить после начала сеанса.

pre_auth_delay (integer)

Время задержки сразу после того, как новый процесс сервера разветвлен, прежде чем он выполнит процедуру аутентификации. Это предназначено для того, чтобы дать разработчикам возможность подключиться к процессу сервера с помощью отладчика для отслеживания неправильного поведения при аутентификации. Если это значение указано без единиц измерения, оно принимается за секунды. Нулевое значение (по умолчанию) отключает задержку. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

trace_notify (boolean)

Создает большое количество результатов отладки для команд LISTEN и NOTIFY. client_min_messages или log_min_messages должны быть DEBUG1 или ниже, чтобы отправлять эти выходные данные в журналы клиента или сервера соответственно.

trace_recovery_messages (enum)

Включает запись результатов отладки, связанных с восстановлением, которые в противном случае не были бы зарегистрированы. Этот параметр позволяет пользователю переопределить обычную настройку log_min_messages, но только для определенных сообщений. Это предназначено для использования при отладке горячего резервирования. Допустимые значения: DEBUG5, DEBUG4, DEBUG3, DEBUG2, DEBUG1 и LOG . Значение по умолчанию, LOG, вообще не влияет на решения по протоколированию. Другие значения приводят к тому, что связанные с восстановлением отладочные сообщения этого приоритета или выше регистрируются так, как если бы они имели приоритет LOG; для общих настроек log_min_messages это приводит к безоговорочной отправке их в журнал сервера. Этот параметр можно установить только в файле qhb.conf или в командной строке сервера.

trace_sort (boolean)

Если включено, выдавать информацию об использовании ресурсов во время операций сортировки. Этот параметр доступен, только если макрос TRACE_SORT был определен при компиляции QHB. (Однако TRACE_SORT в настоящее время определен по умолчанию).

trace_locks (boolean)

Если включено, выдать информацию об использовании блокировки. Сбрасываемая информация включает тип операции блокировки, тип блокировки и уникальный идентификатор заблокированного или разблокированного объекта. Также включены битовые маски для типов блокировки, уже предоставленных для этого объекта, а также для типов блокировки, ожидаемых для этого объекта. Для каждого типа блокировки также подсчитывается количество предоставленных блокировок и ожидающих блокировок, а также итоговые значения. Пример вывода файла журнала показан здесь:

LOG:  LockAcquire: new: lock(0xb7acd844) id(24688,24696,0,0,0,1)
    grantMask(0) req(0,0,0,0,0,0,0)=0 grant(0,0,0,0,0,0,0)=0
    wait(0) type(AccessShareLock)
LOG:  GrantLock: lock(0xb7acd844) id(24688,24696,0,0,0,1)
    grantMask(2) req(1,0,0,0,0,0,0)=1 grant(1,0,0,0,0,0,0)=1
    wait(0) type(AccessShareLock)
LOG:  UnGrantLock: updated: lock(0xb7acd844) id(24688,24696,0,0,0,1)
    grantMask(0) req(0,0,0,0,0,0,0)=0 grant(0,0,0,0,0,0,0)=0
    wait(0) type(AccessShareLock)
LOG:  CleanUpLock: deleting: lock(0xb7acd844) id(24688,24696,0,0,0,1)
    grantMask(0) req(0,0,0,0,0,0,0)=0 grant(0,0,0,0,0,0,0)=0
    wait(0) type(INVALID)

Подробная информация о сбрасываемой структуре может быть найдена в src/include/storage/lock.h
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

trace_lwlocks (boolean)

Если включено, выдать информацию об использовании легкого замка. Облегченные блокировки предназначены главным образом для обеспечения взаимного исключения доступа к структурам данных с общей памятью.
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

trace_userlocks (boolean)

Если включено, выдать информацию об использовании блокировки пользователя. Вывод такой же, как для trace_locks, только для консультативных блокировок.
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

trace_lock_oidmin (integer)

Если установлено, не отслеживайте блокировки для таблиц ниже этого OID. (используйте, чтобы избежать вывода на системные таблицы)
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

trace_lock_table (integer)

Безоговорочно проследите блокировки на этой таблице (OID).
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

debug_deadlocks (boolean)

Если установлено, выдает информацию обо всех текущих блокировках при возникновении тайм-аута блокировки.
Этот параметр доступен только в том случае, если макрос LOCK_DEBUG был определен при компиляции QHB .

log_btree_build_stats (boolean)

Если установлено, регистрирует статистику использования системных ресурсов (память и ЦП) для различных операций B-дерева.
Этот параметр доступен только в том случае, если макрос BTREE_BUILD_STATS был определен при компиляции QHB .

wal_consistency_checking (string)

Этот параметр предназначен для проверки ошибок в процедурах повторного выполнения WAL. Когда этот параметр включен, полностраничные изображения любых буферов, измененных вместе с записью WAL, добавляются в запись. Если запись впоследствии воспроизводится, система сначала применяет каждую запись, а затем проверяет, соответствуют ли буферы, измененные записью, сохраненным изображениям. В некоторых случаях (например, биты подсказок) допустимы незначительные изменения, которые будут игнорироваться. Любые неожиданные различия приведут к фатальной ошибке, что приведет к прекращению восстановления.
Значением этого параметра по умолчанию является пустая строка, которая отключает эту функцию. Для проверки всех записей может быть установлено значение all или список менеджеров ресурсов, разделенный запятыми, для проверки только тех записей, которые исходят от этих менеджеров ресурсов. В настоящее время поддерживаются следующие менеджеры ресурсов: heap, heap2, btree, hash, gin, gist, sequence, spgist, brin и generic. Только суперпользователи могут изменять эту настройку.

wal_debug (boolean)

Если включено, выдает отладочный вывод, связанный с WAL. Этот параметр доступен только в том случае, если макрос WAL_DEBUG был определен при компиляции QHB .

ignore_checksum_failure (boolean)

Имеет эффект только если контрольные суммы данных включены.
Обнаружение ошибки контрольной суммы во время чтения обычно заставляет QHB сообщать об ошибке, прерывая текущую транзакцию. Если для параметра ignore_checksum_failure установлено ignore_checksum_failure on, система игнорирует ошибку (но все равно ignore_checksum_failure предупреждение) и продолжает обработку. Такое поведение может вызвать сбои, распространение или скрытие коррупции или других серьезных проблем. Тем не менее, это может позволить вам обойти ошибку и извлечь неповрежденные кортежи, которые все еще могут присутствовать в таблице, если заголовок блока все еще в здравом уме. Если заголовок поврежден, будет сообщено об ошибке, даже если эта опция включена. Настройка по умолчанию off, и она может быть изменена только суперпользователем.

zero_damaged_pages (boolean)

Обнаружение поврежденного заголовка страницы обычно заставляет QHB сообщать об ошибке, прерывая текущую транзакцию. Если для параметра zero_damaged_pages установлено zero_damaged_pages on, система вместо этого отправит предупреждение, zero_damaged_pages поврежденную страницу в памяти и продолжит обработку. Такое поведение уничтожит данные, а именно все строки на поврежденной странице. Однако он позволяет обойти ошибку и извлечь строки из любых неповрежденных страниц, которые могут присутствовать в таблице. Это полезно для восстановления данных, если произошло повреждение из-за аппаратной или программной ошибки. Обычно вы не должны устанавливать это, пока не оставите надежду восстановить данные с поврежденных страниц таблицы. Страницы с нулевым удалением не записываются на диск, поэтому рекомендуется заново создать таблицу или индекс, прежде чем снова отключить этот параметр. Настройка по умолчанию off, и она может быть изменена только суперпользователем.

jit_debugging_support (boolean)

Если LLVM обладает необходимой функциональностью, зарегистрируйте сгенерированные функции в GDB. Это облегчает отладку. Настройка по умолчанию off. Этот параметр можно установить только при запуске сервера.

jit_dump_bitcode (boolean)

Записывает сгенерированный IR LLVM в файловую систему внутри data_directory. Это полезно только для работы над внутренними компонентами реализации JIT. Настройка по умолчанию off. Этот параметр может быть изменен только суперпользователем.

jit_expressions (boolean)

Определяет, скомпилированы ли выражения JIT, когда JIT-компиляция активирована . По умолчанию включено.

jit_profiling_support (boolean)

Если LLVM обладает необходимой функциональностью, отправьте данные, необходимые для разрешения функции профилирования, сгенерированной JIT. Это записывает файлы в $HOME/.debug/jit/; пользователь несет ответственность за выполнение очистки при желании. Настройка по умолчанию off. Этот параметр можно установить только при запуске сервера.

jit_tuple_deforming (boolean)

Определяет, деформируется ли кортеж JIT, когда JIT-компиляция активирована . По умолчанию включено.

Сокращения командной строки

Для удобства имеются также однобуквенные параметры командной строки, доступные для некоторых параметров. Они описаны в таблице 4.2 . Некоторые из этих опций существуют по историческим причинам, и их наличие в виде однобуквенной опции не обязательно означает одобрение использования этой опции.

Таблица 2. Короткий ключ

Короткий вариант	Эквивалент
-B x	shared_buffers = x
-d x	log_min_messages = DEBUG x
-e	datestyle = euro
-fb, -fb, -fh, -fm, -fn, -fo, -fs, -ft	enable_bitmapscan = off, enable_hashjoin = off, enable_indexscan = off, enable_mergejoin = off, enable_nestloop = off, enable_indexonlyscan = off, enable_seqscan = off, enable_tidscan = off
-F	fsync = off
-h x	listen_addresses = x
-i	listen_addresses = ’*’
-k x	unix_socket_directories = x
-l	ssl = on
-N x	max_connections = x
-O	allow_system_table_mods = on
-p x	port = x
-P	ignore_system_indexes = on
-s	log_statement_stats = on
-S x	work_mem = x
-tpa, -tpl, -te	log_parser_stats = on log_planner_stats = on, log_executor_stats = on, log_executor_stats = on
-W x	post_auth_delay = x

Советы по производительности

На производительность запроса могут влиять многие факторы. Некоторые из них могут контролироваться пользователем, в то время как другие имеют основополагающее значение для базовой структуры системы. В этой главе даются некоторые советы по пониманию и настройке производительности QHB.

Создание демонстрационных таблиц

Для создания демонстрационных таблиц используйте команды :

CREATE TABLE tenk1 (
	unique1		int4,
	unique2		int4,
	two			int4,
	four		int4,
	ten			int4,
	twenty		int4,
	hundred		int4,
	thousand	int4,
	twothousand	int4,
	fivethous	int4,
	tenthous	int4,
	odd			int4,
	even		int4,
	stringu1	name,
	stringu2	name,
	string4		name
);

CREATE TABLE tenk2 (
	unique1 	int4,
	unique2 	int4,
	two 	 	int4,
	four 		int4,
	ten			int4,
	twenty 		int4,
	hundred 	int4,
	thousand 	int4,
	twothousand int4,
	fivethous 	int4,
	tenthous	int4,
	odd			int4,
	even		int4,
	stringu1	name,
	stringu2	name,
	string4		name
);

CREATE TABLE onek (
	unique1		int4,
	unique2		int4,
	two			int4,
	four		int4,
	ten			int4,
	twenty		int4,
	hundred		int4,
	thousand	int4,
	twothousand	int4,
	fivethous	int4,
	tenthous	int4,
	odd			int4,
	even		int4,
	stringu1	name,
	stringu2	name,
	string4		name
);

Для заполнения используйте SQL команды из приложения Данные для анализа производительности

ВНИМАНИЕ!!!
Приведённый выше файл, содержащий демонстрационные данные для анализа производительности, довольно большого размера и открытие его для просмотра и попытка выполнить, находящиеся в нём команды при помощи графических утилит может занять значительное время и закончится ошибкой поэтому рекомендуется скачать файл на диск и использовать утилиту qsql для загрузки данных из интерфейса командной строки.

После загрузки данных необходимо выполнить заполнение таблицы и создание необходимых индексов при помощи команд :

INSERT INTO tenk2 SELECT * FROM tenk1;

CREATE INDEX tenk1_unique1 ON tenk1 USING btree(unique1 int4_ops);

CREATE INDEX tenk1_unique2 ON tenk1 USING btree(unique2 int4_ops);

CREATE INDEX tenk1_hundred ON tenk1 USING btree(hundred int4_ops);

CREATE INDEX tenk1_thous_tenthous ON tenk1 (thousand, tenthous);

CREATE INDEX tenk2_unique1 ON tenk2 USING btree(unique1 int4_ops);

CREATE INDEX tenk2_unique2 ON tenk2 USING btree(unique2 int4_ops);

CREATE INDEX tenk2_hundred ON tenk2 USING btree(hundred int4_ops);

CREATE INDEX onek_unique1 ON onek USING btree(unique1 int4_ops);

CREATE INDEX IF NOT EXISTS onek_unique1 ON onek USING btree(unique1 int4_ops);

CREATE INDEX IF NOT EXISTS ON onek USING btree(unique1 int4_ops);

CREATE INDEX onek_unique2 ON onek USING btree(unique2 int4_ops);

CREATE INDEX onek_hundred ON onek USING btree(hundred int4_ops);

CREATE INDEX onek_stringu1 ON onek USING btree(stringu1 name_ops);

Теперь необходим провести очистку таблиц при помощи комманд :

vacuum analyze tenk1;

vacuum analyze tenk2;

vacuum analyze onek;

Таблицы созданы и заполнены

Выполняя примеры запросов приведённые ниже в этом разделе вы сможете получить аналогичные результаты, но ваши предполагаемые оценки затрат (COST) и количества строк могут незначительно отличаться, потому что статистика ANALYZE является случайной выборкой, а не точной, и поскольку оценки затрат по своей природе в некоторой степени зависят от платформы.

Использование EXPLAIN

QHB строит план запросов для каждого запроса, который получен от пользователя. Выбор правильного плана, соответствующего структуре запроса и свойствам данных, абсолютно необходим для хорошей производительности, поэтому в систему входит комплексный планировщик, который пытается выбрать хорошие планы. Вы можете использовать команду EXPLAIN, чтобы увидеть, какой план запроса создает планировщик для любого запроса. Чтение планов - это искусство, которое требует некоторого опыта, чтобы овладеть им, и в этом разделе описаны только основы.

В примерах используется стандартный текстовый формат EXPLAIN, который компактен и удобен для чтения человеком. Если вы хотите передать выходные данные EXPLAIN в программу для дальнейшего анализа, вы должны использовать вместо этого один из машиночитаемых форматов вывода (XML, JSON или YAML).

EXPLAIN Основы

Структура плана запроса представляет собой дерево узлов плана. Узлы на самом нижнем уровне дерева являются узлами сканирования: они возвращают необработанные строки из таблицы. Существуют разные типы узлов сканирования для разных методов доступа к таблице: последовательное сканирование (sequential scans), индексное сканирование (index scans) и индексное сканирование битовых карт (bitmap index scans). В части SQL запроса после FROM есть также источники строк, не являющиеся таблицами, такие как предложения VALUES и функции, возвращающие наборы, которые имеют свои собственные типы узлов сканирования. Если запрос требует объединения, агрегирования, сортировки или других операций с необработанными строками, то над узлами сканирования будут дополнительные узлы для выполнения этих операций. Опять же, как правило, существует несколько возможных способов выполнения этих операций, поэтому и здесь могут появляться разные типы узлов. Вывод EXPLAIN содержит одну строку для каждого узла в дереве плана, показывая базовый тип узла плюс оценки затрат, которые планировщик сделал для выполнения этого узла плана. Могут появиться дополнительные строки с отступом от итоговой строки узла, чтобы показать дополнительные свойства узла. Самая первая строка (итоговая строка для самого верхнего узла) содержит приблизительную общую стоимость выполнения плана (COST) - именно это число планировщик стремится свести к минимуму.

Вот простой пример, чтобы показать, как выглядит результат:

EXPLAIN SELECT * FROM tenk1;

                         QUERY PLAN
-------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..445.00 rows=10000 width=244)

Поскольку в этом запросе нет WHERE, необходимо просматривать все строки таблицы, поэтому планировщик решил использовать простой план последовательного сканирования (Seq Scan). Числа после (слева направо):

cost=0.00..445.00 rows=10000 width=244
Ориентировочная стоимость запуска. Это время, затрачиваемое до начала фазы вывода, например, время на выполнение сортировки в узле сортировки.
cost=0.00..445.00 rows=10000 width=244
Ориентировочная общая стоимость. Предполагается, что узел плана выполнен до конца, то есть извлечены все доступные строки. На практике родительский узел может прервать чтение всех доступных строк (см. Пример LIMIT ниже).
cost=0.00..445.00 rows=10000 width=244
Расчетное количество строк, выводимых этим узлом плана. Опять же, предполагается, что узел полностью выполнился.
cost=0.00..445.00 rows=10000 width=244
Расчетная средняя "ширина" строк, выводимых этим узлом плана (в байтах).

Затраты измеряются в произвольных единицах, определяемых параметрами затрат планировщика (см. раздел Константы стоимости планировщика). Как правило затрат выборки чтение страниц с диска то есть параметр seq_page_cost обычно устанавливается равным 1.0, а другие параметры стоимости устанавливаются относительно него. Примеры в этом разделе выполняются с параметрами стоимости по умолчанию.

Важно понимать, что стоимость узла верхнего уровня включает стоимость всех его дочерних узлов. Также важно понимать, что стоимость отражает только то, что интересует планировщик. В частности, стоимость не учитывает время, потраченное на передачу строк результатов клиенту, что может быть важным фактором в реальном окружении, но планировщик игнорирует это, потому что он не может скорректировать эту величину, изменив план. (Считается, что каждый правильный план будет выводить один и тот же набор строк).

Значение rows немного сложнее, потому что это не количество строк, обработанных или отсканированных узлом плана, а число, выдаваемое узлом. Это число часто меньше, чем число сканируемых строк, в результате фильтрации по любым условиям WHERE условия, которые применяются на узле. В идеальном случае оценка строк верхнего уровня будет приблизительно соответствовать количеству строк, фактически возвращенных, обновленных или удаленных запросом.

Возвращаясь к нашему примеру:

EXPLAIN SELECT * FROM tenk1;

                         QUERY PLAN
-------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..445.00 rows=10000 width=244)

Эти числа получены очень просто. Если вы делаете:

SELECT relpages, reltuples FROM pg_class WHERE relname = 'tenk1';

вы обнаружите, что tenk1 имеет 345 страниц на диске и 10000 строк. Ориентировочная стоимость рассчитывается как (disk pages read * seq_page_cost ) + (rows scanned * cpu_tuple_cost ). По умолчанию seq_page_cost равно 1,0, а cpu_tuple_cost равно 0,01, поэтому предполагаемая стоимость составляет (445 * 1,0) + (10000 * 0,01) = 445.

Теперь давайте изменим запрос, добавив условие WHERE :

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 7000;

                         QUERY PLAN                         
------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..470.00 rows=7000 width=244)
   Filter: (unique1 < 7000)
(2 rows)

Обратите внимание, что вывод EXPLAIN показывает WHERE, применяемое в качестве условия Filter, присоединённого к узлу плана Seq Scan. Это означает, что узел плана проверяет условие для каждой сканируемой строки и выводит только те, которые подходят под условие. Оценка количества выходных строк была уменьшена из-за WHERE. Тем не менее,все равно придется просмотреть все 10000 строк, поэтому стоимость не снизилась; на самом деле он немного увеличилась (на 10000 * cpu_operator_cost, если точно), чтобы отразить дополнительное время ЦП, затраченное на проверку условия WHERE .

Фактическое количество строк, которое выберет этот запрос, равно 7000, но оценка количества rows только приблизительная. Если вы попытаетесь повторить этот эксперимент, вы, вероятно, получите немного другую оценку - более того, он может меняться после каждой команды ANALYZE, потому что статистика, полученная с помощью ANALYZE для таблицы, берется из случайной выборки строк.

Теперь давайте сделаем условие более ограничительным:

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 100;

                                  QUERY PLAN                                  
------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=5.06..224.98 rows=100 width=244)
   Recheck Cond: (unique1 < 100)
   ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0)
         Index Cond: (unique1 < 100)
(4 rows)

Здесь планировщик решил использовать двухэтапный план: дочерний узел плана просматривает индекс, чтобы найти местоположене строк в страницах таблицы, соответствующих условию индекса, а затем родительский узел плана фактически выбирает эти строки из самой таблицы. Извлечение строк по отдельности намного дороже, чем их последовательное чтение, но поскольку не все страницы таблицы нужно считывать, это все же дешевле, чем последовательное сканирование. (Причина использования двух уровней плана состоит в том, что узел верхнего плана сортирует местоположения строк, идентифицированные индексом, в некторый физический порядок перед их чтением, чтобы минимизировать стоимость отдельных выборок. Bitmap Index Scan, упомянутый в имени узлоа, - это и есть механизм, который выполняет сортировку).

Теперь давайте добавим еще одно условие к WHERE :

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 100 AND stringu1 = 'xxx';

                                  QUERY PLAN                                  
------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=5.04..225.20 rows=1 width=244)
   Recheck Cond: (unique1 < 100)
   Filter: (stringu1 = 'xxx'::name)
   ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0)
         Index Cond: (unique1 < 100)
(5 rows)

Добавленное условие stringu1 = 'xxx' уменьшает оценку количества выходных строк, но не стоимость, потому что нам все еще приходится считывать тот же набор строк. Обратите внимание, что столбец stringu1 нельзя применять для использования индекса, поскольку этот индекс только для столбца unique1. Вместо этого он применяется в качестве фильтра для строк, извлекаемых индексом. Таким образом, стоимость фактически немного увеличилась, чтобы отразить эту дополнительную проверку.

В некоторых случаях планировщик предпочтет « простой » план сканирования индекса Index Scan :

EXPLAIN SELECT * FROM tenk1 WHERE unique1 = 42;

                                 QUERY PLAN                                  
-----------------------------------------------------------------------------
 Index Scan using tenk1_unique1 on tenk1  (cost=0.29..8.30 rows=1 width=244)
   Index Cond: (unique1 = 42)
(2 rows)

В этом плане строки таблицы выбираются при помощи индекса, что делает их еще более дорогими для чтения, но их так мало, что дополнительные затраты на сортировку местоположений строк не изменят производительность. Чаще всего план такого типа используется для запросов, которые выбирают только одну строку. Он также часто используется для запросов, которые имеют условие ORDER BY, соответствующее порядку индекса, потому что тогда не требуется никакого дополнительного шага сортировки для выполнения сортировки указанной в ORDER BY .

Если в нескольких столбцах, на которые есть ссылки в WHERE, имеются отдельные индексы, планировщик может выбрать использование комбинации индексов AND или OR:

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 100 AND unique2 > 9000;

                                     QUERY PLAN                                      
-------------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=25.07..60.11 rows=10 width=244)
   Recheck Cond: ((unique1 < 100) AND (unique2 > 9000))
   ->  BitmapAnd  (cost=25.07..25.07 rows=10 width=0)
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0)
               Index Cond: (unique1 < 100)
         ->  Bitmap Index Scan on tenk1_unique2  (cost=0.00..19.78 rows=999 width=0)
               Index Cond: (unique2 > 9000)
(7 rows)

Такой план требует чтения из обоих индексов, поэтому он не обязательно даст выигрыш по сравнению с использованием только одного индекса и обработкой другого условия как фильтра. Если вы измените соответствующие диапазоны, вы увидите, что план изменится соответствующим образом.

Вот пример, показывающий влияние LIMIT :

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 100 AND unique2 > 9000 LIMIT 2;
                                     QUERY PLAN                                      
-------------------------------------------------------------------------------------
 Limit  (cost=0.29..14.28 rows=2 width=244)
   ->  Index Scan using tenk1_unique2 on tenk1  (cost=0.29..70.27 rows=10 width=244)
         Index Cond: (unique2 > 9000)
         Filter: (unique1 < 100)
(4 rows)

Это тот же запрос, что и выше, но мы добавили LIMIT чтобы не все строки были извлечены, и планировщик передумал, это делать. Обратите внимание, что общая стоимость и количество строк узла сканирования индекса (Index Scan) отображаются так, как если бы он был выполнен до конца. Однако ожидается, что узел Limit остановится после получения только одной пятой из этих строк, поэтому его общая стоимость составляет всего одну пятую, и это фактическая оценочная стоимость запроса. Этот план предпочтительнее, чем добавление узла Limit к предыдущему плану, потому что Limit не мог избежать начальной стоимости Bitmap Index Scan, поэтому общая стоимость, при таком подходе, будет примерно 14 единиц.

Давайте попробуем объединить две таблицы, используя столбцы, которые мы обсуждали:

EXPLAIN SELECT *
FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 10 AND t1.unique2 = t2.unique2;

                                      QUERY PLAN                                      
--------------------------------------------------------------------------------------
 Nested Loop  (cost=4.65..118.50 rows=10 width=488)
   ->  Bitmap Heap Scan on tenk1 t1  (cost=4.36..39.38 rows=10 width=244)
         Recheck Cond: (unique1 < 10)
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..4.36 rows=10 width=0)
               Index Cond: (unique1 < 10)
   ->  Index Scan using tenk2_unique2 on tenk2 t2  (cost=0.29..7.90 rows=1 width=244)
         Index Cond: (unique2 = t1.unique2)
(7 rows)

В этом плане у нас есть узел соединения с вложенным циклом (Nested Loop) с двумя дочерними сканированиями таблиц (tenk1 t1 и tenk2 t2) в качестве входных. Отступ строки сводки узла отражает структуру дерева плана. Первый, или «внешний», дочерний объект объединения - это Bitmap Index Scan, похожее на то, что мы видели ранее. Его стоимость и количество строк такие же, как мы получили бы из SELECT ... WHERE unique1 < 10 потому что мы применяем WHERE unique1 <> 10 для этого узла. Предложение t1.unique2 = t2.unique2 пока не актуально, поэтому оно не влияет на количество строк внешнего сканирования. Узел соединения с вложенным циклом (Nested Loop) будет запускать свой второй или «внутренний» дочерний элемент один раз для каждой строки, полученной из внешнего дочернего элемента. Значения столбцов из текущего внешней строки могут быть включены во внутреннее сканирование; здесь доступно значение t1.unique2 из внешней строки, поэтому мы получаем план и затраты, аналогичные тем, что мы видели выше для простого случая SELECT ... WHERE t2.unique2 = constant. (Предполагаемая стоимость на самом деле немного ниже, чем было показано выше, в результате кэширования, которое, как ожидается, произойдет во время повторного сканирования индекса в t2 ). Затем стоимость узла цикла устанавливается на основе стоимости внешнего сканирование, плюс одно повторение внутреннего сканирования для каждой внешней строки (это 10 * 7,90), а также немного процессорного времени для обработки соединения.

В этом примере число выходных строк в соединении совпадает с произведением количества строк в двух сканированиях, но это почти всегда не так, потому что могут быть дополнительные WHERE которые упоминают обе таблицы и поэтому могут применяться только в точке соединения, а не для входного сканирования. Вот пример:

EXPLAIN SELECT *
FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 10 AND t2.unique2 < 10 AND t1.hundred < t2.hundred;

                                         QUERY PLAN                                          
---------------------------------------------------------------------------------------------
 Nested Loop  (cost=4.65..49.36 rows=33 width=488)
   Join Filter: (t1.hundred < t2.hundred)
   ->  Bitmap Heap Scan on tenk1 t1  (cost=4.36..39.38 rows=10 width=244)
         Recheck Cond: (unique1 < 10)
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..4.36 rows=10 width=0)
               Index Cond: (unique1 < 10)
   ->  Materialize  (cost=0.29..8.51 rows=10 width=244)
         ->  Index Scan using tenk2_unique2 on tenk2 t2  (cost=0.29..8.46 rows=10 width=244)
               Index Cond: (unique2 < 10)
(9 rows)

Условие t1.hundred < t2.hundred не может быть проверено в индексе tenk2_unique2, поэтому оно применяется на узле соединения. Это уменьшает приблизительное количество выходных строк узла соединения, но не изменяет ни сканирование в дочерних узлах.

Обратите внимание, что здесь планировщик решил «материализовать» внутреннее отношение объединения, поместив поверх него узел плана Materialize. Это означает, что сканирование индекса t2 будет выполнено только один раз, даже если узел соединения с вложенным циклом должен прочитать эти данные десять раз, по одному разу для каждой строки из внешнего отношения. Узел Materialise сохраняет данные в памяти при чтении, а затем возвращает данные из памяти при каждом последующем проходе.

При работе с внешними объединениями вы можете увидеть узлы плана соединения с присоединенными фильтром объединения Join Filter . Условия фильтра объединения взяты из предложения ON внешнего соединения, поэтому строка, которая не соответствует условию фильтра соединения, все равно может быть выдана как строка с нулевым расширением.

Если мы немного изменим избирательность запроса, мы можем получить совсем другой план соединения:

EXPLAIN SELECT *
FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 100 AND t1.unique2 = t2.unique2;

                                       QUERY PLAN                                        
------------------------------------------------------------------------------------------
 Hash Join  (cost=226.23..709.73 rows=100 width=488)
   Hash Cond: (t2.unique2 = t1.unique2)
   ->  Seq Scan on tenk2 t2  (cost=0.00..445.00 rows=10000 width=244)
   ->  Hash  (cost=224.98..224.98 rows=100 width=244)
         ->  Bitmap Heap Scan on tenk1 t1  (cost=5.06..224.98 rows=100 width=244)
               Recheck Cond: (unique1 < 100)
               ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0)
                     Index Cond: (unique1 < 100)
(8 rows)

Здесь планировщик выбрал использование хэш-соединения, в котором строки одной таблицы заносятся в хэш-таблицу в памяти, после чего сканируется другая таблица и проверяется на совпадение каждой строки в хэш-таблице. Снова обратите внимание, как отступ отражает структуру плана: Bitmap Heap Scan on tenk1 является входом для узла Hash, который построил хеш-таблицу для tenk1 Затем он возвращается в узел Hash Join, который читает строки из своего внешнего дочернего плана и ищет в каждой хеш-таблице.

Другой возможный тип объединения - это соединение слиянием, показанное здесь:

EXPLAIN SELECT *
FROM tenk1 t1, onek t2
WHERE t1.unique1 < 100 AND t1.unique2 = t2.unique2;

                                        QUERY PLAN                                        
------------------------------------------------------------------------------------------
 Merge Join  (cost=95.11..164.54 rows=10 width=488)
   Merge Cond: (t1.unique2 = t2.unique2)
   ->  Index Scan using tenk1_unique2 on tenk1 t1  (cost=0.29..643.28 rows=100 width=244)
         Filter: (unique1 < 100)
   ->  Sort  (cost=94.83..97.33 rows=1000 width=244)
         Sort Key: t2.unique2
         ->  Seq Scan on onek t2  (cost=0.00..45.00 rows=1000 width=244)
(7 rows)

Объединение слиянием (Merge Join) требует, чтобы его входные данные были отсортированы по ключам объединения. В этом плане данные tenk1 сортируются с использованием сканирования индекса для обхода строк в правильном порядке, но для onek предпочтительнее последовательное сканирование (Seq Scan) и сортировка (Sort), поскольку в этой таблице нужно посетить еще много строк. (Последовательное сканирование-сортировка часто превосходит сканирование индекса для сортировки множества строк из-за непоследовательного доступа к диску, необходимого для сканирования индекса).

Один из способов посмотреть на варианты планов - заставить планировщика игнорировать любую стратегию, которая, по его мнению, была самой дешевой, используя флаги включения / выключения, описанные в разделе Конфигурация метода планирования. (Это грубый, но полезный инструмент см. также раздел Управление планировщиком с помощью явных предложений JOIN). Например, если мы не уверены, что последовательное сканирование и сортировка - лучший способ справиться с таблицей onek в предыдущем примере, мы можем попробовать

SET enable_sort = off;

EXPLAIN SELECT *
FROM tenk1 t1, onek t2
WHERE t1.unique1 < 100 AND t1.unique2 = t2.unique2;

                                        QUERY PLAN                                        
------------------------------------------------------------------------------------------
 Hash Join  (cost=226.23..275.08 rows=10 width=488)
   Hash Cond: (t2.unique2 = t1.unique2)
   ->  Seq Scan on onek t2  (cost=0.00..45.00 rows=1000 width=244)
   ->  Hash  (cost=224.98..224.98 rows=100 width=244)
         ->  Bitmap Heap Scan on tenk1 t1  (cost=5.06..224.98 rows=100 width=244)
               Recheck Cond: (unique1 < 100)
               ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0)
                     Index Cond: (unique1 < 100)
(8 rows)

что показывает, что планировщик считает, что сортировка onek помощью сканирования по индексу примерно на 12% дороже, чем последовательное сканирование и сортировка. Конечно, следующий вопрос - правильно ли это? Мы можем исследовать это, используя EXPLAIN ANALYZE, как описано ниже.

EXPLAIN ANALYZE

Можно проверить точность оценок планировщика, используя опцию EXPLAIN ’s ANALYZE. С помощью этой опции EXPLAIN фактически выполняет запрос, а затем отображает истинное количество строк и истинное время выполнения, накопленные в каждом узле плана, а также те же оценки, которые показывает обычный EXPLAIN. Например, мы можем получить такой результат:

EXPLAIN ANALYZE SELECT *
FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 10 AND t1.unique2 = t2.unique2;

                                                          QUERY PLAN                                                            
---------------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=4.65..118.50 rows=10 width=488) (actual time=0.108..0.406 rows=10 loops=1)
   ->  Bitmap Heap Scan on tenk1 t1  (cost=4.36..39.38 rows=10 width=244) (actual time=0.061..0.135 rows=10 loops=1)
         Recheck Cond: (unique1 < 10)
         Heap Blocks: exact=10
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..4.36 rows=10 width=0) (actual time=0.038..0.038 rows=10 loops=1)
               Index Cond: (unique1 < 10)
   ->  Index Scan using tenk2_unique2 on tenk2 t2  (cost=0.29..7.90 rows=1 width=244) (actual time=0.022..0.023 rows=1 loops=10)
         Index Cond: (unique2 = t1.unique2)
 Planning Time: 0.953 ms
 Execution Time: 0.517 ms
(10 rows)

Обратите внимание, что значения «фактического времени» actual time приведены в миллисекундах реального времени, тогда как оценки cost выражены в произвольных единицах; поэтому они вряд ли совпадают. Обычно наиболее важно искать, достаточно ли приблизительное число строк соответствует действительности. В этом примере все оценки были точными, но на практике это довольно необычно.

В некоторых планах запросов узел подплана может выполняться более одного раза. Например, сканирование внутреннего индекса будет выполняться один раз для каждой внешней строки в приведенном выше плане вложенного цикла. В таких случаях значение цикла сообщает об общем количестве выполнений узла, а показанные фактические значения времени и строк представляют собой средние значения для каждого выполнения. Это сделано для того, чтобы сделать числа сопоставимыми с тем, как отображаются оценки затрат. Умножьте на значение цикла, чтобы получить общее время, фактически потраченное на узел. В приведенном выше примере мы потратили 0,220 миллисекунды на выполнение сканирования индекса на tenk2 .

В некоторых случаях EXPLAIN ANALYZE показывает дополнительную статистику выполнения помимо времени выполнения узла плана и количества строк. Например, узлы Sort и Hash предоставляют дополнительную информацию:

EXPLAIN ANALYZE SELECT *
FROM tenk1 t1, tenk2 t2
WHERE t1.unique1 < 100 AND t1.unique2 = t2.unique2 ORDER BY t1.fivethous;

                                                                 QUERY PLAN                                                                 
--------------------------------------------------------------------------------------------------------------------------------------------
 Sort  (cost=713.05..713.30 rows=100 width=488) (actual time=4.184..4.195 rows=100 loops=1)
   Sort Key: t1.fivethous
   Sort Method: quicksort  Memory: 77kB
   ->  Hash Join  (cost=226.23..709.73 rows=100 width=488) (actual time=0.387..4.019 rows=100 loops=1)
         Hash Cond: (t2.unique2 = t1.unique2)
         ->  Seq Scan on tenk2 t2  (cost=0.00..445.00 rows=10000 width=244) (actual time=0.011..1.688 rows=10000 loops=1)
         ->  Hash  (cost=224.98..224.98 rows=100 width=244) (actual time=0.350..0.350 rows=100 loops=1)
               Buckets: 1024  Batches: 1  Memory Usage: 35kB
               ->  Bitmap Heap Scan on tenk1 t1  (cost=5.06..224.98 rows=100 width=244) (actual time=0.039..0.300 rows=100 loops=1)
                     Recheck Cond: (unique1 < 100)
                     Heap Blocks: exact=90
                     ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0) (actual time=0.022..0.022 rows=100 loops=1)
                           Index Cond: (unique1 < 100)
 Planning Time: 1.542 ms
 Execution Time: 4.327 ms
(15 rows)

Узел Sort показывает используемый метод сортировки (в частности, была ли сортировка в памяти или на диске) и необходимый объем памяти или дискового пространства. Узел Hash показывает количество хэш-партиций и пакетов, а также пиковый объем памяти, используемый для хэш-таблицы. (Если количество пакетов превышает единицу, также будет задействовано использование дискового пространства, но это не показано).

Другой тип дополнительной информации - это количество строк, удаленных условием фильтра:

EXPLAIN ANALYZE SELECT * FROM tenk1 WHERE ten < 7;

                                                QUERY PLAN                                                
----------------------------------------------------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..470.00 rows=7000 width=244) (actual time=0.038..42.547 rows=7000 loops=1)
   Filter: (ten < 7)
   Rows Removed by Filter: 3000
 Planning Time: 0.176 ms
 Execution Time: 43.762 ms
(5 rows)

Эти подсчеты могут быть особенно полезны для условий фильтрации, применяемых в узлах соединения. Строка «Rows Removed» появляется только тогда, когда хотя бы одна отсканированная строка или пара возможных соединений в случае узла соединения отклонена условием фильтрации.

У EXPLAIN есть опция BUFFERS которую можно использовать с ANALYZE для получения еще большей статистики времени выполнения:

EXPLAIN (ANALYZE, BUFFERS) SELECT * FROM tenk1 WHERE unique1 < 100 AND unique2 > 9000;

                                                           QUERY PLAN                                                            
---------------------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=25.07..60.11 rows=10 width=244) (actual time=0.964..1.033 rows=10 loops=1)
   Recheck Cond: ((unique1 < 100) AND (unique2 > 9000))
   Heap Blocks: exact=10
   Buffers: shared hit=14 read=3
   ->  BitmapAnd  (cost=25.07..25.07 rows=10 width=0) (actual time=0.942..0.943 rows=0 loops=1)
         Buffers: shared hit=4 read=3
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=100 width=0) (actual time=0.056..0.056 rows=100 loops=1)
               Index Cond: (unique1 < 100)
               Buffers: shared hit=2
         ->  Bitmap Index Scan on tenk1_unique2  (cost=0.00..19.78 rows=999 width=0) (actual time=0.863..0.863 rows=999 loops=1)
               Index Cond: (unique2 > 9000)
               Buffers: shared hit=2 read=3
 Planning Time: 0.400 ms
 Execution Time: 1.113 ms
(14 rows)

Число BUFFERS помогает определить, какие части запроса наиболее интенсивны при вводе-выводе.

Имейте в виду, что поскольку EXPLAIN ANALYZE фактически выполняет запрос, любые побочные эффекты будут происходить как и при обычном выполнении запроса, даже если любые результаты, которые может выдать запрос, будут отброшены и вместо них выводится EXPLAIN. Если вы хотите проанализировать запрос на изменение данных без изменения таблиц, вы можете откатить команду позже, например:

BEGIN;

EXPLAIN ANALYZE UPDATE tenk1 SET hundred = hundred + 1 WHERE unique1 < 100;

                                                           QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------------
 Update on tenk1  (cost=5.07..229.46 rows=101 width=250) (actual time=14.628..14.628 rows=0 loops=1)
   ->  Bitmap Heap Scan on tenk1  (cost=5.07..229.46 rows=101 width=250) (actual time=0.101..0.439 rows=100 loops=1)
         Recheck Cond: (unique1 < 100)
         ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..5.04 rows=101 width=0) (actual time=0.043..0.043 rows=100 loops=1)
               Index Cond: (unique1 < 100)
 Planning time: 0.079 ms
 Execution time: 14.727 ms

ROLLBACK;

Как видно из этого примера, когда запрос представляет собой команду INSERT, UPDATE или DELETE, фактическая работа по изменению данных таблицы выполняется узлом плана INSERT, UPDATE или DELETE. Узлы плана под этим узлом выполняют поиск строк и / или вычисляют новые данные. Итак, выше мы видим тот же Bitmap Index Scan, который мы уже видели, и его выходные данные передаются в узел update, в котором хранятся обновленные строки. Стоит отметить, что хотя узел, модифицирующий данные, может выполнятся значительное время (в этом примере он занимает основную долю времени) выполнения, планировщик в настоящее время ничего не добавляет к оценкам затрат для учета этой работы. Это связано с тем, что выполняемая работа одинакова для каждого правильного плана запроса, поэтому она не влияет на решения по планированию.

Предостережения

Существует два основных случая, когда время выполнения, измеренное с помощью EXPLAIN ANALYZE может отличаться от нормального выполнения того же запроса. Во-первых, поскольку выходные строки не доставляются клиенту, затраты на передачу по сети и затраты на преобразование ввода / вывода не включены. Во-вторых, накладные расходы на измерения, добавленные EXPLAIN ANALYZE могут быть значительными, особенно на машинах с медленными системными вызовами операционной системы gettimeofday().

Результаты EXPLAIN не следует экстраполировать на ситуации, сильно отличающиеся от тех, которые вы фактически проверяете, например, нельзя предполагать, что результаты на таблице с крошечным количеством тестовых данных применимы к большим таблицам. Оценки стоимости планировщика не являются линейными, и поэтому он может выбрать другой план для таблицы большего или меньшего размера. Граничным условием, например, является то, что для таблицы, занимающей только одну страницу диска, почти всегда выбирается план с последовательным сканированием, независимо от того, доступны индексы или нет. Планировщик понимает, что для обработки таблицы в любом случае потребуется одно чтение страницы на диске, поэтому нет смысла тратить дополнительные операции чтения страницы для просмотра индекса.

Есть случаи, когда фактические и оценочные значения не совпадают, но на самом деле все в порядке. Один из таких случаев возникает, когда выполнение узла плана останавливается с помощью LIMIT или аналогичного эффекта. Например, в запросе LIMIT мы использовали ранее,

EXPLAIN ANALYZE SELECT * FROM tenk1 WHERE unique1 < 100 AND unique2 > 9000 LIMIT 2;
                                                          QUERY PLAN                                                           
-------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=0.29..14.28 rows=2 width=244) (actual time=1.196..1.321 rows=2 loops=1)
   ->  Index Scan using tenk1_unique2 on tenk1  (cost=0.29..70.27 rows=10 width=244) (actual time=1.194..1.319 rows=2 loops=1)
         Index Cond: (unique2 > 9000)
         Filter: (unique1 < 100)
         Rows Removed by Filter: 287
 Planning Time: 7.903 ms
 Execution Time: 1.557 ms
(7 rows)

оценочнка стоимости и количества строк для узла Index Scan отображаются так, как если бы он был выполнен до конца. Но в действительности узел Limit прекратил запрашивать строки после того, как он получил две строки, поэтому фактическое количество строк составляет только 2, а время выполнения меньше, чем можно предположить в оценке затрат. Это не ошибка оценки, а только несоответствие в способе отображения оценок и истинных значений.

Объединения слиянием (Merge Join) также имеют артефакты измерения, которые могут запутать. Объединение слиянием прекратит чтение одного ввода, если оно исчерпало другой ввод, а следующее значение ключа в одном входе больше, чем значение последнего ключа другого ввода; в таком случае больше не может быть совпадений, поэтому нет необходимости сканировать оставшуюся часть первого ввода. Это приводит к тому, что не выполняется полное чтение одного дочернего элемента, с результатами, подобными упомянутым для LIMIT. Кроме того, если внешний (первый) дочерний элемент содержит строки с дублирующимися значениями ключа, внутренний (второй) дочерний объект резервируется и повторно сканируется для части его строк, соответствующей этому значению ключа. EXPLAIN ANALYZE считает эти повторные исключения одних и тех же внутренних рядов, как если бы они были настоящими дополнительными рядами. Когда существует много внешних дубликатов, сообщаемое фактическое число строк для внутреннего дочернего узла плана может быть значительно больше, чем число строк, которые фактически находятся во внутреннем отношении.

BitmapAnd и BitmapOr nвсегда сообщают, что их фактическое число строк равно нулю из-за ограничений реализации.

Обычно EXPLAIN отображает каждый узел плана, созданный планировщиком. Однако в некоторых случаях исполнитель (executor) может определить, что определенные узлы не нужно выполнять, поскольку они не могут создавать строки, основываясь на значениях параметров, которые были недоступны во время планирования. (В настоящее время это может происходить только для дочерних узлов узла Append или MergeAppend, который сканирует таблицу с партициями). Когда это происходит, эти узлы плана исключаются из вывода EXPLAIN, и вместо этого появляется аннотация Subplans Removed: N.

Статистика, используемая планировщиком

Статистика по одному столбцу

Как мы видели в предыдущем разделе, планировщик запросов должен оценить количество строк, извлеченных запросом, чтобы сделать правильный выбор плана запроса. В этом разделе приводится краткий обзор статистики, которую система использует для этих оценок.

Одним из компонентов статистики - общее количество записей в каждой таблице и индексе, а также количество дисковых блоков, занимаемых каждой таблицей и индексом. Эта информация хранится в таблице pg_class, в столбцах reltuples и relpages. Мы можем посмотреть на это с помощью запросов, похожих на этот:

SELECT relname, relkind, reltuples, relpages
FROM pg_class
WHERE relname LIKE 'tenk1%';

       relname        | relkind | reltuples | relpages
----------------------+---------+-----------+----------
 tenk1                | r       |     10000 |      345
 tenk1_hundred        | i       |     10000 |       30
 tenk1_thous_tenthous | i       |     10000 |       30
 tenk1_unique1        | i       |     10000 |       30
 tenk1_unique2        | i       |     10000 |       30
(5 rows)

Здесь мы можем видеть, что tenk1 содержит 10000 строк, как и его индексы, но индексы (что неудивительно) намного меньше таблицы.

По соображениям эффективности reltuples и relpages не обновляются на лету, и поэтому они обычно содержат несколько устаревших значений. Они обновляются с помощью VACUUM, ANALYZE и нескольких команд DDL, таких как CREATE INDEX. Операция VACUUM или ANALYZE, которая не сканирует всю таблицу (что обычно имеет место), будет постепенно обновлять число reltuples на основе части таблицы, которую она просканировала, что приведет к приблизительному значению. В любом случае планировщик будет масштабировать значения, которые он находит в pg_class чтобы соответствовать текущему размеру физической таблицы, таким образом получая более точное приближение.

Большинство запросов извлекают только часть строк в таблице из-за WHERE которые ограничивают строки, подлежащие проверке. Таким образом, планировщик должен оценить селективность WHERE, то есть долю строк, соответствующих каждому условию в WHERE. Информация, используемая для этой задачи, хранится в системном каталоге pg_statistic. Записи в pg_statistic обновляются командами ANALYZE и VACUUM ANALYZE и всегда являются приблизительными, даже если они обновлены.

Вместо непосредственного просмотра pg_statistic лучше взглянуть на его представление pg_stats при ручном анализе статистики. pg_stats предназначен для более удобного чтения. Кроме того, pg_stats доступен для чтения всем, тогда как pg_statistic доступен для чтения только суперпользователю. (Это не позволяет непривилегированным пользователям узнавать что-либо о содержимом таблиц других людей из статистики. Представление pg_stats ограничено отображением только строк о таблицах, которые может прочитать текущий пользователь).

Объем информации, хранимой в pg_statistic функцией ANALYZE, в частности максимальное количество записей в массивах most_common_vals и histogram_bounds для каждого столбца, можно установить для каждого столбца с помощью команды ALTER TABLE SET STATISTICS или глобально, установив переменной конфигурации default_statistics_target. Предел по умолчанию в настоящее время составляет 100 записей. Повышение лимита может позволить сделать более точные оценки планировщика, особенно для столбцов с нерегулярным распределением данных, за счет того, что они потребляют больше места в pg_statistic и немного больше времени для вычисления оценок. И наоборот, нижний предел может быть достаточным для столбцов с простым распределением данных.

Более подробную информацию об использовании статистики планировщиком можно найти в главе Как планировщик использует статистику.

Расширенная статистика

Обычно медленные запросы выполняются по плохим планы выполнения, поскольку несколько столбцов, используемых в предложениях запросов, коррелированы. Планировщик обычно предполагает, что несколько условий не зависят друг от друга, предположение, которое не выполняется, когда значения столбцов коррелируют между собой. Регулярные статистические данные из-за того, что они собраны для отдельных столбцов не могут собирать какие-либо данные о корреляции между столбцами. Однако у QHB есть возможность вычислять многомерную статистику, которая может собирать такую информацию.

Поскольку число возможных комбинаций столбцов очень велико, нецелесообразно автоматически рассчитывать многомерную статистику. Вместо этого можно создавать расширенные объекты статистики, которые чаще всего называют просто объектами статистики, чтобы дать серверу команду получать статистику по интересующим наборам столбцов.

Объекты статистики создаются с помощью команды CREATE STATISTICS . Создание такого объекта просто создает запись каталога, обозначающую интерес к статистике. Сбор фактических данных выполняется ANALYZE (либо ручной командой, либо в фоне привыполнении автоматических процессов). Собранные значения можно просмотреть в каталоге pg_statistic_ext_data.

ANALYZE вычисляет расширенную статистику на основе той же выборки строк таблицы, которая используется для вычисления обычной статистики из одного столбца. Поскольку размер выборки увеличивается за счет увеличения цели статистики для таблицы или любого из ее столбцов (как описано в предыдущем разделе), большая цель статистики обычно приводит к более точной расширенной статистике, а также к большему времени, затрачиваемому на ее вычисление.

В следующих подразделах описываются виды расширенной статистики, которые в настоящее время поддерживаются.

Функциональные зависимости

Самый простой вид расширенной статистики отслеживает функциональные зависимости, понятие, используемое в определениях нормальных форм базы данных. Мы говорим, что столбец b функционально зависит от столбца a если знание значения a достаточно для определения значения b, то есть нет двух строк, имеющих одинаковое значение a но разные значения b. В полностью нормализованной базе данных функциональные зависимости должны существовать только от первичных ключей и суперключей. Однако на практике многие наборы данных не полностью нормализованы по разным причинам - преднамеренная денормализация по причинам производительности является распространенным примером. Даже в полностью нормализованной базе данных между некоторыми столбцами может быть частичная корреляция, которая может быть выражена как частичная функциональная зависимость.

Наличие функциональных зависимостей напрямую влияет на точность оценок в определенных запросах. Если запрос содержит условия как для независимого, так и для зависимого столбца (столбцов), условия для зависимых столбцов не уменьшают размер результата, но без знания функциональной зависимости планировщик запросов будет предполагать, что условия независимы, что приводит к занижению размера результата.

Чтобы сообщить планировщику о функциональных зависимостях, ANALYZE может собирать измерения зависимости между столбцами. Оценка степени зависимости между всеми наборами столбцов была бы чрезмерно дорогой, поэтому сбор данных ограничивается теми группами столбцов, которые появляются вместе в статистическом объекте, определенном с помощью параметра dependencies. Желательно создавать статистику с dependencies только для групп столбцов, которые сильно коррелированы, чтобы избежать ненужных накладных расходов как при ANALYZE и при дальнейшем планировании запросов.

Вот пример сбора статистики функциональной зависимости:

CREATE STATISTICS stts (dependencies) ON city, zip FROM zipcodes;

ANALYZE zipcodes;

SELECT stxname, stxkeys, stxddependencies
  FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid)
  WHERE stxname = 'stts';
 stxname | stxkeys |             stxddependencies             
---------+---------+------------------------------------------
 stts    | 1 5     | {"1 => 5": 1.000000, "5 => 1": 0.423130}
(1 row)

Здесь видно, что столбец 1 (почтовый индекс) полностью определяет столбец 5 (город), поэтому коэффициент равен 1,0, тогда как город определяет почтовый индекс только в 42% случаев, что означает, что существует много городов (58%), которые представлены более чем одним почтовым индексом.

При вычислении селективности для запроса, включающего функционально зависимые столбцы, планировщик корректирует оценки селективности для каждого условия, используя коэффициенты зависимости, чтобы не создавать заниженную оценку.

Ограничения функциональных зависимостей

Функциональные зависимости в настоящее время применяются только при рассмотрении простых условий равенства, которые сравнивают столбцы с постоянными значениями. Они не используются для улучшения оценок условий равенства, сравнивающих два столбца или сравнения столбца с выражением, ни для предложений диапазона, LIKE или любого другого типа условия.

При оценке с использованием функциональных зависимостей планировщик предполагает, что условия на задействованных столбцах являются совместимыми и, следовательно, избыточными. Если они несовместимы, правильная оценка будет равна нулю строк, но эта возможность не рассматривается. Например, учитывая запрос как

SELECT * FROM zipcodes WHERE city = 'San Francisco' AND zip = '94105';

планировщик игнорирует пункт о city как не изменяющий избирательность, что является правильным. Тем не менее, он будет делать то же самое предположение о

SELECT * FROM zipcodes WHERE city = 'San Francisco' AND zip = '90210';

даже если на самом деле будет ноль строк, удовлетворяющих этому запросу. Однако статистика функциональной зависимости не дает достаточно информации, чтобы сделать вывод, что это так.

Во многих практических ситуациях это предположение обычно выполняется; например, в приложении может быть графический интерфейс, который позволяет выбирать только совместимые значения города и почтового индекса для использования в запросе. Но если это не так, функциональные зависимости не могут быть приемлемым вариантом.

Многовариантное N-мерное число уникальных значений

Статистика по одному столбцу хранит количество различных значений в каждом столбце. Оценки количества различных значений при объединении нескольких столбцов (например, для GROUP BY a, b ) часто неверны, когда у планировщика есть только статистические данные из одного столбца, что приводит к выбору плохих планов.

Чтобы улучшить такие оценки, ANALYZE может собирать n-различных статистических данных для групп столбцов. Как и прежде, это нецелесообразно делать для каждой возможной группировки столбцов, поэтому данные собираются только для тех групп столбцов, которые появляются вместе в объекте статистики, определенном с помощью опции ndistinct. Данные будут собираться для каждой возможной комбинации двух или более столбцов из набора перечисленных столбцов.

Продолжая предыдущий пример, n-мерные различные значения в таблице почтовых индексов могут выглядеть следующим образом:

CREATE STATISTICS stts2 (ndistinct) ON city, state, zip FROM zipcodes;

ANALYZE zipcodes;

SELECT stxkeys AS k, stxdndistinct AS nd
  FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid)
  WHERE stxname = 'stts2';
-[ RECORD 1 ]--------------------------------------------------------
k  | 1 2 5
nd | {"1, 2": 33178, "1, 5": 33178, "2, 5": 27435, "1, 2, 5": 33178}
(1 row)

Это означает, что существует три комбинации столбцов, которые имеют 33178 различных значений: почтовый индекс и состояние; Почтовый индекс и город; и почтовый индекс, город и штат (ожидается, что все они равны, учитывая, что только один почтовый индекс уникален в этой таблице). С другой стороны, комбинация города и штата имеет только 27435 различных значений.

Целесообразно создавать ndistinct объекты статистики только по тем комбинациям столбцов, которые фактически используются для группировки и для которых неправильная оценка количества групп приводит к плохим планам. В противном случае расчёты статистики внутри ANALYZE будут напрасны.

Многомерные списки MCV

Другим типом статистики, хранимой для каждого столбца, являются наиболее распространенные списки значений. Это позволяет получить очень точные оценки для отдельных столбцов, но может привести к значительным занижениям для запросов с условиями для нескольких столбцов.

Чтобы улучшить такие оценки, ANALYZE может собирать списки MCV по комбинациям столбцов. Подобно функциональным зависимостям и n-мерным уникальным значениям, это нецелесообразно делать для каждой возможной группировки столбцов. Тем более для MCV, поскольку список MCV (в отличие от функциональных зависимостей и n-различных коэффициентов) хранит общие значения столбцов. Таким образом, данные собираются только для тех групп столбцов, которые появляются вместе в объекте статистики, определенном с опцией mcv .

Продолжая предыдущий пример, список MCV для таблицы почтовых индексов может выглядеть следующим образом (в отличие от более простых типов статистики, для проверки содержимого MCV требуется функция):

CREATE STATISTICS stts3 (mcv) ON city, state FROM zipcodes;

ANALYZE zipcodes;

SELECT m.* FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid),
                pg_mcv_list_items(stxdmcv) m WHERE stxname = 'stts3';

 index |         values         | nulls | frequency | base_frequency
-------+------------------------+-------+-----------+----------------
     0 | {Washington, DC}       | {f,f} |  0.003467 |        2.7e-05
     1 | {Apo, AE}              | {f,f} |  0.003067 |        1.9e-05
     2 | {Houston, TX}          | {f,f} |  0.002167 |       0.000133
     3 | {El Paso, TX}          | {f,f} |     0.002 |       0.000113
     4 | {New York, NY}         | {f,f} |  0.001967 |       0.000114
     5 | {Atlanta, GA}          | {f,f} |  0.001633 |        3.3e-05
     6 | {Sacramento, CA}       | {f,f} |  0.001433 |        7.8e-05
     7 | {Miami, FL}            | {f,f} |    0.0014 |          6e-05
     8 | {Dallas, TX}           | {f,f} |  0.001367 |        8.8e-05
     9 | {Chicago, IL}          | {f,f} |  0.001333 |        5.1e-05
   ...
(99 rows)

Это указывает на то, что наиболее распространенной комбинацией города и штата является Вашингтон, округ Колумбия, с фактической частотой (в выборке) около 0,35%. Базовая частота комбинации (рассчитанная по простым частотам на столбец) составляет всего 0,0027%, что приводит к заниженным оценкам на два порядка.

Желательно создавать объекты статистики MCV только на комбинациях столбцов, которые фактически используются в условиях вместе, и для которых неправильная оценка количества групп приводит к плохим планам. В противном случае расчёты статистики внутри ANALYZE будут напрасны.

Управление планировщиком с помощью явных предложений JOIN

Можно в определенной степени управлять планировщиком запросов, используя явный синтаксис JOIN. Чтобы понять, почему это важно, нам сначала нужно немного предыстории.

В простом запросе с соедиенением, таком как:

SELECT * FROM a, b, c WHERE a.id = b.id AND b.ref = c.id;

Планировщик может соединять таблицы в любом порядке. Например, он может сгенерировать план запроса, который соединяет A с B, используя условие WHERE a.id = b.id, а затем присоединить C к этой объединенной таблице, используя другое условие WHERE. Или он может соединить B с C, а затем присоединить A к этому результату. Или он может соединить A с C, а затем соединить их с B - но это будет неэффективно, поскольку должно быть сформировано полное декартово произведение A и C, поскольку в WHERE нет применимого условия, позволяющего оптимизировать объединение., (Все объединения в исполнителе происходят между двумя входными таблицами, поэтому необходимо создать результат одним или другим из этих способов). Важным моментом является то, что эти различные возможности объединения дают семантически эквивалентные результаты, но могут иметь очень разные затраты на выполнение. Поэтому планировщик изучит все из них, чтобы попытаться найти наиболее эффективный план запроса.

Когда в запросе используются только две или три таблицы, не о чем беспокоиться. Но количество возможных порядков соединения растет по экспоненте по мере увеличения количества таблиц. После десяти или более входных таблиц более нецелесообразно проводить исчерпывающий поиск всех возможностей, и даже для шести или семи таблиц планирование может занять очень много времени. Когда входных таблиц слишком много, планировщик QHB переключается с полного поиска на генетический вероятностный поиск с ограниченным числом возможностей. (Порог переключения задается параметром времени выполнения geqo_threshold). Генетический поиск занимает меньше времени, но он не обязательно находит наилучший возможный план.

Когда запрос включает внешние объединения, у планировщика имеется меньше свободы, чем для простых (внутренних) объединений. Например, рассмотрим:

SELECT * FROM a LEFT JOIN (b JOIN c ON (b.ref = c.id)) ON (a.id = b.id);

Хотя ограничения этого запроса внешне похожи на предыдущий пример, семантика отличается, потому что для каждой строки A, которая не имеет совпадающей строки в соединении B и C, должна быть выделена строка. Поэтому у планировщика нет выбора порядка соединения здесь : он должен соединить B с C и затем присоединить A к этому результату. Соответственно, этот запрос занимает меньше времени для планирования, чем предыдущий запрос. В других случаях планировщик может определить, что более одного варианта соединения является достаточным. Например, учитывая:

SELECT * FROM a LEFT JOIN b ON (a.bid = b.id) LEFT JOIN c ON (a.cid = c.id);

сначала можно присоединить A к B или C. В настоящее время только FULL JOIN полностью ограничивает порядок соединения. Большинство практических случаев, связанных с LEFT JOIN или RIGHT JOIN могут быть в некоторой степени перестроены.

Явный синтаксис внутреннего соединения ( INNER JOIN, CROSS JOIN или JOIN ) семантически аналогичен перечислению входных отношений в FROM, поэтому он не ограничивает порядок соединения.

Несмотря на то, что большинство видов JOIN не полностью ограничивают порядок соединения, можно поручить планировщику запросов QHB обрабатывать все предложения JOIN как ограничивающие порядок соединения. Например, эти три запроса логически эквивалентны:

SELECT * FROM a, b, c WHERE a.id = b.id AND b.ref = c.id;
SELECT * FROM a CROSS JOIN b CROSS JOIN c WHERE a.id = b.id AND b.ref = c.id;
SELECT * FROM a JOIN (b JOIN c ON (b.ref = c.id)) ON (a.id = b.id);

Но если мы скажем планировщику построить план для JOIN, то для второго и третьего плана потребуется меньше времени, чем для первого. Этот эффект не имеет большого смысла только для трех таблиц, но он может помочь для запросов в которых много таблиц.

Чтобы планировщик следовал порядку соединения, установленному явными соединениями JOIN, установите для параметра времени выполнения join_collapse_limit значение 1. (Другие возможные значения обсуждаются ниже).

Вам не нужно полностью ограничивать порядок соединения, чтобы сократить время поиска, потому что можно использовать операторы JOIN в элементах простого списка FROM. Например, рассмотрим:

SELECT * FROM a CROSS JOIN b, c, d, e WHERE ...;

Значение параметра join_collapse_limit = 1 заставляет планировщика соединять A с B, прежде чем соединять их с другими таблицами, но не ограничивает его выбор в противном случае. В этом примере количество возможных способов объединения уменьшается в 5 раз.

Ограничение таким способом поиска вариантов для планировщика является полезным методом как для сокращения времени планирования, так и для "направления" планировщика к хорошему плану запросов. Если планировщик выбирает неправильный порядок соединения по умолчанию, вы можете заставить его выбрать лучший порядок с помощью синтаксиса JOIN - при условии, что вы знаете лучший порядок.

Тесно связанной проблемой, которая влияет на время планирования, является объединение подзапросов в их родительский запрос. Например, рассмотрим:

SELECT *
FROM x, y,
    (SELECT * FROM a, b, c WHERE something) AS ss
WHERE somethingelse;

Эта ситуация может возникнуть из-за использования представления, содержащего соединение - SELECT будет вставлено вместо ссылки на представление, в результате чего будет получен запрос, аналогичный приведенному выше. Обычно планировщик будет пытаться свернуть подзапрос в родительский, получив:

SELECT * FROM x, y, a, b, c WHERE something AND somethingelse;

Это обычно приводит к лучшему плану, чем планирование подзапроса отдельно. (Например, внешние условия WHERE могут быть такими, что при присоединении X к A сначала удаляются многие строки из A, что позволяет избежать необходимости формировать полный логический вывод подзапроса), но в то же время мы увеличили время планирования - здесь мы имеем проблему пятистороннего соединения, заменяющую две отдельные проблемы трехстороннего соединения. Из-за экспоненциального роста числа возможностей соединения это имеет большое значение. Планировщик старается не зацикливаться на огромных проблемах поиска объединений, не сворачивая подзапрос, если в родительском запросе больше таблиц чем указано в параметре from_collapse_limit. Вы можете соотнести время планирования с качеством плана, настроив уменьшив или увеличив этот параметр времени выполнения.

from_collapse_limit и join_collapse_limit имеют похожие имена, потому что они выполняют почти одно и то же: один контролирует, когда планировщик "сгладит" подзапросы, а другой контролирует, когда он "сгладит" явные объединения. Обычно вы либо устанавливаете join_collapse_limit равным from_collapse_limit (чтобы явные объединения и подзапросы действовали аналогично), либо устанавливаете join_collapse_limit 1 (если вы хотите управлять порядком соединения с помощью явных указаний). Но вы можете установить их по-разному, если вы пытаетесь настроить компромисс между временем планирования и временем выполнения.

Заполнение базы данных

Может потребоваться вставить большой объем данных при первом заполнении базы данных. Этот раздел содержит некоторые предложения о том, как сделать этот процесс максимально эффективным.

Отключить автокоммит

При использовании нескольких INSERT выключите автокоммит и просто сделайте один коммит в конце. (В обычном SQL это означает команду BEGIN в начале и COMMIT в конце. Некоторые клиентские библиотеки могут делать это во внутренней реализации, и в этом случае вам нужно убедиться, что библиотека делает это, только когда вы этого хотите). Дополнительным преимуществом выполнения всех вставок в одной транзакции является то, что если при вставке одной строки произошел сбой, вставка всех строк, вставленных до этой точки, будет откатываться, поэтому вы не получите базу данных с частично загруженными данными.

Используйте COPY

Используйте команду COPY, чтобы загрузить все строки в одной команде, вместо использования серии команд INSERT. Команда COPY оптимизирована для загрузки большого количества строк; он менее гибок, чем INSERT, но значительно снижает накладные расходы при большой загрузке данных. Поскольку COPY - это одна команда, нет необходимости отключать автокоммит, если вы используете этот метод для заполнения таблицы.

Если вы не можете использовать COPY, это может помочь использовать PREPARE для создания подготовленного оператора INSERT, а затем использовать EXECUTE столько раз, сколько требуется. Это позволяет избежать некоторых накладных расходов, связанных с многократным анализом и планированием INSERT. Различные интерфейсы предоставляют эту возможность по-разному; ищите « подготовленные заявления » в документации интерфейса.

Обратите внимание, что загрузка большого количества строк с помощью COPY почти всегда быстрее, чем с помощью INSERT, даже если используется PREPARE и несколько вставок объединяются в одну транзакцию.

COPY быстрее всего используется в той же транзакции, что и предыдущая команда CREATE TABLE или TRUNCATE. В таких случаях не нужно писать в WAL, потому что в случае ошибки файлы, содержащие вновь загруженные данные, все равно будут удалены. Однако это соображение применимо только в том случае, если wal_level minimal для однораздельных таблиц, так как в противном случае все команды должны писать WAL.

Удалить индексы

Если вы загружаете только что созданную таблицу, самый быстрый способ - создать таблицу, выполнить массовую загрузку данных таблицы с помощью COPY, а затем создать любые индексы, необходимые для этой таблицы. Создание индекса для уже существующих данных происходит быстрее, чем его постепенное обновление по мере загрузки каждой строки.

Если вы добавляете большие объемы данных в существующую таблицу, может быть выгодно удалить индексы, загрузить таблицу, а затем воссоздать индексы. Конечно, производительность базы данных для других пользователей может снизиться во время отсутствия индексов. Следует проявить осторожность, прежде чем отбрасывать уникальный индекс, поскольку проверка ошибок, предоставляемая ограничением уникальности, будет потеряна, пока индекс отсутствует.

Удалить ограничения внешнего ключа

Как и в случае с индексами, ограничение внешнего ключа может быть "массово" проверено более эффективно, чем строка за строкой. Поэтому может быть полезно удалить ограничения внешнего ключа, загрузить данные и заново создать ограничения. Опять же, существует компромисс между скоростью загрузки данных и потерей проверки ошибок, в то время как ограничение отсутствует.

Более того, когда вы загружаете данные в таблицу с существующими ограничениями внешнего ключа, каждая новая строка требует записи в списке ожидающих событий триггера на сервере (так как это запуск триггера, который проверяет ограничение внешнего ключа строки). Загрузка многих миллионов строк может привести к переполнению очереди событий триггера доступной памяти, что приведет к недопустимому обмену или даже полному отказу команды. Поэтому может быть необходимо, а не просто желательно удалить и повторно применить внешние ключи при загрузке больших объемов данных. Если временное удаление ограничения неприемлемо, единственным другим выходом может быть разделение операции загрузки на более мелкие транзакции.

Увеличьте maintenance_work_mem

Временное увеличение параметра конфигурации maintenance_work_mem при загрузке больших объемов данных может привести к повышению производительности. Это поможет ускорить выполнение команд CREATE INDEX и ALTER TABLE ADD FOREIGN KEY. Это не будет иметь большого значения для самой COPY, поэтому этот совет полезен только при использовании одного или обоих из перечисленных методов.

Увеличить max_wal_size

Временное увеличение переменной конфигурации max_wal_size также может ускорить загрузку больших объемов данных. Это связано с тем, что загрузка большого количества данных в QHB приводит к тому, что контрольные точки появляются чаще, чем обычная частота контрольных точек (указывается в переменной конфигурации checkpoint_timeout). Всякий раз, когда возникает контрольная точка, все грязные страницы должны быть сброшены на диск. Временное увеличение max_wal_size во время массовой загрузки данных позволяет уменьшить количество необходимых контрольных точек.

Отключить архивацию WAL и потоковую репликацию

При загрузке больших объемов данных в установку, которая использует архивирование WAL или потоковую репликацию, может быть быстрее создать новую базовую резервную копию после завершения загрузки, чем обрабатывать большой объем добавочных данных WAL. Чтобы предотвратить добавочное ведение журнала WAL при загрузке, отключите архивацию и потоковую репликацию, установив для wal_level значение minimal, для параметра archive_mode off, а для max_wal_senders - ноль. Но учтите, что изменение этих настроек требует перезагрузки сервера.

Помимо сокращения времени обработки данных WAL архиватором или отправителем WAL, выполнение этого на самом деле ускорит выполнение определенных команд, поскольку они вообще не предназначены для записи WAL, если wal_level minimal. (Они могут гарантировать безопасность при fsync дешевле, выполнив fsync в конце, чем написав WAL). Это относится к следующим командам:

CREATE TABLE AS SELECT
CREATE INDEX (и варианты, такие как ALTER TABLE ADD PRIMARY KEY )
ALTER TABLE SET TABLESPACE
CLUSTER
COPY FROM, когда целевая таблица была создана или усечена ранее в той же транзакции

Запустите ANALYZE

Всякий раз, когда вы значительно изменили распределение данных в таблице, настоятельно рекомендуется использовать ANALYZE. Изменение распределения включает в себя в том числе и массовую загрузку больших объемов данных в таблицу. Запуск ANALYZE (или VACUUM ANALYZE ) гарантирует, что планировщик будет иметь актуальную статистику о таблице. При отсутствии статистики или устаревшей статистики планировщик может принимать неправильные решения во время планирования запросов, что приведёт к низкой производительности для любых таблиц с неточной или несуществующей статистикой. Обратите внимание, что если фоновый процесс autovacuum включен, он может автоматически запустить ANALYZE, см. разделы Обновление статистики планировщика и Процесс «Автовакуум» для получения дополнительной информации.

Некоторые заметки о qhb_dump

Сценарии дампа, сгенерированные qhb_dump, автоматически применяют несколько, но не все, из приведенных выше рекомендаций. Чтобы загрузить дамп qhb_dump как можно быстрее, вам нужно сделать несколько дополнительных действий вручную. (Обратите внимание, что эти пункты применяются при восстановлении дампа, а не при его создании. Те же пункты применяются при загрузке текстового дампа с помощью qsql или использовании qhb_restore для загрузки из файла архива qhb_dump).

По умолчанию qhb_dump использует COPY, а когда он генерирует полный дамп схемы и данных, следует осторожно загружать данные перед созданием индексов и внешних ключей. Таким образом, в этом случае несколько рекомендаций обрабатываются автоматически. Что вам остается сделать, так это:

Установить соответствующие (т. max_wal_size, чем обычно) значения для maintenance_work_mem и max_wal_size .
Если используется архивация WAL или потоковая репликация, рассмотреть возможность их отключения во время восстановления. Для этого установить для параметра archive_mode значение off, для wal_level значение minimal, а для max_wal_senders - ноль, прежде чем загружать дамп. После этого установить для них правильные значения и создайть новую базовую резервную копию.
Поэкспериментируйте с режимами параллельного дампа и восстановления qhb_dump и qhb_restore и найдите оптимальное количество одновременных заданий для использования. Параллельное сохранение и восстановление с помощью опции -j должен обеспечить значительно более высокую производительность по сравнению с последовательным режимом.
Подумайте, должен ли весь дамп быть восстановлен как одна транзакция. Для этого передайте параметр командной строки -1 или --single-transaction в qsql или qhb_restore. При использовании этого режима даже самые маленькие ошибки будут отменять все восстановление, возможно, отбрасывая многие часы обработки. В зависимости от того, насколько взаимосвязаны данные, это может показаться предпочтительным или нет. Команды COPY будут выполняться быстрее, если вы используете одну транзакцию и отключили архивирование WAL.
Если на сервере базы данных доступно несколько процессоров, попробуйте использовать параметр --jobs в qhb_restore. Это позволяет одновременно загружать данные и создавать индексы.
Запустите ANALYZE после всех операций.

Дамп только для данных будет по-прежнему использовать COPY, но он не удаляет и не воссоздает индексы и обычно не касается внешних ключей¹. Таким образом, при загрузке дампа только для данных, вы можете удалить и воссоздать индексы и внешние ключи, если вы хотите использовать эти методы. По-прежнему полезно увеличивать max_wal_size при загрузке данных, но не беспокойтесь об увеличении maintenance_work_mem; скорее, вы сделаете это при ручном воссоздании индексов и внешних ключей впоследствии. И не забудьте ANALYZE когда вы закончите; см. разделы Обновление статистики планировщика и Процесс «Автовакуум» для получения дополнительной информации.

Настройки снижающие надежность

Надежность - это функция базы данных, которая гарантирует запись совершенных транзакций, даже если сервер выходит из строя или теряет питание. Однако надежность добавляет значительную нагрузку на базу данных, поэтому, если ваш сайт не требует такой гарантии, QHB может быть настроена для намного быстрой работы. Ниже приведены изменения конфигурации, которые можно внести для повышения производительности в таких случаях. За исключением отмеченного ниже, надежность все еще гарантируется в случае сбоя программного обеспечения базы данных - только внезапное прекращение работы операционной системы создает риск потери или повреждения данных при использовании этих настроек.

Поместите каталог данных кластера базы данных в файловую систему с поддержкой памяти (то есть RAM- диск). Это исключает все операции ввода-вывода на диске базы данных, но ограничивает объем хранения данных до объема доступной памяти (и, возможно, подкачки).
Выключите fsync - нет необходимости сбрасывать данные на диск.
Выключите synchronous_commit - может не потребоваться форсировать запись WAL на диск при каждом коммите. Этот параметр создает риск потери транзакции (но не повреждения данных) в случае сбоя базы данных.
Отключите full_page_writes - нет необходимости принимать меры против частичной записи страницы.
Увеличьте max_wal_size и checkpoint_timeout - это уменьшает частоту контрольных точек, но увеличивает требования к хранилищу /pg_wal.
Создавайте unlogged tables, чтобы избежать записи WAL, хотя это сделает таблицы не защищенными от сбоев.

Вы можете получить эффект отключения внешних ключей, используя опцию --disable-triggers но понимайте, что это устраняет, а не просто откладывает, проверку внешнего ключа, и поэтому можно вставлять неверные данные, если вы используете эту опцию.

Провайдер пользовательского сканирования

QHB поддерживает набор экспериментальных объектов, которые позволяют расширять модули путем добавления новых типов сканирования в систему. В отличие от оболочки внешних данных, которая отвечает только за то, как сканировать свои собственные внешние таблицы, пользовательский провайдер сканирования может предоставить альтернативный метод сканирования любого отношения в системе. Как правило, мотивация для написания пользовательского провайдера сканирования будет состоять в том, чтобы разрешить использование некоторой оптимизации, не поддерживаемой основной системой, такой как кэширование или некоторая форма аппаратного ускорения. В этой главе описывается, как создать новый пользовательский провайдер сканирования.

Реализация нового типа пользовательского сканирования - это трехэтапный процесс. Во-первых, во время планирования необходимо сгенерировать пути доступа, представляющие собой сканирование с использованием предложенной стратегии. Во-вторых, если один из этих путей доступа выбран планировщиком в качестве оптимальной стратегии для сканирования конкретного отношения, путь доступа должен быть преобразован в план. Наконец, должна быть предусмотрена возможность выполнения плана и получения тех же результатов, которые были бы получены для любого другого пути доступа, нацеленного на то же отношение.

Создание пользовательских путей сканирования

Пользовательский провайдер сканирования обычно добавляет пути для базового отношения, устанавливая следующий обработчик, который вызывается после того, как основной код создал все пути доступа, которые он может для отношения (за исключением путей Gather, которые создаются после этого вызова, чтобы они могли использовать частичные пути, добавленные обработчиком):

typedef void (*set_rel_pathlist_hook_type) (PlannerInfo *root,
                                            RelOptInfo *rel,
                                            Index rti,
                                            RangeTblEntry *rte);
extern PGDLLIMPORT set_rel_pathlist_hook_type set_rel_pathlist_hook;

Хотя функция подключения может использоваться для проверки, изменения или удаления путей, созданных основной системой, пользовательский провайдер сканирования обычно ограничивается созданием CustomPath объектов и добавление их к rel с помощью add_path. провайдер пользовательского сканирования отвечает за инициализацию CustomPath объекта, который объявляется следующим образом:

typedef struct CustomPath
{
    Path      path;
    uint32    flags;
    List     *custom_paths;
    List     *custom_private;
    const CustomPathMethods *methods;
} CustomPath;

path необходимо инициализировать как и для любого другого пути, включая оценку количества строк, начальную и общую стоимость, а также порядок сортировки, предоставляемый этим путем. flags это битовая маска, которая должна включать в себя CUSTOMPATH_SUPPORT_BACKWARD_SCAN если пользовательский путь может поддерживать обратную проверку и CUSTOMPATH_SUPPORT_MARK_RESTORE если он может поддерживать пометку и восстановление. Обе возможности являются необязательными. Необязательный параметр custom_paths это список Path узлов, используемых этим узлом пользовательского пути; они будут преобразованы в Plan узлы планировщиком. custom_private может использоваться для хранения собственных данных пользовательского пути. Собственные данные должны храниться в форме, которая может быть обработана с помощью nodeToString, так что отладочные процедуры, которые пытаются напечатать пользовательский путь, будут работать как задумано. methods должен указывать на объект (обычно статически выделенный), реализующий необходимые методы пользовательского пути, из которых в настоящее время существует только один.

Пользовательский провайдер сканирования также может предоставить пути соединения. Так же, как и для базовых отношений, такой путь должен давать тот же результат, что и при соединении, которое он заменяет. Для этого провайдер соединения должен установить следующий обработчик, а затем в ней создать CustomPath путь(и) для связи соединения.

typedef void (* set_join_pathlist_hook_type) (PlannerInfo * root,
                                             RelOptInfo * joinrel,
                                             RelOptInfo * externalrel,
                                             RelOptInfo * innerrel,
                                             JoinType jointype,
                                             JoinPathExtraData * extra);
extern PGDLLIMPORT set_join_pathlist_hook_type set_join_pathlist_hook;

Этот обработчик будет вызываться повторно для одного и того же отношения соединения, с различными комбинациями внутренних и внешних отношений; это ответственность обработчика, чтобы минимумизировать лишнюю работу.

Обратные вызовы пользовательских путей сканирования

Plan *(*PlanCustomPath) (PlannerInfo *root,
                         RelOptInfo *rel,
                         CustomPath *best_path,
                         List *tlist,
                         List *clauses,
                         List *custom_plans);

Преобразует пользовательский путь в готовый план. Возвращаемое значение обычно будет CustomScan объектом, который аллоцируется и инициализируется обратным вызовом. Смотрите раздел Создание пользовательских планов сканирования для получения более подробной информации.

Создание пользовательских планов сканирования

Пользовательское сканирование представлено в конечном дереве планов в виде следующей структуры:

typedef struct CustomScan
{
    Scan      scan;
    uint32    flags;
    List     *custom_plans;
    List     *custom_exprs;
    List     *custom_private;
    List     *custom_scan_tlist;
    Bitmapset *custom_relids;
    const CustomScanMethods *methods;
} CustomScan;

scan необходимо инициализировать, как и для любого другого сканирования, включая расчетные затраты, списки целевых объектов, и т.д. Битовая маска flags имеет тот же смысл, что и в CustomPath. custom_plans может использоваться для хранения дочерних Plan узлов. custom_exprs следует использовать для хранения деревьев выражений, которые необходимо будет исправить с помощью setrefs.c и subselect.c, в то время как custom_private следует использовать для хранения других личных данных, которые используются только самим провайдером пользовательского сканирования. custom_scan_tlist может иметь значение NIL при сканировании базового отношения, указывающее, что пользовательское сканирование возвращает кортежи сканирования, соответствующие типу строки базового отношения. В противном случае это целевой список, описывающий фактические кортежи сканирования. custom_scan_tlist должен быть указан для соединений, а также может быть предоставлено для сканирования, если пользовательский провайдер сканирования может вычислить некоторые выражения без переменных. custom_relids устанавливается ядром и задается для набора отношений (индексов таблицы диапазонов), которые обрабатывает этот узел сканирования; за исключением случаев, когда это сканирование заменяет соединение, оно будет иметь только один элемент. methods необходимо указать на объект (обычно статически выделенный), реализующий необходимые пользовательские методы сканирования, которые более подробно описаны ниже.

Когда CustomScan сканирует отношение, scan.scanrelid должен быть индексом таблицы диапазонов сканируемой таблицы. Когда он заменяет соединение, scan.scanrelid должен быть нулевым.

Деревья плана должны иметь возможность быть продублированы с помощью copyObject, поэтому все данные, хранящиеся в "пользовательских" полях, должны состоять из узлов, которые эта функция может обрабатывать. Кроме того, настраиваемые провайдеры сканирования не могут заменить более крупную структуру, которая встраивает CustomScan для самой структуры, как это было бы возможно для CustomPath или CustomScanState.

Обратный вызов пользовательского плана сканирования

Node *(*CreateCustomScanState) (CustomScan *cscan);

Выделяет CustomScanState для переданного объекта CustomScan. Фактический размер выделенной памяти часто будет больше, чем требуется для обычного CustomScanState, потому что многие провайдеры захотят встроить этот объект в качестве поля более крупной структуры. Возвращаемое значение должно иметь метку узла и методы установите соответствующим образом, но другие поля должны быть оставлены как нули на этом этапе; после базовой инициализации в ExecInitCustomScan, будет вызван BeginCustomScan обработчику, для передачи управления провайдеру пользовательского сканирования.

Выполнение пользовательских сканирований

Когда CustomScan выполняется, его состояние исполнения находится в CustomScanState, который определен следующим образом:

typedef struct CustomScanState
{
    ScanState ss;
    uint32    flags;
    const CustomExecMethods *methods;
} CustomScanState;

ss инициализируется как и для любого другого состояния сканирования, за исключением того, что сканирование выполняется для соединения, а не для базового отношения, ss.ss_currentRelation остается NULL. flags — это битовая маска аналогичная соответствующему полю в CustomPath и CustomScan. methods должен указывать на объект (обычно статически выделенный), реализующий требуемые пользовательские методы состояния сканирования, которые более подробно описаны ниже. Как правило, CustomScanState, который не обязан поддерживать copyObject, на самом деле будет являться частью большей структуры.

Обратные вызовы выполнения пользовательского сканирования

void (*BeginCustomScan) (CustomScanState *node,
                         EState *estate,
                         int eflags);

Инициализирует переданный объект CustomScanState. Стандартные поля инициализируются с помощью ExecInitCustomScan, но любые собственные поля должны быть инициализированы в этом месте.

TupleTableSlot *(*ExecCustomScan) (CustomScanState *node);

Выбирает следующий кортеж для сканирования. Если какие-либо кортежи остаются, функция заполняет ps_ResultTupleSlot следующим кортежем в текущем направлении сканирования, а затем возвращает слот кортежа. Если кортежи закончились, должен быть возвращаен NULL или пустой слот.

void (*EndCustomScan) (CustomScanState *node);

Очищает данные, связанные с CustomScanState. Этот метод является обязательным, но он ничего не обязан делать, если нет никаких связанных данных или он будет очищен автоматически.

void (*ReScanCustomScan) (CustomScanState *node);

Смещение текущего указателя сканирование в начало и подготовка к повторному сканированию отношения.

void (*MarkPosCustomScan) (CustomScanState *node);

Сохраняет текущее положение сканирования, чтобы впоследствии его можно было восстановить с помощью обработчика RestrPosCustomScan. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если установлен флаг CUSTOMPATH_SUPPORT_MARK_RESTORE.

void (*RestrPosCustomScan) (CustomScanState *node);

Восстанавливает предыдущую позицию сканирования, сохраненную с помощью обработчика MarkPosCustomScan. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если установлен флаг CUSTOMPATH_SUPPORT_MARK_RESTORE.

Size (*EstimateDSMCustomScan) (CustomScanState *node,
                               ParallelContext *pcxt);

Оценивает объем общей динамической памяти, который потребуется для параллельной работы. Значение может быть больше, чем фактически использованная сумма, но она не должна быть меньше. Возвращаемое значение представлено в байтах. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если этот пользовательский провайдер сканирования поддерживает параллельное выполнение.

void (*InitializeDSMCustomScan) (CustomScanState *node,
                                 ParallelContext *pcxt,
                                 void *coordinate);

Инициализирует общую динамическую память, которая необходима для параллельной работы. coordinate указывает на общую область памяти размером равным возвращаемым значением EstimateDSMCustomScan. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если этот пользовательский провайдер сканирования поддерживает параллельное выполнение.

void (*ReInitializeDSMCustomScan) (CustomScanState *node,
                                   ParallelContext *pcxt,
                                   void *coordinate);

Повторно инициализирует общую динамическую память, необходимую для параллельной работы, когда узел пользовательского плана сканирования будет повторно сканироваться. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если этот пользовательский провайдер сканирования поддерживает параллельное выполнение. Рекомендуемая практика заключается в том, что этот обратный вызов сбрасывает только общее состояние, в то время как обработчик ReScanCustomScan сбрасывает только локальное состояние. В настоящее время этот обратный вызов будет вызван перед вызовом ReScanCustomScan но лучше всего не полагаться на этот порядок.

void (*InitializeWorkerCustomScan) (CustomScanState *node,
                                    shm_toc *toc,
                                    void *coordinate);

Инициализирует локальное состояние параллельного процесса на основе общего состояния, заданного лидером во время выполнения InitializeDSMCustomScan. Этот обратный вызов является необязательным и должен быть предоставлен только в том случае, если этот пользовательский провайдер сканирования поддерживает параллельное выполнение.

void (*ShutdownCustomScan) (CustomScanState *node);

Высвобождает ресурсы, когда ожидается, что узел не будет выполнен до завершения. Функция вызывается не во всех случаях; иногда, EndCustomScan может вызываться без предшествующего вызова ShutdownCustomScan. Поскольку сегмент DSM, используемый параллельным запросом, уничтожается сразу после вызова этого обратного вызова, этот метод следует реализовать пользовательским провайдерам сканирования, которые хотят предпринять некоторые действия до исчезновения сегмента DSM.

void (*ExplainCustomScan) (CustomScanState *node,
                           List *ancestors,
                           ExplainState *es);

Выводит дополнительную информацию для EXPLAIN узла пользовательского плана сканирования. Этот обратный вызов является необязательным. Общие данные, хранящиеся в ScanState, такие как целевой список и отношение сканирования, будут показаны даже без этого обратного вызова, но обратный вызов позволяет отображать дополнительную информацию о внутреннем состоянии.

Роли в базе данных

QHB управляет правами доступа к базе данных, используя концепцию ролей. Роль может рассматриваться как пользователь базы данных или группа пользователей базы данных, в зависимости от того, как установлена роль. Роли могут владеть объектами базы данных (например, таблицами и функциями) и могут назначать привилегии для этих объектов другим ролям, чтобы контролировать, кто имеет доступ к каким объектам. Кроме того, можно предоставить членство в роли другой роли, что позволяет роли участника использовать привилегии, назначенные другой роли.

Понятие ролей объединяет понятия «пользователи» и «группы». Любая роль может выступать в роли пользователя, группы или обоих.

В этой главе описывается, как создавать и управлять ролями. Более подробную информацию о влиянии привилегий ролей на различные объекты базы данных можно найти в разделе Привилегии.

Роли базы данных

Роли базы данных концептуально полностью отделены от пользователей операционной системы. На практике может быть удобно ввести соответствие, но это не обязательно. Роли базы данных являются глобальными для установленного экземпляра базы данных (а не для отдельной базы данных). Чтобы создать роль, используйте команду SQL CREATE ROLE:

CREATE ROLE name;

name соответствует правилам для идентификаторов SQL: без украшений без специальных символов или в двойных кавычках. (На практике обычно требуется добавить в команду дополнительные параметры, такие как LOGIN. Подробнее см. ниже) Чтобы удалить существующую роль, используйте аналогичную команду DROP ROLE:

DROP ROLE name;

Для удобства программы createuser и dropuser предоставляются в качестве оберток вокруг этих команд SQL, которые можно вызывать из командной строки оболочки:

createuser name
dropuser name

Чтобы определить набор существующих ролей, изучите системный каталог pg_roles, например

SELECT rolname FROM pg_roles;

Метакоманда \du программы qsql также полезна для просмотра существующих ролей.

Для начальной загрузки системы базы данных, недавно инициализированная система всегда содержит одну предопределенную роль. Эта роль всегда является «суперпользователем», и по умолчанию (если она не изменена при запуске initdb) она будет иметь то же имя, что и пользователь операционной системы, который инициализировал экземпляр базы данных. Обычно эта роль будет называться qhb. Чтобы создать больше ролей, сначала необходимо подключиться c этой начальной ролью к БД.

Каждое соединение с сервером базы данных выполняется с использованием имени определенной роли, и эта роль определяет начальные привилегии доступа для команд, выполненных в этом соединении. Имя роли, которое будет использоваться для конкретного подключения к базе данных, указывается клиентом, который инициирует запрос на подключение в зависимости от приложения. Например, программа qsql использует параметр командной строки -U чтобы указать роль для подключения. Многие приложения по умолчанию принимают имя текущего пользователя операционной системы (включая createuser и psq). Поэтому часто удобно поддерживать соответствие имен между ролями и пользователями операционной системы.

Набор ролей базы данных, к которым может подключаться данное клиентское соединение, определяется настройкой аутентификации клиента. (Таким образом, клиент не ограничен подключением в качестве роли, соответствующей пользователю операционной системы, так же, как имя пользователя не обязательно должно совпадать с его или ее настоящим именем) Поскольку идентификация роли определяет набор привилегий, доступных подключенному клиенту, важно тщательно настроить привилегии при настройке многопользовательской среды.

Атрибуты ролей

Роль в базе данных может иметь ряд атрибутов, которые определяют ее привилегии и взаимодействуют с системой аутентификации клиента.

Атрибут	Описание
LOGIN (вход в систему)	Только роли с атрибутом LOGIN могут использоваться в качестве начального имени роли для подключения к базе данных. Роль с атрибутом LOGIN может рассматриваться как «пользователь базы данных». Чтобы создать роль с правами входа в систему, используйте: `CREATE ROLE name LOGIN;` `CREATE USER name;` CREATE USER эквивалентен CREATE ROLE за исключением того, что CREATE USER по умолчанию включает LOGIN, а CREATE ROLE - нет)
SUPERUSER (статус суперпользователя)	Суперпользователь базы данных обходит все проверки разрешений, кроме права на вход. Это опасная привилегия, и ее не следует использовать небрежно. Лучше всего выполнять большую часть своей работы в роли, которая не является суперпользователем. Чтобы создать нового суперпользователя базы данных, используйте CREATE ROLE name SUPERUSER. Вы должны сделать это под ролью, которая уже является суперпользователем.
CREATEDB (создание базы данных)	Роль должна быть явно предоставлена разрешение на создание баз данных (за исключением суперпользователей, поскольку они обходят все проверки разрешений). Чтобы создать такую роль, используйте CREATE ROLE name CREATEDB.
CREATEROLE (создание ролей)	Роли должно быть явно предоставлено разрешение на создание большего количества ролей (за исключением суперпользователей, так как они обходят все проверки разрешений). Чтобы создать такую роль, используйте CREATE ROLE name CREATEROLE. Роль с привилегией CREATEROLE может изменять и CREATEROLE другие роли, а также предоставлять или отзывать членство в них. Однако для создания, изменения, удаления или изменения принадлежности к роли суперпользователя требуется статус суперпользователя; CREATEROLE недостаточно для этого.
REPLICATION (инициирование репликации)	Роль должна быть явно предоставлена разрешение на инициирование потоковой репликации (за исключением суперпользователей, так как они обходят все проверки разрешений). Роль, используемая для потоковой репликации, также должна иметь разрешение LOGIN. Чтобы создать такую роль, используйте CREATE ROLE name REPLICATION LOGIN.
PASSWORD (пароль)	Пароль имеет значение только в том случае, если метод аутентификации клиента требует от пользователя ввода пароля при подключении к базе данных. password и методы аутентификации md5 используют пароли. Пароли базы данных отделены от паролей операционной системы. Укажите пароль при создании роли с помощью CREATE ROLE name PASSWORD ’ string ’.

Подсказка!!!
Рекомендуется создать роль с привилегиями CREATEDB и CREATEROLE, которая не является суперпользователем, а затем использовать эту роль для всего рутинного управления базами данных и ролями. Такой подход позволяет избежать опасностей работы в качестве суперпользователя для задач, которые на самом деле этого не требуют.

Атрибуты роли могут быть изменены после создания с помощью ALTER ROLE. См. справочные страницы для команд CREATE ROLE и ALTER ROLE для получения подробной информации.

Роль также может иметь специфичные для роли значения «по умолчанию» для многих параметров конфигурации настроек сервера, описанных в главе Конфигурация сервера. Например, если по какой-то причине необходимо отключить сканирование индекса (не очень хорошая идея) при каждом подключении, можно использовать:

ALTER ROLE myname SET enable_indexscan TO off;

Это сохранит настройку (но не установит ее сразу). В последующих соединениях с этой ролью будет выглядеть, как будто SET enable_indexscan TO off был выполнен непосредственно перед началом сеанса. Вы все еще можете изменить этот параметр во время сеанса; это будет только по умолчанию. Чтобы удалить настройку по умолчанию для конкретной роли, используйте ALTER ROLE rolename RESET varname. Обратите внимание, что специфичные для роли значения по умолчанию, прикрепленные к ролям без привилегии LOGIN, довольно бесполезны, поскольку они никогда не будут вызваны.

Ролевая модель управления доступом

Часто удобно группировать пользователей, чтобы упростить управление привилегиями: таким образом, привилегии могут быть предоставлены или отменены для группы в целом. В QHB это достигается созданием роли, представляющей группу, а затем предоставлением членства в роли группы отдельным ролям пользователей.

Чтобы настроить групповую роль, сначала создайте роль:

CREATE ROLE name;

Обычно роль, используемая в качестве группы, не имеет атрибута LOGIN, хотя вы можете установить ее, если хотите.

Когда роль группы существует, вы можете добавлять и удалять участников, используя команды GRANT и REVOKE:

GRANT group_role TO role1, ... ;
REVOKE group_role FROM role1, ... ;

Вы можете предоставить членство и другим групповым ролям (поскольку на самом деле нет различий между групповыми ролями и не групповыми ролями). База данных не позволит вам настроить циклические циклы членства. Кроме того, не разрешено предоставлять членство в роли для PUBLIC.

Члены групповой роли могут использовать привилегии роли двумя способами. Во-первых, каждый член группы может явно выполнить SET ROLE, чтобы временно «стать» групповой ролью. В этом состоянии сеанс базы данных имеет доступ к привилегиям роли группы, а не к исходной роли входа, и любые созданные объекты базы данных считаются принадлежащими роли группы, а не роли входа. Во-вторых, роли участников, имеющие атрибут INHERIT автоматически используют привилегии ролей, членами которых они являются, включая любые привилегии, унаследованные этими ролями. В качестве примера предположим, что мы сделали:

CREATE ROLE joe LOGIN INHERIT;
CREATE ROLE admin NOINHERIT;
CREATE ROLE wheel NOINHERIT;
GRANT admin TO joe;
GRANT wheel TO admin;

Сразу после подключения в качестве роли joe сеанс базы данных будет использовать привилегии, предоставленные непосредственно joe, а также любые привилегии, предоставленные admin, поскольку joe «наследует» привилегии admin. Однако привилегии, предоставленные wheel, ему недоступны, потому что, хотя joe косвенно является членом wheel, членство осуществляется через роль admin которая имеет атрибут NOINHERIT. После:

SET ROLE admin;

сеанс будет использовать только те привилегии, которые предоставлены admin, а не те, которые предоставлены joe. После:

SET ROLE wheel;

сеанс будет использовать только те привилегии, которые предоставлены wheel, а не те, которые предоставлены либо joe либо admin. Исходное состояние привилегий может быть восстановлено любым способом из:

SET ROLE joe;
SET ROLE NONE;
RESET ROLE;

Заметка
Команда SET ROLE всегда позволяет выбрать любую роль, в которую прямо или косвенно входит исходная роль входа. Таким образом, в приведенном выше примере нет необходимости становиться admin, прежде чем стать wheel.

Заметка
В стандарте SQL существует четкое различие между пользователями и ролями, и пользователи не наследуют привилегии автоматически, в то время как роли делают. Такое поведение может быть получено в QHB, если для ролей, используемых в качестве ролей SQL, используется атрибут INHERIT, а для ролей, используемых в качестве пользователей SQL, - атрибут NOINHERIT. В QHB по умолчанию всем ролям предоставляет атрибут INHERIT.

Атрибуты роли LOGIN, SUPERUSER, CREATEDB и CREATEROLE могут рассматриваться как специальные привилегии, но они никогда не наследуются, как обычные привилегии для объектов базы данных. Вы должны на самом деле установить роль для конкретной роли, имеющей один из этих атрибутов, чтобы использовать этот атрибут. Продолжая приведенный выше пример, мы можем предоставить CREATEDB и CREATEROLE роль admin. Тогда сеанс, соединяющийся как роль joe, не будет иметь этих привилегий сразу, а только после выполнения SET ROLE admin.

Чтобы уничтожить групповую роль, используйте DROP ROLE:

DROP ROLE name;

Любое членство в групповой роли автоматически отменяется (но роли участников не затрагиваются иным образом).

Удаление ролей

Поскольку роли могут владеть объектами базы данных и могут иметь привилегии для доступа к другим объектам, удаление роли часто является не просто вопросом быстрого DROP ROLE. Любые объекты, принадлежащие этой роли, должны быть сначала отброшены или переназначены другим владельцам; и любые разрешения, предоставленные этой роли, должны быть аннулированы.

Право собственности на объекты может передаваться по одному с помощью команд ALTER, например:

ALTER TABLE bobs_table OWNER TO alice;

В качестве альтернативы, можно использовать команду REASSIGN OWNED для переназначения владения всеми объектами, принадлежащими роли, которая должна быть удалена, другой роли. Поскольку REASSIGN OWNED не может получить доступ к объектам в других базах данных, необходимо запускать его в каждой базе данных, содержащей объекты, принадлежащие этой роли. (Обратите внимание, что первый такой REASSIGN OWNED изменит владельца любых совместно используемых между базами данных объектов, то есть баз данных или табличных пространств, которые принадлежат роли, подлежащей удалению)

Как только любые ценные объекты были переданы новым владельцам, любые оставшиеся объекты, принадлежащие подлежащей удалению роли, могут быть удалены с помощью команды DROP OWNED. Опять же, эта команда не может получить доступ к объектам в других базах данных, поэтому необходимо запускать ее в каждой базе данных, содержащей объекты, принадлежащие этой роли. Кроме того, DROP OWNED не удаляет целые базы данных или табличные пространства, поэтому это необходимо делать вручную, если роли принадлежат какие-либо базы данных или табличные пространства, которые не были переданы новым владельцам.

DROP OWNED также заботится об удалении любых привилегий, предоставленных целевой роли для объектов, которые ей не принадлежат. Поскольку REASSIGN OWNED не касается таких объектов, как правило, необходимо запустить как REASSIGN OWNED и DROP OWNED (в таком порядке!), чтобы полностью удалить зависимости роли, которую необходимо удалить.

Итого, самый общий рецепт удаления роли, которая использовалась для владения объектами:

REASSIGN OWNED BY doomed_role TO successor_role;
DROP OWNED BY doomed_role;
-- repeat the above commands in each database of the cluster
DROP ROLE doomed_role;

Когда не все принадлежащие объекты должны быть переданы одному и тому же владельцу-преемнику, лучше всего обработать исключения вручную, а затем выполнить описанные выше шаги для полной очистки.

Если попытка DROP ROLE выполняется, пока зависимые объекты все еще остаются, она выдаст сообщения, определяющие, какие объекты необходимо переназначить или отбросить.

Роли по умолчанию

QHB предоставляет набор ролей по умолчанию, которые обеспечивают доступ к определенным, часто необходимым, привилегированным возможностям и информации. Администраторы могут предоставлять эти роли пользователям и/или другим ролям в их среде, предоставляя этим пользователям доступ к указанным возможностям и информации.

Роли по умолчанию описаны в таблице 7.1. Обратите внимание, что конкретные разрешения для каждой роли по умолчанию могут измениться в будущем при добавлении дополнительных возможностей. Администраторы должны отслеживать заметки о выпуске на предмет изменений.

Таблица 7.1. Роли по умолчанию

Роль	Разрешенный доступ
pg_read_all_settings	Прочитайте все переменные конфигурации, даже те, которые обычно видны только суперпользователям.
pg_read_all_stats	Прочитайте все представления pg_stat_ * и используйте различные статистические расширения, даже те, которые обычно видны только суперпользователям.
pg_stat_scan_tables	Выполните функции мониторинга, которые могут блокировать ACCESS SHARE для таблиц, возможно, в течение длительного времени.
pg_monitor	Читать / выполнять различные виды мониторинга и функции. Эта роль является членом групп pg_read_all_settings, pg_read_all_stats и pg_stat_scan_tables.
pg_signal_backend	Подайте сигнал другому бэкэнду, чтобы отменить запрос или завершить сеанс.
pg_read_server_files	Разрешить чтение файлов из любого места, к которому база данных может получить доступ на сервере с помощью COPY и других функций доступа к файлам.
pg_write_server_files	Разрешить запись в файлы в любом месте, к которому база данных может получить доступ на сервере с помощью COPY и других функций доступа к файлам.
pg_execute_server_program	Разрешить выполнение программ на сервере базы данных как пользователь, база данных запускается так же, как с COPY и другими функциями, которые позволяют выполнять программу на стороне сервера.

pg_monitor, pg_read_all_settings, pg_read_all_stats и pg_stat_scan_tables предназначены для того, чтобы администраторы могли легко настроить роль для мониторинга сервера базы данных. Они предоставляют набор общих привилегий, позволяющих роли читать различные полезные параметры конфигурации, статистику и другую системную информацию, обычно доступную только суперпользователям.

Роль pg_signal_backend предназначена для того, чтобы администраторы могли включать доверенные, но не суперпользовательские роли, для отправки сигналов другим бэкэндам. В настоящее время эта роль позволяет отправлять сигналы для отмены запроса на другом сервере или завершения его сеанса. Однако пользователь, которому предоставлена эта роль, не может отправлять сигналы бэкэнду, принадлежащему суперпользователю. См. раздел Функции сигнализации сервера.

pg_read_server_files, pg_write_server_files и pg_execute_server_program предназначены для того, чтобы администраторы могли иметь доверенные, но не суперпользовательские роли, которые могут получать доступ к файлам и запускать программы на сервере базы данных в качестве пользователя базы данных. Поскольку эти роли могут получить доступ к любому файлу в файловой системе сервера, они пропускают все проверки разрешений на уровне базы данных при непосредственном доступе к файлам и могут использоваться для получения доступа на уровне суперпользователя, поэтому при предоставлении этих ролей следует соблюдать особую осторожность.

При предоставлении этих ролей следует соблюдать осторожность, чтобы гарантировать, что они используются только там, где это необходимо, и при том понимании, что эти роли предоставляют доступ к конфиденциальной информации.

Администраторы могут предоставить доступ к этим ролям пользователям с помощью команды GRANT, например:

GRANT pg_signal_backend TO admin_user;

Функция безопасности

Функции, триггеры и политики безопасности на уровне строк позволяют пользователям вставлять код на внутренний сервер, который другие пользователи могут выполнять непреднамеренно. Следовательно, эти механизмы позволяют создавать «троянских коней» относительно легко. Самая сильная защита - жесткий контроль над тем, кто может определять объекты. Там, где это невозможно, пишите запросы, относящиеся только к объектам, имеющим доверенных владельцев. Удалите из search_path общедоступную схему и любые другие схемы, которые позволяют не доверенным пользователям создавать объекты.

Функции выполняются внутри процесса внутреннего сервера с разрешениями операционной системы демона сервера баз данных. Если язык программирования, используемый для функции, допускает неконтролируемый доступ к памяти, можно изменить внутренние структуры данных сервера. Следовательно, среди прочего, такие функции могут обойти любые системы контроля доступа. Языки функций, которые разрешают такой доступ, считаются «ненадежными», а QHB позволяет только суперпользователям создавать функции, написанные на этих языках.

Управление базами данных

Каждый экземпляр работающего сервера QHB управляет одной или несколькими базами данных. Таким образом, базы данных являются высшим иерархическим уровнем для организации объектов SQL («объектов базы данных»). В этой главе описываются свойства баз данных, а также способы их создания, управления и уничтожения.

Обзор

База данных — это именованная коллекция объектов SQL («объекты базы данных»). Как правило, каждый объект базы данных (таблицы, функции и т. д.) принадлежит одной и только одной базе данных. (Однако есть несколько системных каталогов, например, pg_database, которые принадлежат всему экземпляру и доступны из каждой базы данных внутри экземпляра). Точнее, база данных представляет собой набор схем, а схемы содержат таблицы, функции и т. д. Таким образом, полная иерархия: сервер, база данных, схема, таблица (или какой-либо другой вид объекта, например функция).

При подключении к серверу базы данных клиент должен указать в своем запросе на подключение имя базы данных, к которой он хочет подключиться. Невозможно получить доступ к более чем одной базе данных для одного соединения. Тем не менее, приложение не ограничено по количеству подключений, которые оно открывает к той же или другим базам данных. Базы данных физически разделены, а управление доступом осуществляется на уровне соединения. Если один экземпляр сервера QHB предназначен для размещения проектов или пользователей, которые должны быть отдельными и по большей части не осведомленными друг о друге, поэтому рекомендуется поместить их в отдельные базы данных. Если проекты или пользователи взаимосвязаны и должны иметь возможность использовать ресурсы друг друга, они должны быть помещены в одну и ту же базу данных, но, возможно, в отдельные схемы. Схемы — это чисто логическая структура, и кто может получить доступ к тому, что управляется системой привилегий. Более подробная информация об управлении схемами находится в разделе Схемы.

Базы данных создаются с помощью команды CREATE DATABASE (см. раздел Создание базы данных) и уничтожаются с помощью команды DROP DATABASE (см. раздел Удаление базы данных). Чтобы определить набор существующих баз данных, изучите системный каталог pg_database, например

SELECT datname FROM pg_database;

Команда \l программы qsql также полезна для вывода списка существующих баз данных.

Создание базы данных

Чтобы создать базу данных, сервер QHB должен быть запущен (см. раздел Запуск сервера базы данных).

Базы данных создаются с помощью команды SQL CREATE DATABASE:

CREATE DATABASE name;

где name следует обычным правилам для идентификаторов SQL. Текущая роль автоматически становится владельцем новой базы данных. Владелец базы данных имеет право удалить ее позже (что также удаляет все объекты в ней, даже если у них другой владелец).

Создание баз данных - ограниченная операция. См. раздел Атрибуты ролей для получения разрешения.

Поскольку вам необходимо подключиться к серверу базы данных, чтобы выполнить команду CREATE DATABASE, остается вопрос, как можно создать первую базу данных на любом указанном месте. Первая база данных всегда создается командой initdb при инициализации области хранения данных. (См. раздел Создание кластера базы данных). Эта база данных называется qhb. Таким образом, чтобы создать первую «обычную» базу данных, вы можете подключиться к qhb.

Вторая база данных, template1, также создается во время инициализации экземпляра базы данных. Всякий раз, когда в экземпляре создается новая база данных, template1 по существу клонируется. Это означает, что любые изменения, которые вы делаете в template1, распространяются на все впоследствии созданные базы данных. Из-за этого избегайте создания объектов в template1 если вы не хотите, чтобы они распространялись на каждую вновь созданную базу данных. Более подробная информация представлена в разделе Базы данных шаблонов.

Для удобства есть программа createdb, которую вы можете запустить из оболочки для создания новых баз данных.

createdb dbname

createdb подключается к базе данных qhb и выдает команду CREATE DATABASE, как описано выше. Справочная страница createdb содержит детали вызова. Обратите внимание, что createdb без аргументов создаст базу данных с текущим именем пользователя.

Иногда вы хотите создать базу данных для кого-то другого, и они станут владельцами новой базы данных, чтобы они могли сами настраивать и управлять ею. Для этого используйте одну из следующих команд:

CREATE DATABASE dbname OWNER rolename;

из среды SQL или:

createdb -O rolename dbname

из оболочки ОС. Только суперпользователь может создавать базу данных для кого-то другого (то есть для роли, в которой вы не участвуете).

Базы данных шаблонов

CREATE DATABASE фактически работает путем копирования существующей базы данных. По умолчанию он копирует стандартную системную базу данных с именем template1. Таким образом, эта база данных является «шаблоном», из которого создаются новые базы данных. Если вы добавите объекты в template1, эти объекты будут скопированы в впоследствии созданные пользовательские базы данных. Такое поведение допускает локальные модификации стандартного набора объектов в базах данных. Например, если вы установите процедурный язык PL/Perl в template1, он автоматически будет доступен в пользовательских базах данных без каких-либо дополнительных действий при создании этих баз данных.

Существует вторая стандартная системная база данных с именем template0. Эта база данных содержит те же данные, что и исходное содержимое template1, то есть только стандартные объекты, предопределенные вашей версией QHB. template0 никогда не должен изменяться после инициализации экземпляра базы данных. CREATE DATABASE скопировав template0 вместо template1, вы можете создать «первичную» пользовательскую базу данных, которая не содержит никаких локальных дополнений из template1. Это особенно удобно при восстановлении дампа qhb_dump: сценарий дампа должен быть восстановлен в первичной базе данных, чтобы гарантировать, что каждый воссоздает правильное содержимое базы данных дампа, не конфликтуя с объектами, которые могли быть добавлены в template1 позже.

Другая распространенная причина копирования template0 вместо template1 заключается в том, что при копировании template0 можно указать новые настройки кодирования и локали, тогда как для копии template1 должны использоваться те же настройки, что и для нее. Это связано с тем, что template1 может содержать данные, специфичной кодировки или локали, а template0 как известно, нет.

Чтобы создать базу данных путем копирования template0, используйте:

CREATE DATABASE dbname TEMPLATE template0;

из среды SQL или:

createdb -T template0 dbname

из оболочки ОС

Можно создать дополнительные базы данных шаблонов, и в действительности можно скопировать любую базу данных в экземпляре, указав ее имя в качестве шаблона для CREATE DATABASE. Тем не менее, важно понимать, что это не предназначено для универсального средства «COPY DATABASE». Основным ограничением является то, что никакие другие сеансы не могут быть подключены к исходной базе данных, пока она копируется. Создание базы данных завершится ошибкой, если при ее запуске возникнет какое-либо другое соединение; во время операции копирования новые соединения с исходной базой данных будут запрещены.

В pg_database есть два полезных флага для каждой базы данных: столбцы datistemplate и datallowconn. datistemplate может быть установлен, чтобы указать, что база данных предназначена в качестве шаблона для CREATE DATABASE. Если этот флаг установлен, база данных может быть клонирована любым пользователем с привилегиями CREATEDB; если он не установлен, клонировать могут только суперпользователи и владелец базы данных. Если datallowconn имеет значение false, то новые подключения к этой базе данных не будут разрешены (но существующие сеансы не прекращаются просто путем установки флага false). База данных template0 обычно помечается как datallowconn = false чтобы предотвратить ее модификацию. И template0 и template1 всегда должны быть помечены datistemplate = true.

Заметка
template1 и template0 не имеют особого статуса, кроме того факта, что имя template1 является именем исходной базы данных по умолчанию для CREATE DATABASE. Например, можно удалить template1 и воссоздать его из template0 без каких-либо вредных последствий. Этот путь действий может быть целесообразным, если кто-то небрежно добавил кучу мусора в template1. (Чтобы удалить template1, он должен иметь pg_database.datistemplate = false).

База данных qhb также создается при инициализации экземпляра базы данных. Эта база данных является базой данных по умолчанию для пользователей и приложений для подключения. Это просто копия template1 и может быть удалена и воссоздана при необходимости.

Конфигурация базы данных

Сервер QHB предоставляет большое количество переменных конфигурации во время выполнения (см. главу Конфигурация сервера). Для многих из этих настроек вы можете установить значения по умолчанию для базы данных.

Например, если по какой-то причине вы хотите отключить оптимизатор GEQO для данной базы данных, вам обычно нужно либо отключить его для всех баз данных, либо убедиться, что каждый подключающийся клиент осторожно выдает SET geqo TO off. Чтобы установить этот параметр по умолчанию в конкретной базе данных, вы можете выполнить команду:

ALTER DATABASE mydb SET geqo TO off;

Это сохранит настройку (но не установит ее сразу). При последующих подключениях к этой базе данных это будет выглядеть так, как будто SET geqo TO off; был выполнен незадолго до начала сеанса. Обратите внимание, что пользователи все еще могут изменять этот параметр во время своих сеансов; это будет только значение по умолчанию. Чтобы отменить любую такую настройку, используйте ALTER DATABASE dbname RESET varname.

Удаление базы данных

Базы данных удаляются командой DROP DATABASE:

DROP DATABASE name;

Только владелец базы данных или суперпользователь может удалить базу данных. Удаление базы данных удаляет все объекты, которые содержались в базе данных. Уничтожение базы данных не может быть отменено.

Вы не можете выполнить команду DROP DATABASE когда подключены к удаляемой базе данных. Однако вы можете подключиться к любой другой базе данных, включая базу данных template1. template1 будет единственным вариантом для удаления последней пользовательской базы данных данного экземпляра.

Для удобства есть также программа оболочки для удаления баз данных, dropdb:

dropdb dbname

(В отличие от createdb, удаление базы данных с текущим именем пользователя не является действием по умолчанию).

Табличные пространства

Табличные пространства в QHB позволяют администраторам баз данных определять места в файловой системе, где могут храниться файлы, представляющие объекты базы данных. После создания, на табличное пространство можно ссылаться по имени при создании объектов базы данных.

Используя табличные пространства, администратор может управлять разметкой диска установки QHB. Это полезно по крайней мере в двух случаях. Во-первых, если раздел или том, на котором был инициализирован экземпляр, исчерпал пространство и не может быть расширен, табличное пространство можно создать в другом разделе и использовать до тех пор, пока система не будет перенастроена.

Во-вторых, табличные пространства позволяют администратору использовать знания об использовании объектов базы данных для оптимизации производительности. Например, индекс, который очень интенсивно используется, может быть размещен на очень быстром, высокодоступном диске, таком как дорогостоящее твердотельное устройство. В то же время таблица, в которой хранятся архивные данные, которые редко используются или не критичны по производительности, могут храниться в менее дорогой, более медленной дисковой системе.

Предупреждение!!!
Несмотря на то, что табличные пространства расположены вне основного каталога данных QHB, они являются неотъемлемой частью экземпляра базы данных и не могут рассматриваться как автономный набор файлов данных. Они зависят от метаданных, содержащихся в главном каталоге данных, и поэтому не могут быть присоединены к другому экземпляру базы данных или сохранены отдельно. Аналогичным образом, если вы потеряете табличное пространство (удаление файла, сбой диска и т. д.), экземпляр базы данных может стать нечитаемым или не сможет запуститься. Размещение табличного пространства во временной файловой системе, такой как RAM-диск, ставит под угрозу надежность всего экземпляра.

Чтобы определить табличное пространство, используйте команду CREATE TABLESPACE, например:

CREATE TABLESPACE fastspace LOCATION '/ssd1/qhb/data';

Расположение должно быть существующим пустым каталогом, который принадлежит пользователю операционной системы QHB. Все объекты, впоследствии созданные в табличном пространстве, будут храниться в файлах под этим каталогом. Расположение не должно быть в съемном или временном хранилище, поскольку экземпляр может не функционировать, если табличное пространство отсутствует или потеряно.

Заметка
Обычно нет смысла создавать более одного табличного пространства на логическую файловую систему, поскольку вы не можете контролировать расположение отдельных файлов в логической файловой системе. Однако QHB не налагает никаких подобных ограничений, и на самом деле он не знает напрямую о границах файловой системы в вашей ОС. Он просто хранит файлы в каталогах, которые вы указали для использования.

Само создание табличного пространства должно выполняться под суперпользователем базы данных, но после этого вы можете разрешить его использовать обычным пользователям базы данных. Для этого предоставьте им привилегию CREATE.

Таблицы, индексы и целые базы данных могут быть назначены конкретным табличным пространствам. Для этого пользователь с привилегией CREATE в заданном табличном пространстве должен передать имя табличного пространства в качестве параметра соответствующей команде. Например, следующая команда создает таблицу в табличном пространстве space1:

CREATE TABLE foo(i int) TABLESPACE space1;

В качестве альтернативы используйте параметр default_tablespace:

SET default_tablespace = space1;
CREATE TABLE foo(i int);

Если для default_tablespace задано значение, отличное от пустой строки, оно предоставляет неявное предложение TABLESPACE для команд CREATE TABLE и CREATE INDEX которые не имеют явной команды.

Существует также параметр temp_tablespaces, который определяет размещение временных таблиц и индексов, а также временных файлов, которые используются для таких целей, как сортировка больших наборов данных. Это может быть список имен табличных пространств, а не только одно имя, так что нагрузка, связанная с временными объектами, может быть распределена по нескольким табличным пространствам. Случайный член списка выбирается каждый раз, когда создается временный объект.

Табличное пространство, связанное с базой данных, используется для хранения системных каталогов этой базы данных. Кроме того, это табличное пространство по умолчанию, используемое для таблиц, индексов и временных файлов, созданных в базе данных, если не задано предложение TABLESPACE и никакие другие параметры не определены в default_tablespace или temp_tablespaces (в зависимости от ситуации). Если база данных создается без указания для нее табличного пространства, она использует то же самое табличное пространство, что и база данных шаблонов, из которой она копируется.

Два табличных пространства создаются автоматически при инициализации экземпляра базы данных. Пространство pg_global используется для общих системных каталогов. Пространство pg_default является табличным пространством по умолчанию для баз данных template1 и template0 (и, следовательно, будет табличным пространством по умолчанию и для других баз данных, если оно не переопределено предложением TABLESPACE в CREATE DATABASE).

После создания табличное пространство можно использовать из любой базы данных, при условии, что запрашивающий пользователь имеет достаточные привилегии. Это означает, что табличное пространство нельзя отбросить, пока не будут удалены все объекты во всех базах данных, использующих табличное пространство.

Чтобы удалить пустое табличное пространство, используйте команду DROP TABLESPACE.

Чтобы определить набор существующих табличных пространств, изучите системный каталог pg_tablespace, например

SELECT spcname FROM pg_tablespace;

Метакоманда \db программы qsql также полезна для перечисления существующих табличных пространств.

QHB использует символические ссылки для упрощения реализации табличных пространств. Это означает, что табличные пространства могут использоваться только в системах, которые поддерживают символические ссылки.

Каталог $PGDATA/pg_tblspc содержит символические ссылки, которые указывают на каждое из встроенных табличных пространств, определенных в экземпляре. Хотя это и не рекомендуется, но можно вручную настроить макет табличного пространства, переопределив эти ссылки. Ни при каких обстоятельствах не выполняйте эту операцию во время работы сервера.

Локализация

В этой главе описываются доступные функции локализации с точки зрения администратора. QHB поддерживает два средства локализации:

Использование локализационных средств операционной системы для обеспечения порядка сортировки, форматирования чисел, перевода сообщений и других аспектов для конкретного языка. Это описано в разделах Поддержка локализаций и Поддержка сортировки.
Предоставление ряда в различных кодировках для поддержки хранения текста на всех видах языков и обеспечения перевода набора символов между клиентом и сервером. Это описано в разделе Поддержка набора символов.

Внимание!!!
Текущая версия QHB поддерживает наборы символов, перечисленные в разделе Поддержка набора символов. Однако предпочтительной кодировкой базы данных является UTF-8, и в следующих релизах QHB поддержка других кодировок может быть удалена.

Поддержка локализаций

Поддержка локализаций относится к приложению, учитывающему культурные предпочтения в отношении алфавитов, сортировки, форматирования чисел и т. д. QHB использует стандартные средства локализации ISO C и POSIX, предоставляемые операционной системой сервера. Для получения дополнительной информации обратитесь к документации вашей системы.

Обзор

Поддержка локализаций автоматически инициализируется при создании экземпляра базы данных с использованием initdb. По умолчанию initdb инициализирует экземпляр базы данных с настройкой локализации среды выполнения, поэтому, если ваша система уже настроена на использование языкового стандарта, который вы хотите использовать в своем экземпляре базы данных, вам больше ничего не нужно делать. Если вы хотите использовать другую локализацию (или вы не уверены, для какой локализации настроена ваша система), вы можете указать initdb, какую именно локализацию использовать, указав параметр --locale. Например:

initdb --locale=ru_RU

Этот пример для систем Unix устанавливает язык русского языка (ru), который используют в России (RU). Другие возможности могут включать en_US (американский английский) и fr_CA (французский канадский). Если для локализации можно использовать более одного набора символов, тогда спецификации могут принимать форму language_territory.codeset. Например, ru_RU.utf8 представляет русский язык (ru), на котором говорят в России (RU), с кодировкой набора символов UTF-8.

Какие локализации доступны в вашей системе, под какими именами зависит от того, что было предоставлено поставщиком операционной системы и что было установлено. В большинстве систем Unix команда locale -a предоставит список доступных локализаций. Windows использует более подробные названия German_Germany, например German_Germany или Swedish_Sweden.1252, но принципы те же.

Иногда полезно смешивать правила из нескольких языков, например, использовать правила сортировки на английском языке, но сообщения на испанском языке. Для поддержки этого существует набор подкатегорий языковых стандартов, которые контролируют только определённые аспекты правил локализации:

Категория
`LC_COLLATE`	Порядок сортировки строк
`LC_CTYPE`	Классификация символов (Что это за буква? Каков её эквивалент в верхнем регистре?)
`LC_MESSAGES`	Язык сообщений
`LC_MONETARY`	Форматирование денежных сумм
`LC_NUMERIC`	Форматирование чисел
`LC_TIME`	Форматирование даты и времени

Имена категорий переводятся в имена параметров initdb, чтобы переопределить выбор локализации для конкретной категории. Например, чтобы установить языковой стандарт французско-канадский, но использовать правила США для форматирования валюты, используйте initdb --locale=fr_CA --lc-monetary=en_US.

Если вы хотите, чтобы система работала без поддержки локализаций, используйте специальное имя локализации C её эквивалент POSIX.

Некоторые категории локализаций должны иметь фиксированные значения при создании базы данных. Вы можете использовать разные настройки для разных баз данных, но как только база данных будет создана, вы больше не сможете их изменить. LC_COLLATE и LC_CTYPE — эти категории. Они влияют на порядок сортировки индексов, поэтому они должны оставаться фиксированными, иначе индексы в текстовых столбцах будут повреждены. (Но вы можете ослабить это ограничение, используя параметры сортировки, как описано в разделе Поддержка сортировки). Значения по умолчанию для этих категорий определяются при запуске initdb, и эти значения используются при создании новых баз данных, если не указано иное в команде CREATE DATABASE.

Другие категории языковых стандартов могут быть изменены в любое время путём установки параметров конфигурации сервера, которые имеют то же имя, что и категории локализаций (подробности см. в разделе Язык и форматирование). Значения, выбранные initdb, на самом деле записываются только в файл конфигурации qhb.conf, чтобы служить значениями по умолчанию при запуске сервера. Если вы удалите эти назначения из qhb.conf, то сервер унаследует настройки из среды, в которой он выполняется.

Обратите внимание, что локализацию поведения сервера определяется переменными среды, видимыми сервером, а не средой какого-либо клиента. Поэтому будьте осторожны, чтобы настроить правильные параметры локализации перед запуском сервера. Если клиент и сервер настроены в разных локализациях, сообщения могут показываться на разных языках в зависимости от того, где они возникли.

Наследование языкового стандарта от среды выполнения, означает следующее в большинстве операционных систем: для данной локализации, скажем, сортировки, следующие переменные среды анализируются в приведённом ниже порядке, пока одна из них не окажется заданной LC_ALL, LC_COLLATE (или переменная, соответствующая соответствующей категории), LANG. Если ни одна из этих переменных среды не установлена, то по умолчанию в качестве локализации используется значение C.

Некоторые библиотеки локализации сообщений также обращают внимание на переменную среды LANGUAGE которая переопределяет все остальные настройки локализации с целью установки языка сообщений. Если вы сомневаетесь, пожалуйста, обратитесь к документации вашей операционной системы, в частности к документации по gettext.

Чтобы разрешить перевод сообщений на предпочитаемый пользователем язык, во время сборки должен быть выбран NLS (configure --enable-nls). Все остальные языковые поддержки встроены автоматически.

Поведение

Настройки локализации влияют на следующие SQL-функции:

Порядок сортировки в запросах с использованием ORDER BY или стандартных операторов сравнения текстовых данных;
upper, lower и initcap функции;
операторы сортировки с образцом (регулярные выражения в стиле LIKE, SIMILAR TO и POSIX); локализации влияют на поиск без учёта регистра и на классификацию символов по регулярным выражениям;
семейство функций to_char;
возможность использовать индексы с предложениями LIKE.

Недостатком использования в QHB локализаций, отличных от C или POSIX является его влияние на производительность. Это замедляет обработку символов и предотвращает использование LIKE обычных индексов. По этой причине используйте локализации только в том случае, если они вам действительно нужны.

В качестве обходного пути, позволяющего QHB использовать индексы с предложениями LIKE в локализации, отличной от C, существует несколько пользовательских классов операторов. Это позволяет создать индекс, который выполняет строгое посимвольное сравнение, игнорируя правила сравнения локализаций. Обратитесь к разделу Классы операторов и семейства операторов за дополнительной информацией. Другой подход заключается в создании индексов с использованием сортировки C, как обсуждалось в разделе Поддержка сортировки.

Проблемы

Если поддержка локализации не работает в соответствии с приведённым выше объяснением, проверьте, правильно ли настроена поддержка локализации в вашей операционной системе. Чтобы проверить, какие языковые стандарты установлены в вашей системе, вы можете использовать команду locale -a если ваша операционная система предоставляет её.

Убедитесь, что QHB действительно использует локализацию, которая вам нужна. Параметры LC_COLLATE и LC_CTYPE определяются при создании базы данных и не могут быть изменены, кроме как путем создания новой базы данных. Другие настройки локализации, включая LC_MESSAGES и LC_MONETARY, первоначально определяются средой, в которой запущен сервер, но могут быть изменены на лету. Вы можете проверить параметры активной локализации, используя команду SHOW.

Поддержка набора символов

Поддержка набора символов в QHB позволяет хранить текст в различных наборах символов (также называемых кодировками), включая однобайтовые наборы символов, такие как серии ISO 8859, и многобайтовые наборы символов, такие как EUC (расширенный код Unix), UTF-8 и внутренний код Mule. Все поддерживаемые наборы символов могут прозрачно использоваться клиентами, но некоторые из них не поддерживаются для использования на сервере (то есть в качестве кодировки на стороне сервера). Набор символов по умолчанию выбирается при инициализации экземпляра базы данных QHB с помощью initdb. Он может быть переопределен при создании базы данных, поэтому вы можете иметь несколько баз данных, каждая из которых имеет свой набор символов.

Однако важным ограничением является то, что каждый набор символов базы данных должен быть совместим с настройками языкового стандарта базы данных LC_CTYPE (классификация символов) и LC_COLLATE (порядок сортировки строк). Для локализации C или POSIX разрешен любой набор символов, но для других локализаций, предоставляемых libc, есть только один набор символов, который будет работать правильно. (Однако в Windows кодировка UTF-8 может использоваться с любой локализацией) Если у вас настроена поддержка ICU, локализации, предоставляемые ICU, можно использовать с большинством, но не со всеми кодировками на стороне сервера.

Поддерживаемые наборы символов

Таблица 1 показывает наборы символов, доступные для использования в QHB

имя	Описание	язык	Поддержка на сервере	ICU?	Байтов на символ	Псевдонимы
BIG5	Большая Пятерка	Традиционный китайский	нет	нет	1-2	WIN950, Windows950
EUC_CN	Расширенный код UNIX-CN	Упрощенный китайский	да	да	1-3
EUC_JP	Расширенный код UNIX-JP	Японский	да	да	1-3
EUC_JIS_2004	Расширенный код UNIX-JP, JIS X 0213	Японский	да	нет	1-3
EUC_KR	Расширенный код UNIX-KR	корейский язык	да	да	1-3
EUC_TW	Расширенный код UNIX-TW	Традиционный китайский, тайваньский	да	да	1-3
GB18030	Национальный стандарт	китайский язык	нет	нет	1-4
GBK	Расширенный национальный стандарт	Упрощенный китайский	нет	нет	1-2	WIN936, Windows936
ISO_8859_5	ISO 8859-5, ECMA 113	Латинский / Кириллица	да	да	1
ISO_8859_6	ISO 8859-6, ECMA 114	Латинский / Арабский	да	да	1
ISO_8859_7	ISO 8859-7, ECMA 118	Латинский / греческий	да	да	1
ISO_8859_8	ISO 8859-8, ECMA 121	Latin / Hebrew	да	да	1
JOHAB	JOHAB	Корейский (хангыль)	нет	нет	1-3
KOI8R	KOI 8-R	Кириллица	да	да	1	KOI8
KOI8U	KOI 8-У	Кириллица (украинский)	да	да	1
LATIN1	ISO 8859-1, ECMA 94	Западноевропейский	да	да	1	ISO88591
LATIN2	ISO 8859-2, ECMA 94	Центральноевропейский	да	да	1	ISO88592
LATIN3	ISO 8859-3, ECMA 94	Южноевропейский	да	да	1	ISO88593
LATIN4	ISO 8859-4, ECMA 94	Североевропейский	да	да	1	ISO88594
LATIN5	ISO 8859-9, ECMA 128	турецкий	да	да	1	ISO88599
LATIN6	ISO 8859-10, ECMA 144	нордический	да	да	1	ISO885910
LATIN7	ISO 8859-13	балтийский	да	да	1	ISO885913
LATIN8	ISO 8859-14	кельтский	да	да	1	ISO885914
LATIN9	ISO 8859-15	LATIN1 с евро и акцентами	да	да	1	ISO885915
LATIN10	ISO 8859-16, ASRO SR 14111	румынский	да	нет	1	ISO885916
MULE_INTERNAL	Внутренний код Mule	Многоязычный Emacs	да	нет	1-4
SJIS	Shift JIS	Японский	нет	нет	1-2	Mskanji, ShiftJIS, WIN932, Windows932
SHIFT_JIS_2004	Shift JIS, JIS X 0213	Японский	нет	нет	1-2
SQL_ASCII	не указано (см. текст)	Любые	да	нет	1
UHC	Унифицированный код Хангыль	корейский язык	нет	нет	1-2	WIN949, Windows949
UTF8	Юникод, 8 бит	все	да	да	1-4	Unicode
WIN866	Windows CP866	кириллица	да	да	1	ALT
WIN874	Windows CP874	тайский	да	нет	1
WIN1250	Windows CP1250	Центральноевропейский	да	да	1
WIN1251	Windows CP1251	кириллица	да	да	1	WIN
WIN1252	Windows CP1252	Западноевропейский	да	да	1
WIN1253	Windows CP1253	греческий	да	да	1
WIN1254	Windows CP1254	турецкий	да	да	1
WIN1255	Windows CP1255	иврит	да	да	1
WIN1256	Windows CP1256	арабский	да	да	1
WIN1257	Windows CP1257	балтийский	да	да	1
WIN1258	Windows CP1258	вьетнамский	да	да	1	ABC, TCVN, TCVN5712, VSCII

Не все клиентские API поддерживают все перечисленные наборы символов. Например, драйвер JDBC не поддерживает MULE_INTERNAL, LATIN6, LATIN8 и LATIN10.

Параметр SQL_ASCII ведет себя значительно иначе, чем другие параметры. Когда набор символов сервера - SQL_ASCII, сервер интерпретирует байтовые значения 0-127 в соответствии со стандартом ASCII, а байтовые значения 128-255 принимаются как неинтерпретированные символы. При настройке SQL_ASCII преобразование кодировки не выполняется. Таким образом, этот параметр является не столько декларацией, что используется конкретная кодировка, сколько объявлением о незнании кодировки. В большинстве случаев, если вы работаете с любыми данными, отличными от ASCII, неразумно использовать параметр SQL_ASCII поскольку QHB не сможет помочь вам в преобразовании или проверке не-ASCII символов.

Настройка набора символов

initdb определяет набор символов (кодировку) по умолчанию для экземпляра QHB. Например,

initdb -E EUC_JP

устанавливает набор символов по умолчанию EUC_JP (расширенный код Unix для японского языка). Вы можете использовать --encoding вместо -E если вы предпочитаете полные параметры. Если опция -E или --encoding не указана, initdb пытается определить подходящую кодировку для использования на основе указанной локализации или локализации по умолчанию.

Вы можете указать кодировку не по умолчанию во время создания базы данных, при условии, что кодировка совместима с выбранной локализацией:

createdb -E EUC_KR -T template0 --lc-collate=ko_KR.euckr
--lc-ctype=ko_KR.euckr korean

Это создаст базу данных с именем korean которая использует набор символов EUC_KR и локализацию ko_KR. Другой способ сделать это - использовать команду SQL:

CREATE DATABASE korean WITH ENCODING 'EUC_KR'
`LC_COLLATE`='ko_KR.euckr' `LC_CTYPE`='ko_KR.euckr'
TEMPLATE=template0;

Обратите внимание, что приведенные выше команды указывают на копирование базы данных template0. При копировании любой другой базы данных параметры кодировки и локализации нельзя изменить по сравнению с исходной базой данных, поскольку это может привести к повреждению данных. Для получения дополнительной информации см. раздел Базы данных шаблонов.

Кодировка для базы данных хранится в системном каталоге pg_database. Вы можете увидеть это, используя команду psql \l.

$ psql -l

List of databases

Name        | Owner | Encoding | Collate     | Ctype       | Access privileges
------------+-------+----------+-------------+-------------+------------------------------------
mydb        | qhb   | UTF8     | en_US.UTF-8 | en_US.UTF-8 |
qhb         | qhb   | UTF8     | en_US.UTF-8 | en_US.UTF-8 |
template0   | qhb   | UTF8     | en_US.UTF-8 | en_US.UTF-8 | =c/qhb + qhb=CTc/qhb
template1   | qhb   | UTF8     | en_US.UTF-8 | en_US.UTF-8 | =c/qhb + qhb=CTc/qhb
tpc         | qhb   | UTF8     | en_US.UTF-8 | en_US.UTF-8 | =Tc/qhb + qhb=CTc/qhb + tpc=CTc/qhb
(5 rows)

Важно!!!
В большинстве современных операционных систем QHB может определить, какой набор символов подразумевается настройкой LC_CTYPE, и он будет обеспечивать использование только соответствующей кодировки базы данных. В старых системах вы обязаны убедиться, что используете кодировку, ожидаемую выбранной вами локализацией. Ошибка в этой области может привести к странному поведению зависящих от локализации операций, таких как сортировка.

QHB позволит суперпользователям создавать базы данных с кодировкой SQL_ASCII даже если LC_CTYPE не назначен на C или POSIX. Как отмечалось выше, SQL_ASCII не требует, чтобы данные, хранящиеся в базе данных, имели какую-либо конкретную кодировку, и поэтому этот выбор создаёт риски неправильного поведения, зависящего от локализации. Использование этой комбинации настроек не рекомендуется и может когда-нибудь быть полностью запрещено.

Автоматическое преобразование набора символов между сервером и клиентом

QHB поддерживает автоматическое преобразование набора символов между сервером и клиентом для определенных комбинаций набора символов. Информация о преобразовании хранится в системном каталоге pg_conversion. QHB поставляется с некоторыми предопределенными преобразованиями, как показано в таблице 2. Вы можете создать новое преобразование с помощью SQL-команды CREATE CONVERSION.

Таблица 2. Преобразование набора символов клиент/сервер

Набор символов сервера	Доступные клиентские наборы символов
BIG5	не поддерживается в качестве серверной кодировки
EUC_CN	EUC_CN, MULE_INTERNAL, UTF8
EUC_JP	EUC_JP, MULE_INTERNAL, SJIS, UTF8
EUC_JIS_2004	EUC_JIS_2004, SHIFT_JIS_2004, UTF8
EUC_KR	EUC_KR, MULE_INTERNAL, UTF8
EUC_TW	EUC_TW, BIG5, MULE_INTERNAL, UTF8
GB18030	не поддерживается в качестве серверной кодировки
GBK	не поддерживается в качестве серверной кодировки
ISO_8859_5	ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866, WIN1251
ISO_8859_6	ISO_8859_6, UTF8
ISO_8859_7	ISO_8859_7, UTF8
ISO_8859_8	ISO_8859_8, UTF8
JOHAB	не поддерживается в качестве серверной кодировки
KOI8R	KOI8R, ISO_8859_5, MULE_INTERNAL, UTF8, WIN866, WIN1251
KOI8U	KOI8U, UTF8
LATIN1	LATIN1, MULE_INTERNAL, UTF8
LATIN2	LATIN2, MULE_INTERNAL, UTF8, WIN1250
LATIN3	LATIN3, MULE_INTERNAL, UTF8
LATIN4	LATIN4, MULE_INTERNAL, UTF8
LATIN5	ЛАТИН5, UTF8
LATIN6	LATIN6, UTF8
LATIN7	LATIN7, UTF8
LATIN8	LATIN8, UTF8
LATIN9	LATIN9, UTF8
LATIN10	LATIN10, UTF8
MULE_INTERNAL	MULE_INTERNAL, BIG5, EUC_CN, EUC_JP, EUC_KR, EUC_TW, ISO_8859_5, KOI8R, LATIN1 - LATIN4, SJIS, WIN866, WIN1250, WIN1251
SJIS	не поддерживается в качестве серверной кодировки
SHIFT_JIS_2004	не поддерживается в качестве серверной кодировки
SQL_ASCII	любой (преобразование не будет выполнено)
UHC	не поддерживается в качестве серверной кодировки
UTF8	все поддерживаемые кодировки
WIN866	WIN866, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN1251
WIN874	WIN874, UTF8
WIN1250	WIN1250, LATIN2, MULE_INTERNAL, UTF8
WIN1251	WIN1251, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866
WIN1252	WIN1252, UTF8
WIN1253	WIN1253, UTF8
WIN1254	WIN1254, UTF8
WIN1255	WIN1255, UTF8
WIN1256	WIN1256, UTF8
WIN1257	WIN1257, UTF8
WIN1258	WIN1258, UTF8

Чтобы включить автоматическое преобразование набора символов, вы должны указать QHB набор символов (кодировку), который вы хотели бы использовать в клиенте. Есть несколько способов сделать это:

Используя команду \encoding в psql. \encoding позволяет менять кодировку клиента на лету. Например, чтобы изменить кодировку на SJIS, введите:

\encoding SJIS

libpq имеет функции для управления кодировкой клиента.
Использование SET client_encoding TO. Установка кодировки клиента может быть выполнена с помощью этой SQL-команды:

SET CLIENT_ENCODING TO 'value';

Также вы можете использовать стандартный синтаксис SET NAMES для этой цели:

SET NAMES 'value';

Чтобы запросить текущую кодировку клиента:

SHOW client_encoding;

Чтобы вернуться к кодировке по умолчанию:

RESET client_encoding;

Использование PGCLIENTENCODING. Если переменная среды PGCLIENTENCODING определена в среде клиента, эта кодировка клиента выбирается автоматически при установлении соединения с сервером. (Это может впоследствии быть переопределено, используя любой из других методов, упомянутых выше).
Использование переменной конфигурации client_encoding. Если переменная client_encoding установлена, то эта кодировка клиента автоматически выбирается при установлении соединения с сервером. (Это может впоследствии быть переопределено, используя любой из других методов, упомянутых выше).

Если преобразование определенного символа невозможно - предположим, что вы выбрали EUC_JP для сервера и LATIN1 для клиента, и возвращаются некоторые японские символы, которые не имеют представления в LATIN1 - сообщается об ошибке.

Если клиентский набор символов определен как SQL_ASCII, преобразование кодировки отключается независимо от набора символов сервера. Как и для сервера, использование SQL_ASCII неразумно, если вы не работаете с полностью ASCII-данными.

Дальнейшее чтение

Следующие источники можно использовать для начала изучения различных видов систем кодирования.

CJKV Information Processing: Chinese, Japanese, Korean & Vietnamese Computing. Содержит подробные объяснения EUC_JP, EUC_CN, EUC_KR, EUC_TW .

http://www.unicode.org/. Веб-сайт Консорциума Unicode.

RFC 3629. UTF-8 (8-битный формат преобразования UCS / Unicode) определяется здесь.

Поддержка сортировки

Функция сортировки позволяет указать порядок сортировки и классификацию символов для каждого столбца или даже для каждой операции. Это LC_COLLATE ограничение на то, что LC_COLLATE и LC_CTYPE базы данных не могут быть изменены после её создания.

Концепции

Концептуально, каждое выражение данных с возможностью сортировки имеет параметры сортировки. (Встроенные типы данных - text, varchar и char. Определяемые пользователем базовые типы также могут быть помечены как совместимые, и, конечно же, область данных для сопоставляемых типов данных может быть отсортирована.) Если выражение является ссылкой на столбец, сортировка выражения является определённой сортировкой столбца. Если выражение является константой, сопоставление является сопоставлением по умолчанию для типа данных константы. Сопоставление более сложного выражения получается из сопоставлений его входных данных, как описано ниже.

Параметры сортировки выражения могут быть параметрами сортировки «по умолчанию», что означает настройки локализации, определенные для базы данных. Кроме того, сопоставление выражения может быть неопределённым. В таких случаях операции сортировки и другие операции, которые должны знать параметры сортировки, завершатся неудачно.

Когда система базы данных должна выполнить упорядочивание или классификацию символов, она использует сопоставление входного выражения. Это происходит, например, с предложениями ORDER BY и вызовами функций или операторов, такими как <. Правила сортировки, применяемые для предложения ORDER BY, - это просто параметры сортировки сортированного ключа. Параметры сортировки, применяемые для вызова функции или оператора, получаются из аргументов, как описано ниже. В дополнение к операторам сравнения, параметры сортировки учитываются функциями, которые преобразуют буквы в нижний и верхний регистр, такие как lower, upper и initcap, с помощью операторов сортировки с образцом, to_char и связанных функций.

Для операции вызова функции или оператора, сопоставление кодировок, которое определяется из сортировки аргументов вызова, будет использовано во время исполнения операции. Если результат вызова функции или оператора относится к типу данных с возможностью сортировки, то сортировка также используется во время синтаксического анализа в качестве определённого сортировки выражения функции или оператора, если существует окружающее выражение, которое требует знания его сортировки.

Сортировка выражения может быть явной или неявной. Это различие влияет на то, как объединяются параметры сортировки, когда в выражении появляется несколько различных параметров сортировки. Явное определение правил сортировки происходит, когда используется COLLATE. Все остальные сортировки являются неявными. Когда необходимо объединить несколько параметров сортировки, например, при вызове функции, используются следующие правила:

Если какое-либо входное выражение задано с явным сопоставлением, то все явно определённые сортировки среди входных выражений должны быть одинаковыми, в противном случае возникает ошибка. Если присутствует какое-либо явно полученное сопоставление, оно является результатом сочетания сопоставлений.
В противном случае все входные выражения должны иметь одинаковое неявное сопоставление или сопоставление по умолчанию. Если присутствует какое-либо сопоставление, отличное от значения по умолчанию, то оно является результатом комбинации сортировки. В противном случае результатом является сопоставление по умолчанию.
Если среди входных выражений существуют конфликтующие неявные параметры сортировки, то считается, что комбинация имеет неопределённый порядок сортировки. Это не ошибочное условие, если конкретная вызываемая функция не требует знания параметров сортировки, которые она должна применять. Если это произойдет, ошибка будет возникать во время выполнения.

Например, рассмотрим это определение таблицы:

CREATE TABLE test1 (
a text COLLATE "de_DE",
b text COLLATE "es_ES",
...
);

Затем в

SELECT a < 'foo' FROM test1;

< сравнение выполняется в соответствии с правилами de_DE, потому что выражение объединяет неявное сопоставление с сопоставлением по умолчанию. Но в

SELECT a < ('foo' COLLATE "fr_FR") FROM test1;

сравнение выполняется с использованием правил fr_FR, потому что явный вывод правила сортировки переопределяет неявный. Кроме того, в следующем примере

SELECT a < b FROM test1;

синтаксический анализатор не может определить, какое сопоставление применить, поскольку столбцы a и b имеют конфликтующие неявные сортировки. Поскольку оператору < необходимо знать, какое сопоставление использовать, это приведет к ошибке. Ошибка может быть устранена путём добавления явного спецификатора правила сортировки к любому входному запросу, таким образом:

SELECT a < b COLLATE "de_DE" FROM test1;

или эквивалентно

SELECT a COLLATE "de_DE" < b FROM test1;

С другой стороны, структурно похожий случай

SELECT a || b FROM test1;

не приводит к ошибке, потому что оператор || не заботится о правилах сортировок: его результат одинаков независимо от параметров сортировки.

Сортировка, назначенная объединённым входным выражениям функции или оператора, также считается применимой к результату функции или оператора, если функция или оператор выдает результат типа данных с возможностью переноса. Итак, запрос

SELECT * FROM test1 ORDER BY a || 'foo';

будет выполнен в соответствии с правилами de_DE . Но запрос:

SELECT * FROM test1 ORDER BY a || b;

приводит к ошибке, потому что даже если оператору || не нужно знать параметры сортировки, то ORDER BY это важно. Как и прежде, конфликт может быть разрешён с помощью явного спецификатора сортировки:

SELECT * FROM test1 ORDER BY a || b COLLATE "fr_FR";

Управление сортировкой

Сортировка - это объект схемы SQL, который соотносит SQL-имя на локализации, предоставляемые библиотеками, установленными в операционной системе. У определения параметров сортировки есть поставщик, который указывает, какая библиотека предоставляет данные локализации. Одно имя стандартного провайдера - libc, в котором используются локализации, предоставляемые библиотекой C операционной системы. Это локализации, которые используют большинство инструментов, предоставляемых операционной системой. Другой провайдер - icu, который использует внешнюю ICU библиотеку. Локализации ICU можно использовать только в том случае, если при создании QHB была настроена поддержка ICU.

Правило сортировки, предоставляемое libc сопоставляется с комбинацией LC_COLLATE и LC_CTYPE, как принято вызовом системной библиотеки setlocale() . (Как следует из названия, основная цель правила сортировки состоит в том, чтобы установить LC_COLLATE, который управляет порядком сортировки. Но на практике редко требуется иметь параметр LC_CTYPE, отличный от LC_COLLATE, поэтому его удобнее собирать согласно одной концепции, чем создание другой инфраструктуры для установки LC_CTYPE каждого выражения.) Кроме того, сопоставление libc связано с кодировкой набора символов (см. раздел Поддержка набора символов). Одно и то же имя правила сортировки может существовать для разных кодировок.

Объект сортировки, предоставляемый icu отображается на именованный сборщик, предоставляемый библиотекой ICU. ICU не поддерживает отдельные параметры «collate» и «ctype», поэтому они всегда одинаковы. Кроме того, параметры сортировки ICU не зависят от кодировки, поэтому в базе данных всегда есть только один параметр сортировки ICU для данного имени.

Стандартные правила сортировки

На всех платформах доступны параметры сортировки с именами default, C и POSIX. Дополнительные параметры сортировки могут быть доступны в зависимости от поддержки операционной системы. Параметры сортировки по default выбирают значения LC_COLLATE и LC_CTYPE указанные во время создания базы данных. Оба правила C и POSIX задают «традиционное поведение C», при котором только буквы ASCII от «A» до «Z» обрабатываются как буквы, а сортировка выполняется строго по значениям байтов кода символа.

Кроме того, стандартное имя сортировки SQL ucs_basic доступно для кодировки UTF8. Это эквивалентно C и сортирует по кодовой точке Unicode.

Предопределенные правила сортировки

Если операционная система обеспечивает поддержку использования нескольких языковых стандартов в рамках одной программы (newlocale и связанных функций) или если настроена поддержка ICU, то при инициализации кластера базы данных initdb заполняет системный каталог pg_collation правилами на основе всех языковых стандартов, которые он находит в операционной системе во время инициализации.

Чтобы проверить доступные в настоящее время локализации, используйте запрос SELECT * FROM pg_collation или команду \dOS+ в qsql.

Стандартные правила сортировки

Например, операционная система может предоставить локализацию с именем de_DE.utf8. Тогда initdb создаст сопоставление с именем de_DE.utf8 для кодировки UTF8, для которого LC_COLLATE и LC_CTYPE установлены в значение de_DE.utf8. Это также создаст сопоставление с тегом .utf8 из имени. Таким образом, вы также можете использовать параметры сортировки под именем de_DE, что не так громоздко для написания и делает имя менее зависимым от кодировки. Обратите внимание, что, тем не менее, начальный набор имен параметров сортировки зависит от платформы.

Набор параметров сортировки по умолчанию, предоставляемый libc сопоставляется непосредственно с локализациями, установленными в операционной системе, которые можно узнать с помощью команды locale -a . В случае, если требуется сопоставление libc, имеющее разные значения для LC_COLLATE и LC_CTYPE, или если в операционной системе после инициализации системы баз данных установлены новые локализации, то можно создать новое сопоставление с помощью команды CREATE COLLATION. Новые локализации операционной системы также можно массово импортировать с помощью функции pg_import_system_collations().

В любой конкретной базе данных представляют интерес только правила сортировки, использующие кодировку этой базы данных. Другие записи в pg_collation игнорируются. Таким образом, de_DE имя правила, такое как de_DE может считаться уникальным в данной базе данных, даже если оно не будет уникальным в глобальном масштабе. Рекомендуется использовать сокращенные имена параметров сортировки, так как вам придётся делать на одну вещь меньше, если вы решите перейти на другую кодировку базы данных. Однако обратите внимание, что праивла default, C и POSIX могут использоваться независимо от кодировки базы данных.

QHB считает, что отдельные объекты сортировки несовместимы, даже если они имеют идентичные свойства. Так, например,

SELECT a COLLATE "C" < b COLLATE "POSIX" FROM test1;

выдаст ошибку, даже если параметры сортировки C и POSIX имеют идентичное поведение. Поэтому не рекомендуется смешивать имена сортировок с разделителями и без них.

Правила сортировки ICU

С ICU не имеет смысла перечислять все возможные названия локализаций. ICU использует определённую систему именования для локализаций, но существует гораздо больше названий локализаций, чем на самом деле разных локализаций. initdb использует API ICU для извлечения набора различных локализаций для заполнения начального набора параметров сортировки. Правила сортировки, предоставляемые ICU, создаются в среде SQL с именами в формате языкового тега BCP 47, с добавлением расширения «для частного использования» -x-icu, чтобы отличать их от языковых стандартов libc.

Вот несколько примеров правил сортировки, которые могут быть созданы:

de-x-icu

Немецкое правило сортировки, вариант по умолчанию

de-AT-x-icu

Немецкое правило сортировки для Австрии, вариант по умолчанию

(Есть также, de-DE-x-icu или de-CH-x-icu, но на момент написания статьи они эквивалентны de-x-icu).

und-x-icu (for “undefined”)

«Корневое» правило сортировки ICU. Используйте его, чтобы получить разумный порядок сортировки, не зависящий от языка.

Некоторые (менее часто используемые) кодировки не поддерживаются ICU. Когда кодировка базы данных является одной из них, записи сортировки ICU в pg_collation игнорируются. Попытка его использовать приведет к появлению ошибки в строке: «сопоставление «de-x-icu» для кодировки «WIN874» не существует».

Создание новых правил сортировки

Если стандартных и предопределённых параметров сортировки недостаточно, пользователи могут создавать свои собственные правила сортировки с помощью команды SQL CREATE COLLATION.

Стандартные и предопределённые параметры сортировки находятся в схеме pg_catalog, как и все предопределённые объекты. Пользовательские параметры сортировки должны создаваться в пользовательских схемах. Это также гарантирует, что они сохраняются pg_dump.

Правила сортировки libc

Новые правила сортировки libc могут быть созданы следующим образом:

CREATE COLLATION german (provider = libc, locale = 'de_DE');

Точные значения, приемлемые для предложения locale в этой команде, зависят от операционной системы. В Unix-подобных системах команда locale -a покажет список.

Поскольку предопределенные параметры сортировки libc уже включают в себя все параметры сортировки, определенные в операционной системе при инициализации экземпляра базы данных, нет необходимости создавать новые вручную. Причины могут быть в том случае, если желательна другая система именования (в этом случае см. раздел Копирование правил сортировки ) или если операционная система была обновлена для предоставления новых определений локализации (в этом случае см. Также pg_import_system_collations()).

Правила сортировки ICU

ICU позволяет настраивать параметры сортировки вне базового набора языка+страны, который предварительно загружен initdb. Пользователям рекомендуется определять свои собственные правила сортировки, которые используют базовые средства для соответствия поведению сортировки их требованиям. См. http://userguide.icu-project.org/locale и http://userguide.icu-project.org/collation/api для получения информации о наименовании локализации ICU. Набор допустимых имён и атрибутов зависит от конкретной версии ICU.

Вот некоторые примеры:

CREATE COLLATION "de-u-co-phonebk-x-icu" (provider = icu, locale = 'de-u-co-phonebk');
CREATE COLLATION "de-u-co-phonebk-x-icu" (provider = icu, locale = 'de@collation=phonebook');

Немецкая сортировка с типом сортировки телефонной книги
В первом примере выбирается языковой стандарт ICU с использованием
«языкового тега» формата BCP 47. Во втором примере используется традиционный синтаксис локализации, специфичный для ICU. Первый стиль предпочтительнее в дальнейшем, но он не поддерживается старыми версиями ICU.
Обратите внимание, что вы можете называть правила сортировки в среде SQL как угодно. В этом примере мы следуем стилю именования, который используют предопределенные параметры сортировки, которые, в свою очередь, также следуют BCP 47, но это не требуется для пользовательских параметров сортировки.

CREATE COLLATION "und-u-co-emoji-x-icu" (provider = icu, locale = 'und-u-co-emoji');
CREATE COLLATION "und-u-co-emoji-x-icu" (provider = icu, locale = '@collation=emoji');

Корневое правило сортировки с типом сортировки Emoji, в соответствии с Техническим стандартом Unicode #51

Заметка В традиционной системе именования локализаций ICU корневая локализация выбирается пустой строкой.

CREATE COLLATION digitslast (provider = icu, locale =
'en-u-kr-latn-digit');

CREATE COLLATION digitslast (provider = icu, locale =
'en@colReorder=latn-digit');

Сортировка цифр после латинских букв. (По умолчанию цифры перед буквами.)

CREATE COLLATION upperfirst (provider = icu, locale =
'en-u-kf-upper');

CREATE COLLATION upperfirst (provider = icu, locale =
'en@colCaseFirst=upper');

Сортировка заглавных буквы перед строчными. (По умолчанию сначала используются строчные буквы.)

CREATE COLLATION special (provider = icu, locale =
'en-u-kf-upper-kr-latn-digit');

CREATE COLLATION special (provider = icu, locale =
'en@colCaseFirst=upper;colReorder=latn-digit');

Сочетает в себе оба вышеуказанных варианта.

CREATE COLLATION numeric (provider = icu, locale = 'en-u-kn-true');

CREATE COLLATION numeric (provider = icu, locale =
'en@colNumeric=yes');

Числовой порядок сортирует последовательности цифр по их числовому значению, например: A-21 < A-123 (также известный как «естественная сортировка»).

Подробности смотрите в Техническом стандарте Unicode #35 и BCP 47. Список возможных типов сортировки (вложенный тег co) можно найти в репозитории CLDR. ICU Locale Explorer можно использовать для проверки подробностей конкретного определения локализации. Для примеров, использующих вложенные теги k* требуется ICU как минимум версии 54.

Обратите внимание, что хотя эта система позволяет создавать параметры сортировки, которые «игнорируют регистр» или «игнорируют ударения» или аналогичные (с использованием ключа ks), для того, чтобы такие параметры сортировки действовали по-настоящему без учета регистра или акцента, они также должны быть объявлены недетерминированными в CREATE COLLATION; см. раздел Недетерминированные правила сортировки. В противном случае любые строки, которые являются равными в соответствии с правилом сортировки, но не являются побайтово равными, будут отсортированы в соответствии со своими байтовыми значениями.

Заметка
По своей конструкции ICU будет принимать практически любую строку в качестве имени локализации и сопоставлять её с ближайшей локализацией, которую он может предоставить, используя процедуру, описанную в его документации. Таким образом, прямой обратной связи не будет, если спецификация правила сортировки составлена с использованием функций, которые данная установка ICU фактически не поддерживает. Поэтому рекомендуется создавать контрольные примеры на уровне приложения, чтобы проверить, что определения параметров сортировки удовлетворяют требованиям.

Копирование правил сортировки

Команду CREATE COLLATION можно также использовать для создания нового правила сортировки из существующего правила, что может быть полезно для возможности использовать независимые от операционной системы имена правил в приложениях, создавать имена для совместимости или использования правил, предоставляемых ICU в более читаемом формате.

Например:

CREATE COLLATION german FROM "de_DE";

CREATE COLLATION french FROM "fr-x-icu";

Недетерминированные правила сортировки

Правило сортировки является либо детерминированным, либо недетерминированным. Детерминированное правило использует детерминированные сравнения, что означает, что оно считает строки равными, только если они состоят из одной и той же последовательности байтов. Недетерминированное сравнение может определить строки равными, даже если они состоят из разных байтов. Типичные ситуации включают сравнение без учета регистра, сравнение без учета акцента, а также сравнение строк в различных нормальных формах Unicode. Поведение этих операций определяется поставщиком правил сравнения; флаг детерминированности только определяет, следует ли использовать байтовое сравнение для равенства. См. Также Технический стандарт Unicode 10 для получения дополнительной информации о терминологии.

Чтобы создать недетерминированный порядок сортировки, укажите для свойства CREATE COLLATION свойство deterministic = false, например:

CREATE COLLATION ndcoll (provider = icu, locale = 'und', deterministic
= false);

В этом примере стандартная сортировка Unicode будет работать недетерминированным способом. В частности, это позволило бы правильно сравнивать строки в разных нормальных формах. Более интересные примеры используют средства настройки ICU, описанные выше. Например:

CREATE COLLATION case_insensitive (provider = icu, locale =
'und-u-ks-level2', deterministic = false);

CREATE COLLATION ignore_accents (provider = icu, locale =
'und-u-ks-level1-kc-true', deterministic = false);

Все стандартные и предопределённые параметры сортировки являются детерминированными, по умолчанию все определяемые пользователем параметры сортировки являются детерминированными. Хотя недетерминированные правила сортировки дают более «правильное» поведение, особенно если учитывать всю мощь Unicode и его множество особых случаев, у них также есть некоторые недостатки. Прежде всего, их использование приводит к снижению производительности. Кроме того, некоторые операции невозможны с недетерминированными правилами, такими как операции сортировки с образцом. Поэтому их следует использовать только в тех случаях, когда они конкретно востребованы.

Методы извлечения выборки из таблицы

Опорные функции метода извлечения выборки

В дополнение к методам BERNOULLI и SYSTEM, требуемыми стандартом SQL, реализация предложения TABLESAMPLE в QHB поддерживает пользовательские методы извлечения выборки из таблицы. Метод извлечения выборки определяет, какие строки таблицы будут выбраны, при использовании предложения TABLESAMPLE.

На уровне SQL, метод извлечения выборки представлен единственной функцией (как правило, реализованной на C или Rust) с сигнатурой

имя_метода(internal) RETURNS tsm_handler

Имя функции совпадает с именем метода, используемым в предложении TABLESAMPLE. Аргумент internal является фиктивным (всегда принимающим нулевое значение) — он предотвращает вызов этой функции непосредственно из команды SQL. Результатом функции должна быть аллоцированная palloc структура, имеющая тип TsmRoutine, который содержит указатели на опорные функции для метода извлечения выборки. Опорные функции описаны в разделе Опорные функции метода извлечения выборки.

Кроме указателей на функций, структура TsmRoutine должна содержать следующие поля:

List *parameterTypes

Это список содержит OID типов данных параметров, принимаемых предложением TABLESAMPLE при использовании данного метода извлечения выборки. Например, у встроенных методов этот список содержит один элемент со значением FLOAT4OID, представлющий собой процент выборки. Пользовательские методы могут иметь дополнительные или иные параметры.
bool repeatable_across_queries

Значение true означает, что метод извлечения выборки возвращает идентичные выборки в последовательных запросах, если в каждом запросе предоставляются одни и те же параметры и начальное значение REPEATABLE, а содержимое таблицы не изменяется. Если же значение равно false, предложение REPEATABLE не принимается для использования с методом выборки.
bool repeatable_across

Если true, то метод извлечения выборки способен возвращать идентичные выборки в последовательных сканирования внутри одного и того же запроса (при неизменных параметрах, начальном значении и снимке). Если же значение равно false, то планировщик не будет выбирать планы запроса, требующие более одного сканирования семплированной таблицы, так как они может приводить к неконсистентным результатам запроса.

Для дополнительной информации, см. тип структуры TsmRoutine объявленный в src/include/access/tsmapi.h.

Методы извлечения выборки, входящие в стандартный дистрибутив, могут послужить хорошим примером при реализации собственных методов выборки. Код встроенных методов находится в подкаталоге src/backend/access/tablesample дерева исходного кода, а в подкаталоге contrib можно найти методы извлечения выборки расширений.

Опорные функции метода извлечения выборки

Функция обработчика TSM возвращает аллоцированную palloc структуру TsmRoutine, содержащую указатели на опорные функции, описанные ниже. Большинство этих функций являются обязательными, однако некоторые являются опциональными, и соответствующие им указатели могут быть NULL.

void
SampleScanGetSampleSize (PlannerInfo *root,
                         RelOptInfo *baserel,
                         List *paramexprs,
                         BlockNumber *pages,
                         double *tuples);

Эта функция вызывается во время планирования запроса. Она должна оценить количество страниц отношения, которые будут прочитаны во время сканирования выборки, и количество кортежей, которые будут выбраны при сканировании. (Например, они могут быть определены оценкой процента выборки и умножением baserel->pages и baserel->tuples на этот процент с округлением к целому.) Список paramexprs содержит выражения, являющиеся параметрами к предложению TABLESAMPLE. Рекомендуется использовать estimate_expression_value(), чтобы редуцировать эти выражения до констант, когда они используются для оценки, однако функция должна вернуть оценку и в случае, когда выражения не могут быть редуцированны. Более того, функция должна успершно вернуть оценку даже в случае, когда соответствующие значения выглядят некорректными (помните, что это только приблизительные оценки чисел, которые будут получены во время выполнения). pages и tuples являются выходными параметрами.

void
InitSampleScan (SampleScanState *node,
                int eflags);

Инициализация для выполнения узла плана SampleScan. Эта функция вызывается во время запуска исполнителя. Её полагается выполнить любую инициализацию, необходимую перед началом обработки. Узел SampleScanState уже создан, но его поле tsm_state ещё равно NULL. Функция InitSampleScan может аллоцировать с помощью palloc любое внутренее состояние, требуемое для метода извлечения выборки, и присвоить node->tsm_state указатель на это состояние. Информация о том, какие страницы сканировать, доступна через иные поля узла SampleScanState (но обратите внимание, что дескриптор сканирования node->ss.ss_currentScanDesc ещё не установлен). eflags содержит битовые флаги, описывающие рабочий режим исполнителя для данного узла плана.

Когда (eflags & EXEC_FLAG_EXPLAIN_ONLY) истино, сканирование фактически не будет выполняться, и функция должна выполнить только минимум, необходимый, чтобы состояние узла было корректным для EXPLAIN и EndSampleScan.

Эта функция может быть опущена (присваиванием указателю значение NULL), в этом случае функция BeginSampleScan должна выполнять всю инициализацию, необходимую методу извлечения выборки.

void
BeginSampleScan (SampleScanState *node,
                 Datum *params,
                 int nparams,
                 uint32 seed);

Начать выполнение сканирования выборки. Это функция вызывается непосредственно перед первой попыткой извлечения кортежа и может быть вызвана снова, если сканирование необходимо перезапустить. Информация о таблице, подлежащей сканированию, доступна через поля структуры node (но обратите внимание, что node->ss.ss_currentScanDesc в этот момент ещё не инициализирован). Массив params, длины nparams, содержит значения параметров переданных предложению TABLESAMPLE. Они будут иметь номер и тип, определённые списком patameterTypes метода извлечения выборки, и будут проверены на неравенство NULL. seed содержит начальное значение для всех псевдослучайных чисел, сгенерированных внутри метода. Оно представляет собой или хеш на основе значения REPEATABLE, или результат вызова random().

Эта функция может менять значения полей node->use_bulkread и node->use_pagemode. Если node->use_pagemode истино, что по-умолчанию так, то сканирование будет использовать стратегию доступа к буферу, которая поощряет переиспользование буферов. Может иметь смысл установить это поле в false, если сканирование будет выбирать лишь малую часть всех кортежей в каждой посещённой таблице. Это приведет к меньшему количеству выполняемых проверок видимости кортежей, хотя каждая из них будет стоить дороже, так как потребует больше блокировок.

Если метод извлечения выборки помечен как repeatable_across_scans, он обязан выбирать один и тот же набор кортежей во время повторного сканирования, как и во время первоначального, то есть вызов BeginSampleScan должен приводить к выбору тех же кортежей, что и раньше (если параметры TABLESPACE и начальное значение не изменились).

BlockNumber
NextSampleBlock (SampleScanState *node, BlockNumber nblocks);

Возвращает номер блока следующей сканируемой страницы, или InvalidBlockNumber если не осталось страниц для сканирования.

Эта функция может быть опущена (присваиванием указателю значение NULL), тогда основной код выполнит последовательное сканирование всего отношения. Такая проверка может использовать синхронизацию сканирования, так что метод извлечения выборки не может предполагать, что страницы отношения посещаются в одном и том же порядке при каждом сканировании.

OffsetNumber
NextSampleTuple (SampleScanState *node,
                 BlockNumber blockno,
                 OffsetNumber maxoffset);

Для данной страницы, возвращает номер смещения следующего кортежа, добавляемого в выборку, или InvalidOffsetNumber если не осталось кортежей для выборки. maxoffset является наибольшей величиной смещения на этой странице.

Примечание!!!
NextSampleTuple явно не говорится, какие номера смещения в диапазоне 1 .. maxoffset в действительности соответствуют корректным кортежам. Как правило, это не является проблемой, поскольку основной код игнорирует запросы к семплированию не существующих или скрытых кортежей, это не должно привести ни к какому смещению в выборке. Однако, если необходимо, функция может использовать node->donetuples, чтобы проверить, сколько из возвращённых кортежей были корректны и видимы.

Примечание!!!
NextSampleTuple не следует предполагать, что blockno это тот же номер страницы, что был возвращен самым последним вызовом NextSampleBlock. Он был возвращен каким-то предыдущим вызовом NextSampleBlock вызовом, однако основной код может вызывать NextSampleBlock до фактического сканирования страниц, для поддержки предварительной выборки. Допустимо предположить, что когда выборка данной страницы начнётся, все последующие вызовы вызовы NextSampleTuple ссылаются на одну и ту же страницу, до тех пор, пока не будет возвращен InvalidOffsetNumber.

void
EndSampleScan (SampleScanState *node);

Завершить сканирование и освободить ресурсы. Как правило, освобождать аллоцированную с помощью palloc память не обязательно, однако любые ресурсы, видымые извне, должны быть очищины. Эта функция может быть опущена (присваиванием указателю значение NULL) в обычном случае, когда подобных ресурсов нет.

Регулярные задачи обслуживания базы данных

QHB, как и любое программное обеспечение для баз данных, для достижения оптимальной производительности требует, чтобы определенные задачи выполнялись регулярно . Обсуждаемые здесь задачи являются обязательными, но они повторяемые и могут быть легко автоматизированы с помощью стандартных инструментов, таких как сценарии cron. Администратор базы данных отвечает за установку соответствующих сценариев и проверку их успешного выполнения.

Одной из очевидных задач обслуживания является создание резервных копий данных на регулярной основе. Без последней резервной копии у вас нет шансов на восстановление после катастрофы (сбой диска, пожар, ошибочное удаление критической таблицы и т. д.). Механизмы резервного копирования и восстановления, доступные в QHB, подробно обсуждаются в главе Резервное копирование и восстановление.

Другой основной категорией задачи обслуживания является периодическая очистка базы данных. Эта задача обсуждается в разделе Регулярная очистка. С ней тесно связана задача обновления статистики, которая будет использоваться планировщиком запросов, как описано в разделе Обновление статистики планировщика.

Другая задача, которая может потребовать периодического внимания, — это управление файлами журналов. Она обсуждается в разделе Обслуживание файла журнала.

QHB не требует значительного обслуживания по сравнению с другими системами управления базами данных. Тем не менее, надлежащее внимание к этим задачам позволит обеспечить комфортный и продуктивный опыт работы с системой.

Регулярная очистка

Базы данных QHB требуют периодического обслуживания, известного как очистка («vacuum»). Для многих установок достаточно, чтобы процесс vacuum выполнял только автоматическую очистку, как описано в разделе Процесс «Автовакуум». Возможно, вам придется настроить параметры autovacuum, описанные там, чтобы получить наилучшие результаты для вашей установки. Некоторые администраторы баз данных захотят дополнить или заменить действия автоочистки командами VACUUM с ручным управлением, которые обычно выполняются в соответствии с расписанием с помощью сценариев cron. Чтобы правильно настроить процесс vacuum с ручным управлением, важно понимать вопросы, обсуждаемые в следующих нескольких подразделах. Администраторы, которые полагаются на автоочистку, могут ознакомится с этим материалом, чтобы лучше понять как настроить autovacuum.

Основы vacuum

Команда QHB VACUUM должна обрабатывать каждую таблицу на регулярной основе по нескольким причинам:

для восстановления или повторного использования дискового пространства, занятого обновленными или удаленными строками;
для обновления статистики данных используемых планировщиком запросов QHB;
для обновления карты видимости, которая ускоряет Сканирование только по индексу и покрывающие индексы;
для защиты от потери очень старых данных из-за "закольцовывания" идентификатора транзакции или мультранзакционного идентификатора.

Каждая из этих причин требует выполнение операций VACUUM различной частоты и объема, что будет объяснено в следующих подразделах.

Существует два варианта VACUUM: стандартный VACUUM и VACUUM FULL. VACUUM FULL может освободить больше места на диске, но работает намного медленнее. Кроме того, стандартная форма VACUUM может работать параллельно с другими операциями базы данных. (Такие команды, как SELECT, INSERT, UPDATE и DELETE, продолжат нормально функционировать, хотя вы не сможете изменять определение таблицы с помощью команд, таких как ALTER TABLE во время очистки). VACUUM FULL требует эксклюзивной блокировки на таблицы, с которыми он работает, и, следовательно, не может быть выполнен параллельно с другим использованием таблицы. Поэтому, как правило, администраторы должны стремиться использовать стандартный VACUUM и избегать VACUUM FULL.

VACUUM создает значительный объем трафика ввода-вывода, что может привести к снижению производительности других активных сеансов. Существуют параметры конфигурации, которые можно регулировать, чтобы снизить влияние фоновой очистки на производительность - см. раздел Определение предела стоимости работы процесса очистки.

Восстановление дискового пространства

В QHB UPDATE или DELETE строки не сразу удаляют старую версию строки. Этот подход необходим для получения преимуществ многоверсионного управления параллелизмом: нельзя удалять версию строки, пока она потенциально может быть видна другим транзакциям. Но в конце концов устаревшая или удаленная версия строки больше не представляет интереса для какой-либо транзакции. Затем занимаемое им пространство должно стать доступно для повторного использования новыми строками, чтобы избежать неограниченного роста требований к дисковому пространству. Это достигается с помощью процесса VACUUM.

Стандартная форма VACUUM удаляет версии "мертвых" строк в таблицах и индексах и отмечает пространство, доступное для повторного использования в будущем. Однако он не вернет пространство операционной системе, за исключением особого случая, когда одна или несколько страниц в конце таблицы становятся полностью свободными, и можно легко получить эксклюзивную блокировку таблицы. Напротив, VACUUM FULL активно уплотняет таблицы, записывая полную новую версию файла таблицы без пустого пространства. Это минимизирует размер таблицы, но может занять очень много времени. Также требуется дополнительное дисковое пространство для новой копии таблицы, пока операция не завершится.

Обычно, цель очистки состоит в том, чтобы выполняьб стандартный VACUUM достаточно часто, чтобы избежать необходимости запуска VACUUM FULL. Фоновый процесс autovacuum пытается работать таким образом, и фактически никогда не применяет VACUUM FULL. Идея такого подхода состоит не в том, чтобы поддерживать минимальный размер таблиц, а в том, чтобы поддерживать устойчивое равномерное использование дискового пространства: каждая таблица занимает пространство, эквивалентное ее минимальному размеру, тем не менее, много места может использоваться между очистками. Хотя VACUUM FULL можно использовать для сокращения таблицы до минимального размера и возврата дискового пространства в операционную систему, в этом нет особого смысла, если таблица в будущем снова будет расти. Таким образом, стандартные прогоны VACUUM с умеренной частотой являются лучше, чем редкие прогоны VACUUM FULL, для обрабоки значительно обновленных таблиц.

Некоторые администраторы предпочитают планировать VACUUM самостоятельно, например, выполняя всю работу ночью при низкой нагрузке. Сложность выполнения очистки по фиксированному расписанию состоит в том, что если в таблице неожиданно наблюдается всплеск активности обновления, она может раздуться до такой степени, что VACUUM FULL станет действительно необходим для освобождения места. Использование фонового процесса autovacuum облегчает эту задачу, поскольку фоновый процесс планирует динамическое удаление "мёртвых" строк в ответ на действия по обновлению. Неразумно полностью отключать фоновый процесс, если у вас нет стопроцентно предсказуемой рабочей нагрузки. Одним из возможных компромиссов является установка параметров фонового процесса так, чтобы он реагировал только на необычайно интенсивную деятельность по обновлению, таким образом не давая системе выйти из-под контроля, в то время как запланированные процессы VACUUM должны выполнять основную часть работы, когда нагрузка является типичной.

Для тех, кто не использует автоочистку, типичный подход - планирование VACUUM всей базы данных один раз в сутки в течение периода наименьшего использования, дополненного, по мере необходимости, более частой очисткой сильно обновленных таблиц. (В некоторых установках с чрезвычайно высокой частотой обновления самые загруженные таблицы вакуумируются каждые несколько минут). Если у вас в кластере несколько баз данных, не забудьте настроить VACUUM для каждой. Здесь может быть полезна программа vacuumdb.

Заметка
Результаты простого VACUUM могут быть неудовлетворительными, если в таблице содержится большое количество версий "мертвых" строк в результате массового обновления или удаления. Если у вас есть такая таблица и вам нужно освободить занимаемое ею избыточное дисковое пространство, вам нужно будет использовать VACUUM FULL или, альтернативно, CLUSTER или один из вариантов перезаписи таблицы ALTER TABLE. Эти команды переписывают новую копию таблицы и строят для нее новые индексы. Все эти опции требуют эксклюзивной блокировки. Обратите внимание, что они также временно используют дополнительное дисковое пространство, приблизительно равное размеру таблицы, поскольку старые копии таблицы и индексов не могут быть освобождены, пока не будут созданы новые.

Заметка
Если у вас есть таблица, все содержимое которой периодически удаляется, попробуйте сделать это с помощью TRUNCATE, а не с помощью DELETE а затем выполните VACUUM. TRUNCATE немедленно удаляет все содержимое таблицы, не требуя последующего VACUUM или VACUUM FULL для восстановления неиспользуемого дискового пространства. Недостатком является то, что строгая семантика MVCC нарушается.

Обновление статистики планировщика

Планировщик запросов QHB полагается на статистическую информацию о содержимом таблиц для создания хороших планов для запросов. Эти статистические данные собираются с помощью команды ANALYZE, которую можно вызвать отдельно или в качестве необязательного шага в VACUUM. Важно иметь достаточно точную статистику, иначе неверный выбор планов выполнения может значительно снизить производительность базы данных.

Фоновый процесс autovacuum, если он включен, будет автоматически запускать команды ANALYZE всякий раз, когда содержимое таблицы в достаточной степени изменяется . Однако администраторы могут предпочесть полагаться на запланированные вручную операции ANALYZE, особенно если известно, что активность обновления таблицы не повлияет на статистику «интересующих» планировщик столбцов (которые интенсивно используются в WHERE). Фоновый процесс autovacuum планирует ANALYZE строго в зависимости от количества вставленных или обновленных строк - он не знает, приведет ли это к значимым статистическим изменениям.

Как и в случае с VACUUM для восстановления пространства, частые обновления статистики более полезны для сильно обновленных таблиц, чем для редко обновляемых. Но даже для сильно обновленной таблицы может не потребоваться обновление статистики, если статистическое распределение данных сильно не меняется. Простое правило - подумать о том, насколько изменяются минимальное и максимальное значения столбцов в таблице. Например, столбец timestamp который содержит время обновления строки, будет иметь постоянно увеличивающееся максимальное значение при добавлении и обновлении строк; такой столбец, вероятно, будет нуждаться в более частых обновлениях статистики, чем, скажем, столбец, содержащий URL-адреса для страниц, доступных на веб-сайте. Столбец URL может получать изменения так же часто, но статистическое распределение его значений, вероятно, изменяется слабо.

Можно запустить ANALYZE для определенных таблиц и даже только для определенных столбцов таблицы, поэтому существует возможность обновлять некоторые статистические данные чаще, чем другие, если этого требует ваше приложение. На практике, однако, обычно лучше всего проанализировать всю базу данных, потому что это быстрая операция. ANALYZE использует статистически случайную выборку строк таблицы, а не читает каждую строку.

Заметка
Хотя подстройка частоты ANALYZE каждого столбца может быть и не очень продуктивной, может оказаться целесообразным выполнить для каждого столбца настройку уровня детализации статистики, собираемой ANALYZE. Столбцы, которые интенсивно используются в WHERE и имеют очень нерегулярное распределение данных, могут потребовать более детальной гистограммы данных, чем другие столбцы. См. ALTER TABLE SET STATISTICS или можно изменить значение по умолчанию для всей базы данных, используя параметр конфигурации default_statistics_target.

Также по умолчанию имеется ограниченная информация о селективности функций. Однако если вы создадите индекс по выражению, использующий вызов функции, будет собрана полезная статистика о функции, которая может значительно улучшить планы запросов, использующие индекс по выражению.

Заметка
Фоновый процесс autovacuum не запускает команды ANALYZE для внешних таблиц, так как не имеет возможности определить, как часто это может быть сделано. Если ваши запросы для правильного планирования требуют статистики внешних таблиц , рекомендуется запускать вручную команды ANALYZE для этих таблиц по расписанию.

Обновление карты видимости

VACUUM поддерживает карту видимости для каждой таблицы, чтобы отслеживать, какие страницы содержат только кортежи, которые, как известно, видны всем активным транзакциям (и всем будущим транзакциям, пока страница не будет снова изменена). Это реализовано для двух целей.

Во-первых, сам VACUUM может пропустить такие страницы при следующем запуске, так как нечего убирать.
Во-вторых, страницы видимости позволяют QHB отвечать на некоторые запросы, используя только индекс, без ссылки на базовую таблицу. Поскольку индексы QHB не содержат информации о видимости строки, при обычном сканировании индекса строка выбирается для каждой соответствующей записи индекса, чтобы проверить, должна ли она быть видимой текущей транзакцией. С другой стороны, сканирование только по индексу сначала проверяет карту видимости. Если известно, что все кортежи на странице видны, выборка может быть пропущена. Это наиболее полезно для больших наборов данных, где карта видимости может предотвратить лишний доступ к диску. Карта видимости значительно меньше списка всех блоков, поэтому ее можно легко кэшировать, даже если блоков очень много.

Предотвращение ошибок зацикливания идентификатора транзакции

Семантика транзакции MVCC в QHB зависит от возможности сравнения номеров идентификаторов транзакций (XID): версия строки с XID вставки, превышающим XID текущей транзакции, находится «в будущем» и не должна быть видимой для текущей транзакции. Но поскольку идентификаторы транзакций имеют ограниченный размер 32 бита, кластер, работающий в течение длительного времени (более 4 миллиардов транзакций), будет подвергаться циклическому изменению идентификатора транзакции (закольцовывание, wraparound): счетчик XID обнуляется, и все транзакции, которые были в прошлом внезапно окажутся в будущем - что означает, что их значения становится невидимы. В итоге произойдёт катастрофическая потеря данных. (На самом деле данные все еще там, но это не поможет, если нет возможности их получить). Чтобы избежать этого, необходимо запустить VACUUM для каждой таблицы в каждой базе данных как минимум один раз каждые два миллиарда транзакций.

Причина, по которой периодический запуск VACUUM решает проблему, состоит в том, что VACUUM помечает строки как "замороженные" (freeze), указывая на то, что они были установлены транзакцией, зафиксированной достаточно давно, и что изменения этой транзакции будут видны для всех текущих и будущих транзакций., Нормальные XID сравниваются с использованием арифметики по модулю 2 **³² **. Это означает, что для каждого нормального XID существует два миллиарда «более старых» и два миллиарда «более новых» значений. После создания версии строки с определенным нормальным XID версия строки будет «в прошлом» для следующих двух миллиардов транзакций, независимо от того, о каком XID идет речь. Если версия строки все еще существует после более чем двух миллиардов транзакций, она внезапно появится в будущем. Чтобы предотвратить это, QHB резервирует специальный XID, FrozenTransactionId, который не следует нормальным правилам сравнения XID и всегда считается старше любого обычного XID. Версии замороженных строк обрабатываются так, как если бы XID вставки был FrozenTransactionId, так что они будут казаться «в прошлом» для всех обычных транзакций, независимо от проблем с переносом, и поэтому такие версии строк будут действительными до тех пор, пока они не будут удалены, независимо от того, как долго они хранятся.

vacuum_freeze_min_age контролирует, какой возраст должен быть у значения XID, прежде чем строки, содержащие этот XID, будут "заморожены". Увеличение этого параметра поможет избежать ненужной работы, если строки, которые в противном случае были бы заморожены, вскоре будут снова изменены, но уменьшение этого параметра увеличивает количество транзакций, которые могут пройти, прежде чем таблицу необходимо будет снова очистить.

VACUUM использует карту видимости, чтобы определить, какие страницы таблицы необходимо сканировать. Обычно он пропускает страницы, которые не имеют версий "мертвых" строк, даже если на этих страницах все еще могут быть версии строк со старыми значениями XID. Поэтому обычные VACUUM не всегда замораживают каждую старую версию строки в таблице. Периодически VACUUM будет иницировать агрессивный вакуум, пропуская только те страницы, которые не содержат ни пустых строк, ни незамерзших значений XID или MXID. vacuum_freeze_table_age контролирует, когда VACUUM выполнит след. действия: сканируются все видимые, но не полностью замороженные страницы, если количество транзакций, прошедших с момента последнего такого сканирования, больше, чем vacuum_freeze_table_age минус vacuum_freeze_min_age. Установка 0 в vacuum_freeze_table_age заставляет VACUUM использовать эту более агрессивную стратегию для всех сканирований.

Максимальное время, в течение которого таблица может оставаться невостребованной, составляет два миллиарда транзакций минус значение vacuum_freeze_min_age во время последнего агрессивного вакуума. Если бы она оставалась невостребованной дольше, это могло бы привести к потере данных. Чтобы этого не происходило, autovacuum вызывается для любой таблицы, которая может содержать незамерзающие строки с XID старше, чем возраст, указанный в параметре конфигурации autovacuum_freeze_max_age. (Вызов произойдет, даже если автоочистка отключен).

Подразумевается, что если таблица не будет очищена VACUUM, то для ее обработки будет вызываться autovacuum примерно один раз за autovacuum_freeze_max_age минус vacuum_freeze_min_age транзакцию. Для таблиц, которые регулярно очищает VACUUM в целях освобождения пространства, это не имеет большого значения. Однако для статических таблиц (включая таблицы, для которых вызываются операции вставки, но не обновления и не удаления), нет необходимости в VACUUM для восстановления пространства, поэтому может быть полезно попытаться максимально увеличить интервал между принудительными сеансами автоочистки для очень больших статических таблиц. Очевидно, что это можно сделать, либо увеличив autovacuum_freeze_max_age либо уменьшив vacuum_freeze_min_age.

Сколько-нибудь эффективным максимальным значением vacuum_freeze_table_age является 0.95*autovacuum_freeze_max_age. Большее значение будет упираться в возможный максимум. А значение равное autovacuum_freeze_max_age вообще не имеет смысла, потому что процедура очистки для предотвращения "закольцовывания" (прохода через ноль номера транзакции) запустится к этому моменту сама. Таким образом множитель 0,95 оставляет некоторое пространство для манёвра и запуска VACUUM в ручном режиме, до момента, когда произойдёт закольцовывание. Основным правилом можно считать следующее: Параметр vacuum_freeze_table_age нужно выставить несколько ниже, чем autovacuum_freeze_max_age, оставляя промежуток для штатно-запланированного запуска VACUUM или autovacuum вызываемого нормальными процедурами DELETE и UPDATE. Таким образом, ставя значения слишком близко, возможно повлечь запуск autovacuum для устранения закольцовываний, даже если таблица была недавно очищена для целей восстановления свободного места. Установка же низких значений ведёт к агрессивному и более частому вакуумированию таблицы.

Единственный недостаток увеличения autovacuum_freeze_max_age (и в сочетании с vacuum_freeze_table_age) заключается в том, что подкаталоги pg_xact и pg_commit_ts кластера базы данных будут занимать больше места, поскольку они должны хранить статус фиксации и (если track_commit_timestamp включена) временную метку всех транзакций возрастом меньше чем autovacuum_freeze_max_age. Состояние фиксации использует два бита на транзакцию, поэтому, если для autovacuum_freeze_max_age установлено максимально допустимое значение в два миллиарда, можно ожидать, что pg_xact вырастет примерно до половины гигабайта, а pg_commit_ts - примерно до 20 ГБ. Если это малозначимо по сравнению с вашим общим размером базы данных, рекомендуется установить для autovacuum_freeze_max_age максимально допустимое значение. В противном случае установите его в зависимости от того, что вы хотите разрешить для pg_xact и pg_commit_ts. (Значение по умолчанию, 200 миллионов транзакций, означает около 50 МБ хранилища pg_xact и около 2 ГБ хранилища pg_commit_ts).

Одним из недостатков уменьшения vacuum_freeze_min_age является то, что это может привести к тому, что VACUUM сделает бесполезную работу: замораживания версии строки - пустая трата времени, если строка будет вскоре изменена (что приведет к приобретению строкой нового XID). Таким образом, настройка должна быть достаточно большой, чтобы строки не были заморожены до тех пор, пока они, скорее всего, не изменятся.

Чтобы отследить возраст самых старых незамерзших XID в базе данных, VACUUM сохраняет статистику XID в системных таблицах pg_class и pg_database. В частности, столбец relfrozenxid в строке таблицы pg_class содержит XID отсечки замораживания, который использовался последним агрессивным VACUUM для этой таблицы. Все строки, вставленные транзакциями с XID старше этого XID с отсечкой, гарантированно будут заморожены. Точно так столбец datfrozenxid строки базы данных pg_database является нижней границей незамерзших XID, появляющихся в этой базе данных, — это только минимум значений relfrozenxid каждой таблицы в базе данных. Удобный способ проверить эту информацию - выполнить такие запросы:

SELECT c.oid::regclass as table_name,
       greatest(age(c.relfrozenxid),age(t.relfrozenxid)) as age
FROM pg_class c
LEFT JOIN pg_class t ON c.reltoastrelid = t.oid
WHERE c.relkind IN ('r', 'm');

SELECT datname, age(datfrozenxid) FROM pg_database;

Столбец age показывает количество транзакций от XID среза до XID текущей транзакции.

VACUUM обычно сканирует только те страницы, которые были изменены с момента последнего вакуума, но relfrozenxid может быть расширен только после сканирования каждой страницы таблицы, которая может содержать незамерзщие XID. Это происходит, когда relfrozenxid больше, чем vacuum_freeze_table_age транзакции, когда используется опция FREEZE VACUUM, или когда все страницы, которые еще не полностью заморожены, требуют очистки для удаления версий мертвых строк. Когда VACUUM сканирует каждую страницу в таблице, которая еще не полностью заморожена, ему следует установить значение для age(relfrozenxid) чуть превышающее vacuum_freeze_min_age. Если VACUUM, устанавливающий relfrozenxid, не будет выдан на таблицу до тех пор, пока autovacuum_freeze_max_age не будет достигнут, то для таблицы будет автоматически запущена автоочистка.

Если по какой-то причине автоочистке не удастся удалить старые XID из таблицы, система начнет выдавать предупреждающие сообщения, подобные этому, когда самые старые XID базы данных достигнут десяти миллионов транзакций с точки прохода VACUUM:

WARNING:  database "mydb" must be vacuumed within 177009986 transactions
HINT:  To avoid a database shutdown, execute a database-wide VACUUM in "mydb".

(Ручной VACUUM должен решить проблему, как подсказано в сообщении, но учтите, что VACUUM должен выполняться суперпользователем, иначе он не сможет обрабатывать системные каталоги и, следовательно, не сможет продвигать datfrozenxid базы данных). Если эти предупреждения игнорируются, система завершит работу и откажется начинать любые новые транзакции, если до завершения процедуры останется менее 1 миллиона транзакций:

ERROR:  database is not accepting commands to avoid wraparound data loss in database "mydb"
HINT:  Stop the postmaster and vacuum that database in single-user mode.

Запас безопасности в 1 миллион транзакций предусмотрен, чтобы позволить администратору восстановиться без потери данных, выполнив вручную необходимые команды VACUUM. Однако, поскольку система не будет выполнять команды после перехода в режим безопасного отключения, единственный способ сделать это - остановить сервер и запустить сервер в однопользовательском режиме для выполнения VACUUM.

Мультитранзакции и зацикливание

Идентификаторы мультитранзакций используются для поддержки блокировки строк несколькими транзакциями. Поскольку в заголовке кортежа имеется только ограниченное пространство для хранения информации о блокировке, эта информация кодируется как «идентификатор множественной транзакции» или идентификатор мультитранзакции, когда существует более одной транзакции, одновременно блокирующей строку. Информация о том, какие идентификаторы транзакций включены в любой конкретный идентификатор мультитранзакции, хранится отдельно в подкаталоге pg_multixact, и в поле xmax в заголовке кортежа отображается только идентификатор мультитранзакции. Как и идентификаторы транзакций, идентификаторы мультитранзакций реализованы в виде 32-разрядного счетчика и соответствующего хранилища, что требует тщательного управления устареванием, очистки хранилища и обработки изменений при зацикливаниях. Существует отдельная область хранения, которая содержит список элементов для каждой мультитранзакции, которая также использует 32-разрядный счетчик и которым также необходимо управлять.

Всякий раз, когда VACUUM сканирует какую-либо часть таблицы, он заменяет любой обнаруженный им идентификатор мультитранзакции, который старше, чем vacuum_multixact_freeze_min_age, на другое значение, которое может быть нулевым значением, идентификатором отдельной транзакции или новым идентификатором мультитранзакции. Для каждой таблицы pg_class.relminmxid хранит самый старый из возможных идентификаторов мультитранзакций, которые все еще присутствуют в любом кортеже этой таблицы. Если это значение старше, чем vacuum_multixact_freeze_table_age, агрессивный вакуум запускается принудительно. Как обсуждалось в предыдущем разделе, агрессивный вакуум означает, что будут пропущены только те страницы, про которые известно, что они полностью заморожены. Функция mxid_age() может использоваться для pg_class.relminmxid для определения возраста.

Агрессивное сканирование VACUUM, независимо от того, что его вызывает, позволяет повысить доступность дискового пространства. В конце концов, так как все таблицы во всех базах данных сканируются и их самые старые значения мультитранзакций обновляются, пространство на диске для старых файлов мультитранзакций может быть освобождено.

В качестве защитного устройства агрессивное сканирование VACUUM будет выполняться для любой таблицы, возраст мультитранзакций которой больше, чем autovacuum_multixact_freeze_max_age. Агрессивное VACUUM сканирование также будет происходить постепенно для всех таблиц, начиная с тех, которые имеют самые старые мультитранзакции, если объем используемого пространства хранения элементов превышает 50% адресуемого пространства хранения. Оба этих вида агрессивного сканирования будут происходить даже в том случае, если автоочистка формально отключена.

Процесс «Автовакуум»

QHB имеет необязательную, но настоятельно рекомендуемую функцию, называемую Автовакуум (autovacuum), цель которой - автоматизировать выполнение команд VACUUM и ANALYZE. При включении autovacuum проверяет таблицы, в которые было вставлено, обновлено или удалено большое количество кортежей. Эти проверки используют средства сбора статистики; поэтому, autovacuum нельзя использовать, если для track_counts не установлено значение true. В конфигурации по умолчанию автоочистка включена, и соответствующие параметры конфигурации установлены соответствующим образом.

Процесс autovacuum на самом деле состоит из нескольких процессов. Существует постоянный фоновый процесс, называемый средством запуска autovacuum (autovacuum executor), который отвечает за запуск рабочих процессов autovacuum для всех баз данных. Модуль запуска будет распределять работу по времени, пытаясь запускать по одному процессу в каждой базе данных каждые autovacuum_naptime секунд. (Следовательно, если в установке имеется N баз данных, новый процесс будет запускаться каждые autovacuum_naptime/N секунд). Одновременно разрешено запускать максимум autovacuum_max_workers рабочих процессов. Если запущено больше баз данных, чем установленное значение autovacuum_max_workers, то следующая база данных будет обработана, как только закончится первый процесс. Каждый рабочий процесс будет проверять каждую таблицу в своей базе данных и выполнять VACUUM и/или ANALYZE по мере необходимости. log_autovacuum_min_duration может быть установлен для мониторинга активности процессов автоочистки.

Если несколько больших таблиц становятся доступны для вакуума за короткий промежуток времени, все процессы автоочистки, могут быть заняты очисткой в течение длительного времени. Это приведет к тому, что другие таблицы и базы данных не будут очищены до тех пор, пока процесс не станет доступным. Нет ограничений на количество процессов в одной базе данных, но процессы стараются избегать повторения уже выполненной работы. Обратите внимание, что количество работающих процессов не учитывается в рамках ограничений max_connections или superuser_reserved_connections.

Таблицы, у которых значение relfrozenxid больше, чем autovacuum_freeze_max_age старых транзакций, всегда очищаются VACUUM (это также относится к тем таблицам, чей максимальный срок замораживания был изменен с помощью параметров хранилища; см. ниже). В противном случае, если количество кортежей, устаревших с момента последнего VACUUM, превышает «порог», таблица очищается VACUUM. Порог вакуума (vacuum threshold) определяется как:

vacuum threshold = vacuum base threshold + vacuum scale factor * number of tuples

где базовый порог вакуума (vacuum base threshold) - autovacuum_vacuum_threshold, коэффициент масштабирования вакуума (vacuum scale factor)- autovacuum_vacuum_scale_factor, а число кортежей (number of tuples) - pg_class.reltuples. Количество устаревших кортежей котрое получается из сборщика статистики - это примерный расчет, обновляемый каждой операцией UPDATE и DELETE. (Расчет приблизительный, потому, что некоторая информация может быть потеряна при большой нагрузке). Если значение relfrozenxid в таблице больше, чем vacuum_freeze_table_age транзакции, агрессивный вакуум выполняется для замораживания старых кортежей и продвижения relfrozenxid, в противном случае сканируются только страницы, которые были изменены с момента последнего вакуума.

Для анализа используется аналогичное условие: порог, определяемый как:

analyze threshold = analyze base threshold + analyze scale factor * number of tuples

сравнивается с общим количеством вставленных, обновленных или удаленных кортежей со времени последнего ANALYZE.

Временные таблицы не доступны для автоочистки. Следовательно, соответствующие операции вакуума и анализа для них должны выполняться с помощью команд сеанса SQL.

Пороговые значения по умолчанию и масштабные коэффициенты взяты из qhb.conf, но их можно переопределить (и многие другие параметры управления автоочисткой) для каждой таблицы; см. Параметры хранения для получения дополнительной информации. Если параметр управляющий autovacuum был изменен с помощью параметров хранения таблицы, это значение используется при обработке этой таблицы - в противном случае используются глобальные настройки. См. раздел Автоматическая очистка для более подробной информации о глобальных настройках.

Когда работают несколько процессов autovacuum, параметры задержки затрат на автоочистку (см. раздел Определение предела стоимости работы процесса очистки) «сбалансированы» между всеми работающими процессами, так что общее влияние ввода/вывода на систему одинаково независимо от количества фактически работающих процессов, Однако любые рабочие таблицы, для которых были установлены собственные параметры хранения autovacuum_vacuum_cost_delay или autovacuum_vacuum_cost_limit, не учитываются в алгоритме балансировки.

Процессы autovacuum обычно не блокируют другие команды. Если процесс попытается получить блокировку, которая конфликтует с блокировкой SHARE UPDATE EXCLUSIVE удерживаемой автоочисткой, получение блокировки прервет autovacuum. Конфликтующие режимы блокировки см. в таблице. Однако, если автоочистка работает для предотвращения закольцовывания идентификатора транзакции (т. е. имя запроса автоочистки в представлении pg_stat_activity заканчивается текстом to prevent wraparound), автоочистка автоматически не прерывается.

Предупреждение!!!
Регулярно выполняемые команды, которые получают блокировки, конфликтующие с блокировкой SHARE UPDATE EXCLUSIVE (например, ANALYZE), могут эффективно предотвращать завершение autovacuum.

Регулярная переиндексация

В некоторых ситуациях целесообразно периодически перестраивать индексы с помощью команды REINDEX или ряда отдельных шагов перестройки.

Страницы индекса B-tree, которые стали полностью пустыми, возвращаются для повторного использования. Однако все еще существует вероятность неэффективного использования пространства: если все, кроме нескольких индексных ключей на странице, были удалены, страница остается выделенной. Следовательно, шаблон использования, при котором большинство, но не все ключи в каждом диапазоне в конечном итоге будут удалены, приведет к неэффективному использованию пространства. Для таких моделей использования рекомендуется периодическая переиндексация.

Потенциал раздувания (bloat) в индексах отличных от B-tree не был достаточно исследован. Рекомендуется периодически отслеживать физический размер индекса при использовании любого типа индекса, отличного от B-tree.

Кроме того, для индексов B-tree доступ к недавно сконструированному индексу немного быстрее, чем к индексу, который много раз обновлялся, потому что логически смежные страницы обычно также физически соседствуют во вновь созданном индексе. (Это соображение не относится к индексам, не относящимся к B-tree). Возможно, есть смысл периодически переиндексировать таблицы для повышения скорости доступа.

REINDEX может использоваться легко и безопасно во всех случаях. Эта команда требует блокировки ACCESS EXCLUSIVE по умолчанию, поэтому часто предпочтительно выполнять ее с параметром CONCURRENTLY, который требует только блокировки SHARE UPDATE EXCLUSIVE.

Обслуживание файла журнала

Хорошей идеей будет сохранить куда-нибудь вывод журнала сервера базы данных, а не просто отбрасывать его через /dev/null. Вывод журнала очень важен при диагностике проблем. Однако вывод журнала имеет тенденцию к росту объемов (особенно на более высоких уровнях детализации), поэтому его нет смысла сохранять его бесконечно долго. Желательно настроить файлы журнала так, чтобы новые файлы журнала запускались, а старые удалялись через разумный период времени.

Если вы просто направите stderr процесса qhb в файл, у вас будет вывод журнала, но единственный способ обрезать файл журнала — это остановить и перезапустить сервер. Это может быть приемлемо, если вы используете QHB в среде разработки, но немногие продукционные серверы сочтут это поведение приемлемым.

Лучшим подходом является отправка вывода stderr сервера в какую-либо программу ротации журналов. Существует встроенная logging_collector ротации журналов, которую вы можете использовать, установив для параметра конфигурации logging_collector значение true в qhb.conf. Параметры управления для этой программы описаны в разделе Расположение журнала. Вы также можете использовать этот подход для захвата данных журнала в машиночитаемом формате CSV (значения, разделенные запятыми).

В качестве альтернативы вы можете использовать внешнюю программу ротации журналов, если у вас есть такая, которую вы уже используете с другим серверным программным обеспечением. Например, инструмент rotatelogs, включенный в дистрибутив Apache, может использоваться с QHB. Один из способов сделать это - направить вывод сервера stderr в нужную программу. Если вы запускаете сервер с qhb_ctl, то stderr уже перенаправлен на stdout, поэтому вам просто нужна команда pipe, например:

qhb_ctl start | rotatelogs /var/log/pgsql_log 86400

Вы можете объединить эти подходы, настроив logrotate для сбора файлов журналов, создаваемых встроенным сборщиком журналов QHB. В этом случае сборщик журналов определяет имена и расположение файлов журналов, а logrotate периодически архивирует эти файлы. При запуске ротации журнала logrotate должен убедиться, что приложение отправляет дальнейшие выходные данные в новый файл. Обычно это делается с помощью сценария postrotate который отправляет сигнал SIGHUP приложению, которое затем повторно открывает файл журнала. В QHB вы можете запустить qhb_ctl с опцией logrotate. Когда сервер получает эту команду, сервер либо переключается на новый файл журнала, либо повторно открывает существующий файл, в зависимости от конфигурации ведения журнала (см. Раздел Расположение журнала).

Заметка
При использовании статических имен файлов журнала сервер может не открыть файл журнала, если достигнут максимальный лимит открытых файлов в системе или произошло переполнение таблицы файлов. В этом случае сообщения журнала отправляются в старый файл до успешной ротации журнала. Если logrotate настроен на сжатие файла журнала и его удаление, сервер может потерять сообщения, зарегистрированные в этот период времени. Чтобы избежать этой проблемы, вы можете настроить сборщик журналов на динамическое назначение имен файлов журналов и использовать сценарий предварительной prerotate чтобы игнорировать открытые файлы журналов.

Другой производственный подход к управлению выводом журнала - отправить его в системный журнал и позволить системному журналу работать с ротацией файлов. Для этого установите для параметра конфигурации log_destination значение syslog (для вывода только в syslog) в qhb.conf. Затем вы можете отправить сигнал SIGHUP демону syslog всякий раз, когда вы хотите заставить его начать запись нового файла журнала. Если вы хотите автоматизировать ротацию журналов, программа logrotate может быть настроена для работы с файлами журналов на системном уровне.

Однако во многих установках системный журнал не очень надежен, особенно с большими сообщениями, он может обрезать или отбрасывать сообщения именно тогда, когда они вам нужны больше всего. Кроме того, в Linux системный журнал сбрасывает каждое сообщение на диск, что приводит к снижению производительности. (Вы можете использовать «-» в начале имени файла в файле конфигурации системного журнала, чтобы отключить синхронизацию).

Обратите внимание, что все решения, описанные выше, предусматривают запуск новых файлов журнала через настраиваемые интервалы, но они не обрабатывают удаление старых, бесполезных файлов журнала. Возможно, вы захотите настроить пакетное задание для периодического удаления старых файлов журнала. Другая возможность - настроить программу ротации так, чтобы старые файлы журналов циклически перезаписывались.

Резервное копирование и восстановление

Как и все, что содержит ценные данные, базы данных QHB должны регулярно подвергаться резервному копированию. Существует три принципиально разных подхода к резервному копированию данных QHB:

У каждого есть свои сильные и слабые стороны, которые обсуждается в следующих разделах.

SQL-дамп

Идея этого метода дампа состоит в том, чтобы создать файл с SQL-командами, которые при применении на сервере воссоздают базу данных в том же состоянии, в котором она находилась во время создания дампа. QHB предоставляет для этой цели служебную программу qhb_dump. Простейшее использование этой программы выглядит следующим образом:

qhb_dump dbname > dumpfile

qhb_dump записывает свой результат в стандартный вывод. Ниже мы увидим, когда это может быть полезно. В то время как вышеуказанная команда создаёт текстовый файл, qhb_dump может создавать файлы в других форматах, которые обеспечивают параллелизм и более детальный контроль над восстановлением объектов.

qhb_dump — это обычное клиентское приложение QHB. Это означает, что можно выполнить процедуру резервного копирования с любого удалённого хоста, который имеет доступ к базе данных. Но помните, что qhb_dump не работает с использованием специальных привилегий. В частности, требуется доступ на чтение ко всем таблицам, для которых выполняется резервное копирование, поэтому для резервного копирования всей базы данных почти всегда требуется запуск с правами суперпользователя базы данных.

Заметка
Если у вас недостаточно прав для резервного копирования всей базы данных, вы всё равно можете создавать резервные копии тех частей базы данных, к которым у вас есть доступ, используя такие параметры, как -n schema или -t table).

Чтобы указать, к какому серверу баз данных должен обращаться qhb_dump, используйте параметры командной строки -h host и -p port. Хост по умолчанию — это локальный хост или то значение, которое указано в переменной среды PGHOST. Точно так же порт по умолчанию указывается переменной окружения PGPORT или, если она не задана, значением, принятым по умолчанию.

Заметка
При компиляции сервер обычно имеет те же значения параметров по умолчанию

Как и любое другое клиентское приложение QHB, qhb_dump по умолчанию соединяется с базой данных используя имя пользователя, которое совпадает с текущим именем пользователя операционной системы. Чтобы переопределить это, либо укажите опцию -U либо установите переменную окружения PGUSER. Помните, что соединения qhb_dump подчиняются обычным механизмам аутентификации клиента.

Важное преимущество qhb_dump перед другими методами резервного копирования, описанными ниже, заключается в том, что выходные данные qhb_dump, как правило, могут загружаться в более новые версии QHB, тогда как резервные копии на уровне файлов и непрерывное архивирование являются исключительно специфичными для версии сервера. qhb_dump также является единственным методом, который будет работать при переносе базы данных на другую архитектуру компьютера, например при переходе с 32-разрядного на 64-разрядный сервер.

Дампы, созданные qhb_dump, являются внутренне непротиворечивыми, то есть дамп представляет собой снимок базы данных во время запуска qhb_dump. qhb_dump не блокирует другие операции с базой данных во время работы.

Заметка
Исключением являются те операции, которым требуется полная блокировка, например, большинство форм ALTER TABLE.

Восстановление дампа

Текстовые файлы, созданные qhb_dump, предназначены для чтения программой qsql. Общая форма команды для восстановления дампа:

qsql dbname < dumpfile

где dumpfile — это файл, содержащий вывод команды qhb_dump. Эта команда не будет создавать базу данных dbname, поэтому вы должны создать её самостоятельно из template0 перед выполнением qsql (например, с помощью createdb -T template0 dbname). qsql поддерживает параметры, аналогичные qhb_dump, для указания сервера базы данных, к которому нужно подключиться, и имени пользователя для использования (см. подробнее в qsql). Дампы нетекстовых файлов восстанавливаются с помощью утилиты qhb_restore.

Перед восстановлением дампа SQL все пользователи, которым принадлежали объекты или права на них в выгруженной базе данных, уже должны существовать. Если их нет, при восстановлении не удастся воссоздать объекты с первоначальным владельцем и / или правами. (Иногда это желаемое поведение, но обычно это не так).

По умолчанию сценарий qsql будет продолжать выполняться после возникновения ошибки SQL. Если запустить qsql с переменной ON_ERROR_STOP установленной для изменения этого поведения, то qsql завершится кодом 3, если возникает ошибка SQL:

qsql --set ON_ERROR_STOP=on dbname < dumpfile

В любом случае, у вас будет только частично восстановленная база данных. В качестве альтернативы вы можете указать, что весь дамп должен быть восстановлен за одну транзакцию, поэтому восстановление будет либо полностью завершено, либо полностью отменено. Этот режим может быть указан путём передачи параметров командной строки -1 или --single-transaction в qsql. При использовании этого режима помните, что даже небольшая ошибка может послужить причиной отката восстановления, которое уже выполняется в течение многих часов. Однако это все же может быть предпочтительнее, чем ручная очистка сложной базы данных после частично восстановленного дампа.

Возможность qhb_dump и qsql использовать каналы ввода/вывода позволяет скопировать базу данных напрямую с одного сервера на другой, например:

qhb_dump -h host1 dbname | qsql -h host2 dbname

Важно!!!
Дампы, создаваемые qhb_dump, относятся к template0. Это означает, что любые языки, процедуры и т. д., добавленные через template1, также будут выгружены qhb_dump. В результате при восстановлении, если вы используете настроенный template1, вы должны создать пустую базу данных из template0, как в примере выше.

После восстановления резервной копии целесообразно запустить ANALYZE для каждой базы данных, чтобы оптимизатор запросов имел полезную статистику. См. раздел Обновление статистики планировщика и раздел Процесс «Автовакуум» для получения дополнительной информации. Дополнительные советы о том, как эффективно загружать большие объёмы данных в QHB, см. в разделе Заполнение базы данных.

Использование qhb_dumpall

qhb_dump одновременно создаёт дамп только одной базы данных, который не содержит информацию о ролях или табличных пространствах (потому что они относятся к экземпляру, а не к базе данных). Для создания удобного дампа всего содержимого экземпляра базы данных предусмотрена программа qhb_dumpall. qhb_dumpall выполняет резервное копирование каждой базы данных в данном кластере, а также сохраняет данные для всего кластера, такие как определения ролей и табличных пространств. Простой вариант использования этой программы:

qhb_dumpall > dumpfile

Полученный дамп можно восстановить с помощью qsql:

qsql -f dumpfile qhb

Заметка
На самом деле вы можете указать любое существующее имя базы данных для запуска, но если вы загружаете в пустой экземпляр, обычно следует использовать qhb.

Восстановление дампа qhb_dumpall необходимо производить с правами суперпользователя, поскольку это требуется для восстановления информации о ролях и табличных пространствах. Если вы используете табличные пространства, убедитесь, что их пути в дампе соответствуют новой среде.

qhb_dumpall работает, выполняя команды для воссоздания ролей, табличных пространств и пустых баз данных, затем вызывая qhb_dump для каждой базы данных. Это означает, что хотя каждая база данных будет внутренне согласованной, снимки разных баз данных не синхронизируются.

Данные всего экземпляра могут быть выгружены отдельно, используя опцию --globals-only. Это необходимо для полного резервного копирования экземпляра при выполнении команды qhb_dump в отдельных базах данных.

Обработка больших баз данных

Некоторые операционные системы имеют ограничения по максимальному размеру файла, которые вызывают проблемы при создании больших выходных файлов qhb_dump. К счастью, qhb_dump может записывать в стандартный вывод, поэтому вы можете использовать стандартные инструменты Unix для решения этой потенциальной проблемы. Есть несколько возможных методов:

Используйте сжатые дампы. Вы можете использовать вашу предпочитаемую программу сжатия, например, gzip:

qhb_dump dbname | gzip > filename.gz

Восстановление дампа с помощью:

gunzip -c filename.gz | qsql dbname

или:

cat filename.gz | gunzip | qsql dbname

Команда split позволяет разбить вывод на более мелкие файлы, приемлемые по размеру для базовой файловой системы. Например, чтобы сделать куски по 1 мегабайту:

qhb_dump dbname | split -b 1m - filename

Восстановление дампа с помощью:

cat filename* | qsql dbname

Используйте специальный формат дампа qhb_dump. Если QHB был собран в системе с установленной библиотекой сжатия zlib, пользовательский формат дампа будет сжимать данные по мере их записи в выходной файл. Это приведет к размеру файла дампа, аналогичному использованию gzip, но у него есть дополнительное преимущество: таблицы могут восстанавливаться выборочно. Следующая команда создаёт дамп базы данных с использованием специального формата дампа:

qhb_dump -Fc dbname > filename

Дамп специального формата не является сценарием для qsql, а должен быть восстановлен с помощью qhb_restore, например:

qhb_restore -d dbname filename

Для очень больших баз данных вам может потребоваться объединить split с одним из двух других подходов.

Используйте функцию параллельного дампа qhb_dump. Чтобы ускорить дамп большой базы данных, вы можете использовать параллельный режим qhb_dump. Этот режим позволит сбросить несколько таблиц одновременно. Вы можете контролировать количество потоков с помощью параметра -j. Параллельные дампы поддерживаются только для архива в формате каталога.

qhb_dump -j num -F d -f out.dir dbname

Вы можете использовать qhb_restore -j для параллельного восстановления дампа. Это будет работать для любого архива, созданном в специальном формате или в формате каталога, независимо от того, был ли он создан с помощью qhb_dump -j.

Резервное копирование на уровне файловой системы

Альтернативная стратегия резервного копирования заключается в прямом копировании файлов, которые QHB использует для хранения данных в базе данных; Вы можете использовать любой метод для резервного копирования файловой системы; например:

tar -cf backup.tar /usr/local/qhb/data

Однако есть два ограничения, которые делают этот метод непрактичным или, по крайней мере, уступают методу qhb_dump:

Сервер базы данных должен быть выключен, чтобы получить правильную резервную копию. Промежуточные меры, такие как запрещение всех подключений, работать не будут (отчасти потому, что tar и подобные инструменты не делают атомарный снимок состояния файловой системы, но также из-за внутренней буферизации внутри сервера). Информацию об остановке сервера можно найти в разделе завершение работы сервера. Излишне говорить, что вам также необходимо выключить сервер перед восстановлением данных.
Если вы вникли в детали структуры файловой системы базы данных, у вас может возникнуть соблазн попытаться выполнить резервное копирование или восстановление только определенных отдельных таблиц или баз данных из их соответствующих файлов или каталогов. Это не будет работать, потому что информация, содержащаяся в этих файлах, не может быть использована без файлов журнала транзакций pg_xact/*, которые содержат статус фиксации всех транзакций. Файл таблицы может использоваться только с этой информацией. Конечно, также невозможно восстановить только таблицу и связанные с pg_xact данные, потому что это сделает все остальные таблицы в экземпляре базы данных бесполезными. Таким образом, резервные копии файловой системы работают только для полного резервного копирования и восстановления всего экземпляра базы данных.

Альтернативный подход к резервному копированию файловой системы заключается в создании «согласованного снимка» каталога данных, если файловая система поддерживает эту функцию (и вы уверены, что она реализована правильно). Типичная процедура - сделать «замороженный снимок» тома, содержащего базу данных, затем скопировать весь каталог данных (не только части, см. выше) из моментального снимка на устройство резервного копирования, а затем освободить замороженный снимок. Это будет работать даже во время работы сервера базы данных. Однако созданная таким образом резервная копия сохраняет файлы базы данных в таком состоянии, как если бы сервер базы данных был неправильно остановлен; поэтому, когда вы запускаете сервер базы данных с резервной копией данных, он будет считать, что предыдущий экземпляр сервера завершился аварийно, и применит данные журналов WAL. Это не проблема, однако это стоит иметь в виду.

Внимание!!!
Обязательно включите файлы WAL в свою резервную копию!

Заметка
Вы можете выполнить CHECKPOINT перед созданием снимка, чтобы сократить время восстановления.

Если ваша база данных распределена по нескольким файловым системам, то способа получить строго одновременно замороженные снимки всех томов может не оказаться. Например, если ваши файлы данных и журнал WAL находятся на разных дисках, или если табличные пространства находятся в разных файловых системах, может оказаться невозможным использование резервного копирования «моментального снимка», поскольку моментальные снимки должны быть одновременными. Внимательно прочитайте документацию по файловой системе, прежде чем доверять технологии согласованных снимков в таких ситуациях.

Если согласованные снимки невозможны, один из вариантов - отключить сервер базы данных на достаточно длительное время, чтобы скопировать все замороженные снимки. Другим вариантом является выполнение непрерывного архивирования (раздел Создание базовой резервной копии), поскольку такие резервные копии не пострадают от изменений файловой системы во время резервного копирования. Это требует работы непрерывного архивирования на время процесса резервного копирования. Восстановление выполняется с использованием непрерывного восстановления архива (См. раздел Восстановление с помощью непрерывного архива).

Другой вариант - использовать rsync для резервного копирования файловой системы. Для этого сначала нужно запустить rsync во время работы сервера базы данных, а затем завершить работу сервера базы данных на время, достаточное, чтобы выполнить rsync --checksum. (--checksum необходим, потому что rsync различает время с точностью до секунды). Второй запуск rsync отработает быстрее, чем первый, потому что ему останется относительно мало данных для передачи, и конечный результат будет согласованным, поскольку сервер был выключен. Этот метод позволяет выполнять резервное копирование файловой системы с минимальным временем простоя.

Обратите внимание, что резервная копия файловой системы обычно больше, чем дамп SQL. (Например, qhb_dump не нужно записывать содержимое индексов, только команды для их восстановления). Однако создание резервной копии файловой системы может выполняться быстрее.

Непрерывное архивирование и восстановление на момент времени

QHB поддерживает журнал упреждающей записи (WAL) в подкаталоге pg_wal/ каталога данных экземпляра. В журнал записываются все изменения, внесённые в файлы данных базы. Этот журнал существует главным образом в целях обеспечения безопасности при сбоях: в случае сбоя системы базы данных могут быть восстановлена до состояния согласованности путём «воспроизведения» записей журнала, созданных с момента последней контрольной точки. Однако наличие журнала позволяет использовать третью стратегию резервного копирования баз данных: можно объединить резервное копирование на уровне файловой системы с резервным копированием файлов WAL. Если требуется восстановление, то восстанавливается резервная копия файловой системы, а затем воспроизводятся изменения из резервных копий файлов WAL, чтобы привести систему к актуальному состоянию. Этот подход сложнее в администрировании, чем любой из предыдущих подходов, но он имеет некоторые существенные преимущества:

не требуется идеально согласованное резервное копирование файловой системы в качестве отправной точки. Любое внутреннее несоответствие в резервной копии будет исправлено путём воспроизведения журнала (это существенно не отличается от того, что происходит во время восстановления после сбоя). Поэтому не нужна возможность создания снимков файловой системы, просто tar или аналогичный инструмент архивирования.
Поскольку можно комбинировать неограниченно длинную последовательность файлов WAL для воспроизведения, непрерывное резервное копирование может быть достигнуто простым продолжением архивирования файлов WAL. Это особенно ценно для больших баз данных, где не всегда удобно делать полное резервное копирование.
Нет необходимости воспроизводить записи WAL до самого конца. Можно остановить воспроизведение в любой момент и получить согласованный снимок базы данных на заданный момент времени. Таким образом, этот метод поддерживает восстановление на определенный момент времени: восстановление базы данных до её состояния возможно в любое время с момента создания резервной копии базы.
Если непрерывно передавать серии файлов WAL на другой компьютер, который был загружен с одними и теми же базовыми данными резервной копии, то появляется система тёплого резервирования: в любой момент можно запустить второй сервер, и у него будет практически текущая копия база данных.

Заметка
qhb_dump и qhb_dumpall не создают резервные копии на уровне файловой системы и не могут использоваться как часть решения для непрерывного архивирования. Это логические дампы, и они не содержат достаточно информации для использования при воспроизведении WAL.

Как и в случае простого метода резервного копирования файловой системы, этот метод может поддерживать только восстановление всего экземпляра базы данных, но не его части. Кроме того, для этого требуется большое архивное хранилище: базовая резервная копия может быть громоздкой, а занятая система будет генерировать много мегабайт трафика WAL, который необходимо архивировать. Тем не менее, это предпочтительный метод резервного копирования во многих ситуациях, когда требуется высокая надёжность.

Для успешного восстановления с использованием непрерывного архивирования (также называемого «оперативным резервным копированием» многими разработчиками баз данных) нужна непрерывная последовательность архивированных WAL-файлов история которой, по крайней мере, начинается со времени начала резервного копирования. Итак, для начала необходимо настроить и протестировать процедуру архивации файлов WAL, прежде чем делать первую базовую резервную копию. Соответственно, сначала рассмотрим механизм архивирования файлов WAL.

Настройка архивации WAL

В абстрактном смысле работающая система QHB создаёт бесконечно длинную последовательность записей WAL. Система физически делит эту последовательность на файлы сегментов WAL, которые обычно имеют размер 16 МБ (хотя размер сегмента можно изменить во время создания нового кластера базы данных через параметры initdb). Сегменты получают числовые имена, которые отражают их положение в абстрактной последовательности WAL. Когда архивация WAL не используется, система обычно создаёт только несколько файлов сегментов, а затем «перезаписывает» их, меняя имена ставших ненужными файлов WAL на новые, с бо́льшими номерами. Предполагается, что файлы сегментов, содержимое которых предшествует последней контрольной точке, больше не представляют интереса и могут быть использованы заново.

При архивировании данных WAL нам нужно захватить содержимое каждого файла сегмента после его заполнения и сохранить эти данные где-то перед тем, как файл сегмента будет повторно использован. В зависимости от приложения и доступного оборудования, может быть много разных способов «сохранения данных где-то»: мы можем скопировать файлы сегментов в каталог, смонтированный NFS на другом компьютере, записать на ленточный накопитель (гарантируя, что у вас есть способ идентификации исходного имени каждого файла), или собрать вместе и записать на компакт-диски, или что-то ещё. Чтобы предоставить администратору базы данных гибкость, QHB старается не делать никаких предположений о том, как будет осуществляться архивирование. Вместо этого QHB позволяет администратору указать команду оболочки, которая будет выполняться, чтобы скопировать заполненный файл сегмента туда, куда он должен попасть. Команда может быть такой же простой, как cp, или может вызывать сложный сценарий оболочки - все зависит от администратора.

Чтобы включить архивирование WAL, установите для параметра конфигурации wal_level значение replica или выше, для параметра archive_mode - значение on и укажите команду оболочки для использования в параметре конфигурации archive_command. На практике эти настройки всегда будут помещаться в файл qhb.conf. В archive_command %p заменяется путём к файлу для архивирования, а %f заменяется только именем файла. (Путь указывается относительно текущего рабочего каталога, т. е. каталога данных экземпляра). Используйте %% если вам нужно вставить символ % в команду. Самая простая полезная команда выглядит примерно так:

archive_command = 'test ! -f /mnt/server/archivedir/%f && cp %p /mnt/server/archivedir/%f'  # Unix

она скопирует архивируемые сегменты WAL в каталог /mnt/server/archivedir. (Это пример, а не рекомендация, и он может работать не на всех платформах). После замены параметров %p и %f действительная команда может выглядеть следующим образом:

test ! -f /mnt/server/archivedir/00000001000000A900000065 && cp qhb_wal/00000001000000A900000065 /mnt/server/archivedir/00000001000000A900000065

Аналогичная команда будет сгенерирована для каждого нового файла, подлежащего архивированию.

Команда архивирования будет выполняться под управлением того же пользователя, на котором работает сервер QHB. Поскольку серия архивируемых файлов WAL содержит практически всё, что есть в вашей базе данных, вы должны быть уверены, что заархивированные данные защищены от посторонних глаз. Например, архивируйте в каталог, с ограниченными правами доступа на чтение для группы и других пользователей.

Важно, чтобы команда архивирования возвращала нулевой статус выхода, только если копирование произошло успешно. Получив нулевой результат, QHB предположит, что файл был успешно заархивирован, и удалит или переиспользует его. Однако ненулевой статус говорит QHB, что файл не был заархивирован и будут периодически предприниматься попытки его архивации заново, пока это не удастся.

Обычно команда архивирования должна предотвращать перезапись любого ранее существующего архивного файла. Это важная функция безопасности для сохранения целостности вашего архива в случае ошибки администратора (например, отправка вывода двух разных серверов в один и тот же каталог архива).

Рекомендуется протестировать предложенную вами команду архивирования, чтобы убедиться, что она действительно не перезаписывает существующий файл, а если это так, то возвращает ненулевой статус. Приведённый выше пример команды для Unix обеспечивает это путём включения отдельного шага test. На некоторых платформах Unix в cp есть такие переключатели, как -i, которые можно использовать для выполнения тех же операций менее явно, но вы не должны полагаться на них, не убедившись, что возвращён правильный код статуса. (В частности, GNU cp вернет нулевой код статуса, когда используется -i и целевой файл уже существует, что не является желаемым поведением).

При разработке вашей конфигурации архивации рассмотрите, что произойдёт, если команда архивирования не будет выполнена повторно, потому что какие-то обстоятельства требуют вмешательства оператора или архиву не хватает места. Например, это может произойти, если вы пишете на ленту без автоматической смены; когда лента заполняется, ничто больше не может быть заархивировано, пока лента не будет заменена. Вы должны убедиться, что о любой ошибке или запросе оператору-человеку сообщается надлежащим образом, чтобы ситуация могла быть разрешена достаточно быстро. pg_wal/ будет продолжать заполняться файлами сегментов WAL, пока ситуация не будет решена. (Если файловая система, содержащая pg_wal/ заполняется, QHB завершит работу аварийно. Никакие зафиксированные транзакции не будут потеряны, но база данных останется в автономном режиме, пока вы не освободите некоторое пространство).

Скорость команды архивации не имеет значения, пока она может соответствовать средней скорости, с которой ваш сервер генерирует данные WAL. Нормальная работа продолжается, даже если процесс архивирования немного отстаёт. Если архивирование значительно отстаёт, это увеличит объём данных, которые могут быть потеряны в случае аварии. Это также будет означать, что pg_wal/ будет содержать большое количество ещё не заархивированных файлов сегментов, которые в конечном итоге могут превысить доступное дисковое пространство. Рекомендуется следить за процессом архивации, чтобы убедиться, что он работает так, как вы рассчитываете.

При написании команды архивирования вы должны исходить из того, что имена файлов, подлежащих архивированию, могут быть длиной до 64 символов и могут содержать любую комбинацию букв ASCII, цифр и точек. Нет необходимости сохранять исходный относительный путь (%p), но необходимо сохранить имя файла (%f).

Обратите внимание, что несмотря на то, что архивация WAL позволит вам восстановить любые изменения, внесенные в данные в вашей базе данных QHB, она не восстановит изменения, внесённые в файлы конфигурации (то есть qhb.conf, qhb_hba.conf и qhb_ident.conf), так как они редактируются вручную, а не с помощью операций SQL. Возможно, вы захотите сохранить файлы конфигурации в том же месте, где будут храниться результаты ваших обычных процедур резервного копирования файловой системы. расположение файлов

Команда архивирования вызывается только для завершённых сегментов WAL. Следовательно, если ваш сервер генерирует только небольшой трафик WAL (или имеет периоды простоя, когда это происходит), может возникнуть длительная задержка между завершением транзакции и ее безопасной записью в архивное хранилище. Чтобы установить ограничение на срок хранения неархивированных данных, вы можете установить archive_timeout, чтобы заставить сервер переключаться на новый файл сегмента WAL так часто, насколько это необходимо. Обратите внимание, что архивные файлы, которые архивируются раньше из-за принудительного переключения, имеют ту же длину, что и полностью заполненные файлы. Поэтому неразумно устанавливать очень короткое значение archive_timeout — это приведёт к переполнению вашего архивного хранилища. Параметр archive_timeout установленный на минутный промежуток или около того обычно бывает корректен.

Кроме того, можно принудительно переключить сегмент с помощью pg_switch_wal если вы хотите, чтобы только что завершённая транзакция была заархивирована как можно скорее. Другие функции утилит, относящиеся к управлению WAL, перечислены в таблице 1.

Таблица 1. Функции управления резервным копированием

Имя	Тип ответа	Описание
pg_create_restore_point(name text)	pg_lsn	Создать именованную точку для выполнения восстановления*
pg_current_wal_flush_lsn()	pg_lsn	Получить текущее местоположение сброса журнала предзаписи.
pg_current_wal_insert_lsn()	pg_lsn	Получить текущее местоположение вставки журнала предзаписи.
pg_current_wal_lsn()	pg_lsn	Получить текущее местоположение записи в журнал предзаписи.
pg_start_backup(label text [, fast boolean [, exclusive boolean ] ])	pg_lsn	Подготовление к выполнению резервному копированию*
pg_stop_backup()	pg_lsn	Завершить выполнение монопольного резервного копирования*
pg_stop_backup(exclusive boolean [, wait_for_archive boolean ])	set of record	Завершить выполнение монопольного резервного копирования*
pg_is_in_backup()	bool	Истинно, если монопольное резервное копирование все еще выполняется.
pg_backup_start_time()	timestamp with time zone	Получить время запуска монопольного резервного копирования.
pg_switch_wal()	pg_lsn	Принудительное переключение на новый файл журнала с опережением записи*
pg_walfile_name(lsn pg_lsn)	text	Преобразовать местоположение журнала предзаписи в имя файла.
pg_walfile_name_offset(lsn pg_lsn)	text, integer	Преобразовать местоположение журнала предзаписи в имя файла и десятичное смещение байта в нём.
pg_wal_lsn_diff(lsn pg_lsn, lsn pg_lsn)	numeric	Рассчитать разницу между двумя местоположениями журнала записи.

Заметка
* - (по умолчанию ограничено суперпользователями, но другим пользователям может быть предоставлено разрешение EXECUTE для запуска функции).

Когда wal_level - minimal некоторые команды SQL оптимизированы, чтобы избежать ведения журнала WAL. Если архивация или потоковая репликация были включены во время выполнения одного из этих операторов, WAL не будет содержать достаточно информации для восстановления архива. (На восстановление после аварийного завершения это не распространяется). По этой причине wal_level может быть изменен только при запуске сервера. Тем не менее, параметр archive_command может быть изменен с перезагрузкой файла конфигурации. Если вы хотите временно остановить архивирование, один из способов сделать это - установить для archive_command пустую строку (’ ’). Это приведет к тому, что файлы WAL будут накапливаться в pg_wal/ пока не будет восстановлена рабочая команда archive_command.

Создание базовой резервной копии

Самый простой способ выполнить базовое резервное копирование - использовать инструмент qhb_basebackup. Он может создавать базовую резервную копию в виде обычных файлов или в виде архива tar. Альтернативой этому инструменту служит qbackup. Эта программа позволяет сохранять ваши резервные копии в структурированный каталог, при этом поддерживается инкрементальное копирование и сжатие, а также параллельный режим работы.

Если требуется больше гибкости, чем могут обеспечить эти программы, то вы также можете сделать базовую резервную копию, используя низкоуровневый API (см. раздел Создание базовой резервной копии с использованием API низкого уровня).

Нет необходимости беспокоиться о количестве времени, необходимого для создания базовой резервной копии. Однако если вы обычно запускаете сервер с отключенными full_page_writes, вы можете заметить падение производительности во время резервного копирования, так как full_page_writes включается автоматически в режиме резервного копирования.

Чтобы в последующем использовать резервную копию, вам необходимо сохранить все файлы сегментов WAL, созданные во время и после резервного копирования файловой системы. Чтобы помочь вам в этом, процесс базового резервного копирования создаёт файл истории резервного копирования, который немедленно сохраняется в области архивации WAL. Этот файл назван как первый файл сегмента WAL, который необходим для резервного копирования файловой системы. Например, если начальный файл WAL - 0000000100001234000055CD файл истории резервного копирования будет иметь имя, например, 0000000100001234000055CD.007C9330.backup. (Вторая часть имени файла обозначает точную позицию в файле WAL и обычно может игнорироваться). После того, как вы благополучно заархивировали резервную копию файловой системы и файлы сегментов WAL, использованные во время резервного копирования (как указано в истории резервного копирования файла), все архивные сегменты WAL с численно меньшими именами больше не нужны для восстановления резервной копии файловой системы и могут быть удалены. Однако вам следует подумать о том, чтобы сохранить несколько наборов резервных копий, чтобы быть абсолютно уверенным, что возможно восстановить нужные данные.

Файл истории резервного копирования — это небольшой текстовый файл. Он содержит строку метки, которую вы дали qhb_basebackup, а также начальное и конечное время и имена начального и конечного сегментов WAL, относящихся к резервной копии. Если вы использовали метку для идентификации связанного файла дампа, то заархивированного файла истории достаточно, чтобы указать, какой файл дампа нужно восстановить.

Поскольку вы должны хранить все архивные файлы WAL начиная с первой базовой резервной копии, интервал между повторными резервными копированиями копиями обычно следует выбирать исходя из того, сколько памяти вы хотите потратить на архивные файлы WAL. Вам также следует учитывать, сколько времени вы готовы потратить на восстановление, ведь система должна будет воспроизвести все эти сегменты WAL, а это может занять некоторое время, если прошло много времени с момента последнего резервного копирования базы.

Создание базовой резервной копии с использованием API низкого уровня

Процедура создания базовой резервной копии с использованием низкоуровневых API-интерфейсов содержит на несколько шагов больше, чем метод qhb_basebackup или qbackup, но относительно проста. Очень важно, чтобы эти шаги выполнялись последовательно, и чтобы каждый шаг был успешен перед переходом к следующему шагу.

Резервные копии низкого уровня могут быть сделаны немонопольным способом.

Создание немонопольной резервной копии на низком уровне

Немонопольное резервное копирование низкого уровня позволяет запускать другие параллельные резервные копии (через API-интерфейс или qhb_basebackup).

Убедитесь, что архивация WAL включена и работает.
Подключитесь к серверу (не имеет значения, к какой базе данных) как пользователь с правами на запуск pg_start_backup (суперпользователь или пользователь, которому предоставлена привилегия EXECUTE для функции) и выполните команду:

SELECT pg_start_backup('label', false, false);

где label - любая строка, которую вы хотите использовать в качестве идентификатора этой операции резервного копирования. Соединение, вызывающее pg_start_backup должно поддерживаться до конца резервного копирования, иначе резервное копирование будет автоматически прервано.

По умолчанию pg_start_backup может занять много времени до завершения. Это связано с тем, что он выполняет контрольную точку, а операции ввода-вывода, требуемые для этого, распределяются в интервале времени, равного по умолчанию половине вашего интервала между контрольными точками (см. параметр конфигурации checkpoint_completion_target в разделе Контрольные точки). Обычно это то, что и требуется, потому что это минимизирует влияние на обработку запросов. Если вы хотите начать резервное копирование как можно скорее, измените второй параметр на true, который немедленно выдаст контрольную точку с использованием максимально возможного количества операций ввода-вывода.

Третий параметр false указывает pg_start_backup инициировать немонопольную базовую резервную копию.
Выполните резервное копирование, используя любой удобный инструмент для резервного копирования файловой системы, такой как tar или cpio (не qhb_dump или qhb_dumpall). Нет необходимости останавливать нормальную работу базы данных, пока вы делаете это. См. раздел Резервное копирование каталога данных о том, какие нюансы следует учитывать при выполнении резервного копирования.
В том же соединении, что и раньше, введите команду:

SELECT * FROM pg_stop_backup(false, true);

Это прекращает режим резервного копирования. На ведущем сервере также выполняется автоматическое переключение на следующий сегмент WAL. В режиме ожидания невозможно автоматическое переключение сегментов WAL, поэтому вы можете запустить pg_switch_wal чтобы выполнить ручное переключение. Цель переключения заключается в том, чтобы последний файл сегмента WAL, записанный в течение интервала резервного копирования, был готов к архивированию.

pg_stop_backup вернет одну строку с тремя значениями. Второе из этих полей должно быть записано в файл с именем backup_label в корневом каталоге резервной копии. Третье поле должно быть записано в файл с именем tablespace_map если поле не пустое. Эти значения крайне важны для резервного копирования и должны быть записаны без изменений.
Как только файлы сегментов WAL, активные во время резервного копирования, будут заархивированы, всё готово. Файл, идентифицируемый первым возвращаемым значением pg_stop_backup является последним сегментом, который требуется для формирования полного набора файлов резервных копий. Если параметр archive_mode включен и параметр wait_for_archive функции pg_stop_backup равен true, pg_stop_backup не выполнится до тех пор, пока не будет заархивирован последний сегмент. На ведомом сервере параметр archive_mode при этом должен иметь значение always. Архивирование этих файлов происходит автоматически, так как вы уже настроили archive_command. В большинстве случаев это происходит быстро, но рекомендуется следить за системой архивирования, чтобы убедиться в отсутствии задержек. Если процесс архивирования отстал из-за сбоев команды архивирования, он будет повторять попытки до тех пор, пока архив не будет успешно завершен и резервное копирование не будет завершено. Если вы хотите установить ограничение по времени выполнения pg_stop_backup, установите соответствующее значение statement_timeout, но учтите, что если pg_stop_backup завершит работу из-за этого, ваша резервная копия может потерять целостность.

Если процесс резервного копирования отслеживает и гарантирует, что все файлы сегментов WAL, необходимые для резервного копирования, успешно заархивированы, то для параметра wait_for_archive (по умолчанию устанавливается значение true) можно установить значение false, чтобы pg_stop_backup завершался, как только запись остановки резервного копирования записывается в WAL. По умолчанию pg_stop_backup будет ждать, пока все WAL будут заархивированы, что может занять некоторое время. Эту опцию следует использовать с осторожностью: если архивирование WAL не контролируется должным образом, резервная копия может не включать все файлы WAL и, следовательно, будет неполной и не сможет быть восстановлена.

Создание монопольной резервной копии на низком уровне

Заметка
Монопольный метод резервного копирования устарел и обычно его следует избегать.

Процесс для монопольной резервной копии в основном такой же, как и для немонопольной, но отличается в нескольких ключевых шагах. Этот тип резервного копирования может выполняться только на первичном сервере и не допускает одновременного резервного копирования. Более того, поскольку он создает файл метки резервной копии, как описано ниже, он может заблокировать автоматический перезапуск главного сервера после сбоя. С другой стороны, ошибочное удаление этого файла из резервной копии является распространенной ошибкой, которая может привести к серьезному повреждению данных. Если необходимо использовать этот метод, могут быть выполнены следующие шаги.

Убедитесь, что архивация WAL включена и работает.
Подключитесь к серверу (не имеет значения, какая база данных) как пользователь с правами на запуск pg_start_backup (суперпользователь или пользователь, которому предоставлена привилегия EXECUTE для функции) и выполните команду:

SELECT pg_start_backup('label');

где label - любая строка, которую вы хотите использовать для уникальной идентификации этой операции резервного копирования. pg_start_backup создает файл метки резервной копии с именем backup_label в каталоге кластера с информацией о вашей резервной копии, включая время начала и строку метки. Функция также создает файл карты табличных пространств, называемый tablespace_map , в каталоге кластера с информацией о символических ссылках табличных пространств в pg_tblspc/, если присутствует одна или несколько таких ссылок. Оба файла имеют решающее значение для целостности резервной копии, если вам необходимо восстановить базу из нее.

По умолчанию вызов pg_start_backup может занять довольно продолжительное время. Это связано с тем, что при этом выполняется контрольная точка, и ввод-вывод, необходимый для выполнения контрольной точки, будет распределен в течение значительного периода времени, по умолчанию в течение половины установленного интервала между контрольными точками (см. параметр конфигурации checkpoint_completion_target в разделе Контрольные точки). Обычно это то, что требуется, так как это минимизирует влияние на обработку запросов. Если вы хотите начать резервное копирование как можно скорее, используйте:

SELECT pg_start_backup ('label', true);

Это заставляет контрольную точку выполниться как можно быстрее.
Выполните резервное копирование, используя любой удобный инструмент для резервного копирования файловой системы, такой как tar или cpio (не pg_dump или pg_dumpall ). Нет необходимости останавливать нормальную работу базы данных, пока вы делаете это. См. раздел Резервное копирование каталога данных о том, какие нюансы следует учитывать при выполнении резервного копирования.

Как отмечалось выше, если во время резервного копирования происходит сбой сервера, перезапуск может оказаться невозможным, пока файл backup_label не будет удален вручную из каталога PGDATA . Обратите внимание, что очень важно никогда не удалять файл backup_label при восстановлении резервной копии, поскольку это приведет к повреждению. Путаница в том, когда следует удалить этот файл, является частой причиной повреждения данных при использовании этого метода; убедитесь, что вы удаляете файл только на существующем главном сервере и никогда не удаляйте его при создании резервного сервера или при восстановлении из резервной копии, даже если вы создаете резервный сервер, который впоследствии будет преобразован в новый главный серчер.
Снова подключитесь к базе данных как пользователь с правами на запуск pg_stop_backup (суперпользователь или пользователь, которому предоставлена привилегия EXECUTE для этой функции) и выполните команду:

SELECT pg_stop_backup();

Эта функция завершает режим резервного копирования и выполняет автоматический переход к следующему сегменту WAL. Цель переключения заключается в том, чтобы последний сегмент WAL, записанный в течение интервала резервного копирования, был бы готов к архивированию.
Как только файлы сегментов WAL, активные во время резервного копирования, будут заархивированы, процедура резервирования будет завершена. WAL-файл, идентифицируемый результатом выполнения pg_stop_backup , является последним сегментом, который требуется для формирования полного набора файлов резервных копий. Если опция archive_mode включена, pg_stop_backup не завершается, пока не будет заархивирован последний сегмент. Архивирование этих файлов происходит автоматически, поскольку уже должна быть настроена команда archive_command. В большинстве случаев это происходит быстро, но рекомендуется следить за системой архивирования, чтобы убедиться в отсутствии задержек. Если процесс архивирования отстал из-за сбоев команды архивирования, он будет повторять попытки до тех пор, пока архивация не будет успешно завершена, и только в этом случае резервное копирование закончится.

При использовании монопольного режима резервного копирования абсолютно необходимо убедиться, что pg_stop_backup успешно завершится в конце резервного копирования. Даже в случае сбоя самой резервной копии, например, из-за недостатка дискового пространства, сбой вызова pg_stop_backup оставит сервер в режиме резервного копирования на неопределенное время, что приведет к сбою будущих резервных копий и увеличит риск сбоя перезапуска сервера при остающемся файле backup_label.

Резервное копирование каталога данных

Некоторые инструменты резервного копирования файловой системы выдают предупреждения или ошибки, если файлы, которые они пытаются скопировать, изменяются в процессе копирования. При создании базовой резервной копии активной базы данных это нормальная ситуация, а не ошибка. Однако вы должны убедиться, что вы можете отличить логи такого рода от реальных ошибок. Например, некоторые версии rsync возвращают отдельный код завершения для «исчезнувших исходных файлов», и вы можете написать скрипт, чтобы принять этот код завершения как случай, не связанный с ошибкой. Кроме того, некоторые версии GNU tar возвращают код ошибки, неотличимый от фатальной ошибки, если файл был усечён во время его копирования через tar. К счастью, GNU tar версии 1.16 и выше завершается с кодом 1, если файл был изменен во время резервного копирования, и 2 для других ошибок.

Заметка
В GNU tar версии 1.23 и более поздних версиях вы можете использовать параметры предупреждений --warning=no-file-changed, --warning=no-file-removed, чтобы скрыть соответствующие предупреждающие сообщения.

Убедитесь, что ваша резервная копия содержит все файлы из каталога экземпляра базы данных (например, /usr/local/qhb/data). Если вы используете табличные пространства, которые не находятся под этим каталогом, будьте осторожны и включайте их (убедитесь, что ваша резервная копия архивирует символические ссылки в виде ссылок, иначе восстановление повредит ваши табличные пространства).

Однако вы должны исключить из резервной копии файлы в подкаталоге экземпляра pg_wal/. Эта небольшая корректировка имеет смысл, поскольку снижает риск ошибок при восстановлении. Это легко организовать, если pg_wal/ является символической ссылкой, указывающей куда-то за пределы каталога экземпляра, что в любом случае является обычной настройкой из соображений производительности. Вы также можете исключить qhbmaster.pid и postmaster.opts, которые записывают информацию о работающем qhbmaster, а не о qhbmaster, который в конечном итоге будет использовать эту резервную копию. (Эти файлы могут запутать qhb_ctl).

Также стоит исключать из резервной копии каталог pg_replslot/ кластера, чтобы слоты репликации, существующие на главном сервере, не попадали в копию. В противном случае последующее использование резервной копии на резервном сервере может привести к неопределенному сроку хранения файлов WAL в резервной системе и, возможно, к раздутию на главном сервере, если включена обратная связь с горячим резервом, поскольку клиенты, использующие эти слоты репликации, все равно будут подключаться и обновлять слоты на мастере, а не на резервном сервере. Даже если резервная копия предназначена только для использования при создании нового мастера, копирование слотов репликации не будет особенно полезным, поскольку содержимое этих слотов, вероятно, будет сильно устаревшим к тому времени, когда новый мастер войдет в сеть.

Содержимое каталогов pg_dynshmem/, pg_notify/, pg_serial/, pg_snapshots/, pg_stat_tmp/ и pg_subtrans/ (но не сами каталоги) может быть исключено из резервной копии, поскольку оно будет инициализировано при запуске qhbmaster. Если stats_temp_directory (см. Статистика выполнения) установлен и указывает на подкаталог внутри каталога данных, то содержимое этого каталога также может быть опущено.

Любой файл или каталог, начинающийся с pgsql_tmp может быть опущен из резервной копии. Эти файлы удаляются при запуске qhbmaster, а каталоги восстанавливаются по мере необходимости.

Файлы pg_internal.init могут быть исключены из резервной копии всякий раз, когда найден файл с таким именем. Эти файлы содержат данные кэша отношений, которые всегда восстанавливаются при восстановлении.

Файл метки резервной копии содержит строку метки, которую вы задали во время вызова pg_start_backup, а также имя начального файла WAL. Поэтому в случае путаницы можно заглянуть внутрь архива резервной копии и точно определить, в каком сеансе резервного копирования он был получен. Файл карты табличных пространств содержит имена символических ссылок, поскольку они существуют в каталоге pg_tblspc/ и полный путь каждой символической ссылки. Эти файлы не только для информации, их наличие и содержание имеют решающее значение для правильной работы процесса восстановления системы.

Также возможно сделать резервную копию, когда сервер остановлен, например с помощью qbackup. В этом случае вы, очевидно, не можете использовать pg_start_backup или pg_stop_backup, и поэтому вы будете предоставлены вашим собственным устройствам для отслеживания того, какая резервная копия является какой, и как далеко назад идут связанные файлы WAL (qbackup делает это автоматически). Как правило, лучше следовать процедуре непрерывного архивирования, описанной выше.

Восстановление с помощью непрерывного архива

Процедура восстановления из резервной копии:

Остановите сервер, если он работает.
Если у вас есть место для этого, скопируйте весь каталог данных экземпляра и все табличные пространства во временную папку на случай, если они понадобятся вам позже. Обратите внимание, что эта мера предосторожности потребует, чтобы у вас было достаточно свободного места в вашей системе для хранения двух копий вашей существующей базы данных. Если у вас недостаточно места, вы должны как минимум сохранить содержимое подкаталога экземпляра pg_wal, так как он может содержать журналы, которые не были заархивированы до завершения работы системы.
Удалите все существующие файлы и подкаталоги в каталоге данных экземпляра и в корневых каталогах всех используемых вами табличных пространств.
Восстановите файлы базы данных из резервной копии вашей файловой системы. Убедитесь, что они восстановлены с правами владельца (пользователя системы баз данных, а не root!) и с правами доступа. Если вы используете табличные пространства, вы должны убедиться, что символические ссылки в pg_tblspc/ были правильно восстановлены.
Удалите все файлы, присутствующие в pg_wal/, которые были получены из резервной копии потому что, вероятно, они устарели и не являются актуальными. Если вы не архивировали pg_wal/, то заново создайте его с надлежащими разрешениями, соблюдая осторожность, чтобы убедиться, что вы восстановили его в качестве символической ссылки, если вы его так настроили ранее.
Если у вас есть разархивированные файлы сегментов WAL, которые вы сохранили на шаге 2, скопируйте их в pg_wal/. (Лучше всего их копировать, а не перемещать, т.к. у вас остаются неизмененные файлы, и, если возникает проблема, и придется начать заново).
Задайте параметры конфигурации восстановления в qhb.conf и создайте файл recovery.signal в каталоге данных экземпляра. Вы также можете временно изменить qhb_hba.conf, чтобы обычные пользователи не могли подключаться, пока вы не убедитесь, что восстановление прошло успешно.
Запустите сервер. Сервер перейдет в режим восстановления и продолжит чтение нужных ему архивированных файлов WAL. Если восстановление будет прервано из-за внешней ошибки, сервер можно просто перезапустить, он продолжит восстановление. По завершении процесса восстановления сервер удалит recovery.signal (для предотвращения случайного повторного входа в режим восстановления позже), а затем начнет обычные операции с базой данных.
Проверьте содержимое базы данных, чтобы убедиться, что вы восстановились до нужного состояния. Если нет, вернитесь к шагу 1. Если все в порядке, разрешите пользователям подключаться, восстановив qhb_hba.conf в нормальном состоянии.

Ключевой частью всего этого является настройка конфигурации восстановления, которая описывает, как вы хотите восстановить и как далеко должно пройти восстановление. Единственное, что вы обязательно должны указать, это restore_command, которая сообщает QHB, как извлекать заархивированные сегменты файла WAL. Как и archive_command, это командная строка оболочки. Она может содержать %f, который заменяется именем нужного файла журнала, и %p, который заменяется путём, по которому нужно скопировать файл журнала. (Путь указывается относительно текущего рабочего каталога, т.е. каталога данных экземпляра). Напишите %%, если вам нужно вставить фактический символ % в команду. Самая простая полезная команда выглядит примерно так:

restore_command = 'cp /mnt/server/archivedir/%f %p'

который скопирует ранее заархивированные сегменты WAL из каталога /mnt/server/archivedir. Конечно, вы можете использовать что-то гораздо более сложное, возможно, даже сценарий оболочки, который просит оператора смонтировать соответствующую ленту. Например, qbackup делает это автоматически, используя встроенную подкоманду.

Важно, чтобы команда возвращала ненулевой статус выхода при ошибке. Эта команда будет вызвана так же для запроса файлов, которых нет в архиве, она должна вернуть ненулевое значение, если их нет. Однако это не должно считаться за ошибку. Исключением является, если команда была прервана сигналом (отличным от SIGTERM, который используется для отключения сервера базы данных) или ошибкой оболочки (например, команда не найдена), то восстановление будет прервано, и сервер не запустится.

Не все запрошенные файлы будут файлами сегментов WAL; также следует ожидать запросов на файлы с суффиксом .history. Также помните, что базовое имя пути %p будет отличаться от %f, не ожидайте, что они будут взаимозаменяемыми.

Сегменты WAL, которые нельзя найти в архиве, будут искать в pg_wal/; это позволяет использовать последние неархивированные сегменты. Однако сегменты, доступные из архива, будут использоваться вместо файлов в pg_wal/, так как имеют приоритет над ними.

Обычно восстановление выполняется через все доступные сегменты WAL, тем самым восстанавливая базу данных до текущего момента времени (или максимально близко, учитывая доступные сегменты WAL). Поэтому нормальное восстановление заканчивается сообщением «файл не найден», точный текст сообщения об ошибке зависит от выбранного вами параметра restore_command. Вы также можете увидеть сообщение об ошибке в начале восстановления для файла с именем что-то вроде 00000001.history. Это также нормально и не указывает на проблему в простых ситуациях восстановления (см. линии времени)

Если вы хотите восстановить данные до некоторого предыдущего момента времени (скажем, непосредственно перед тем, как младший администратор баз данных отбросил вашу основную таблицу транзакций), просто укажите необходимую точку остановки. Вы можете указать точку остановки, известную как «цель восстановления», либо по дате/времени, названной точке восстановления, либо по завершению транзакции c определенным идентификатором. (см. подробнее в recovery target)

Заметка
Точка остановки должна быть указана после времени окончания основного резервного копирования, то есть времени окончания pg_stop_backup. Нельзя использовать базовую резервную копию для восстановления до того времени, когда эта резервная копия выполнилась. (Чтобы восстановиться до такого времени, вы должны вернуться к своей предыдущей базовой резервной копии и начать восстановление оттуда).

Заметка
В команде restore в qbackup существуют опции, позволяющие выбрать эти настройки. Ими можно будет воспользоваться только если резервная копия была сделана при помощи backup

Если восстановление обнаружит поврежденные данные WAL, восстановление будет остановлено в этот момент, и сервер не запустится. В таком случае процесс восстановления может быть перезапущен с самого начала с указанием «цели восстановления» до точки повреждения, чтобы восстановление могло завершиться нормально. Если восстановление завершится неудачно по внешней причине, такой как сбой системы или если архив WAL стал недоступен, то восстановление можно просто перезапустить, и оно будет перезапущено почти с того места, где произошел сбой. Перезапуск восстановления работает так же, как контрольная точка в обычной работе: сервер периодически передает все свое состояние на диск, а затем обновляет файл pg_control, чтобы указать, что уже обработанные данные WAL не нужно снова сканировать.

Линии времени

Возможность восстановить базу данных до предыдущего момента времени создаёт некоторые сложности, сродни научно-фантастическим рассказам о путешествиях во времени и параллельных вселенных. Например, в исходной истории базы данных предположим, что вы удалили критическую таблицу в 17:15 во вторник вечером, но не осознали свою ошибку до полудня среды. Однако вы можете получить свою резервную копию, и восстановиться к моменту времени 17:14 во вторник и запустить сервер. В этой истории базы данных вы никогда не удаляли таблицу. Но, предположим, позже вы поймете, что это не такая уж хорошая идея, и необходимо вернуться к утру среды из оригинальной истории. К сожалению. в данной ситуации этого сделать уже не получится, т.к. пока ваша база данных была запущена и работала, она перезаписала некоторые файлы сегментов WAL, которые вели к тому времени, к которому вы теперь хотели бы вернуться. Таким образом, чтобы избежать этого, необходимо отличать серии записей WAL, сгенерированные после восстановления на определенный момент времени, от тех, которые были сгенерированы в исходной истории базы данных.

Чтобы справиться с этой проблемой, в QHB есть понятие линия времени. Всякий раз, когда восстановление архива завершается, создаётся новая временная линия для определения последовательности записей WAL, созданной после этого восстановления. Идентификационный номер линии времени является частью имён файлов сегментов WAL, поэтому новая линия времени не перезаписывает данные WAL, созданные предыдущими линиями времени. Фактически возможно архивировать много различных линий времени. Хотя это может показаться бесполезной функцией, это часто помогает. Рассмотрим ситуацию, когда вы не совсем уверены, к какому моменту времени необходимо восстанавливаться, и поэтому вам приходится делать несколько попыток восстановления на определенный момент времени методом проб и ошибок, пока не найдется лучшее место для ветвления из старой истории. Без линий времени этот процесс быстро приведет к неуправляемому беспорядку. С помощью линий времени вы можете восстановить любое предыдущее состояние, в том числе состояния в ветвях линий времени, от которых вы отказались ранее.

Каждый раз, когда создаётся новая линия времени, QHB создаёт файл «истории линии времени», который показывает, с какой линии времени он вышел и когда. Эти файлы истории необходимы для того, чтобы система могла выбрать правильные файлы сегментов WAL при восстановлении из архива, который содержит несколько линий времени. Поэтому они архивируются в область архивирования WAL, как и файлы сегментов WAL. Файлы истории — это просто небольшие текстовые файлы, поэтому их целесообразно хранить на протяжении долгого времени (в отличие от больших файлов сегментов). Вы можете, если хотите, добавлять комментарии в файлы истории, чтобы записывать свои собственные заметки о том, как и почему была создана эта конкретная линия времени. Такие комментарии будут особенно полезны, когда в результате экспериментов у вас будет череда различных линий времени.

По умолчанию восстановление происходит на ту же линию времени, которая была текущей, когда была сделана базовая резервная копия. Если вы хотите восстановить какую-либо дочернюю линию времени (то есть вы хотите вернуться к некоторому состоянию, которое само было получено после попытки восстановления), вам нужно указать целевой идентификатор временной шкалы в recovery_target_timeline.

Важно!!! Вы не можете восстановиться в состояние, которое находится в линии времени, ответвившейся раньше, чем базовая резервная копия началась.

Советы и примеры

Некоторые советы по настройке непрерывного архивирования приведены здесь.

Автономные горячие резервные копии

Для создания автономных оперативных резервных копий можно использовать средства резервного копирования QHB. Это резервные копии, которые нельзя использовать для восстановления на определенный момент времени, но, как правило, ими гораздо быстрее выполнять резервное копирование и восстановление, чем дампы qhb_dump. (Они также намного больше, чем дампы qhb_dump, поэтому в некоторых случаях преимущество в скорости может быть сведено на нет.)

Как и в случае базовых резервных копий, самый простой способ создать автономное горячее резервное копирование - использовать инструмент qhb_basebackup. Если при вызове задать параметр -X, весь журнал предварительной записи, необходимый для использования резервной копии, будет автоматически включен в резервную копию, и никаких специальных действий для её восстановления не требуется.

Если требуется больше гибкости при копировании файлов резервных копий, процесс более низкого уровня можно использовать и для автономных оперативных резервных копий. Чтобы подготовиться к низкоуровневым автономным горячим резервным копиям, убедитесь, что для wal_level задано значение replica или выше, для параметра archive_mode значение on, и настройте команду archive_command которая выполняет архивирование только при наличии файла переключателя. Например:

archive_command = 'test ! -f /var/lib/qhb/backup_in_progress || (test ! -f /var/lib/qhb/archive/%f && cp %p /var/lib/qhb/archive/%f)'

Заметка
В qbackup есть подкоманда backup-wal, которую можно использовать для этих целей см. подробнее в qbackup backup-wal

Эта команда выполняет архивирование, когда существует /var/lib/qhb/backup_in_progress, и в противном случае молча возвращает нулевое состояние выхода (что позволяет QHB переиспользовать ненужный файл WAL).

С помощью этой подготовки можно сделать резервную копию с помощью сценария, подобного следующему:

touch /var/lib/qhb/backup_in_progress
qsql -c "select pg_start_backup('hot_backup');"
tar -cf /var/lib/qhb/backup.tar /var/lib/qhb/data/
qsql -c "select pg_stop_backup();"
rm /var/lib/qhb/backup_in_progress
tar -rf /var/lib/qhb/backup.tar /var/lib/qhb/archive/

Файл-переключатель /var/lib/qhb/backup_in_progress создаётся первым, что позволяет архивировать заполненные файлы WAL. После резервного копирования файл переключателя удаляется. Архивные файлы WAL затем добавляются в резервную копию, чтобы как базовая резервная копия, так и все необходимые файлы WAL были частью одного и того же tar-файла. Пожалуйста, не забудьте добавить обработку ошибок в ваши скрипты резервного копирования.

Существует альтернативный подход к горячему резервному копированию в виде утилиты qbackup. Эта утилита комбинирует архивирование WAL-записей и постраничное инкрементальное резервное копирование, что позволяет добиться более компактных резервных копий за счёт сохранения только тех данных, которые изменились с момента предыдущей автономной резервной копии.

Сжатие архивных журналов

Если размер архивного хранилища имеет значение, вы можете использовать gzip для сжатия архивных файлов:

archive_command = 'gzip < %p > /var/lib/qhb/archive/%f'

Затем вам нужно будет использовать gunzip во время восстановления:

restore_command = 'gunzip < /mnt/server/archivedir/%f > %p'

Скрипты archive_command

Многие люди предпочитают использовать сценарии для определения своей команды archive_command, поэтому их запись в qhb.conf выглядит очень просто:

archive_command = 'local_backup_script.sh "%p" "%f"'

Использование отдельного файла сценария целесообразно тогда, когда вы хотите использовать более одной команды в процессе архивирования. Это позволяет управлять всей сложностью скрипта, который может быть написан на популярном языке сценариев, таком как bash или perl.

Примеры задач, которые могут быть решены в сценарии:

Копирование данных для безопасного хранения данных за пределами площадки.
Пакетное копирование WAL, так что они передаются каждые три часа, а не по одному.
Взаимодействие с другим программным обеспечением для резервного копирования и восстановления.
Взаимодействие с программным обеспечением для мониторинга ошибок.

Заметка
При использовании сценария archive_command желательно включить logging_collector. Любые сообщения, записанные в сценарий stderr, будут затем отображаться в журнале сервера базы данных, что позволяет легко диагностировать сложные конфигурации в случае сбоев.

Заметка
Вы можете использовать qbackup backup-wal для этих целей.

Предостережения

На момент написания статьи существует несколько ограничений техники непрерывного архивирования. Это, вероятно, будет исправлено в следующих выпусках:

Если команда CREATE DATABASE выполняется во время создания базовой резервной копии, а затем шаблонная база данных, которую скопировала CREATE DATABASE изменяется, пока базовая резервная копия все ещё выполняется, возможно, что восстановление приведёт к распространению этих изменений на созданную базу данных. Это, конечно, нежелательно. Чтобы избежать этого риска, лучше не изменять шаблонные базы данных при создании базовой резервной копии.
Команды CREATE TABLESPACE регистрируются в WAL с буквальным абсолютным путём и поэтому будут воспроизведены как создания табличного пространства с тем же абсолютным путём. Это может быть нежелательно, если журнал воспроизводится на другом компьютере. Это может быть опасно, даже если журнал воспроизводится на том же компьютере, но в новом каталоге данных: воспроизведение все равно перезапишет содержимое исходного табличного пространства. Чтобы избежать потенциальных ошибок такого рода, рекомендуется создавать новую базовую резервную копию после создания или удаления табличных пространств.

Следует также отметить, что формат WAL по умолчанию довольно громоздкий, поскольку включает в себя множество снимков страницы диска. Эти снимки страниц предназначены для поддержки восстановления после сбоя, поскольку нам может потребоваться исправить частично записанные страницы диска. В зависимости от аппаратного и программного обеспечения системы риск частичной записи может быть достаточно мал, чтобы его можно было игнорировать, и в этом случае вы можете значительно уменьшить общий объём архивированных журналов, отключив снимки страниц с помощью параметра full_page_writes. (Прочтите примечания и предупреждения к WAL перед тем, как сделать это.) Отключение снимков страницы не мешает использованию журналов для операций PITR. Возможность для последующего улучшения - сжатие архивных данных WAL путём удаления ненужных копий страниц, даже если установлен параметр full_page_writes. В то же время администраторы могут захотеть уменьшить количество снимков страниц, включенных в WAL, максимально увеличив параметры интервала контрольных точек.

Мониторинг активности базы данных

Администратор базы данных часто задается вопросом: "Что сейчас делает система"? В этой главе рассказывается, как это выяснить.

Доступны несколько инструментов для мониторинга активности базы данных и анализа производительности. Большая часть этой главы посвящена описанию сборщика статистики QHB , но не следует пренебрегать обычными программами мониторинга Unix, такими как ps, top, iostat и vmstat. Кроме того, как только вы определили неэффективный запрос, может потребоваться дальнейшее исследование с помощью команды EXPLAIN в QHB . В разделе Использование EXPLAIN обсуждается EXPLAIN и другие методы для понимания поведения отдельного запроса.

Стандартные инструменты Unix

В большинстве платформ Unix QHB изменяет заголовок своей команды, сообщаемый ps, так что отдельные процессы сервера могут быть легко идентифицированы. Пример вывода команды:

$ ps auxww | grep ^qhb
qhb  15551  0.0  0.1  57536  7132 pts/0    S    18:02   0:00 qhb -i
qhb  15554  0.0  0.0  57536  1184 ?        Ss   18:02   0:00 qhb: background writer
qhb  15555  0.0  0.0  57536   916 ?        Ss   18:02   0:00 qhb: checkpointer
qhb  15556  0.0  0.0  57536   916 ?        Ss   18:02   0:00 qhb: walwriter
qhb  15557  0.0  0.0  58504  2244 ?        Ss   18:02   0:00 qhb: autovacuum launcher
qhb  15558  0.0  0.0  17512  1068 ?        Ss   18:02   0:00 qhb: stats collector
qhb  15582  0.0  0.0  58772  3080 ?        Ss   18:04   0:00 qhb: joe runbug 127.0.0.1 idle
qhb  15606  0.0  0.0  58772  3052 ?        Ss   18:07   0:00 qhb: tgl regression [local] SELECT waiting
qhb   15610  0.0  0.0  58772  3056 ?        Ss   18:07   0:00 qhb : tgl regression [local] idle in transaction

(Формат вызова ps может отличаться для разных платформ, как и детали отображаемой информации. Этот пример приведен для одной из последних версий системы Linux.) Первым процессом из перечисленных здесь является процесс главного сервера. Аргументы команды, приведенные здесь для него, те же, что использовались при запуске. Следующие пять процессов являются фоновыми рабочими процессами, автоматически запускаемыми главным процессом. (Процесс «stats-collector» не будет показан, если его запуск отключен; аналогично процесс «autovacuum launcher» (фоновый процесс автоочистки) также можно отключить.) Каждый из оставшихся процессов является серверным процессом, обрабатывающим одно клиентское соединение. Для каждого такого процесса устанавливается отображение командной строки в виде

qhb: user database host activity

Элементы имени пользователя, базы данных и хоста остаются неизменными на протяжении всего жизненного цикла клиентского соединения, а индикатор активности изменяется. Он может принимать значение idle ( ожидание клиентской команды), idle in transaction (ожидание клиента внутри блока BEGIN) или имя типа команды, например, SELECT. Кроме того, добавляется waiting если серверный процесс в настоящее время ожидает высвобождения блокировки, которую удерживает другой сеанс. В приведенном выше примере мы можем сделать вывод, что процесс 15606 ожидает, пока процесс 15610 завершит свою транзакцию и тем самым снимет некоторую блокировку. (Процесс 15610 должен быть блокирующим, потому что нет другого активного сеанса. В более сложных случаях необходимо было бы обратиться к системному представлению pg_locks чтобы определить, кто кого блокирует.)

Если параметр cluster_name настроен, имя кластера также будет показано в выводе ps:

$ psql -c 'SHOW cluster_name'
 cluster_name
--------------
 server1
(1 row)


$ ps aux|grep server1
qhb   27093  0.0  0.0  30096  2752 ?        Ss   11:34   0:00 qhb: server1: background writer
...

Если вы отключили параметр update_process_title, то индикатор активности не обновляется; заголовок процесса устанавливается только один раз при запуске нового процесса. На некоторых платформах это снижает существенные накладные расходы, на других влияние обновления этого индикатора незначительно.

Сборщик статистики

Сборщик статистики QHB - это подсистема, которая поддерживает сбор и передачу информации о работе сервера. В настоящее время сборщик может учитывать обращения к таблицам и индексам как по дисковым блокам, так и по отдельным строкам. Он также отслеживает общее количество строк в каждой таблице, информацию о выполнении вакуума и анализирует действия для каждой таблицы. Также он может подсчитывать вызовы пользовательских функций и общее время, потраченное на каждую из них.

QHB также поддерживает выдачу динамической информации о том, что именно происходит в системе в данный момент, например, о точной команде, выполняемой в настоящее время другими процессами сервера, и о том, какие другие соединения имеются в системе. Эта возможность не зависит от сборщика статистики.

Конфигурация сбора статистики

Поскольку сбор статистики добавляет некоторые накладные расходы к выполнению запроса, система может быть настроена или не настроена на сбор информации. Это контролируется параметрами конфигурации, которые обычно устанавливаются в qhb.conf. (Подробнее о настройке параметров конфигурации см. в главе Конфигурация сервера).

Параметр track_activities позволяет отслеживать текущие команды, выполняемые любым серверным процессом.

Параметр track_counts контролирует, собирается ли статистика по обращениям к таблицам и индексам.

Параметр track_functions позволяет отслеживать использование пользовательских функций.

Параметр track_io_timing включает мониторинг времени чтения и записи блоков.

Обычно эти параметры устанавливаются в qhb.conf так, что они применяются ко всем процессам сервера, но их можно включить или отключить в отдельных сеансах с помощью команды SET. (Чтобы обычные пользователи не могли скрывать свою активность от администратора, только суперпользователи могут изменять эти параметры с помощью SET.)

Сборщик статистики передает собранные данные другим процессам QHB через временные файлы. Эти файлы хранятся в каталоге, название которого задается параметром stats_temp_directory, по умолчанию содержит значение pg_stat_tmp. Для повышения производительности stats_temp_directory может указывать на файловую систему на основе ОЗУ, что сокращает время физического ввода/вывода. Когда сервер отключается, постоянная копия статистических данных сохраняется в подкаталоге pg_stat, так что статистика может быть сохранена при перезапусках сервера. Когда восстановление выполняется при запуске сервера (например, после немедленного выключения, сбоя сервера и восстановления на определенный момент времени), все счетчики статистики сбрасываются.

Просмотр статистики

Несколько предопределенных представлений, перечисленных в Таблице 1, доступны для отображения текущего состояния системы. Есть также несколько других представлений, перечисленных в Таблице 2, доступных для отображения результатов сбора статистики. В качестве альтернативы можно создавать собственные представления с использованием базовых статистических функций, как описано в разделе Функции статистики.

При использовании статистики для мониторинга собранных данных важно понимать, что информация не обновляется мгновенно. Каждый отдельный процесс сервера передает новые статистические значения сборщику непосредственно перед тем, как перейти в режим ожидания; таким образом, запрос или транзакция, которая еще выполняется, не влияет на отображаемые итоги. Кроме того, сам сборщик генерирует новый отчет не чаще одного раза в PGSTAT_STAT_INTERVAL миллисекунд (500 мс, если значение параметра не было изменено при компиляции сервера). Таким образом, отображаемая информация отстает от фактической активности. Однако информация о текущем запросе, собираемая при установке параметра track_activities, всегда актуальна.

Другим важным моментом является то, что когда серверный процесс запрашивает статистические данные, он сначала получает самый последний снимок от сборщика статистики, а затем продолжает использовать этот снимок для всех статистических представлений и функций до окончания текущей транзакции. Таким образом, статистика не изменится до окончания текущей транзакции. Точно так же собирается информация о текущих запросах всех сеансов, когда она запрашивается в начале транзакции, и эта же информация будет отображаться в течение всей транзакции. Это функциональность, а не ошибка, она позволяет вам выполнять несколько запросов к статистике и сопоставлять результаты, не беспокоясь о том, что данные по статистике изменяются. Но если вы хотите видеть новые результаты при выполнении каждого запроса, обязательно выполняйте запросы вне транзакционных блоков. Или вы можете вызвать pg_stat_clear_snapshot(), что сбросит снимок статистики текущей транзакции (если он был). При следующем обращении к статистической информации будет получен новый снимок.

Транзакция также может видеть свою собственную статистику (пока еще не переданную сборщику) в представлениях pg_stat_xact_all_tables, pg_stat_xact_sys_tables, pg_stat_xact_user_tables и pg_stat_xact_user_functions. Эти данные ведут себя не так, как указано выше. Напротив, они постоянно обновляются на протяжении всей транзакции.

Некоторая информация в представлениях динамической статистики, показанных в Таблице 1, имеет ограничения по безопасности. Обычные пользователи могут видеть только всю информацию о своих собственных сеансах (сеансах, принадлежащих к роли, членом которой они являются). В строках о других сеансах многие столбцы будут нулевыми. Однако обратите внимание, что существование сеанса и его общие свойства, такие как пользователь сеанса и база данных, видны всем пользователям. Суперпользователи и члены встроенной роли pg_read_all_stats (см. также раздел Роли по умолчанию) могут видеть всю информацию обо всех сеансах.

Таблица 1. Динамические статистические представления

Посмотреть имя	Описание
pg_stat_activity	Одна строка для каждого серверного процесса, отображающая информацию, связанную с текущей активностью этого процесса, например состояние и текущий запрос. См. pg_stat_activity
pg_stat_replication	Одна строка на процесс отправителя WAL, показывающая статистику репликации на подключенный резервный сервер этого отправителя. См. pg_stat_replication
pg_stat_wal_receiver	Только одна строка, показывающая статистику о приемнике WAL с подключенного сервера этого приемника. См. pg_stat_wal_receiver
pg_stat_subscription	Как минимум одна строка на подписку, показывающая информацию о процессах подписки. См. pg_stat_subscription.
pg_stat_ssl	Одна строка для каждого подключения (обычного и реплицирующего), показывающая информацию о SSL, используемом для этого соединения См. pg_stat_ssl.
pg_stat_gssapi	Одна строка для каждого подключения (обычного и реплицирующего), показывающая информацию об аутентификации и шифровании GSSAPI, используемых в этом соединении. См. pg_stat_gssapi
pg_stat_progress_create_index	Одна строка для каждого бэкэнда, выполняющего CREATE INDEX или REINDEX, показывающая ход выполнения команды. См. раздел Отчет о ходе выполнения CREATE INDEX.
pg_stat_progress_vacuum	Одна строка для каждого бэкэнда (включая рабочие процессы автоочистки), на котором выполняется VACUUM, показывающая ход выполнения команды. См. раздел Отчет о ходе выполнения VACUUM.
pg_stat_progress_cluster	Одна строка для каждого бэкэнда, в котором работает CLUSTER или VACUUM FULL, показывающая ход выполнения команды. См. раздел Отчет о ходе выполнения CLUSTER.

Таблица 2. Представления по собранной статистике

Посмотреть имя	Описание
pg_stat_archiver	Только одна строка, показывающая статистику о работе процесса архиватора WAL. См. pg_stat_archiver.
pg_stat_bgwriter	Только одна строка, показывающая статистику о работе фонового процесса записи. См. pg_stat_bgwriter.
pg_stat_database	Одна строка на базу данных, показывающая статистику всей базы данных. См. pg_stat_database.
pg_stat_database_conflicts	Одна строка на базу данных, показывающая статистику всей базы данных по отменам запросов из-за конфликта с восстановлением на резервных серверах. См. pg_stat_database_conflicts.
pg_stat_all_tables	Одна строка для каждой таблицы в текущей базе данных, показывающая статистику доступа к этой конкретной таблице. См. pg_stat_all_tables.
pg_stat_sys_tables	То же, что pg_stat_all_tables, за исключением того, что отображаются только системные таблицы.
pg_stat_user_tables	То же, что pg_stat_all_tables, за исключением того, что отображаются только пользовательские таблицы.
pg_stat_xact_all_tables	Аналогичен pg_stat_all_tables, но подсчитывает статистику по операциям, совершенным до настоящего момента в текущей транзакции (которые еще не включены в pg_stat_all_tables и связанные представления). Столбцы с количеством живых и мертвых строк, а также с данными по выполнению очистки и сбора статистики в этом представлении отсутствуют.
pg_stat_xact_sys_tables	То же, что pg_stat_xact_all_tables, за исключением того, что отображаются только системные таблицы.
pg_stat_xact_user_tables	То же, что pg_stat_xact_all_tables, за исключением того, что отображаются только пользовательские таблицы.
pg_stat_all_indexes	Одна строка для каждого индекса в текущей базе данных, показывающая статистику доступа к этому конкретному индексу. См. pg_stat_all_indexes.
pg_stat_sys_indexes	То же, что pg_stat_all_indexes, за исключением того, что pg_stat_all_indexes представлены только индексы в системных таблицах.
pg_stat_user_indexes	То же, что pg_stat_all_indexes, за исключением того, что pg_stat_all_indexes представлены только индексы пользовательских таблиц.
pg_statio_all_tables	Одна строка для каждой таблицы в текущей базе данных, показывающая статистику ввода-вывода для этой конкретной таблицы. См. pg_statio_all_tables.
pg_statio_sys_tables	То же, что pg_statio_all_tables, за исключением того, что отображаются только системные таблицы.
pg_statio_user_tables	То же, что pg_statio_all_tables, за исключением того, что отображаются только пользовательские таблицы.
pg_statio_all_indexes	Одна строка для каждого индекса в текущей базе данных, показывающая статистику ввода-вывода для этого конкретного индекса. См. pg_statio_all_indexes.
pg_statio_sys_indexes	То же, что pg_statio_all_indexes, за исключением того, что pg_statio_all_indexes представлены только индексы в системных таблицах.
pg_statio_user_indexes	То же, что pg_statio_all_indexes, за исключением того, что pg_statio_all_indexes представлены только индексы пользовательских таблиц.
pg_statio_all_sequences	Одна строка для каждой последовательности в текущей базе данных, показывающая статистику ввода-вывода для этой конкретной последовательности. См. pg_statio_all_sequence для получения подробной информации.
pg_statio_sys_sequences	То же, что pg_statio_all_sequences, за исключением того, что отображаются только системные последовательности. (В настоящее время системные последовательности не определены, поэтому это представление всегда пусто.)
pg_statio_user_sequences	То же, что pg_statio_all_sequences, за исключением того, что отображаются только пользовательские последовательности.
pg_stat_user_functions	Одна строка для каждой отслеживаемой функции, показывающая статистику выполнения этой функции. См. pg_stat_user_functions.
pg_stat_xact_user_functions	Аналогичен pg_stat_user_functions, но учитывает только вызовы во время текущей транзакции (которые еще не включены в pg_stat_user_functions ).

Статистика по индексу особенно полезна для определения того, какие индексы используются и насколько они эффективны.

Представления pg_statio_ в первую очередь полезны для определения эффективности буферного кеша. Когда количество фактических операций чтения с диска намного меньше числа обращений к буферу, кеш удовлетворяет большинству запросов на чтение без вызова ядра операционной системы. Однако эти статистические данные не дают полной картины: из-за того, как QHB обрабатывает дисковый ввод-вывод, данные, которых нет в буферном кеше QHB , могут по-прежнему находиться в кэше ввода/вывода ядра и, следовательно, могут по-прежнему выбираться, не требуя физического чтения. Пользователям, заинтересованным в получении более подробной информации о поведении ввода/вывода QHB , рекомендуется использовать сборщик статистики QHB в сочетании с утилитами операционной системы, которые позволяют лучше понять, как ядро обрабатывает ввод/вывод.

Таблица 3. Представление pg_stat_activity

колонка	Тип	Описание
datid	oid	OID базы данных, с которой связан этот бэкэнд
datname	name	Имя базы данных, с которой связан этот бэкэнд
pid	integer	Идентификатор процесса этого бэкэнда
usesysid	oid	OID пользователя, вошедшего в этот бэкэнд
usename	name	Имя пользователя, вошедшего в этот бэкэнд
application_name	text	Имя приложения, которое подключено к этому бэкэнду
client_addr	inet	IP-адрес клиента, подключенного к этому бэкэнду. Если это поле пустое, это означает, что клиент подключен через сокет Unix на серверном компьютере или это внутренний процесс, такой как autovacuum.
client_hostname	text	Имя хоста подключенного клиента, сообщаемое при обратном поиске DNS client_addr. Это поле будет отличным от NULL для IP-соединений и только при включенном режиме log_hostname.
client_port	integer	Номер порта TCP, который клиент использует для связи с этим бэкэндом, или -1 если используется сокет Unix
backend_start	timestamp with time zone	Время, когда этот процесс был запущен. Для клиентских бэкэндов это время, когда клиент подключается к серверу.
xact_start	timestamp with time zone	Время, когда была запущена текущая транзакция этого процесса, или ноль, если транзакция не активна. Если текущий запрос является первой из его транзакций, этот столбец равен столбцу query_start .
query_start	timestamp with time zone	Время, когда был запущен текущий активный запрос, или если state не active, когда был запущен последний запрос
state_change	timestamp with time zone	Время последнего изменения состояния
wait_event_type	text	Тип события, которого ожидает серверная часть, если это имеет место; в противном случае NULL. Возможные значения:
		- LWLock: бэкэнд ждет легкую блокировку. Каждая такая блокировка защищает определенную структуру данных в разделяемой памяти. wait_event будет содержать имя, идентифицирующее цель получения легкой блокировки. (У некоторых блокировок есть особые имена; другие являются частью группы блокировок со схожим назначением.)
		- Lock: бэкэнд ждет тяжелую блокировку. Тяжелые блокировки, также известные как блокировки или просто блокировки менеджера блокировок, в основном защищают видимые SQL-объекты, такие как таблицы. Однако они также используются для обеспечения взаимоисключающего обновления для некоторых внутренних операций, таких как расширение отношений. В wait_event обозначается конкретное место ожидания.
		- BufferPin: серверный процесс ожидает доступа к буферу данных в течение периода, когда никакой другой процесс не может обращаться к этому буферу. Ожидания закрепления буфера могут быть длительными, если другой процесс удерживает открытый курсор, который последним читал данные из рассматриваемого буфера.
		- Activity: Серверный процесс простаивает. Используется системными процессами, ожидающими активности в основном цикле обработки. В wait_event обозначается конкретное место ожидания.
		- Extension: серверный процесс ожидает активности в модуле расширения. Эта категория полезна при использовании модулей для отслеживания нестандартных мест ожидания.
		- Client: серверный процесс ожидает в сокете некоторой активности от пользовательских приложений. Сервер ожидает, что произойдет что-то, что не зависит от его внутренних процессов. В wait_event обозначается конкретное место ожидания.
		- IPC: серверный процесс ожидает некоторой активности от другого процесса на сервере. В wait_event обозначается конкретное место ожидания.
		- Timeout: процесс сервера ожидает истечения времени ожидания. В wait_event обозначается конкретное место ожидания.
		- IO: серверный процесс ожидает завершения ввода-вывода. В wait_event обозначается конкретное место ожидания.
wait_event	text	Имя события ожидания, если бэкэнд в данный момент в ожидании, иначе NULL. Детали в Таблице 4.
state	text	Текущее общее состояние этого бэкэнда. Возможные значения:
		- active: бэкэнд выполняет запрос.
		- idle: бэкэнд ожидает новой команды от клиента.
		- idle in transaction: бэкэнд находится внутри транзакции, но в данный момент не выполняет запрос.
		- idle in transaction (aborted): это состояние подобно idle in transaction, за исключением того, что один из операторов в транзакции вызвал ошибку.
		- fastpath function call: бэкэнд выполняет функцию fast-path.
		- disabled: об этом состоянии сообщается, если track_activities отключен в этом бэкэнде.
backend_xid	xid	Идентификатор транзакции верхнего уровня этого бэкэнда, если он имеется.
backend_xmin	xid	Граница xmin для данного бэкэнда.
query	text	Текст последнего запроса этого бэкэнда. Если поле state содержит значение active, в этом поле отображается текущий выполняемый запрос. Во всех других состояниях он показывает последний запрос, который был выполнен ранее. По умолчанию текст запроса усекается до 1024 символов; это значение можно изменить с помощью параметра track_activity_query_size.
backend_type	text	Тип текущего бэкэнда. Возможные типы: autovacuum launcher, autovacuum worker, logical replication launcher, logical replication worker, parallel worker, background writer, client backend, checkpointer, startup, walreceiver, walsender и walwriter. Кроме того, фоновые процессы, зарегистрированные расширениям, могут иметь дополнительные типы.

Представление pg_stat_activity будет иметь одну строку для каждого серверного процесса, показывая информацию, связанную с текущей активностью этого процесса.

Примечание
Столбцы wait_event и state независимы. Если бэкэнд находится в состоянии active, он может быть или не быть в состоянии ожидания какого-либо события. Если состояние active а wait_event не NULL, это означает, что запрос выполняется, но блокируется где-то в системе.

Таблица 4. Описание значений столбца wait_event

Тип события ожидания	Имя события ожидания	Описание
LWLock	ShmemIndexLock	Ожидание поиска и выделения места в разделяемой памяти.
	OidGenLock	Ожидание выделения или назначения OID.
	XidGenLock	Ожидание выделения или назначения идентификатора транзакции.
	ProcArrayLock	Ожидание получения снимка или очистки идентификатора транзакции в конце транзакции.
	SInvalReadLock	Ожидание получения или удаления сообщений из общей очереди инвалидации.
	SInvalWriteLock	Ожидание добавления сообщения в общую очередь инвалидации.
	WALBufMappingLock	Ожидание замены страницы в буферах WAL.
	WALWriteLock	Ожидание записи буферов WAL на диск.
	ControlFileLock	Ожидание чтения или обновления контрольного файла или создания нового файла WAL.
	CheckpointLock	Ожидание выполнения контрольной точки.
	CLogControlLock	Ожидание чтения или обновления статуса транзакции.
	SubtransControlLock	Ожидание чтения или обновления информации подтранзакции.
	MultiXactGenLock	Ожидание чтения или обновления общего состояния мультитранзакций.
	MultiXactOffsetControlLock	Ожидание чтения или обновления смещений мультитранзакций.
	MultiXactMemberControlLock	Ожидание чтения или обновления членов мультитранзакций.
	RelCacheInitLock	Ожидание чтения или записи файла инициализации кэша отношения.
	CheckpointerCommLock	Ожидание при выполнении запросов fsync.
	TwoPhaseStateLock	Ожидание чтения или обновления состояния подготовленных транзакций.
	TablespaceCreateLock	Ожидание создания или удаления табличного пространства.
	BtreeVacuumLock	Ожидание чтения или обновления связанной с вакуумом информации для индекса B-дерева.
	AddinShmemInitLock	Ожидание управления распределением пространства в разделяемой памяти.
	AutovacuumLock	Рабочий процесс автовакуума или процесс запуска автовакуума в ожидании обновления или чтения текущего состояния рабочих процессов автоочистки.
	AutovacuumScheduleLock	Ожидание при проверке, что таблица, которая выбрана для очистки, все еще нуждается в ней.
	SyncScanLock	Ожидание получения начального местоположения сканирования таблицы для синхронизированных сканирований.
	RelationMappingLock	Ожидание обновления файла карты отношения, используемого для сохранения в каталоге данных о файловых узлах.
	AsyncCtlLock	Ожидание чтения или обновления общего состояния уведомлений.
	AsyncQueueLock	Ожидание чтения или обновления уведомлений.
	SerializableXactHashLock	Ожидание получения или сохранения информации о сериализуемых транзакциях.
	SerializableFinishedListLock	Ожидание доступа к списку завершенных сериализуемых транзакций.
	SerializablePredicateLockListLock	Ожидание выполнения операции со списком блокировок, удерживаемых сериализуемыми транзакциями.
	OldSerXidLock	Ожидание чтения или записи конфликтующих сериализуемых транзакций.
	SyncRepLock	Ожидание чтения или обновления информации о синхронных репликах.
	BackgroundWorkerLock	Ожидание чтения или обновления состония фонового процесса.
	DynamicSharedMemoryControlLock	Ожидание чтения или обновления состояния динамической разделяемой памяти.
	AutoFileLock	Ожидание обновления файла qhb.auto.conf.
	ReplicationSlotAllocationLock	Ожидание выделения или освобождения слота репликации.
	ReplicationSlotControlLock	Ожидание чтения или обновления состояния слота репликации.
	CommitTsControlLock	Ожидание чтения или обновления отметок времени подтверждения транзакции.
	CommitTsLock	Ожидание чтения или обновления последнего значения, установленного для отметки времени транзакции.
	ReplicationOriginLock	Ожидание установки, удаления или использования источника репликации.
	MultiXactTruncationLock	Ожидание чтения или очистки информации мультитранзакций.
	OldSnapshotTimeMapLock	Ожидание чтения или обновления информации о старых снимках.
	LogicalRepWorkerLock	Ожидание завершения действия процесса логической репликации.
	CLogTruncationLock	Ожидание выполнения функции txid_status или обновления самого старого идентификатора транзакции, доступного для неё.
	clog	Ожидание ввода-вывода в clog (буфере состояния транзакций).
	commit_timestamp	Ожидание ввода-вывода в буфере отметок времени фиксации транзакций.
	subtrans	Ожидание ввода-вывода буфера подтранзакций.
	multixact_offset	Ожидание ввода-вывода в буфере смещения мультитранзакций.
	multixact_member	Ожидание ввода-вывода в буфере multixact_member.
	async	Ожидание ввода-вывода в асинхронном (уведомляющем) буфере.
	oldserxid	Ожидание ввода-вывода в буфере oldserxid.
	wal_insert	Ожидание вставки WAL в буфер памяти.
	buffer_content	Ожидание чтения или записи страницы данных в памяти.
	buffer_io	Ожидание ввода-вывода страницы данных.
	replication_origin	Ожидание чтения или обновления состояния процесса репликации.
	replication_slot_io	Ожидание ввода-вывода данных слота репликации.
	proc	Ожидание чтения или обновления информации о блокировке по быстрому пути.
	buffer_mapping	Ожидание связывания блока данных с буфером в буферном пуле.
	lock_manager	Ожидание добавления или проверки блокировок для бэкэндов или ожидание присоединения или выхода из группы блокировок (используется параллельными запросами).
	predicate_lock_manager	Ожидание добавления или проверки информации предикатных блокировок.
	serializable_xact	Ожидание выполнения операции сериализуемой транзакцией в параллельном запросе.
	parallel_query_dsa	Ожидание блокировки выделения динамической общей памяти в параллельном запросе.
	tbm	Ожидание блокировки общего итератора TBM.
	parallel_append	Ожидание выбора следующего подплана во время выполнения плана параллельного добавления.
	parallel_hash_join	Ожидание выделения или обмена части памяти или обновления счетчиков во время выполнения плана параллельного хеширования.
Lock	relation	Ожидание получения блокировки в отношении.
	extend	Ожидание расширения отношения.
	page	Ожидание получения блокировки для страницы отношения.
	tuple	Ожидание получения блокировки для кортежа.
	transactionid	Ожидание завершения транзакции.
	virtualxid	Ожидание получения блокировки виртуального XID.
	speculative token	Ожидание получения блокировки спекулятивной вставки.
	object	Ожидание получения блокировки для объекта, не относящегося к базе данных.
	userlock	Ожидание получения пользовательской блокировки.
	advisory	Ожидание получения рекомендательной пользовательской блокировки.
BufferPin	BufferPin	Ожидание закрепления буфера.
Activity	ArchiverMain	Ожидание в основном цикле процесса архивирования.
	AutoVacuumMain	Ожидание в главном цикле процесса запуска автоочистки.
	BgWriterHibernate	Ожидание в фоновом процессе записи в режиме бездействия.
	BgWriterMain	Ожидание в основном цикле рабочего рпоцесса фоновой записи.
	CheckpointerMain	Ожидание в основном цикле процесса контрольной точки.
	LogicalApplyMain	Ожидание в основном цикле процесса применения логической репликации.
	LogicalLauncherMain	Ожидание в основном цикле процесса запуска логической репликации.
	PgStatMain	Ожидание в основном цикле процесса сбора статистики.
	RecoveryWalAll	Ожидание восстановления WAL из любого источника (локального, архивного или потокового) при восстановлении.
	RecoveryWalStream	Ожидание WAL из потока при восстановлении.
	SysLoggerMain	Ожидание в основном цикле процесса syslogger.
	WalReceiverMain	Ожидание в основном цикле процесса приема WAL.
	WalSenderMain	Ожидание в основном цикле процесса отправителя WAL.
	WalWriterMain	Ожидание в основном цикле процесса записи WAL.
Client	ClientRead	Ожидание чтения данных от клиента.
	ClientWrite	Ожидание записи данных, отправляемых клиенту.
	LibPQWalReceiverConnect	Ожидание в приемнике WAL для установления соединения с удаленным сервером.
	LibPQWalReceiverReceive	Ожидание в приемнике WAL для получения данных с удаленного сервера.
	SSLOpenServer	Ожидание SSL при попытке подключения.
	WalReceiverWaitStart	Ожидание запуска процесса отправки начальных данных для потоковой репликации.
	WalSenderWaitForWAL	Ожидание сброса WAL в процессе отправки WAL.
	WalSenderWriteData	Ожидание любого действия при обработке ответов от получателя WAL в процессе отправителя WAL.
Extension	Extension	Ожидание в расширении.
IPC	BgWorkerShutdown	Ожидание выключения фонового рабочего процесса.
	BgWorkerStartup	Ожидание запуска фонового рабочего процесса.
	BtreePage	Ожидание появления номера страницы, необходимой для продолжения параллельного сканирования B-дерева.
	CheckpointDone	Ожидание контрольной точки для завершения.
	CheckpointStart	Ожидание контрольной точки для запуска.
	ClogGroupUpdate	Ожидание, когда ведущий процесс группы обновит статус транзакции в конце транзакции.
	ExecuteGather	Ожидание активности от дочернего процесса при выполнении узла сбора данных(Gather).
	Hash/Batch/Allocating	Ожидание, когда выбранный участник параллельного хеширования разместит хеш-таблицу.
	Hash/Batch/Electing	Выбор участника параллельного хеширования для размещения хеш-таблицы.
	Hash/Batch/Loading	Ожидание, пока другие участники параллельного хеширования завершат загрузку хеш-таблицы.
	Hash/Build/Allocating	Ожидание, когда выбранный участник параллельного хеширования выделит начальную хеш-таблицу.
	Hash/Build/Electing	Выбор участника параллельного хеширования для размещения начальной хеш-таблицы.
	Hash/Build/HashingInner	Ожидание, пока другие участники параллельного хеширования завершат хеширование внутреннего отношения.
	Hash/Build/HashingOuter	Ожидание, пока другие участники параллельного хеширования завершат разбиение внешнего отношения.
	Hash/GrowBatches/Allocating	Ожидание выделения выбранным участником параллельного хеширования большего количества пакетов.
	Hash/GrowBatches/Deciding	Выбор участника параллельного хеширования для принятия решения о будущем добавлении пакетов.
	Hash/GrowBatches/Electing	Выбор участника параллельного хеширования для добавления большего количества пакетов.
	Hash/GrowBatches/Finishing	Ожидание выбранного участника параллельного хеширования для принятия решения о добавлении дополнительных пакетов.
	Hash/GrowBatches/Repartitioning	Ожидание, пока другие участники параллельного хеширования завершат перераспределение.
	Hash/GrowBuckets/Allocating	Ожидание, когда выбранный участник параллельного хеширования закончит выделять дополнительные группы.
	Hash/GrowBuckets/Electing	Выбор участника параллельного хеширования для выделения дополнительнывх групп.
	Hash/GrowBuckets/Reinserting	Ожидание, пока другие участники паралллеьного хеширования закончат вставлять кортежи в новые группы.
	LogicalSyncData	Ожидание, когда удаленный сервер логической репликации отправит данные для начальной синхронизации таблицы.
	LogicalSyncStateChange	Ожидание, когда удаленный сервер логической репликации изменит состояние.
	MessageQueueInternal	Ожидание присоединения другого процесса к общей очереди сообщений.
	MessageQueuePutMessage	Ожидание записи сообщения протокола в общую очередь сообщений.
	MessageQueueReceive	Ожидание получения байтов из общей очереди сообщений.
	MessageQueueSend	Ожидание отправки байтов в общую очередь сообщений.
	ParallelBitmapScan	Ожидание инициализации параллельного сканирования по битовой карте.
	ParallelCreateIndexScan	Ожидание завершения сканирования параллельными процессами CREATE INDEX.
	ParallelFinish	Ожидание окончания вычислений параллельных рабочих процессов.
	ProcArrayGroupUpdate	Ожидание, пока ведущий процесс в группе не очистит идентификатор транзакции в конце транзакции.
	Promote	В ожидании продвижения ведомых.
	ReplicationOriginDrop	Ожидание, когда источник репликации станет неактивным и будет удален.
	ReplicationSlotDrop	Ожидание, когда слот репликации станет неактивным и будет удален.
	SafeSnapshot	Ожидание снимка транзакции READ ONLY DEFERRABLE.
	SyncRep	Ожидание подтверждения от удаленного сервера во время синхронной репликации.
Timeout	BaseBackupThrottle	Ожидание во время резервного копирования базы при ограничении активности.
	PgSleep	Ожидание в процессе, который вызвал pg_sleep.
	RecoveryApplyDelay	Ожидание применения WAL при восстановлении из-за задержки.
IO	BufFileRead	Ожидание чтения из буферизованного файла.
	BufFileWrite	Ожидание записи в буферизованный файл.
	ControlFileRead	Ожидание чтения из контрольного файла.
	ControlFileSync	Ожидание помещения контрольного файла в стабильное хранилище.
	ControlFileSyncUpdate	Ожидание обновления контрольного файла в стабильном хранилище.
	ControlFileWrite	Ожидание записи в контрольный файл.
	ControlFileWriteUpdate	Ожидание записи для обновления контрольного файла.
	CopyFileRead	Ожидание чтения во время операции копирования файла.
	CopyFileWrite	Ожидание записи во время операции копирования файла.
	DataFileExtend	Ожидание расширения файла данных отношения.
	DataFileFlush	Ожидание помещения файла данных отношения в стабильное хранилище.
	DataFileImmediateSync	Ожидание немедленной синхронизации файла данных отношения со стабильным хранилищем.
	DataFilePrefetch	Ожидание асинхронной предварительной выборки из файла данных отношений.
	DataFileRead	Ожидание чтения из файла данных отношения.
	DataFileSync	Ожидание переноса изменений в файле реляционных данных в стабильное хранилище.
	DataFileTruncate	Ожидание усечения файла данных отношения.
	DataFileWrite	Ожидание записи в файл данных отношений.
	DSMFillZeroWrite	Ожидание записи нулевых байтов в файл поддержки динамической разделяемой памяти.
	LockFileAddToDataDirRead	Ожидание чтения при добавлении строки в файл блокировки каталога данных.
	LockFileAddToDataDirSync	Ожидание поступления данных в стабильное хранилище при добавлении строки в файл блокировки каталога данных.
	LockFileAddToDataDirWrite	Ожидание записи при добавлении строки в файл блокировки каталога данных.
	LockFileCreateRead	Ожидание чтения при создании файла блокировки каталога данных.
	LockFileCreateSync	Ожидание поступления данных в стабильное хранилище при создании файла блокировки каталога данных.
	LockFileCreateWrite	Ожидание записи при создании файла блокировки каталога данных.
	LockFileReCheckDataDirRead	Ожидание чтения во время повторной проверки файла блокировки каталога данных.
	LogicalRewriteCheckpointSync	Ожидание сопоставления логической перезаписи для достижения стабильного хранилища во время контрольной точки.
	LogicalRewriteMappingSync	Ожидание сопоставления данных для достижения стабильного хранилища во время логической перезаписи.
	LogicalRewriteMappingWrite	Ожидание записи данных сопоставления во время логической перезаписи.
	LogicalRewriteSync	Ожидание сопоставления логической перезаписи для достижения стабильного хранилища.
	LogicalRewriteWrite	Ожидание записи логических сопоставлений перезаписи.
	RelationMapRead	Ожидание чтения файла карты отношений.
	RelationMapSync	Ожидание, пока файл карты отношений не будет записан в стабильное хранилище.
	RelationMapWrite	Ожидание записи в файл карты отношений.
	ReorderBufferRead	Ожидание чтения во время переупорядочения буфера управления.
	ReorderBufferWrite	Ожидание записи во время переупорядочения буфера управления.
	ReorderLogicalMappingRead	Ожидание чтения логического отображения во время управления буфером переупорядочения.
	ReplicationSlotRead	Ожидание чтения из управляющего файла слота репликации.
	ReplicationSlotRestoreSync	Ожидание, пока контрольный файл слота репликации не будет помещен в стабильное хранилище при восстановлении его в памяти
	ReplicationSlotSync	Ожидание, когда контрольный файл слота репликации будет помещен в стабильное хранилище.
	ReplicationSlotWrite	Ожидание записи в управляющий файл слота репликации.
	SLRUFlushSync	Ожидание, пока данные SLRU будут записаны в стабильное хранилище во время проверки или остановки базы данных.
	SLRURead	Ожидание чтения страницы SLRU.
	SLRUSync	Ожидание, пока данные SLRU будут записаны в стабильное хранилище после записи страницы.
	SLRUWrite	В ожидании записи страницы SLRU.
	SnapbuildRead	Ожидание чтения снимка сериализованного исторического каталога.
	SnapbuildSync	Ожидание получения сериализованного моментального снимка каталога для записи в стабильное хранилище.
	SnapbuildWrite	Ожидание записи сериализованного исторического снимка каталога.
	TimelineHistoryFileSync	Ожидание файла хронологии, полученного посредством потоковой репликации, для записи в стабильное хранилище.
	TimelineHistoryFileWrite	Ожидание записи файла истории линии времени, полученной посредством потоковой репликации.
	TimelineHistoryRead	Ожидание чтения файла истории линии времени.
	TimelineHistorySync	Ожидание, когда вновь созданный файл истории линии времени будет записан в стабильное хранилище.
	TimelineHistoryWrite	Ожидание записи нового файла истории.
	TwophaseFileRead	Ожидание чтения файла двухфазного состояния.
	TwophaseFileSync	Ожидание помещения файла двухфазного состояния в стабильное хранилище.
	TwophaseFileWrite	Ожидание записи файла двухфазного состояния.
	WALBootstrapSync	Ожидание, пока WAL будет записан в стабильное хранилище во время начальной загрузки.
	WALBootstrapWrite	Ожидание записи WAL-страницы во время начальной загрузки.
	WALCopyRead	Ожидание чтения при создании нового сегмента WAL путем копирования существующего.
	WALCopySync	Ожидание нового сегмента WAL, созданного путем копирования существующего для записи в стабильное хранилище.
	WALCopyWrite	Ожидание записи при создании нового сегмента WAL путем копирования существующего.
	WALInitSync	Ожидание, пока недавно инициализированный файл WAL будет записан в стабильное хранилище.
	WALInitWrite	Ожидание записи при инициализации нового файла WAL.
	WALRead	Ожидание чтения из файла WAL.
	WALSenderTimelineHistoryRead	Ожидание чтения из файла истории линии времени при выполнении команды timeline процессом walsender.
	WALSync	Ожидание, пока файл WAL будет записан в стабильное хранилище.
	WALSyncMethodAssign	Ожидание, пока данные будут записаны в стабильное хранилище при назначении метода синхронизации WAL.
	WALWrite	Ожидание записи в файл WAL.

Примечание
Для траншей, зарегистрированных расширениями, имя указывается по названию расширения, и именно оно будет отображаться в поле wait_event. Вполне возможно, что пользователь зарегистрировал транш в одном из бэкэндов (используя динамическую разделяемую память), и в этом случае другие бэкэнды не получат эту информацию, поэтому в таких случаях выводится extension.

Вот пример того, как события ожидания могут быть просмотрены

SELECT pid, wait_event_type, wait_event FROM pg_stat_activity WHERE wait_event is NOT NULL;
 pid  | wait_event_type |  wait_event
------+-----------------+---------------
 2540 | Lock            | relation
 6644 | LWLock          | ProcArrayLock
(2 rows)

Таблица 5. Представление pg_stat_replication

Колонка	Тип	Описание
pid	integer	Идентификатор процесса отправителя WAL
usesysid	oid	OID пользователя, вошедшего в этот процесс-отправитель WAL
usename	name	Имя пользователя, подключенного к процессу-отправителю WAL
application_name	text	Имя приложения, подключенного к этому процессу-отправителю WAL
client_addr	inet	IP-адрес клиента, подключенного к этому процессу-отправителю WAL. Если это поле пустое, это означает, что клиент подключен через сокет Unix на сервере.
client_hostname	text	Имя хоста подключенного клиента, получаемое при обратном поиске в DNS по client_addr. Это поле будет отличным от NULL для IP-соединений и только при включенном log_hostname.
client_port	integer	Номер TCP-порта, который клиент использует для связи с процессом-отправителем WAL, или -1, если используется сокет Unix.
backend_start	timestamp with time zone	Время, когда этот процесс был запущен, т.е. когда клиент подключился к этому процессу-отправителю WAL.
backend_xmin	xid	Значение xmin, полученное от сервера-реплики при включенном hot_standby_feedback.
state	text	Текущее состояние отправителя WAL. Возможные значения:
		- startup: этот отправитель WAL запускается.
		- catchup: подключенный к процессу-отправителю сервер-реплика догоняет основной.
		- streaming: процесс-отправитель WAL выполняет потоковую передачу изменений после того, как его подключенный резервный сервер обнаружил основной.
		- backup: процесс-отправитель WAL передает резервную копию.
		- stopping: процесс-отправитель WAL останавливается.
sent_lsn	pg_lsn	Последняя позиция WAL, отправленная по этому соединению
write_lsn	pg_lsn	Последняя позиция WAL, записанная на диск этим резервным сервером
flush_lsn	pg_lsn	Последняя позиция WAL, сброшенная на диск этим резервным сервером
replay_lsn	pg_lsn	Последняя позиция WAL, примененная в базе данных на этом резервном сервере
write_lag	interval	Время, прошедшее между локальным сбросом последних данных WAL и получением уведомления о том, что этот резервный сервер записал их (но еще не сбросил или применил их). Это может быть использовано для измерения задержки, которая произошла при фиксации транзакции, когда в synchronous_commit выбран уровень remote_write, если этот сервер был настроен как синхронный резервный сервер.
flush_lag	interval	Время, прошедшее между локальным сбросом последних данных WAL и получением уведомления о том, что этот резервный сервер записал и сбросил их (но еще не применил). Это может быть использовано для определения задержки, когда в `synchronous_commit` выбран уровень `on` при фиксации, если этот сервер был настроен как синхронный резервный сервер.
replay_lag	interval	Прошло время между локальной очисткой последней WAL и получением уведомления о том, что этот резервный сервер написал, сбросил и применил ее. Это может быть использовано для определения задержки, когда в `synchronous_commit` выбран уровень `remote_apply` при фиксации, если этот сервер был настроен как синхронный резервный сервер.
sync_priority	integer	Приоритет этого резервного сервера для выбора в качестве синхронного резервного в синхронной репликации на основе приоритетов. Не имеет значения при синхронной репликации с учетом кворума.
sync_state	text	Состояние синхронизации этого резервного сервера. Возможные значения:
		- async: этот резервный сервер является асинхронным.
		- potential: этот резервный сервер теперь асинхронный, но потенциально может стать синхронным, если произойдет сбой одного из текущих синхронных серверов.
		- sync: этот резервный сервер является синхронным.
		- quorum: этот резервный сервер считается кандидатом на участие в кворуме.
reply_time	timestamp with time zone	Время отправки последнего ответного сообщения, полученного от резервного сервера

Представление pg_stat_replication будет содержать по одной строке на процесс-отправитель WAL, показывающий статистику репликации на соответствующий резервный сервер. Перечислены только напрямую подключенные резервные сервера; информация о резервных серверах, подключенных опосредованно, недоступна.

Время задержки, указанное в представлении pg_stat_replication, представляет время, затраченное на запись, сброс и повторное воспроизведение последнего WAL, а также на то, чтобы отправитель узнал об этом. Эти длительность представляет задержку фиксации, которая была (или должна была быть) добавлена каждым уровнем синхронной фиксации, если удаленный сервер был настроен как синхронный резервный сервер. Для асинхронного режима ожидания столбец replay_lag приблизительно определяет задержку перед тем, как последние транзакции стали видимыми для запросов. Если резервный сервер полностью догнал отправляющий сервер и активность WAL больше не наблюдается, последнее измеренное значение времени задержки будет продолжать отображаться в течение короткого времени, а затем показывать NULL.

Время задержки определяется автоматически для физической репликации. Модули логического декодирования могут не отправлять сообщения отслеживания; в этм случае механизм отслеживания просто отобразит в качестве времени задержки значение NULL.

Примечание
Сообщаемое время задержки не является прогнозом того, сколько времени потребуется резервному серверу, чтобы догнать отправляющий сервер, учитывая текущую скорость воспроизведения. Такая система будет показывать аналогичные значения времени, когда будет генерироваться новый WAL, но не тогда, когда отправляющий сервер будет простаивать. В частности, когда резервный сервер полностью догнал ведущий, pg_stat_replication показывает время, затраченное на запись, очистку и воспроизведение самого последнего переданного изменения WAL, а не ноль, как могут ожидать некоторые пользователи. Это соответствует целям измерения синхронных фиксаций и задержек видимости транзакций для недавних записанных транзакций. Чтобы уменьшить путаницу для пользователей, ожидающих другое поведение при запаздывании, значения запаздывания возвращаются в NULL через короткое время в системе, которая уже воспроизвела все изменения и находится в ожидании. Системы мониторинга должны выбрать, следует ли представлять это как отсутствующие данные, обнулять их или продолжать отображать последнее известное значение.

Таблица 6. Представление pg_stat_wal_receiver

колонка	Тип	Описание
pid	integer	Идентификатор процесса-получателя WAL
status	text	Состояние активности процесса-получателя WAL
receive_start_lsn	pg_lsn	Первая позиция WAL, используемая при запуске приемника WAL
receive_start_tli	integer	Первый номер линии времени, используемый при запуске приемника WAL
received_lsn	pg_lsn	Последняя позиция WAL, уже полученная и записанная на диск, начальное значение этого поля является первой позицией журнала при запуске приемника WAL
received_tli	integer	Номер линии времени последней позиции WAL, полученной и записанной на диск, начальное значение этого поля является номером линии времени первой позиции журнала, использованной при запуске приемника WAL
last_msg_send_time	timestamp with time zone	Время отправки последнего сообщения, полученного от отправителя WAL
last_msg_receipt_time	timestamp with time zone	Время получения последнего сообщения, полученного от отправителя WAL
latest_end_lsn	pg_lsn	Последняя позиция WAL, о которой был уведомлен отправитель WAL
latest_end_time	timestamp with time zone	Время последней записи WAL, о которой был уведомлен отправитель WAL
slot_name	text	Имя слота репликации, используемое этим приемником WAL
sender_host	text	Хост экземпляра QHB , к которому подключен этот приемник WAL. Это может быть имя хоста, IP-адрес или путь к каталогу, если соединение осуществляется через сокет Unix. (Подключение к сокету можно распознать, поскольку он всегда будет абсолютным путем, начинающимся с /.)
sender_port	integer	Номер порта экземпляра QHB , к которому подключен получатель WAL.
conninfo	text	Строка соединения, используемая этим приемником WAL, со скрытыми секретными полями.

Представление pg_stat_wal_receiver будет содержать только одну строку, показывающую статистику о получателе WAL с подключенного сервера этого получателя.

Таблица 7. Представление pg_stat_subscription

колонка	Тип	Описание
subid	oid	OID подписки
subname	text	Название подписки
pid	integer	Идентификатор процесса рабочего процесса подписки
relid	Oid	OID отношения, которое процесс синхронизирует; для основного процесса применения
received_lsn	pg_lsn	Последняя полученная запись WAL, начальное значение этого поля 0
last_msg_send_time	timestamp with time zone	Время отправки последнего сообщения, полученного от отправителя WAL
last_msg_receipt_time	timestamp with time zone	Время получения последнего сообщения, полученного от отправителя WAL
latest_end_lsn	pg_lsn	Последняя запись WAL, о которой был уведомлен отправитель WAL
latest_end_time	timestamp with time zone	Время последней записи в WAL, о которой был уведомлен отправитель WAL

Представление pg_stat_subscription будет содержать одну строку для каждой подписки для основного процесса (с NULL в PID, если процесс не работает) и дополнительные строки для процессов, обрабатывающих начальные данные для таблиц в подписке.

Таблица 8. Представление pg_stat_ssl

колонка	Тип	Описание
pid	integer	Идентификатор процесса бэкенда или процесса отправителя WAL
ssl	boolean	True, если SSL используется для этого соединения
version	text	Используемая версия SSL или NULL, если SSL в этом соединении не используется.
cipher	text	Имя используемого шифра SSL или NULL, если SSL не используется в этом соединении
bits	integer	Количество бит в используемом алгоритме шифрования или NULL, если SSL не используется в этом соединении
compression	boolean	True, если используется сжатие SSL, false, если нет, или NULL, если SSL не используется в этом соединении.
client_dn	text	Поле «Уникальное имя» (DN) из используемого клиентского сертификата или NULL, если клиентский сертификат не был предоставлен или SSL не используется в этом соединении. Это поле усекается, если поле DN длиннее, чем NAMEDATALEN (64 символа в стандартной сборке).
client_serial	numeric	Серийный номер сертификата клиента или NULL, если сертификат клиента не предоставлен или SSL не используется в этом соединении. Комбинация серийного номера сертификата и эмитента сертификата однозначно идентифицирует сертификат (если только эмитент ошибочно не использует серийные номера).
issuer_dn	text	DN эмитента клиентского сертификата или NULL, если клиентский сертификат не был предоставлен или SSL не используется в этом соединении. Это поле усекается как client_dn.

Представление pg_stat_ssl будет содержать по одной строке для каждого бэкенда или процесса отправителя WAL, показывая статистику использования SSL для этого соединения. Его можно объединить с pg_stat_activity или pg_stat_replication в столбце pid, чтобы получить более подробную информацию о соединении.

Таблица 9. Представление pg_stat_gssapi

колонка	Тип	Описание
pid	integer	Идентификатор процесса бэкэнда
gss_authenticated	boolean	Истинно, если для этого соединения использовалась аутентификация GSSAPI
principal	text	Принципал, используемый для аутентификации этого соединения, или NULL, если GSSAPI не использовался для аутентификации этого соединения. Это поле усекается, если участник длиннее, чем NAMEDATALEN (64 символа в стандартной сборке).
encrypted	boolean	True, если в этом соединении используется шифрование GSSAPI

Представление pg_stat_gssapi будет содержать одну строку для каждого бэкэнда, показывающую информацию об использовании GSSAPI для этого соединения. Его можно объединить с pg_stat_activity или pg_stat_replication в столбце pid, чтобы получить более подробную информацию о соединении.

Таблица 10. Представление pg_stat_archiver

колонка	Тип	Описание
archived_count	bigint	Количество файлов WAL, которые были успешно заархивированы
last_archived_wal	text	Имя последнего файла WAL, успешно заархивированного
last_archived_time	timestamp with time zone	Время последней успешной операции архивирования
failed_count	bigint	Количество неудачных попыток архивирования файлов WAL
last_failed_wal	text	Имя файла WAL последней неудачной операции архивирования
last_failed_time	timestamp with time zone	Время последней неудачной архивной операции
stats_reset	timestamp with time zone	Время последнего сброса этой статистики

Представление pg_stat_archiver всегда будет содержать одну строку, содержащую данные о процессе архивации кластера.

Таблица 11. Представление pg_stat_bgwriter

колонка	Тип	Описание
checkpoints_timed	bigint	Количество запланированных контрольных точек, которые были выполнены
checkpoints_req	bigint	Количество запрошенных контрольных точек, которые были выполнены
checkpoint_write_time	double precision	Общее время, потраченное на этап обработки контрольной точки, где файлы записываются на диск, в миллисекундах
checkpoint_sync_time	double precision	Общее количество времени, потраченное на часть обработки контрольной точки, где файлы синхронизируются с диском, в миллисекундах
buffers_checkpoint	bigint	Количество буферов, записанных во время контрольных точек
buffers_clean	bigint	Количество буферов, записанных фоновым процессом записи
maxwritten_clean	bigint	Количество раз, когда процесс записи в фоновом режиме останавливал сброс грязных страниц, поскольку записывал слишком много буферов
buffers_backend	bigint	Количество буферов, записанных непосредственно бэкэндом
buffers_backend_fsync	bigint	Сколько раз бэкэнд выполнял вызов fsync сам (обычно их обрабатывает фоновый процесс записи, даже когда бэкэнд выполняет запись самостоятельно)
buffers_alloc	bigint	Количество выделенных буферов
stats_reset	timestamp with time zone	Время последнего сброса этой статистики

Представление pg_stat_bgwriter всегда будет содержать одну строку, содержащую общие данные для всего кластера.

Таблица 12. Представление pg_stat_database

колонка	Тип	Описание
datid	oid	OID базы данных или 0 для объектов, принадлежащих к общим отношениям
datname	name	Имя базы данных или NULL для общих объектов.
numbackends	integer	Количество бэкэндов, которые в данный момент подключены к этой базе данных, или NULL для общих объектов. Это единственный столбец в этом представлении, который возвращает значение, отражающее текущее состояние; все остальные столбцы возвращают накопленные значения с момента последнего сброса.
xact_commit	bigint	Количество транзакций в этой базе данных, которые были совершены
xact_rollback	bigint	Количество транзакций в этой базе данных, которые были отменены
blks_read	bigint	Количество дисковых блоков, прочитанных в этой базе данных
blks_hit	bigint	Количество обнаружений дисковых блоков в буферном кеше, так что чтение не было необходимо (это включает только попадания в буферный кеш QHB , а не в кэш файловой системы операционной системы)
tup_returned	bigint	Количество строк, возвращенных запросами в этой базе данных
tup_fetched	bigint	Количество строк, извлеченными запросами в этой базе данных
tup_inserted	bigint	Количество строк, вставленных запросами в этой базе данных
tup_updated	bigint	Количество строк, обновленных запросами в этой базе данных
tup_deleted	bigint	Количество строк, удаленных запросами в этой базе данных
conflicts	bigint	Количество запросов отменено из-за конфликтов при восстановлении в этой базе данных. (Конфликты возникают только на резервных серверах; подробности смотрите в pg_stat_database_conflicts.)
temp_files	bigint	Количество временных файлов, созданных запросами в этой базе данных. Подсчитываются все временные файлы, независимо от того, почему был создан временный файл (например, при сортировке или хэшировании), и независимо от настройки log_temp_files.
temp_bytes	bigint	Общий объем данных, записанных во временные файлы по запросам в этой базе данных. Учитываются все временные файлы, независимо от того, почему был создан временный файл, и независимо от настройки log_temp_files.
deadlocks	bigint	Количество взаимоблокировок, обнаруженных в этой базе данных
checksum_failures	bigint	Число ошибок контрольной суммы страницы данных, обнаруженных в этой базе данных (или в общем объекте), или NULL, если контрольные суммы данных не включены.
checksum_last_failure	timestamp with time zone	Время, когда в этой базе данных (или в общем объекте) был обнаружен последний сбой контрольной суммы страницы данных, или NULL, если контрольные суммы данных не включены.
blk_read_time	double precision	Время, затраченное на чтение блоков файлов данных бэкэндами в этой базе данных, в миллисекундах
blk_write_time	double precision	Время, затрачиваемое на запись блоков файлов данных бэкэндами в этой базе данных, в миллисекундах
stats_reset	timestamp with time zone	Время последнего сброса этой статистики

Представление pg_stat_database будет содержать одну строку для каждой базы данных в кластере, плюс одну для общих объектов, показывающую общую статистику на уровне всей базы данных.

Таблица 13. Представление pg_stat_database_conflicts

колонка	Тип	Описание
datid	oid	OID базы данных
datname	name	Имя базы данных
confl_tablespace	bigint	Количество запросов в этой базе данных, которые были отменены из-за удаленных табличных пространств
confl_lock	bigint	Количество запросов в этой базе данных, которые были отменены из-за тайм-аутов блокировки
confl_snapshot	bigint	Количество запросов в этой базе данных, которые были отменены из-за устаревших снимков данных
confl_bufferpin	bigint	Количество запросов в этой базе данных, которые были отменены из-за закрепленных буферов
confl_deadlock	bigint	Количество запросов в этой базе данных, которые были отменены из-за взаимных блокировок

Представление pg_stat_database_conflicts будет содержать одну строку для каждой базы данных, показывающую статистику всей базы данных об отменах запросов, возникающих из-за конфликтов с восстановлением на резервных серверах. Это представление будет содержать информацию только о резервных серверах, поскольку конфликты не возникают на главных серверах.

Таблица 14. Представление pg_stat_all_tables

колонка	Тип	Описание
relid	oid	OID таблицы
schemaname	name	Имя схемы, в которой находится эта таблица
relname	name	Имя этой таблицы
seq_scan	bigint	Количество последовательных сканирований, выполненных по этой таблице
seq_tup_read	bigint	Количество живых строк, выбранных при последовательном сканировании
idx_scan	bigint	Количество сканирований индекса, выполненных для этой таблицы
idx_tup_fetch	bigint	Количество живых строк, выбранных при сканировании индекса
n_tup_ins	bigint	Количество вставленных строк
n_tup_upd	bigint	Количество обновленных строк (включая обновленные в режиме HOT)
n_tup_del	bigint	Количество удаленных строк
n_tup_hot_upd	bigint	Количество строк, обновленных в режиме HOT (т.е. не требуется отдельное обновление индекса)
n_live_tup	bigint	Расчетное количество живых строк
n_dead_tup	bigint	Расчетное количество мертвых строк
n_mod_since_analyze	bigint	Предполагаемое количество строк, измененных с момента последнего анализа этой таблицы
last_vacuum	timestamp with time zone	Последний раз, когда эта таблица была очищена вручную (не считая VACUUM FULL)
last_autovacuum	timestamp with time zone	Последний раз, когда эта таблица была очищена фоновым процессом автоочистки
last_analyze	timestamp with time zone	Последний раз, когда эта таблица анализировалась вручную
last_autoanalyze	timestamp with time zone	Последний раз, когда эта таблица анализировалась фоновым процессом автоочистки
vacuum_count	bigint	Сколько раз эта таблица очищалась вручную (не считая VACUUM FULL)
autovacuum_count	bigint	Сколько раз эта таблица очищалась фоновым процессом автоочистки
analyze_count	bigint	Сколько раз эта таблица была проанализирована вручную
autoanalyze_count	bigint	Сколько раз эта таблица анализировалась фоновым процессом автоочистки

Представление pg_stat_all_tables будет содержать одну строку для каждой таблицы в текущей базе данных (включая таблицы TOAST), показывающую статистику доступа к этой конкретной таблице. Представления pg_stat_user_tables и pg_stat_sys_tables содержат ту же информацию, но отображают только пользовательские и системные таблицы соответственно.

Таблица 15. Представление pg_stat_all_indexes

колонка	Тип	Описание
relid	oid	OID таблицы для этого индекса
indexrelid	oid	OID этого индекса
schemaname	name	Имя схемы, в которой находится этот индекс
relname	name	Имя таблицы для этого индекса
indexrelname	name	Наименование этого индекса
idx_scan	bigint	Количество сканирований индекса, выполненных по этому индексу
idx_tup_read	bigint	Количество записей индекса, возвращенных сканированием по этому индексу
idx_tup_fetch	bigint	Количество живых строк таблицы, выбранных при простом сканировании индекса с использованием этого индекса

Представление pg_stat_all_indexes будет содержать одну строку для каждого индекса в текущей базе данных, показывающую статистику доступа к этому конкретному индексу. Представления pg_stat_user_indexes и pg_stat_sys_indexes содержат ту же информацию, но показывают только пользовательские и системные индексы соответственно.

Индексы могут использоваться при простом сканировании индекса, сканировании битовых карт индекса и в работе оптимизатора. При сканировании битовых карт выходные данные нескольких индексов можно комбинировать с помощью правил И или ИЛИ, поэтому сложно связать выборки отдельных строк с конкретными индексами при использовании битовых карт. Следовательно, сканирование битовых карт увеличивает значение pg_stat_all_indexes.idx_tup_read для индексов, которые оно использует, и оно увеличивает значение pg_stat_all_tables.idx_tup_fetch count для таблиц, но не влияет при этом на pg_stat_all_indexes.idx_tup_fetch. Оптимизатор также обращается к индексам при использовании переданных констант, значения которых находятся за пределами имеющегося диапазона статистики оптимизатора, поскольку статистика оптимизатора может быть устаревшей.

Примечание
Значения счетчиков idx_tup_read и idx_tup_fetch могут отличаться даже без использования сканирований битовых карт, поскольку idx_tup_read подсчитывает записи индекса, извлеченные из индекса, в то время как idx_tup_fetch подсчитывает число живых строк, извлеченных из таблицы. Последнее значение будет меньше, если какие-либо мертвые или еще не зафиксированные строки извлекаются с использованием индекса или если какие-либо выборки из таблицы не производятся при выполнении сканирования только по индексу.

Таблица 16. Представление pg_statio_all_tables

колонка	Тип	Описание
relid	oid	OID таблицы
schemaname	name	Имя схемы, в которой находится эта таблица
relname	name	Имя этой таблицы
heap_blks_read	bigint	Количество дисковых блоков, прочитанных из этой таблицы
heap_blks_hit	bigint	Количество попаданий в буфер в этой таблице
idx_blks_read	bigint	Количество дисковых блоков, прочитанных по всем индексам в этой таблице
idx_blks_hit	bigint	Количество попаданий в буфер во всех индексах этой таблицы
toast_blks_read	bigint	Количество дисковых блоков, прочитанных из таблицы TOAST этой таблицы (если есть)
toast_blks_hit	bigint	Количество попаданий в буфер в таблице TOAST этой таблицы (если есть)
tidx_blks_read	bigint	Количество дисковых блоков, прочитанных из индексов таблицы TOAST этой таблицы (если есть)
tidx_blks_hit	bigint	Количество попаданий в буфер в индексах таблицы TOAST этой таблицы (если есть)

Представление pg_statio_all_tables будет содержать по одной строке для каждой таблицы в текущей базе данных (включая таблицы TOAST), показывая статистику ввода-вывода для этой конкретной таблицы. Представления pg_statio_user_tables и pg_statio_sys_tables содержат ту же информацию, но отображают только пользовательские и системные таблицы соответственно.

Таблица 17. Представление pg_statio_all_indexes

колонка	Тип	Описание
relid	oid	OID таблицы для этого индекса
indexrelid	oid	OID этого индекса
schemaname	name	Имя схемы, в которой находится этот индекс
relname	name	Имя таблицы для этого индекса
indexrelname	name	Наименование этого индекса
idx_blks_read	bigint	Количество дисковых блоков, прочитанных из этого индекса
idx_blks_hit	bigint	Количество попаданий в буфер в этом индексе

Представление pg_statio_all_indexes будет содержать по одной строке для каждого индекса в текущей базе данных, показывая статистику ввода-вывода для этого конкретного индекса. Представления pg_statio_user_indexes и pg_statio_sys_indexes содержат ту же информацию, но отфильтрованы так, чтобы показывать только пользовательские и системные индексы соответственно.

Таблица 18. Представление pg_statio_all_sequence

колонка	Тип	Описание
relid	oid	OID последовательности
schemaname	name	Имя схемы, в которой находится эта последовательность
relname	name	Имя этой последовательности
blks_read	bigint	Количество дисковых блоков, прочитанных из этой последовательности
blks_hit	bigint	Количество попаданий в буфер в этой последовательности

Представление pg_statio_all_sequence будет содержать по одной строке для каждой последовательности в текущей базе данных, показывая статистику ввода-вывода для этой конкретной последовательности.

Таблица 19. Представление pg_stat_user_functions

колонка	Тип	Описание
funcid	oid	OID функции
schemaname	name	Имя схемы, в которой находится эта функция
funcname	name	Имя этой функции
calls	bigint	Сколько раз эта функция была вызвана
total_time	double precision	Общее время, потраченное на эту функцию и все другие функции, вызываемые ею, в миллисекундах
self_time	double precision	Общее время, потраченное на саму функцию, не включая другие вызываемые ею функции, в миллисекундах

Представление pg_stat_user_functions будет содержать одну строку для каждой отслеживаемой функции, показывающую статистику о выполнении этой функции. Параметр track_functions определяет, какие именно функции отслеживаются.

Функции статистики

Другие способы просмотра статистики можно настроить, написав запросы, которые используют те же базовые функции доступа к статистике, которые используются стандартными представлениями, показанными выше. За подробностями, такими как имена функций, обращайтесь к определениям стандартных представлений. (Например, в qsql вы можете выполнить \\d+ pg\_stat\_activity.) Функции доступа к статистике для каждой базы данных принимают OID базы данных в качестве аргумента, чтобы определить, в какой базе данных будет выполняться их работа. Функции для каждой таблицы и для индекса принимают OID таблицы или индекса. Функции для статистики по функциям принимают функцию OID. Обратите внимание, что с этими функциями можно видеть только таблицы, индексы и функции лишь в текущей базе данных.

Дополнительные функции, связанные со сбором статистики, перечислены в таблице 20.

Таблица 20. Дополнительные статистические функции

функция	Return Type	Описание
pg_backend_pid()	integer	Идентификатор процесса сервера, обрабатывающего текущий сеанс
pg_stat_get_activity ( integer )	setof record	Возвращает запись информации о бэкэнде с указанным PID или одну запись для каждого активного бэкенда в системе, если указано NULL. Возвращенные поля являются подмножеством полей в представлении pg_stat_activity.
pg_stat_get_snapshot_timestamp()	timestamp with time zone	Возвращает время снимка текущей статистики
pg_stat_clear_snapshot()	void	Сбросить текущий снимок статистики
pg_stat_reset()	void	Сброс всех счетчиков статистики для текущей базы данных до нуля (по умолчанию требуются привилегии суперпользователя, но EXECUTE для этой функции может быть предоставлен другим.)
pg_stat_reset_shared (text)	void	Сброс некоторых счетчиков статистики для всего кластера на ноль, в зависимости от аргумента (по умолчанию требуются привилегии суперпользователя, но EXECUTE для этой функции может быть предоставлен другим). Вызов pg_stat_reset_shared (’bgwriter’) обнулит все счетчики, показанные в представлении pg_stat_bgwriter. Вызов pg_stat_reset_shared (’archiver’) обнулит все счетчики, показанные в представлении pg_stat_archiver.
pg_stat_reset_single_table_counters (oid)	void	Сброс статистики для отдельной таблицы или индекса в текущей базе данных до нуля (по умолчанию требуются привилегии суперпользователя, но EXECUTE для этой функции может быть предоставлен другим)
pg_stat_reset_single_function_counters (oid)	void	Сброс статистики для одной функции в текущей базе данных до нуля (по умолчанию требуются привилегии суперпользователя, но EXECUTE для этой функции может быть предоставлен другим)

pg_stat_get_activity, основная функция представления pg_stat_activity, возвращает набор записей, содержащих всю доступную информацию о каждом бэкэнд-процессе. Иногда бывает удобнее получить только часть этой информации. В таких случаях может использоваться более старый набор функций доступа к статистике на уровне серверных процессов; они приведены в таблице 21. Эти функции доступа используют идентификационный номер бэкэнда, который варьируется от одного до количества текущих активных бэкэндов. Функция pg_stat_get_backend_idset предоставляет удобный способ генерации одной строки для каждого активного бэкэнда для вызова этих функций. Например, чтобы показать PID и текущие запросы всех бэкэндов:

SELECT pg_stat_get_backend_pid(s.backendid) AS pid,
       pg_stat_get_backend_activity(s.backendid) AS query
    FROM (SELECT pg_stat_get_backend_idset() AS backendid) AS s;

Таблица 21. Статистические функции на уровне бэкэндов

функция	Return Type	Описание
pg_stat_get_backend_idset()	setof integer	Набор текущих активных идентификационных номеров бэкэнда (от 1 до количества активных бэкэндов)
pg_stat_get_backend_activity(integer)	text	Текст последнего запроса этого бэкэнда
pg_stat_get_backend_activity_start(integer)	timestamp with time zone	Время, когда был запущен самый последний запрос
pg_stat_get_backend_client_addr(integer)	inet	IP-адрес клиента, подключенного к этому бэкэнду
pg_stat_get_backend_client_port(integer)	integer	Номер порта TCP, который клиент использует для связи
pg_stat_get_backend_dbid(integer)	oid	OID базы данных, с которой связан этот бэкэнд
pg_stat_get_backend_pid(integer)	integer	Идентификатор процесса этого бэкэнда
pg_stat_get_backend_start(integer)	timestamp with time zone	Время, когда этот процесс был запущен
pg_stat_get_backend_userid(integer)	oid	OID пользователя, подключенного к этому бэкэнду
pg_stat_get_backend_wait_event_type(integer)	text	Имя типа события ожидания, если бэкэнд в данный момент ожидает, иначе NULL. См. Таблицу 4 для получения деталей.
pg_stat_get_backend_wait_event(integer)	text	Имя события ожидания, если бэкэнд в данный момент ожидает, иначе NULL. См. Таблицу 4 для получения деталей.
pg_stat_get_backend_xact_start(integer)	timestamp with time zone	Время начала текущей транзакции

Просмотр блокировок

Еще одним полезным инструментом для мониторинга активности базы данных является системная таблица pg_locks. Это позволяет администратору базы данных просматривать информацию о блокировках в менеджере блокировок. Например, эту возможность можно использовать для того, чтобы:

Просмотреть все имеющиеся блокировки, все блокировки отношений в конкретной базе данных, все блокировки определенного отношения или все блокировки, удерживаемые определенным сеансом QHB .
Определить отношение в текущей базе данных с наибольшим количеством блокировок (которые могут быть источником проблем среди пользователей базы данных).
Определить влияние конкуренции за блокировку на общую производительность базы данных, а также как меняется конкуренция в зависимости от общей нагрузки базы данных.

Детали представления pg_locks см. в разделе pg_locks. Для получения дополнительной информации о блокировке и управлении параллелизмом с QHB обратитесь к главе Параллельный контроль.

Отчеты о ходе выполнения команд

QHB имеет возможность сообщать о ходе выполнения определенных команд во время их выполнения. В настоящее время командами, которые поддерживают отчеты о ходе выполнения, являются CREATE INDEX, VACUUM и CLUSTER. Этот список может быть расширен в будущем.

Отчет о ходе выполнения CREATE INDEX

Для каждой выполняемой команды CREATE INDEX или REINDEX представление pg_stat_progress_create_index будет содержать одну строку для каждого из бэкэндов, создающих в данный момент индексы. Таблицы ниже описывают информацию, которая будет выведена, и предоставляют информацию о том, как ее интерпретировать.

Таблица 22. Просмотр pg_stat_progress_create_index

колонка	Тип	Описание
pid	integer	Идентификатор процесса бэкэнда.
datid	oid	OID базы данных, с которой связан этот бэкэнд.
datname	name	Имя базы данных, с которой связан этот бэкэнд.
relid	oid	OID таблицы, для которой создается индекс.
index_relid	oid	OID создаваемого или переиндексированного индекса. Во время выполнения CREATE INDEX в неблокирующем режиме значение 0.
command	text	Команда, которая выполняется: CREATE INDEX, CREATE INDEX CONCURRENTLY, REINDEX или REINDEX CONCURRENTLY.
phase	text	Текущая фаза обработки создания индекса. Смотри таблицу 23.
lockers_total	bigint	Общее число процессов, требующих ожидания, когда они есть.
lockers_done	bigint	Число процессов, которые завершили ожидание.
current_locker_pid	bigint	Идентификатор процесса, удерживающего блокировку в данный момент.
blocks_total	bigint	Общее количество блоков, подлежащих обработке.
blocks_done	bigint	Количество блоков, уже обработанных на текущем этапе.
tuples_total	bigint	Общее количество кортежей, которые должны быть обработаны в текущей фазе.
tuples_done	bigint	Количество кортежей, уже обработанных в текущей фазе.
partitions_total	bigint	При создании индекса для партицированной таблицы в этом столбце указывается общее количество партиций, для которых создается индекс.
partitions_done	bigint	При создании индекса для партицированной таблицы в этом столбце указывается количество партиций, для которых индекс был заполнен.

Таблица 23. Фазы CREATE INDEX

Фаза	Описание
initializing	Инициализация. CREATE INDEX или REINDEX готовится к созданию индекса. Ожидается, что этот этап будет очень коротким.
waiting for writers before build	Ожидание окончания записи перед построением. CREATE INDEX CONCURRENTLY или REINDEX CONCURRENTLY ожидает транзакции с блокировками записи, которые могут читать таблицу. Эта фаза пропускается, когда идет работа в неблокирующем режиме. Столбцы lockers_total, lockers_done и current_locker_pid содержат информацию о ходе выполнения этой фазы.
building index	Построение индекса. Индекс строится с помощью кода, реализующего метод доступа. На этом этапе методы доступа, которые поддерживают отчеты о ходе выполнения, заполняют свои собственные данные о ходе выполнения, и в этом столбце указывается внутренняя фаза. Как правило, данные о ходе выполнения будут содержать столбцы blocks_total и blocks_done, а также могут меняться значения в столбцах tuples_total и tuples_done.
waiting for writers before validation	Ожидание окончания записи перед проверкой. CREATE INDEX CONCURRENTLY или REINDEX CONCURRENTLY ожидают транзакции с блокироваками записей, которые потенциально могут завершить обновление данных в таблице. Эта фаза пропускается при выполнении операции в неблокирующем режиме. Столбцы lockers_total, lockers_done и current_locker_pid содержат информацию о ходе выполнения этой фазы.
index validation: scanning index	Проверка индекса: сканирование. CREATE INDEX CONCURRENTLY сканирует индекс в поисках кортежей, которые необходимо проверить. Эта фаза пропускается, когда не в параллельном режиме. Столбцы blocks_total (для общего размера индекса) и blocks_done содержат информацию о ходе выполнения этой фазы.
index validation: sorting tuples	Проверка индекса: сортировка кортежей. CREATE INDEX CONCURRENTLY сортирует выходные данные фазы сканирования индекса.
index validation: scanning table	Проверка индекса: сканирование таблицы. CREATE INDEX CONCURRENTLY сканирует таблицу для проверки кортежей индексов, собранных на предыдущих двух этапах. Эта фаза пропускается, когда не в параллельном режиме. Столбцы blocks_total (для общего размера таблицы) и blocks_done содержат информацию о ходе выполнения этой фазы.
waiting for old snapshots	Ожидание старых снимков. CREATE INDEX CONCURRENTLY или REINDEX CONCURRENTLY ожидает транзакций, которые потенциально могут увидеть таблицу, чтобы выпустить их моментальные снимки. Эта фаза пропускается при выполнении операции в неблокирующем режиме. Столбцы lockers_total, lockers_done и current_locker_pid содержат информацию о ходе выполнения этой фазы.
waiting for readers before marking dead	Ожидание завершения чтения перед отключением старого индекса. REINDEX CONCURRENTLY ожидает завершение транзакций, удерживающих блокировки чтения, прежде чем пометить старый индекс как нерабочий. Эта фаза пропускается при выполнении операции в неблокирующем режиме. Столбцы lockers_total, lockers_done и current_locker_pid содержат информацию о ходе выполнения этой фазы.
waiting for readers before dropping	Ожидание завершения чтения перед удалением старого индекса. REINDEX CONCURRENTLY ожидает завершение транзакций, удерживающих блокировки чтения, прежде чем удалить старый индекс. Эта фаза пропускается при выполнении операции в неблокирующем режиме. Столбцы lockers_total, lockers_done и current_locker_pid содержат информацию о ходе выполнения этой фазы.

Отчет о ходе выполнения VACUUM

Всякий раз, когда VACUUM работает, представление pg_stat_progress_vacuum будет содержать одну строку для каждого бэкэнда (включая рабочие процессы автоочистки), который в данный момент производит очистку. Таблицы ниже описывают информацию, которая будет предоставлена, и поясняют, как ее интерпретировать. О ходе выполнения команд VACUUM FULL сообщается через pg_stat_progress_cluster поскольку VACUUM FULL и CLUSTER перезаписывают таблицу, в то время как обычный VACUUM только изменяет ее на месте. См. раздел Отчет о ходе выполнения CLUSTER.

Таблица 24. Просмотр pg_stat_progress_vacuum

колонка	Тип	Описание
pid	integer	Идентификатор процесса бэкэнда.
datid	oid	OID базы данных, с которой связан этот бэкэнд.
datname	name	Имя базы данных, с которой связан этот бэкэнд.
relid	oid	OID стола пылесосят.
phase	text	Текущая фаза обработки вакуума. Смотри Таблицу 25.
heap_blks_total	bigint	Общее количество блоков кучи в таблице. Этот номер сообщается с начала сканирования; добавленные позже блоки не будут (и не обязательно) посещаться этим VACUUM.
heap_blks_scanned	bigint	Количество отсканированных блоков кучи. Поскольку карта видимости используется для оптимизации сканирования, некоторые блоки будут пропущены без проверки; пропущенные блоки включены в это общее количество, так что это число в конечном итоге станет равным heap_blks_total когда вакуум будет завершен. Этот счетчик активируется только тогда, когда фаза scanning heap.
heap_blks_vacuumed	bigint	Количество блоков кучи вакуумировано. Если таблица не имеет индексов, этот счетчик увеличивается только тогда, когда фаза vacuuming heap. Блоки, которые не содержат мертвых кортежей, пропускаются, поэтому счетчик может иногда пропускать вперед с большими приращениями.
index_vacuum_count	bigint	Количество выполненных индексных вакуумных циклов.
max_dead_tuples	bigint	Количество мертвых кортежей, которые мы можем сохранить перед выполнением цикла индекса вакуума, основываясь на maintenance_work_mem.
num_dead_tuples	bigint	Количество мертвых кортежей, собранных с момента последнего индекса вакуумного цикла.

Таблица 25. Фазы VACUUM

фаза	Описание
initializing	VACUUM готовится начать сканирование кучи. Ожидается, что этот этап будет очень коротким.
scanning heap	VACUUM в настоящее время сканирует кучу. Он будет обрезать и дефрагментировать каждую страницу, если потребуется, и, возможно, выполнять замораживание. heap_blks_scanned можно использовать для отслеживания хода сканирования.
vacuuming indexes	VACUUM в настоящее время пылесосит индексы. Если в таблице есть какие-либо индексы, это будет происходить как минимум один раз за вакуум после полного сканирования кучи. Это может происходить несколько раз за вакуум, если maintenance_work_mem недостаточно для хранения количества найденных мертвых кортежей.
vacuuming heap	VACUUM в настоящее время пылесосит кучу. Вакуумирование кучи отличается от сканирования кучи и происходит после каждого случая очистки индексов. Если heap_blks_scanned меньше, чем heap_blks_total, система вернется к сканированию кучи после завершения этой фазы; в противном случае он начнет очищать индексы после завершения этой фазы.
cleaning up indexes	VACUUM в настоящее время очищает индексы. Это происходит после того, как куча была полностью отсканирована и вся очистка индексов и кучи была завершена.
truncating heap	VACUUM в настоящее время урезает кучу, чтобы вернуть пустые страницы в конце отношения к операционной системе. Это происходит после очистки индексов.
performing final cleanup	VACUUM выполняет окончательную очистку. На этом этапе VACUUM будет пылесосить карту свободного пространства, обновлять статистику в pg_class и сообщать статистику pg_class статистики. Когда эта фаза будет завершена, VACUUM закончится.

Отчет о ходе выполнения CLUSTER

Всякий раз, когда CLUSTER или VACUUM FULL работает, представление pg_stat_progress_cluster будет содержать строку для каждого бэкэнда, который в данный момент выполняет любую из команд. Таблицы ниже описывают информацию, которая будет сообщена, и предоставляют информацию о том, как ее интерпретировать.

Таблица 26. просмотр pg_stat_progress_cluster

Колонка	Тип	Описание
pid	integer	Идентификатор процесса бэкэнда.
datid	oid	OID базы данных, с которой связан этот бэкэнд.
datname	name	Имя базы данных, с которой связан этот бэкэнд.
relid	oid	OID кластеризованной таблицы.
command	text	Команда, которая выполняется. Либо CLUSTER либо VACUUM FULL.
phase	text	Текущая фаза обработки. Смотри Таблицу 27.
cluster_index_relid	oid	Если таблица сканируется с использованием индекса, это OID используемого индекса; в противном случае это ноль.
heap_tuples_scanned	bigint	Количество отсканированных кучи. Этот счетчик увеличивается только тогда, когда фаза является последовательной seq scanning heap, index scanning heap или writing new heap.
heap_tuples_written	bigint	Количество написанных кучи кортежей. Этот счетчик увеличивается только тогда, когда фаза является последовательной seq scanning heap, index scanning heap или writing new heap.
heap_blks_total	bigint	Общее количество блоков кучи в таблице. Это число сообщается как начало seq scanning heap.
heap_blks_scanned	bigint	Количество отсканированных блоков кучи. Этот счетчик активируется только тогда, когда фаза является последовательной seq scanning heap.
index_rebuild_count	bigint	Количество перестроенных индексов. Этот счетчик увеличивается только тогда, когда фаза rebuilding index.

Таблица 27. Фазы CLUSTER и VACUUM FULL

Фаза	Описание
initializing	Команда готовится начать сканирование кучи. Этот этап должен быть очень коротким.
seq scanning heap	Команда сканирует таблицу с использованием последовательного сканирования.
index scanning heap	CLUSTER в настоящее время сканирует таблицу, используя сканирование индекса.
sorting tuples	CLUSTER в настоящее время сортирует кортежи.
writing new heap	CLUSTER в настоящее время пишет новую кучу.
swapping relation files	В настоящее время команда встраивает вновь созданные файлы.
rebuilding index	В настоящее время команда перестраивает индекс.
performing final cleanup	Команда выполняет окончательную очистку. Когда эта фаза будет завершена, CLUSTER или VACUUM FULL завершатся.

Метрики QHB

Общие замечания

В настоящее время метрики в QHB собираются на уровне всего кластера баз данных и относятся ко всему набору процессов QHB, независимо от того, являются ли они фоновыми или поддерживающими пользовательские подключения. Данные метрик поступают в сборщик и агрегатор метрик metricsd, далее агрегируются и записываются в Graphite, в качестве интерфейса к которому выступает Grafana.

Типы метрик

Gauge. Неотрицательное целое значение. Может быть установлено, увеличено или уменьшено на заданное число.
Counter. Неотрицательное целое значение. Может быть только увеличено на заданное число.
Timer. Неотрицательное целое значение, длительность в наносекундах. Значение может быть только записано, во время агрегации вычисляется ряд статистических характеристик:
- sum. Сумма значений
- count. Число записанных значений
- max. Максимальное из записанных значений
- min. Минимальное из записанных значений
- mean. Арифметическое среднее
- median. Медиана
- std. Стандартное квадратичное отклонение
- Опционально, список перцентилей

Группы метрик

Системные метрики

Сбор системных метрик регулируется двумя глобальными константами:

qhb_os_monitoring - логическая константа, по умолчанию значение off. При значении on выполняется периодический сбор метрик.
qhb_os_stat_period - период сбора системной статистики в секундах, по умолчанию 30 секунд.

Загрузка и CPU

Наименование	Описание	Тип метрики
sys.load_average.1min	load average за последнюю минуту	gauge
sys.load_average.5min	то же за последние 5 минут	gauge
sys.load_average.15min	то же за последние 15 минут	gauge
sys.cpu.1min	Процент загрузки процессоров за последнюю минуту	gauge
sys.cpu.5min	то же за последние 5 минут	gauge
sys.cpu.15min	то же за последние 15 минут	gauge

Примечание
Значения метрик load average содержат значения с точностью до сотых, однако при передаче данных в силу технических особенностей исходные значения умножаются на 100 и передаются как целые. Поэтому необходимо при выводе данных учитывать эту особенность и делить значения на 100.

load average - усреднённое количество исполняемых и ожидающих потоков за заданный интервал времени (1, 5 и 15 минут). Обычно соответствующие значения выводятся через команды uptime, top либо cat /proc/loadavg Чтобы детальнее ознакомиться с особенностями, связанными с этим показателем, можно ознакомиться с переводом статьи Brendan Gregg: https://habr.com/ru/company/mailru/blog/335326

Если значение этого показателя за последнюю минуту больше, чем за последние 5 и 15 минут, нагрузка растет, если меньше - падает. Однако, этот показатель важен не сам по себе, а по отношению к общему числу процессоров. Дополнительные и производные от load average метрики по загрузке процессоров sys.cpu.min показывают приблизительный процент загрузки процессоров с учетом их количества и рассчитываются по следующей упрощенной формуле:

sys.cpu.<N>min = sys.load_average.<N>min / cpu_count * 100
где cpu_count - количество процессоров в системе, а N принимает значения 1,5 или 15.

Количество процессоров рассчитывается как произведение количества физических сокетов, ядер на сокет и нитей на ядро. Команда lscpu выводит все необходимые данные в следующих строках (пример вывода):

Thread(s) per core:              2
Core(s) per socket:              4
Socket(s):                       1

В данном случае cpu_count = 2 * 4 * 1 = 8.

Альтернативным и более простым методом может быть получение этого значения через команду nproc.

Таким образом, загрузка в 100% будет достигнута в данном случае, если величина load average будет стремиться к 8. Однако, эти расчеты и значения будут иметь довольно приблизительный и даже условный характер, что показывает приведенная выше по ссылке статья.

Использование памяти

Наименование	Описание	Тип метрики
sys.mem.total	общий размер установленной памяти RAM	gauge
sys.mem.used	используемая память	gauge
sys.mem.free	неиспользуемая память	gauge
sys.mem.available	память, доступная для запускаемых приложений (не включая swap, но учитывая потенциально освобождаемую память, занимаемую страничным кэшем)	gauge
sys.swap.total	общий размер файла подкачки	gauge
sys.swap.free	неиспользуемая память файла подкачки	gauge

Значения метрик соответствуют следующим полям из вывода утилиты free (значения в kB, т.е. соответствуют выводу free -k):

Метрика	Поле утилиты free
sys.mem.total	Mem:total
sys.mem.used	Mem:used
sys.mem.free	Mem:free
sys.mem.available	Mem:available
sys.swap.total	Swap:total
sys.swap.free	Swap:free

Величину, соответствующую выводимому в утилите free значению Mem:buff/cache, можно рассчитать по формуле:

Mem:buff/cache = Mem:total - Mem:used - Mem:free

Таким образом, в Графане можно, используя функцию diffSeries, рассчитывать и выводить это значение на основании других имеющихся данных.

Значение Mem:shared (данные виртуальной файловой системы tmpfs) не выводится через метрики.

Значение Swap:used можно рассчитать по формуле:

Swap:used = Swap:total - Swap:free

Это значение можно выводить в Графане также в виде рассчитываемой величины через функцию diffSeries.

Более детальное описание этих показателей может быть получено через справочную систему операционной системы для утилиты free (Для этого вызовите man free).

Использование дискового пространства

Наименование	Описание	Тип метрики
sys.disk_space.total	объем дисковой системы, на которой находится каталог с данными (в байтах)	gauge
sys.disk_space.free	свободное пространство дисковой системы, на которой находится каталог с данными (в байтах)	gauge

Метрики относятся к дисковой системе, на которой расположен каталог с файлами базы данных. Этот каталог определяется параметром командной строки -D при запуске базы данных либо переменной среды $PGDATA. Параметр data_directory в файле параметров qhb.conf может переопределять расположение каталога с данными.

Другие системные метрики

Наименование	Описание	Тип метрики
sys.processes	общее количество запущенных в системе процессов	gauge
sys.uptime	количество секунд, прошедших с начала запуска системы	gauge

Метрики по вводу-выводу

Метрики чтения блоков на уровне инстанса QHB

Наименование	Описание	Тип метрики
qhb.db_stat.blocks_fetched	количество полученных при чтении блоков	counter
qhb.db_stat.blocks_hit	количество блоков, найденных в кэше при чтении	counter
qhb.db_stat.blocks_read_time	время чтения блоков, в миллисекундах	counter
qhb.db_stat.blocks_write_time	время чтения блоков, в миллисекундах	counter

На основании метрик qhb.db_stat.blocks_fetched и qhb.db_stat.blocks_hit рассчитывается коэффициент попадания в кэш:
k = blocks_hit / blocks_fetched * 100% Хорошим уровнем обычно считается значение более 90%. Если значение коэффициента существенно ниже этой отметки, желательно рассмотреть возможность увеличения объема буферного кэша.

Метрики процесса bgwriter

Наименование	Описание	Тип метрики
qhb.bgwr.checkpoints_timed	количество запланированных контрольных точек, которые были выполнены	counter
qhb.bgwr.checkpoints_req	количество запрошенных контрольных точек, выполненных вне очереди запланированных	counter
qhb.bgwr.checkpoint_write_time	время, потраченное на этап обработки контрольной точки, где файлы записываются на диск, в миллисекундах	counter
qhb.bgwr.checkpoint_sync_time	количество времени, потраченное на часть обработки контрольной точки, где файлы синхронизируются с диском, в миллисекундах	counter
qhb.bgwr.buffers_checkpoint	количество буферов, записанных во время контрольных точек	counter
qhb.bgwr.buffers_clean	количество буферов, записанных фоновым процессом записи	counter
qhb.bgwr.maxwritten_clean	количество раз, когда процесс записи в фоновом режиме останавливал сброс грязных страниц, поскольку записывал слишком много буферов	counter
qhb.bgwr.buffers_backend	количество буферов, записанных непосредственно бэкэндом	counter
qhb.bgwr.buffers_backend_fsync	сколько раз бэкэнд выполнял вызов fsync сам (обычно их обрабатывает фоновый процесс записи, даже когда бэкэнд выполняет запись самостоятельно)	counter
qhb.bgwr.buffers_alloc	количество выделенных буферов	counter

Данные по перечисленным метрикам отображаются в разделе "Контрольные точки и операции с буферами" дашборда "QHB". Обычно при выполнении запланированных контрольных точек сначала происходит запись информации о начале контрольной точки, затем в течение некоторого времени идет сброс блоков на диск и по окончании контрольной точки фиксируется информация о продолжительности записи и синхронизации данных. В случае обработки запланированной контрольной точки запись блоков равномерно распределяется во времени согласно параметрам настройки, чтобы снизить влияние этого процесса на общий ввод-вывод. При запрошенных через команду контрольных точках сброс блоков происходит сразу, без искусственной задержки.

Метрики процесса архивации WAL-файлов

Наименование	Описание	Тип метрики
qhb.wal.archived	количество успешно выполненных операций архивации WAL-файлов	counter
qhb.wal.failed	количество попыток архивации, завершившихся сбоем	counter
qhb.wal.archive_time	время, потраченное на копирование файлов журналов, в наносекундах	counter

Эти метрики работают в том случае, если настроена архивация WAL. Для этого необходимо установить archive_mode в значение on и определить команду архивации в параметре archive_command.

Метрики по транзакциям

Метрики по завершениям и отменах транзакций. Данные метрик собираются непосредственно при выполнении команд завершения и отмены транзакций на уровне всего кластера баз данных

Наименование	Описание	Тип метрики
qhb.transaction.commit	количество фиксаций транзакций	counter
qhb.transaction.rollback	количество отмен транзакций	counter
qhb.transaction.deadlocks	количество дедлоков	counter

Коэффициент подтверждения транзакций рассчитывается как процентное отношение успешных завершений транзакций к сумме подтверждений и откатов транзакций:

k = commit/(commit + rollback)*100%

Обычно значение стремится к 100%, т.к. чаще всего транзакции завершаются успешно. Существенная доля отмен транзакций может говорить о том, что в системе существуют проблемы.

Дедлоки возникают при взаимных блокировках, когда между различными сессиями возникают ситуации взаимного ожидания освобождения заблокированных данных. В этом случае после автоматического определения дедлока происходит отмена одной из транзакций.

Метрики событий ожиданий

Данный набор метрик полностью соответствует набору стандартных событий ожидания. Метрики имеют префикс qhb.wait. Далее в наименовании идет класс события ожидания и через точку название события ожидания. В текщем релизе имена метрик ограничены в размере и имеют в наименовании максимум 31 символ. Все метрики по событиям ожиданий имеют тип counter, однако, значение содержит продолжительность времени в микросекундах, которые эти ожидания заняли в совокупности во всех сессиях за период агрегации.

Примечание
Если в течение периода наблюдения работало множество пользовательских подключений, которые находились в состоянии ожидания, суммарное значение времени ожидания может многократно превзойти этот период. Например, если в течение 10 секунд 1000 сессий провели в ожиданиях по одной секунде, суммарное время ожиданий составит 1000 секунд.

Метрики с типами событий ожидания Lock, LWLock, IO и IPC отображаются в разделе "События ожидания" дашборда QHB. Значения метрик выводятся в микросекундах (автоматически переводясь в другие единицы при увеличении значений). На существующих графиках выводятся не все события ожиданий, а только по пять самых значимых по величине на каждом графике. Разные события ожиданий могут иметь сильно отличающиеся по величине продолжительности. Значительные колебания значений могут отражать возникающие проблемы.

Наиболее значимые события ожиданий

Lock.extend, ожидание расширения отношения. Становится заметным при активном росте таблиц. Необходимость выделения новых блоков приводит к некоторым задержкам, которые отражаются в этой метрике.
Lock.transactionid, ожидание завершения транзакции. Событие ожидания возникает в том случае, если транзакция вынуждена ждать окончания обработки предыдущих транзакций, которые также получают подтверждение своего окончания.
Lock.tuple, ожидание получения блокировки для кортежа. Возникает в случае одновременной работы с теми же данными нескольких транзакций.
LWLock.WALWriteLock, ожидание записи буферов WAL на диск. Часто является лидером среди событий ожиданий этого типа, т.к. операции с диском являются наиболее медленными в этой группе событий ожидания.
LWLock.wal_insert, ожидание вставки WAL в буфер памяти.
LWLock.buffer_content, ожидание чтения или записи страницы данных в памяти. Возникает и становится существенным при интенсивном вводе-выводе.
LWLock.buffer_mapping, ожидание связывания блока данных с буфером в буферном пуле.
LWLock.lock_manager, ожидание добавления или проверки блокировок для бэкэндов. Событие становится значимым при частых транзакциях.

Метрики буферного менеджера

Ниже представлены метрики, касающиеся механизмов управления памятью.

Наименование	Операция	Описание	Тип метрики	Агрегат
qhb.bufmgr.BufferAlloc	чтение данных	количество поисков буфера	timer	count
qhb.bufmgr.BufferAlloc	чтение данных	сумма времени на поиск буфера	timer	sum
qhb.bufmgr.happy_path	чтение данных	количество поисков, когда буфер нашёлся сразу	timer	count
qhb.bufmgr.happy_path	чтение данных	сумма времени на поиск, когда буфер нашёлся сразу	timer	sum
qhb.bufmgr.cache_miss	чтение данных	количество промахов кеша буферов	timer	count
qhb.bufmgr.cache_miss	чтение данных	сумма времени обработки промахов кеша буферов	timer	sum
qhb.bufmgr.disk_read	чтение данных	количество чтений страницы с диска (асинхронно)	timer	count
qhb.bufmgr.flush_dirty	чтение данных	количество выгрузки страницы на диск (асинхронно)	timer	count
qhb.bufmgr.retry_counter	чтение данных	количество повторных обработок промаха	counter
qhb.bufmgr.strategy_pop_cnt	чтение данных	количество срабатываний специальной стратегии получения или вытеснения буфера	counter
qhb.bufmgr.strategy_reject_cnt	чтение данных	количество забракованных буферов, предложенных специальной стратегией	counter
tarq_cache.allocate	чтение данных	количество поисков в TARQ	timer	count
tarq_cache.allocate	чтение данных	сумма времени на поиск в TARQ	timer	sum
tarq_cache.allocate_new	чтение данных	количество выборов исключаемого блока в TARQ	timer	count
tarq_cache.rollback	чтение данных	количество откатов вытеснения в TARQ	timer	count
tarq_cache.rollback	чтение данных	сумма времени на откаты вытеснения в TARQ	timer	sum
tarq_cache.touch	чтение данных	сумма времени на учёт популярных страниц в TARQ	timer	sum

Метрики пула соединений QCP

Ниже описаны метрики пула соединений, характеризующие работу пула.

Наименование	Операция	Описание	Тип метрики
backend_held	выполнение запроса	время, в течение которого qcp удерживает соединение к серверу привязанным к какому-то клиенту	timer
queue	выполнение запроса	количество запросов в очереди на текущий момент	gauge
relay.wait_request	выполнение запроса	время ожидания получения запроса от клиента	timer
relay.wait_response	выполнение запроса	время ожидания ответа на запрос от сервера	timer

Дашборды метрик QHB для Grafana

Дашборды QHB для Grafana расположены в репозитории по следующей ссылке.

QHB поставляется совместно с сервером метрик, который записывает данные метрик в Graphite и интерфейсом к которым служит Grafana. Текущий набор дашбордов для Grafana поставляется в качестве самодокументируемых образцов, на основе которых пользователи, при необходимости, могут самостоятельно создать дашборда, более соответствующие их потребностям. Вместе с тем, поставляемые дашборды могут использоваться и в исходном виде.

Импорт дашбордов

Экспорт JSON-описания дашбордов выполнен в Grafana 6.7.2.

Перед импортом JSON-описания необходимо решить, будут ли названия метрик содержали в качестве префикса имя хоста. Именно таким образом устроены наименования метрик внутри дашбордов и этот вариант рекомендуется оставить. В начале имен метрик добавлена переменная $server_name, по умолчанию для нее выбрано значение your_host_name. Перед импортом можно заменить в JSON-файлах это значение на наименование одного из хостов. В дальнейшем в этой переменной через интерфейс Grafana можно будет добавить через запятую все имена хостов, с которых будут собираться метрики. Это позволит быстро переключаться при просмотре метрик с одного хоста на другой. Если такая схема использоваться не будет (в случае, если метрики будут использоваться с единственного хоста), можно удалить в файлах JSON во всех именах метрик префикс $server_name до проведения импорта описания JSON. Однако, это более трудоемкий вариант и его выбирать не рекомендуется.

Для импорта описаний дашбордов необходимо выполнить следующие шаги:

В меню "Dashboards" вашего сайта Grafana выбрать пункт "Manage".
В открывшемся списке папок и дашбордов выбрать существующую или создать новую папку.
Находясь в выбранной папке, выбрать в правой верхней части страницы пункт "Import".
На открывшейся странице можно либо нажать справа вверху кнопку "Upload .json file" и загрузить файл либо вставить содержание JSON-файла в поле под заголовком "Or paste JSON" и нажать кнопку "Load". После этого нужно заполнить необходимые параметры и выполнить загрузку JSON-описания.

Дашборд "Операционная система"

Дашборд представляет основные системные показатели:

Время работы инстанаса QHB
Load Average
Исполользование CPU
Использование памяти
Использование дисковой системы, на которой расположен каталог баз данных

Дашборд "QHB"

Дашборд содержит несколько разделов:

Транзакции
Чтение и запись блоков
События ожидания
Контрольные точки и операции с буферами
Архивация WAL

В каждом разделе представлены наборы тематических панелей, отражающие основные показатели.

Настройка сбора метрик

Для того, чтобы дашборды отображали данные метрик, необходимо выполнить некоторые настройки.

Настройка сервера метрик

Настройка сервера метрик описана в разделе Сервер метрик.
Рекомендуется в параметре prefix конфига /etc/metricsd/config.yaml сервера метрик прописать имя хоста, на котором он работает. Если сделать это для каждого сервера, все метрики будут организованы иерархически, и первый уровень иерархии будет уровнем серверов. В именах метрик в предлагаемых дашбордах для этих целей присутствует переменная $server_name. Подразумевается, что на хосте работает только один кластер баз данных.

Настройка параметров базы данных

Для настройки отправки метрик необходимо в qhb.conf указать параметр metrics_collector_id в значение, с которым запускается сборщик метрик, например, 1001 (актуально до релиза QHB 1.3.0). Начиная с релиза QHB 1.3.0 вместо metrics_collector_id используется collector_addr, по умолчанию имеет значение @metrics-collector (представляет собой адрес unix domain socket'а), сервер метрик по умолчанию запускается именно на этом адресе.

Для настройки отправки аннотаций необходимо в qhb.conf прописать следующие параметры:
grafana.address - адрес Графаны, например http://localhost:3000
grafana.token - необходимо указать токен, полученный в Графане по адресу http://localhost:3000/org/apikeys

Пример настроек в qhb.conf для отправки метрик и аннотаций

# До релиза QHB 1.3.0
# metrics_collector_id = 1001  

# С релиза QHB 1.3.0:
collector_addr = @metrics-collector

grafana.address = 'http://localhost:3000'
grafana.token = 'eyJrIjoiNGxTaloxMUNTQkFUMTN0blZqUTN6REN6OWI5YjM1MzMiLCJuIjoidGVzdCIsImlkIjoxfQ=='

Для сбора системных метрик (Дашборд "Операционная система") необходимо установить параметр qhb_os_monitoring в значение on. Можно также задать период сбора системной статистики qhb_os_stat_period, значение по умолчанию которого равно 30 секундам. Не рекомендуется задавать слишком низкое значение для этого параметра, т.к. сбор системной статистики требует некоторых ресурсов.

В файле параметров можно прописать:

qhb_os_monitoring = on
qhb_os_stat_period = 60 # если период по умолчанию в 30 секунд не устраивает

Либо выполнить команды:

alter system set qhb_os_monitoring = on;
alter system set qhb_os_stat_period = 60;
select pg_reload_conf();

Примеры использования метрик в SQL-функциях

Помимо встроенных метрик, пользователи могут использовать свои метрики через следующие функции SQL.

Тип метрик Timer

Используется при фиксации промежутка времени, единицы измерения - наносекунды.

select qhb_timer_report('qhb.timer.nano',10000000000 /* 10 секунд в наносекундах */);

Тип метрик Counter

Используется, когда нужно зафиксировать количество произошедших за промежуток времени событий.

select qhb_counter_increase_by('qhb.example.counter',10);

Тип метрик Gauge

Используется, когда нужно установить некий статичный показатель в определенное значение или изменить его.

select qhb_gauge_update('qhb.gauge_example.value', 10); /* Установка значения */  
select qhb_gauge_add('qhb.gauge_example.value',1); /* Увеличение значения */  
select qhb_gauge_sub('qhb.gauge_example.value',1); /* Уменьшение значения */

Аннотации

Используются, если нужно добавить комментарий к данным метрик. Первый параметр функции - текст комментария, последующие параметры - теги.

select qhb_annotation('Начало выполнения теста', 'test','billing'); /* Текст аннотации и два тега */

Мониторинг использования диска

В этой главе рассказывается, как отслеживать использование диска в системе баз данных QHB.

Определение использования диска

У каждой таблицы есть основной файл кучи, где хранится большая часть данных. Если в таблице есть какие-либо столбцы с потенциально широкими значениями, также может быть файл TOAST, связанный с таблицей, который используется для хранения значений, которые слишком широки, чтобы удобно помещаться в основной таблице (см. раздел TOAST). В таблице TOAST будет один действительный индекс, если он есть. Также могут быть индексы, связанные с базовой таблицей. Каждая таблица и индекс хранятся в отдельном файле на диске - возможно, в нескольких файлах, если размер файла превышает один гигабайт. Соглашения об именах этих файлов описаны в разделе Структура файлов базы данных.

Вы можете отслеживать дисковое пространство тремя способами: с помощью функций SQL, перечисленных в разделе Функции управления объектами базы данных, с помощью модуля oid2name или с помощью ручной проверки системных каталогов. Функции SQL являются самыми простыми в использовании и обычно рекомендуются. В оставшейся части этого раздела показано, как это сделать путем проверки системных каталогов.

Используя qsql в недавно очищенной или проанализированной базе данных, вы можете создавать запросы, чтобы увидеть использование диском любой таблицы:

SELECT pg_relation_filepath(oid), relpages FROM pg_class WHERE relname = 'customer';

 pg_relation_filepath | relpages
----------------------+----------
 base/16384/16806     |       60
(1 row)

Каждая страница обычно составляет 8 килобайт. (Помните, что relpages обновляется только с помощью VACUUM, ANALYZE и нескольких команд DDL, таких как CREATE INDEX). Путь к файлу представляет интерес, если вы хотите проверить файл таблицы непосредственно.

Чтобы показать пространство, используемое таблицами TOAST, используйте запрос, подобный следующему:

SELECT relname, relpages
FROM pg_class,
     (SELECT reltoastrelid
      FROM pg_class
      WHERE relname = 'customer') AS ss
WHERE oid = ss.reltoastrelid OR
      oid = (SELECT indexrelid
             FROM pg_index
             WHERE indrelid = ss.reltoastrelid)
ORDER BY relname;

       relname        | relpages
----------------------+----------
 pg_toast_16806       |        0
 pg_toast_16806_index |        1

Вы также можете легко отобразить размеры индекса:

SELECT c2.relname, c2.relpages
FROM pg_class c, pg_class c2, pg_index i
WHERE c.relname = 'customer' AND
      c.oid = i.indrelid AND
      c2.oid = i.indexrelid
ORDER BY c2.relname;

      relname      | relpages
-------------------+----------
 customer_id_index |       26

С помощью этой информации легко найти самые большие таблицы и индексы:

SELECT relname, relpages
FROM pg_class
ORDER BY relpages DESC;

       relname        | relpages
----------------------+----------
 bigtable             |     3290
 customer             |     3144

Ошибка диска

Самая важная задача администратора диска для администратора базы данных - убедиться, что диск не переполнен. Заполненный диск с данными не приведет к повреждению данных, но может помешать выполнению полезных действий. Если диск с файлами WAL заполнится, может возникнуть паника сервера базы данных и последующее отключение.

Если вы не можете освободить дополнительное место на диске, удалив другие объекты, вы можете переместить некоторые файлы базы данных в другие файловые системы, используя табличные пространства. См. раздел Табличные пространства для получения дополнительной информации об этом.

Заметка
Некоторые файловые системы работают плохо, когда они почти заполнены, поэтому не ждите, пока диск полностью не заполнится, чтобы принять меры.

Если ваша система поддерживает дисковые квоты для каждого пользователя, то на базу данных, естественно, будет распространяться любая квота, установленная для пользователя, от которого работает сервер. Превышение квоты будет иметь те же негативные последствия, что и полное отсутствие места на диске.

Надежность и журнал упреждающей записи

В этой главе объясняется, как журнал упреждающей записи (Write Ahead Log, WAL) используется для обеспечения эффективной и надежной работы.

Надежность

Надежность является важным свойством любой серьезной системы баз данных, и QHB делает все возможное, чтобы гарантировать надежную работу. Одним из аспектов надежной работы является то, что все данные, записанные в завершенной транзакции, должны храниться в энергонезависимой памяти, защищенной от потери питания, сбоя операционной системы и аппаратного сбоя (за исключением, разумеется, отказа самой энергонезависимой области). Успешная запись данных в постоянное хранилище компьютера (дисковое или аналогичное) обычно соответствует этому требованию. На самом деле, даже если компьютер серьезно поврежден, если диски сохранились, их можно перенести на другой компьютер с аналогичным оборудованием, и все зафиксированные транзакции останутся без изменений.

Хотя принудительное периодическое сохранение данных на дисках и других устройствах может показаться простой операцией, это не так. Поскольку дисковые такие значительно медленнее, чем основная память и процессор, существует несколько уровней кэширования между основной памятью компьютера и дисками. Во-первых, это буферный кеш операционной системы, который кеширует часто запрашиваемые дисковые блоки и объединяет записи на диск. К счастью, все операционные системы предоставляют приложениям возможность форсировать запись из буферного кэша на диск, и QHB использует эти функции. (См. параметр wal_sync_method, для тонкой настройки).

Далее,кеш может быть в дисковом контроллере - это особенно распространено на RAID-контроллерах. Некоторые из этих кэшей являются сквозными, что означает, что записи отправляются на диск сразу после их поступления. У другие есть обратная запись, то есть данные отправляются на диск через некоторое время. Такие кеши могут быть угрозой надежности, поскольку память в кеше дискового контроллера может оказаться энергозависимой и теряет свое содержимое при сбое питания - качественные контроллеры имеют резервные блоки батарей (Battery Backup Unit, BBU), это означает, что в составе контроллера есть батарея, которая поддерживает питание кеша в случае потери питания системы. После восстановления питания данные будут корректно записаны на дисководы.

И, наконец, большинство дисководов имеют внутренный кеш. Некоторые из них имеют кеш со сквозной, а другие с обратной записью, и для кэшей дисков с обратной записью существуют те же проблемы, что и для дисковых кэшей контроллера. Диски IDE и SATA потребительского уровня особенно часто имеют кэши обратной записи, который не выдержат сбоя питания. Многие твердотельные накопители (SSD) также имеют энергозависимые кэши обратной записи.

Эти кэши обычно можно отключить - однако способ сделать это зависит от операционной системы и типа диска. В Linux диски IDE и SATA можно запрашивать с помощью hdparm -I. Кэширование записи включено, если рядом с Write cache есть *. hdparm -W 0 может использоваться для отключения кэширования записи. Диски SCSI могут быть запрошены с помощью sdparm. Используйте sdparm --get=WCE чтобы проверить, включен ли кэш записи, и sdparm --clear=WCE чтобы отключить его.

Диски SATA последних моделей (те, которые следуют стандарту ATAPI-6 или более новому) предлагают команду очистки кэша диска FLUSH CACHE EXT, в то время как диски SCSI уже давно поддерживают аналогичную команду SYNCHRONIZE CACHE. Эти команды не доступны напрямую для QHB, но некоторые файловые системы (например, ZFS, ext4 ) могут использовать их для сброса данных на диски на дисках с обратной записью. К сожалению, такие файловые системы ведут себя неоптимально в сочетании с дисковыми контроллерами с BBU. В таких системах команда синхронизации направляет все данные из кэша контроллера на диски, что исключает большую часть преимуществ BBU. Если QHB установлена в такую среду, преимущества BBU для производительности можно восстановить, отключив барьеры записи в файловой системе или перенастроив контроллер диска, если это возможно. Если барьеры записи отключены, убедитесь, что батарея остается работоспособной - неисправный аккумулятор может привести к потере данных.

Когда операционная система отправляет запрос на запись в оборудование обеспечивающее долгосрочное хранение, есть мало способов для того , чтобы убедиться, что данные поступили в действительно энергонезависимую область хранения. Скорее, администратор обязан убедиться, что все компоненты хранилища обеспечивают целостность как данных, так и метаданных файловой системы. Избегайте дисковых контроллеров, которые имеют кэши записи без батарейного питания. На уровне диска отключите кэширование с обратной записью, если диск не может гарантировать, что данные будут записаны перед выключением. Если вы используете твердотельные накопители, помните, что многие из них по умолчанию не поддерживают команды очистки кэша.

Еще один риск потери данных связан с самими операциями записи на диск. Пластины механического устройства хранения, как правило, разделены на сектора, обычно по 512 байт каждый. Каждая физическая операция чтения или записи обрабатывает целый сектор. Когда на диск поступает запрос на запись, он может быть кратен 512 байтам ( QHB обычно записывает 8192 байт или 16 секторов за раз), и в процессе записи может произойти сбой из-за потери питания в любое время, что означает, что некоторые из 512-байтовых секторов были записаны, а другие нет. Чтобы защититься от таких сбоев, QHB периодически записывает полностраничные образы в постоянное хранилище WAL перед изменением фактической страницы на диске. Таким образом, во время восстановления после сбоя QHB может восстановить частично записанные страницы из WAL. Если используется файловая система, которая предотвращает частичную запись страниц (например, ZFS), вы можете отключить полностраничное представление (запись 8 КБ или 16 секторов за раз), отключив параметр full_page_writes. Дисковые контроллеры с батарейным блоком (BBU) не предотвращают частичную запись страниц, если они не гарантируют, что данные записываются в BBU как полные (8 КБ) страницы.

QHB также защищает от некоторых видов повреждения данных на устройствах хранения, которые могут возникнуть из-за аппаратных ошибок или сбоя носителя с течением времени, таких как чтение / запись мусорных данных.

Каждая отдельная запись в файле WAL защищена проверкой CRC-32 (32-разрядная версия), которая позволяет нам определить правильность содержимого записи. Значение CRC устанавливается при записи каждой записи WAL и проверяется во время восстановления после сбоя, восстановления архива и репликации.
Страницы данных в конфигурации по умолчанию не имеют контрольной суммы , хотя образы страниц, сохранённые в записях WAL, будут защищены - смотрите qhb_bootstrap для подробностей о включении контрольных сумм длястраниц данных.
Внутренние структуры данных хранящиеся на диске, такие как pg_xact, pg_subtrans, pg_multixact, pg_serial, pg_notify, pg_stat, pg_snapshots, не проверяются при помощи контрольных сумм, а страницы не защищены полными записями страниц (по 8Кб). Однако там, где такие структуры данных являются постоянными, записываются записи WAL, которые позволяют точно выстроить заново последние изменения при восстановлении после сбоя, и эти записи WAL защищены, как обсуждалось выше.
Отдельные файлы состояний в pg_twophase защищены CRC-32.
Временные файлы данных, используемые в больших запросах SQL для сортировки, материализации и промежуточных результатов, в настоящее время не проверяются, и в WAL не будут записываться изменения в этих файлах.

QHB не защищает от исправляемых ошибок памяти, и предполагается, что вы будете работать с ОЗУ, которое использует отраслевой стандарт исправления ошибок (ECC) или более эффективную защиту.

Журнал упреждающей записи

Запись в журнал упреждающей записи (Write Ahead Log, WAL ) - это стандартный метод обеспечения целостности данных. Подробное описание можно найти в большинстве (если не во всех) справочных и учебных пособиях по обработке транзакций. Центральная концепция WAL заключается в том, что изменения в файлах данных (в которых находятся таблицы и индексы) должны записываться только после того, как эти изменения были зарегистрированы, то есть после того, как записи журнала, описывающие изменения, были сброшены в постоянное хранилище. Если мы следуем этой процедуре, нам не нужно сбрасывать страницы данных на диск при каждой фиксации транзакции, потому что мы знаем, что в случае сбоя мы сможем восстановить базу данных, используя журнал: любые изменения, которые не были применены на страницы данных могут быть восстановлены из записей журнала. (Это восстановление с повтором транзакций, также известно как REDO).

Заметка
Поскольку WAL восстанавливает содержимое файла базы данных после сбоя, журнальные файловые системы не нужны для надежного хранения файлов данных или файлов WAL. Фактически, издержки журналирования могут снизить производительность, особенно если журналирование часто приводит к сбросу данных файловой системы на диск. Сброс данных журнала часто может быть отключен с помощью опции монтирования файловой системы, например data=writeback в файловой системе Linux ext3. Журналированные файловые системы улучшают скорость загрузки после сбоя.

Использование WAL приводит к значительному сокращению числа операций записи на диск, поскольку для сохранения транзакции требуется только файл журнала, а не каждый файл данных, измененный транзакцией. Файл журнала записывается последовательно, поэтому стоимость синхронизации журнала намного ниже, чем стоимость сброса на диск страниц файлов данных. Это особенно верно для серверов, обрабатывающих множество небольших транзакций, затрагивающих разные части хранилища данных. Кроме того, когда сервер обрабатывает много небольших параллельных транзакций, одной фиксации файла журнала может быть достаточно для фиксации многих транзакций.

WAL также позволяет поддерживать оперативное резервное копирование и восстановление на определенный момент времени, как описано в разделе Выполнение восстановления на момент времени (PITR). Архивируя данные WAL, мы можем поддерживать возврат к любому моменту времени, охваченному доступными данными WAL: мы просто устанавливаем предварительную физическую резервную копию базы данных и "воспроизводим" изменения из журнала столько раз, сколько необходимо. Более того, физическое резервное копирование не должно быть мгновенным снимком состояния базы данных - если оно выполнено в течение некоторого периода времени, то повторное воспроизведение журнала за этот период устранит любые внутренние несоответствия.

Асинхронный коммит

Асинхронная фиксация (asynchronous commit) - это опция, которая позволяет транзакциям завершаться быстрее, за счет того, что самые последние транзакции могут быть потеряны в случае сбоя базы данных. Во многих приложениях это приемлемый компромисс.

Как описано в предыдущем разделе, фиксация транзакции обычно выполняется синхронно: сервер ожидает сброса записей WAL транзакции в постоянное хранилище, а затем возвращает клиенту указание об успешном выполнении. Поэтому клиенту гарантируется, что транзакция, о которой было сообщено, будет сохранена даже в случае сбоя сервера сразу после этого. Однако для коротких транзакций эта задержка является основным компонентом общего времени транзакции. Выбор режима асинхронной фиксации означает, что сервер возвращает сообщение об успешной фиксации, как только транзакция логически завершена, до того, как сгенерированные ею записи WAL действительно попадут на диск. Это может обеспечить значительное увеличение пропускной способности для небольших транзакций.

Асинхронная фиксация транзакций создает риск потери данных. Существует короткое временное окно между отчетом о завершении транзакции для клиента и временем, когда транзакция действительно зафиксирована (то есть она гарантированно не будет потеряна в случае сбоя сервера). Таким образом, асинхронная фиксация транзакций не должна использоваться, если клиент будет выполнять внешние действия, полагаясь на то, что транзакция будет завершена. Например, банк, безусловно, не будет использовать асинхронную фиксацию транзакции, регистрирующей выдачу наличных в банкомате. Но во многих сценариях, таких как регистрация событий, нет необходимости в сильных гарантиях такого рода.

Риск, связанный с использованием асинхронной фиксации транзакций, - это потеря данных, а не их повреждение. Если база данных выйдет из строя, она восстановится путем воспроизведения WAL до последней записи, которая была сохранена. Поэтому база данных будет восстановлена в самосогласованном состоянии, но любые транзакции, которые еще не были записаны на диск, не будут отражены в этом состоянии. Таким образом, минимальные последствия - потеря нескольких последних транзакций. Поскольку транзакции воспроизводятся в порядке фиксации, может быть внесено несоответствие - например, если транзакция B внесла изменения, полагаясь на изменения внесённые предыдущей транзакцией A, невозможно восстановить эффекты A, в то время как эффекты B сохранены.

Пользователь может выбрать режим фиксации каждой транзакции, чтобы можно было одновременно выполнять синхронные и асинхронные фиксации транзакции. Это обеспечивает гибкие компромиссы между производительностью и уверенностью в согласованности транзакций. Режим фиксации управляется настраиваемым пользователем параметром synchronous_commit, который может быть изменен любым из способов настройки параметра конфигурации. Режим, используемый для любой транзакции, зависит от значения synchronous_commit когда начинается фиксация транзакции.

Некоторые служебные команды, например DROP TABLE, принудительно фиксируются синхронно, независимо от значения параметра synchronous_commit. Это необходимо для обеспечения согласованности между файловой системой сервера и логическим состоянием базы данных. Команды, поддерживающие двухфазную фиксацию, такие как PREPARE TRANSACTION, также всегда являются синхронными.

Если во время окна риска между асинхронной фиксацией и записью изменений в WAL транзакции происходит сбой базы данных, изменения, сделанные во время этой транзакции, будут потеряны. Продолжительность окна риска ограничена, потому что фоновый процесс ( WAL writer) сбрасывает новые записи WAL на диск каждые миллисекунды wal_writer_delay . Фактическая максимальная продолжительность окна риска в три раза больше wal_writer_delay потому что средство записи WAL предназначено для записи целых страниц за раз в периоды нагрузки.

Предосторожение!!!
Выключение в немедленном режиме эквивалентно сбою сервера и, следовательно, приведет к потере любых невыполненных асинхронных фиксаций транзакций.

Асинхронная фиксация транзакции обеспечивает поведение, отличное от установки fsync = off. fsync - это параметр для всего сервера, который будет изменять поведение всех транзакций. Он отключает всю логику в QHB, которая пытается синхронизировать записи в различные части базы данных, и, следовательно, сбой системы (то есть сбой оборудования или операционной системы, а не сбой самого QHB) может привести к сколь угодно плохому повреждению состояния базы данных - от потери отдельных таблиц до полной непригодности. Во многих сценариях асинхронная фиксация транзакций обеспечивает значительное улучшение производительности, которое можно получить, отключив fsync, но без риска повреждения данных.

Действие параметра commit_delay также очень похоже на асинхронную фиксацию транзакций, но на самом деле это метод синхронной фиксации (фактически, commit_delay игнорируется во время асинхронной фиксации). commit_delay вызывает задержку непосредственно перед тем, как транзакция сбрасывает WAL на диск, в надежде, что один сброс, выполненный одной такой транзакцией, может также обслуживить другие транзакции, фиксируемые примерно в одно и то же время. Этот параметр можно рассматривать как способ увеличения временного окна, в котором транзакции могут присоединиться к группе, собирающейся участвовать в одном сохраненнии, чтобы амортизировать стоимость сброса между несколькими транзакциями.

Конфигурация WAL

Существует несколько параметров конфигурации, связанных с WAL, которые влияют на производительность базы данных. Этот раздел объясняет их использование. Обратитесь к Главе Конфигурация сервера за общей информацией о настройке параметров конфигурации сервера.

Checkpoints это "точки" в последовательности транзакций, при которых гарантируется, что файлы данных и индекса были обновлены и сохранена вся информация, записанная до этой контрольной точки. Во время контрольной точки все грязные страницы данных сбрасываются на диск, и в файл журнала записывается специальная запись контрольной точки. (Записи изменений ранее были сброшены в файлы WAL). В случае сбоя процедура восстановления после сбоя находит последнюю запись контрольной точки, чтобы определить точку в журнале (известную как запись REDO), с которой она должна начать REDO операции. Любые изменения, внесенные в файлы данных до этого момента, гарантированно будут уже на диске. Следовательно, после контрольной точки сегменты журнала, предшествующие тому, в котором содержится повторная запись, больше не нужны и могут быть использованы повторно или удалены. (Когда выполняется архивация WAL , сегменты журнала должны быть заархивированы перед тем, как их повторно используют или удалят).

Требование контрольной точки - сброс всех грязных страниц данных на диск может вызвать значительную нагрузку на подсистему ввода-вывода. По этой причине активность контрольной точки регулируется таким образом, что ввод-вывод начинался при запуске контрольной точки и завершался до начала следующей контрольной точки - это минимизирует снижение производительности во время контрольных точек.

Процесс контрольной точки сервера автоматически выполняет контрольную точку очень часто. Контрольная точка начинается каждые секунды checkpoint_timeout, или, если будет превышено значение max_wal_size , в зависимости от того, что наступит раньше. Настройки по умолчанию - 5 минут и 1 ГБ соответственно. Если с предыдущей контрольной точки не было записи в WAL, новые контрольные точки будут пропущены, даже если checkpoint_timeout прошла. (Если используется архивация WAL, и вы хотите установить более низкий предел частоты архивирования файлов, чтобы ограничить возможную потерю данных, вам следует настроить параметр archive_timeout, а не параметры контрольной точки). Также можно принудительно установить контрольную точку с помощью команды SQL CHECKPOINT.

Уменьшение checkpoint_timeout и / или max_wal_size приводит к тому, что контрольные точки возникают чаще. Это позволяет быстрее восстанавливаться после сбоя, так как потребуется меньше работы. Тем не менее, необходимо сбалансировать это с возросшей стоимостью очистки грязных страниц данных. Если задано full_page_writes (по умолчанию включено), необходимо учитывать еще один фактор. Чтобы обеспечить согласованность страницы данных, первая модификация страницы данных после каждой контрольной точки приводит к регистрации всего содержимого страницы. В этом случае меньший интервал контрольных точек увеличивает объем вывода в журнал WAL, частично сводя на нет цель использовать меньший интервал и в любом случае вызывая больший дисковый ввод-вывод.

Контрольные точки довольно дороги, во-первых, потому что они требуют записи всех текущих грязных буферов, а во-вторых, потому что они приводят к дополнительному последующему трафику WAL, как обсуждалось выше. Поэтому целесообразно устанавливать параметры контрольных точек достаточно высокими, чтобы контрольные точки не возникали слишком часто. В качестве простой проверки работоспособности параметров вашей контрольной точки вы можете установить параметр checkpoint_warning. Если контрольные точки расположены ближе друг к другу, чем секунды checkpoint_warning, в журнал сервера будет выведено сообщение с рекомендацией увеличить max_wal_size. Случайное появление такого сообщения не является причиной для тревоги, но если оно появляется часто, то параметры контроля контрольной точки должны быть увеличены. Массовые операции, такие как чтения больщих таблиц с помощью COPY могут вызвать появление ряда таких предупреждений, если вы не установили max_wal_size достаточно высоким.

Чтобы избежать переполнения системы ввода-вывода с помощью записи страниц, запись грязных буферов во время контрольной точки распределяется на некоторый период времени. Этот период контролируется checkpoint_completion_target, который задается как часть интервала контрольных точек. Скорость ввода-вывода регулируется таким образом, чтобы контрольная точка заканчивалась по истечении заданной доли секунды checkpoint_timeout или до превышения max_wal_size, в зависимости от того, что наступит раньше. При значении по умолчанию 0,5 QHB может завершить каждую контрольную точку примерно за половину времени до запуска следующей контрольной точки. В системе, которая очень близка к максимальной пропускной способности ввода-вывода при нормальной работе, вы можете увеличить checkpoint_completion_target чтобы уменьшить нагрузку ввода-вывода с контрольных точек. Недостатком этого является то, что продление контрольных точек влияет на время восстановления, поскольку необходимо будет хранить больше сегментов WAL для возможного использования для восстановления. Хотя checkpoint_completion_target может быть установлено до 1,0, лучше оставить его меньше этого значения (возможно, не более 0,9), поскольку контрольные точки включают в себя некоторые другие действия помимо записи грязных буферов. Значение 1.0 вполне может привести к тому, что контрольные точки не будут выполнены вовремя, что приведет к снижению производительности из-за неожиданного изменения количества необходимых сегментов WAL.

На платформах Linux и POSIX checkpoint_flush_after позволяет принудительно заставить ОС, сбрасывать страницы, записанные контрольной точкой, на диск после определённого количества байтов. В противном случае эти страницы могут храниться в кеше страниц ОС, вызывая остановку при вызове fsync в конце контрольной точки. Этот параметр часто помогает уменьшить задержку транзакции, но также может негативно повлиять на производительность - особенно для рабочих нагрузок, которые больше, чем shared_buffers, но меньше, чем кеш страниц ОС.

Количество файлов сегментов WAL в pg_wal зависит от min_wal_size , max_wal_size и количества WAL, сгенерированного в предыдущих циклах контрольных точек. Когда старые файлы сегментов журнала больше не нужны, они удаляются или повторно используются (то есть переименовываются, чтобы стать будущими сегментами в пронумерованной последовательности). Если из-за кратковременного пика скорости вывода журнала превышен max_wal_size, ненужные файлы сегментов будут удаляться, пока система не вернется к этому пределу. Ниже этого предела система повторно использует достаточно файлов WAL для покрытия предполагаемой потребности до следующей контрольной точки и удаляет остальные. Оценка основана на скользящей средней числа файлов WAL, использованных в предыдущих циклах контрольных точек. Скользящее среднее значение немедленно увеличивается, если фактическое использование превышает оценку, поэтому оно в некоторой степени учитывает пиковое использование, а не среднее использование. min_wal_size устанавливает минимальное количество файлов WAL для будущего использования - столько WAL всегда будет использовано повторно , даже если система простаивает и оценка использования WAL предполагает, что сегментов требуется мало.

Независимо от max_wal_size, wal_keep_segments + 1 самые последние файлы WAL хранятся всегда. Кроме того, если используется архивация WAL, старые сегменты не могут быть удалены или повторно использованы, пока они не будут заархивированы. Если архивация WAL не может идти одновременно со скоростью, с которой генерируется WAL, или если archive_command неоднократно завершается с ошибкой, старые файлы WAL будут накапливаться в pg_wal до тех пор, пока ситуация не разрешиться. Медленный или сбойный резервный сервер, который использует слот репликации, будет давать такой же эффект.

В режиме восстановления архива или в режиме ожидания сервер периодически выполняет точки перезапуска, которые аналогичны контрольным точкам в обычной работе: сервер переносит все свое состояние на диск, обновляет файл pg_control чтобы указать, что уже обработанные данные WAL не нужно снова сканировать, а затем переиспользует любые старые файлы сегментов журнала в каталоге pg_wal. Точки перезапуска не могут выполняться чаще, чем контрольные точки в мастере, потому что точки перезапуска могут выполняться только в записях контрольных точек. Точка перезапуска срабатывает при достижении записи контрольной точки, если прошло не менее checkpoint_timeout секунд с момента последней точки перезапуска или если размер WAL собирается превысить max_wal_size. Однако из-за ограничений на время, когда может быть выполнена точка перезапуска, max_wal_size часто превышается во время восстановления на величину WAL до одного контрольного пункта. ( max_wal_size никогда не бывает жестким ограничением, поэтому вы всегда должны оставлять достаточно места, чтобы избежать нехватки дискового пространства для файлов журнала).

Есть две обычно используемые внутренние функции WAL: XLogInsertRecord и XLogFlush. XLogInsertRecord используется для помещения новой записи в буферы WAL в разделяемой памяти. Если для новой записи нет места, XLogInsertRecord должен будет записать (переместить в кеш ядра ОС) несколько заполненных буферов WAL. Это нежелательно, поскольку XLogInsertRecord используется для каждой низкоуровневой модификации базы данных (например, вставка строки) в то время, когда на затронутых страницах данных удерживается монопольная блокировка, поэтому операция должна быть максимально быстрой. Что еще хуже, запись в буферы WAL также может привести к созданию нового сегмента журнала, что занимает еще больше времени. Обычно буферы WAL должны записываться и очищаться с помощью запроса XLogFlush, который, по большей части, выполняется во время фиксации транзакции, чтобы гарантировать, что записи транзакции сбрасываются в постоянное хранилище. В системах с высокой скоростью заполнения журнала запросы XLogFlush могут возникать недостаточно часто, чтобы запретить XLogInsertRecord выполнять записи. В таких системах следует увеличить количество буферов WAL, изменив параметр wal_buffers. Когда full_page_writes установлен и система сильно нагружена, установка wal_buffers выше поможет сгладить время отклика в течение периода, следующего сразу за каждой контрольной точкой.

Параметр commit_delay определяет, на сколько микросекунд процесс лидера групповой фиксации транзакции будет находиться в спящем режиме после получения блокировки в XLogFlush, пока последователи групповой фиксации стоят в очереди после лидера. Эта задержка позволяет другим процессам сервера добавлять свои записи фиксации в буферы WAL, чтобы все они были сброшены возможной синхронизирующей операцией лидера. Спящий режим не будет использоваться, если fsync не включен или если в текущий момент в активных транзакциях меньше, чем commit_siblings - это позволяет избежать ожидания в спящем режиме, когда маловероятно, что какой-либо другой сеанс совершится в ближайшее время. Обратите внимание, что на некоторых платформах разрешение неактивного запроса составляет десять миллисекунд, поэтому любой ненулевой параметр commit_delay от 1 до 10000 микросекунд будет иметь тот же эффект. Также обратите внимание, что на некоторых платформах операции сна могут занимать немного больше времени, чем запрошено параметром.

Поскольку цель commit_delay состоит в том, чтобы позволить амортизировать стоимость каждой операции обращения к диску для одновременной фиксации транзакций (возможно, за счет задержки транзакции), необходимо количественно оценить эту стоимость, прежде чем параметр можно будет выбрать с достаточной точностью. Чем выше эта стоимость, тем эффективнее будет ожидаемая commit_delay для увеличения пропускной способности транзакций до определенного уровня. Значение, составляющее половину среднего времени, операции записи 8 КБ, часто является наиболее эффективным параметром для commit_delay , поэтому это значение рекомендуется в качестве отправной точки для использования при оптимизации для конкретной рабочей нагрузки. Хотя настройка commit_delay особенно полезна, когда журнал WAL хранится на механических вращающихся дисках с высокой задержкой, преимущества могут быть значительными даже для носителей с очень быстрым временем синхронизации, таких как твердотельные накопители или массивы RAID с кэш-памятью с резервным питанием от аккумулятора, но это, безусловно, должно быть проверено на репрезентативной нагрузке. В таких случаях следует использовать более высокие значения commit_siblings, тогда как меньшие значения commit_siblings часто полезны на носителях с более высокой задержкой. Обратите внимание, что вполне возможно, что слишком высокая установка commit_delay может значительно увеличить задержку фиксации транзакции, в связи с чем пострадает общая пропускная способность.

Когда commit_delay установлен в ноль (по умолчанию), все еще возможно, групповая фиксации, но каждая группа будет состоять только из сессий, которые достигают точки, где они должны сбрасывать свои записи фиксации во время окна, в котором выполняется предыдущая операция сохранения (если она была). При большем количестве клиентов, как правило, возникает «давка» между сеансами, так что эффекты групповой фиксации становятся значительными, даже когда commit_delay равен нулю, и, таким образом, явная установка commit_delay оказывает меньще влияния на производительность. Установка commit_delay может помочь, только когда

есть некоторые одновременно завершающиеся транзакции
пропускная способность системы ввода-вывода ограничена до некоторой степени скоростью фиксации транзакции, но с высокой задержкой для механических устройств хранения этот параметр может быть эффективен для увеличения пропускной способности транзакций даже всего с двумя клиентами (то есть одним фиксирующим транзакуию клиентом с одной дочерней транзакцией).

Параметр wal_sync_method определяет, как QHB будет запрашивать ядро ОС для принудительного обновления WAL на диск. Все параметры должны быть одинаковыми с точки зрения надежности, за исключением fsync_writethrough, который иногда может вызвать очистку дискового кэша, даже если другие параметры этого не делают это зависит от платформы, на которой работает QHB. Обратите внимание, что этот параметр не имеет значения, если fsync отключен.

WAL детали реализации

WAL включается автоматически; никаких действий со стороны администратора не требуется, за исключением обеспечения соблюдения требований к дисковому пространству для журналов WAL и выполнения необходимой настройки (см. раздел Конфигурация WAL).

Записи WAL добавляются в журналы WAL по мере возникновения каждой новой записи. Позиция вставки описывается порядковым номером журнала (LSN), который представляет собой байтовое смещение в журналах, монотонно увеличивающееся с каждой новой записью. Значения LSN имеют тип данных pg_lsn. Значения можно сравнивать для расчета объема данных WAL, которые их разделяют, поэтому они используются для измерения объёмов и процесса репликации и восстановления.

Журналы WAL хранятся на диске в каталоге pg_wal в виде набора файлов сегментов, обычно каждый размером 16 МБ (но размер можно изменить, изменив параметр --wal-segsize qhb_bootstrap). Каждый сегмент делится на страницы, обычно по 8 кБ каждая (этот размер можно изменить с помощью параметра конфигурации --with-wal-blocksize). Cодержание записи зависит от типа регистрируемого события. Сегментным файлам присваиваются постоянно растущие числа в качестве имен, начиная с 000000010000000000000000. Числа не переносятся при переполнении, но потребуется очень и очень много времени, чтобы исчерпать доступный запас чисел.

Бывает выгодно для производительности, когда журнал расположен на диске, отличном от основных файлов базы данных. Это может быть достигнуто путем перемещения каталога pg_wal в другое место (конечно, когда сервер выключен) и создания символической ссылки из исходного местоположения в главном каталоге данных на новое местоположение.

Задача QHB - обеспечить, запись журнала до записей изменения в файлах базы данных, но это может быть нарушено драйверами устройств хранения которые ложно сообщают об успешной записи, когда на самом деле они только кэшировали данные в ядре ОС и еще не сохранили их на диске. Сбой питания в такой ситуации может привести к неисправимому повреждению данных. Администраторы должны убедиться, что диски, содержащие файлы журнала WAL QHB, не создают таких ситуаций. (См. раздел Надежность).

После создания контрольной точки журнала ее позиция сохраняется в файле pg_control. Поэтому в начале восстановления сервер сначала читает pg_control а затем запись контрольной точки, затем он выполняет операцию REDO путем сканирования вперед по файлу из местоположения журнала, указанного в записи контрольной точки. Поскольку всё содержимое всех изменений страниц данных, сохраняется в журнале после контрольной точки (при условии, что full_page_writes не отключен) все изменения после контрольной точки будут восстановлены в согласованном состоянии.

Чтобы справиться со случаем, когда pg_control поврежден, мы должны поддерживать возможность сканирования существующих сегментов журнала в обратном порядке - от самого нового к старому - чтобы найти последнюю контрольную точку. Это еще не реализовано. pg_control достаточно мал (менее одной страницы диска), чтобы не создавать проблем с частичной записью, и на момент написания этой статьи не было сообщений о сбоях базы данных только из-за невозможности чтения самого pg_control. Таким образом, хотя теоретически это слабое место, кажется pg_control не является проблемой на практике.

Процедурные языки

Установка процедурных языков
- Ручная процедура установки процедурных языков

QHB позволяет писать пользовательские функции на других языках, кроме SQL и C/RUST. Эти другие языки обычно называются процедурными языкам (PL). Для функции, написанной на процедурном языке, сервер базы данных не имеет встроенных методов, для интерпретации исходного текста функции. Вместо этого задача передается специальному обработчику, который обрабатывает детали языка. Обработчик может либо выполнять всю работу по синтаксическому анализу, синтаксическому анализу, выполнению и т. д., Либо он может служить «связующим звеном» между QHB и существующей реализацией языка программирования. Сам обработчик является функцией языка C/RUST, скомпилированной в общий объект и загружается по требованию, как и любая другая функция C/RUST.

В настоящее время в стандартном выпуске QHB доступен язык: PL/pgSQL (глава PL/pgSQL), другие языки могут быть созданы пользователями самостоятельно.

Установка процедурных языков

Процедурный язык должен быть «установлен» в каждой базе данных, где он будет использоваться. Процедурные языки, установленные в базе данных template1, автоматически доступны во всех впоследствии созданных базах данных, так как их записи в template1 будут скопированы командой CREATE DATABASE. Таким образом, администратор базы данных может решить, какие языки доступны в каких базах данных, и при желании может сделать некоторые языки доступными по умолчанию.

Для языков, поставляемых со стандартным дистрибутивом, необходимо только выполнить CREATE EXTENSION language_name чтобы установить язык в текущей базе данных. Описанная ниже ручная процедура рекомендуется только для установки языков, которые не были упакованы как расширения.

Ручная процедура установки процедурных языков

Процедурный язык устанавливается в базе данных в пять этапов, которые должны выполняться суперпользователем базы данных. В большинстве случаев требуемые команды SQL должны быть упакованы как установочный скрипт «расширения», чтобы их можно было использовать для CREATE EXTENSION.

Общий объект для языкового обработчика (динамически подключаемая библиотека) должен быть скомпилирован и установлен в соответствующий каталог библиотеки, так же, как сборка и установка модулей с обычными пользовательскими функциями C\RUST - см. раздел Компиляция и связывание динамически загружаемых функций. Часто обработчик языка зависит от внешней библиотеки, которая обеспечивает реальный движок языка программирования - в этом случае он также должен быть установлен.
Обработчик должен быть создан командой

CREATE FUNCTION handler_function_name()
    RETURNS language_handler
    AS 'path-to-shared-object'
    LANGUAGE C;

Специальный возвращаемый тип language_handler сообщает системе баз данных, что эта функция не возвращает ни один из определенных типов данных SQL и не может напрямую использоваться в инструкциях SQL .

При желании обработчик языка может предоставлять встроенную функцию обработчика, предназначенную для выполнения блоков анонимного кода (команды DO), написанных на этом языке. Если встроенная функция обработчика предоставляется языком, необходимо объявить ее командой

CREATE FUNCTION inline_function_name(internal)
    RETURNS void
    AS 'path-to-shared-object'
    LANGUAGE C;

При желании обработчик языка может предоставить функцию «валидатора», которая проверяет правильность определения функции, фактически не выполняя ее. Функция валидатора,если она существует, вызывается командой CREATE FUNCTION. Если язык предоставляет функцию валидатора, необходимо объявить ее командой

CREATE FUNCTION validator_function_name(oid)
    RETURNS void
    AS 'path-to-shared-object'
    LANGUAGE C STRICT;

Наконец, сам процедурный язык, должен быть объявлен с командой

CREATE [TRUSTED] LANGUAGE language_name
    HANDLER handler_function_name
    [INLINE inline_function_name]
    [VALIDATOR validator_function_name] ;

Необязательное ключевое слово TRUSTED указывает, что язык не предоставляет доступ к данным,к которым в противном случае, у пользователя нет доступа. Доверенные языки предназначены для обычных пользователей баз данных (без привилегий суперпользователя) и позволяют им безопасно создавать функции и процедуры. Поскольку функции процедурного языка выполняются внутри сервера базы данных, флаг TRUSTED следует указывать только для языков, которые не разрешают доступ к внутренним компонентам сервера базы данных или файловой системе. Язык PL/pgSQL считается доверенным.

При установке QHB по умолчанию обработчик для языка PL/pgSQL создается и устанавливается в каталог «library». Более того, сам язык PL/pgSQL установлен во всех базах данных.

Клиентские приложения QHB

Эта часть содержит справочную информацию для клиентских приложениях и утилитах QHB. Некоторые приложения могут требовать особых привилегий. Общей особенностью этих приложений является то, что они могут быть запущены на любом хосте, независимо от того, где находится сервер базы данных.

При указании в командной строке имени пользователя и базы данных, они передаются без изменения регистра - все пробелы или специальные символы требуется заключать в кавычки. Имена таблиц и другие идентификаторы не зависят от регистра, за исключением случаев, когда это отдельно задокументировано и может потребоваться заключение в кавычки.

clusterdb - кластеризация базы данных QHB
createdb - создать новую базу данных QHB
createuser - определить новую учетную запись пользователя QHB
dropdb - удалить базу данных QHB
dropuser - удалить учетную запись пользователя QHB
vacuumdb сбор мусора и анализ базы данных QHB
qhb_basebackup - сделать базовую резервную копию кластера QHB
reindexdb - переиндексировать базу данных QHB
qhb_config - получить информацию об установленной версии QHB
qhb_dump - извлекает базу данных QHB в файл сценария или другой архив
qhb_dumpall - извлекает кластер базы данных QHB в файл сценария
qhb_isready - проверить состояние соединения с сервером QHB
qhb_receivewal - потоковые журналы записи с сервера QHB
qhb_recvlogical - управление потоками логического декодирования QHB
qhb_restore - восстанавливает базу данных QHB из файла архива, созданного qhb_dump
qsql - QHB интерактивный терминал

clusterdb - кластеризация базы данных QHB

clusterdb - кластеризация базы данных QHB

Синтаксис

clusterdb [connection-option...] [ --verbose | -v ] [ --table | -t table ] ... [dbname]

clusterdb [connection-option...] [ --verbose | -v ] --all | -a

Описание

clusterdb - это утилита для перекластеризации таблиц в базе данных QHB. Она находит таблицы, которые ранее были кластеризованы, и снова группирует их по тому же индексу, который использовался в последний раз. Таблицы, которые никогда не группировались, не затрагиваются.

clusterdb - это "обёртка" над SQL командой CLUSTER. Нет разницы между кластеризацией баз данных с помощью этой утилиты или же иным способом при обращении к серверу.

Параметры

clusterdb принимает следующие аргументы командной строки:

Аргумент	Описание
`-a`, `--all`	Кластеризация всех баз данных
`[-d] dbname`, `[--dbname=]dbname`	Определяет имя базы данных для кластеризации. Если не указывать и не использовать параметр `-a` (или `--all`), имя базы данных считывается из переменной окружения PGDATABASE. Если не установлена переменная окружения, используется имя пользователя, указанное в параметрах подключения
`-e`, `--echo`	Выводить команды, которые `clusterdb` генерирует и отправляет на сервер.
`-q`, `--quiet`	Не отображать сообщения о прогрессе выполнения
`-t table`, `--table=table`	Кластеризовать конкретную таблицу. Несколько таблиц можно кластеризовать, написав несколько ключей `-t`
`-v`, `--verbose`	Показать подробную информацию во время процесса
`-V`, `--version`	Показать версию `clusterdb` и выйти
`-?`, `--help`	Показать справку об аргументах командной строки `clusterdb` и выйти

clusterdb также принимает следующие аргументы командной строки для параметров подключения:

Аргумент	Описание
`-h host`, `--host=host`	Указывает имя или адрес компьютера, на котором работает сервер. Если значение начинается с косой черты, то оно используется в качестве каталога для Unix-сокета
`-p port`, `--port=port`	Указывает порт TCP или расширение файла локального Unix-сокета, на котором сервер прослушивает соединения
`-U username`, `--username=username`	Имя пользователя
`-w`, `--no-password`	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
`-W`, `--password`	Эта опция не является существенной, так как `clusterdb` автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, `clusterdb` потратит одну дополнительную попытку подключения для аутентификации. В некоторых случаях стоит ввести `-W`, чтобы не делать эту попытку.
`--maintenance-db=dbname`	Задает имя базы данных для подключения, чтобы определить какие другие базы данных должны быть кластеризованы. Если не указано иное, будет использоваться база данных `qhb`, а если она не существует, будет использоваться `template1`

Окружение

PGDATABASE

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Эта утилита, как и большинство других утилит QHB, также использует переменные окружения, поддерживаемые libpq .

Диагностика

В случае затруднений см. CLUSTER и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, при запуске утилиты, будут применяться параметры подключения и переменные окружения, которые используются библиотекой libpq.

Примеры

Чтобы кластеризовать базу данных test:

$ clusterdb test

Чтобы кластеризировать отдельную таблицу foo в базе данных xyzzy:

$ clusterdb --table=foo xyzzy

См. также

CLUSTER

createdb - создать новую базу данных QHB

createdb - утилита, позволяющая создать новую базу данных.

Синтаксис

createdb [FLAGS] [OPTIONS] --host <host> [ARGS]

Описание

createdb - это "обёртка" надо SQL командой CREATE DATABASE. Нет разницы между созданием базы данных с помощью этой утилиты или же иным способом при обращении к серверу.

Если имя БД не указано, то используется имя пользователя, от которого выполняется программа, аналогичный алгоритм с владельцем БД.

Если БД невозможно создать, то программа выведет сообщение об ошибке, иногда предлагая решение проблемы.

Обычно пользователь базы данных, который выполняет эту команду, становится владельцем новой базы данных. Однако другой владелец может быть указан с помощью опции -O, если исполняющий пользователь имеет соответствующие привилегии.

Параметры

createdb принимает следующие аргументы командной строки:

FLAGS:

Аргумент	Описание
--help	Показать справку об аргументах командной строки и выйти
-w, --no-password	Никогда не запрашивать ввод пароля
-W, --password	Принудительно запрашивать пароль
-V, --version	Распечатать версию createdb и выйти
-v, --verbose	Устанавливает уровень ведения журнала в Debug [default: Info]

OPTIONS:

Аргумент	Описание
-E, --encoding <encoding>	Определяет схему кодировки символов, которая будет использоваться в этой базе данных
-h, --host <host>	Указывает имя хоста или директорию сокета, на котором работает сервер [env: PGHOST=]
--lc-collate <lc-collate>	Задает параметр LC_COLLATE, который будет использоваться в этой базе данных.
--lc-ctype <lc-ctype>	Задает параметр LC_CTYPE, который будет использоваться в этой базе данных.
-l, --locale <locale>	Определяет язык, который будет использоваться в этой базе данных.
--maintenance-db <m-dbname>	Задает имя базы данных, к которой необходимо подключиться при создании новой базы данных.
-O, --owner <owner>	Указывает пользователя базы данных, которому будет принадлежать новая база данных
-p, --port <port>	Указывает порт TCP или расширение файла локального сокета домена Unix, на котором сервер прослушивает соединения. [default: 5432]
-D, --tablespace <tablespace>	Задает табличное пространство по умолчанию для базы данных.
-T, --template <template>	Определяет базу данных шаблонов, из которой можно построить эту базу данных.
-U, --username <username>	Имя пользователя для подключения.

ARGS:

Аргумент	Описание
dbname	Определяет имя базы данных, которая будет создана. Имя должно быть уникальным среди всех баз данных QHB в этом кластере. По умолчанию создается база данных с тем же именем, что и текущий системный пользователь. [env: PGDATABASE=]
comment	Ввод комментария для базы данных.

Параметры -D, -l, -E, -O и -T соответствуют параметрам базовой команды SQL CREATE DATABASE; ознакомьтесь с соответствующим разделом документации для получения дополнительной информации.

Переменные Окружение

PGDATABASE

Если установлено, имя базы данных для создания, если не переопределено в командной строке.

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию. PGUSER также определяет имя базы данных для создания, если оно не указано в командной строке или PGDATABASE.

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never.

Диагностика

В случае затруднений см. CREATE DATABASE и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте.

Примеры

Сценарии использования

$ createdb new

создаёт новую базу данных с именем "new"

$ createdb

создаёт новую базу данных с именем пользователя, от которого запущена программа

$ createdb new -l en_US.UTF-8 -T template0 --maintenance-db qhb

создаёт новую базу данных с именем "new", с локалью en_US.UTF-8, беря за основу базу template0, подключаясь к обслуживающей базе qhb`

$ createdb new "my comment" -l en_US -E LATIN1 -T template0 -v

создаёт новую базу данных с именем "new", настройками LC_COLLATE и LC_CTYPE - en_us, кодировкой LATIN1, беря за основу базу template0.
После создания на базу накладывается комментарий "my comment".
Флаг -v обеспечивает вывод отладочной информации:

[DEBUG] Running getpwuid_r for user #1000
[DEBUG] Loading user with uid 1000
[DEBUG] executing statement batch: SELECT pg_catalog.set_config('search_path', '', false);
[DEBUG] executing statement batch: CREATE DATABASE new2 ENCODING 'LATIN1' TEMPLATE template0 LC_COLLATE 'en_US' LC_CTYPE 'en_US';
[DEBUG] executing statement batch: COMMENT ON DATABASE new2 IS 'my comment';
[DEBUG] Database has been successfully created

Особенности использования

createdb new -l en_US.UTF-8 -T template0

createdb new -l en_US -E UTF-8 -T template0

не одно и то же. В первом случае БД успешно создастся, во втором варианте будет выведена ошибка.

[ERROR] db error: ERROR: encoding "UTF8" does not match locale "en_US": SQL: "CREATE DATABASE new3 ENCODING 'UTF-8' TEMPLATE template0 LC_COLLATE 'en_US' LC_CTYPE 'en_US';"
DETAIL: The chosen LC_CTYPE setting requires encoding "LATIN1".

Невозможно указать комментарий к базе данных, не указав её имя.
Флаг -l, --locale объединяет в себе --lc-collate и --lc-ctype - вместе их указать нельзя. Пример:

createdb new -l en_US = CREATE DATABASE new LC_COLLATE 'en_US' LC_CTYPE 'en_US';

createdb new4 --lc-collate en_US --lc-ctype en_US - ошибка

По умолчанию утилита пытается использовать template1 как обсуживающую БД (maintenance-db), если подключится к ней не выходит, то используется БД qhb.

-v, --verbose

помимо отладочной информации исполняет роль ECHO, выводя SQL-команды, отправленные на сервер для исполнения

Смотрите Также

createuser

createuser - определить новую учетную запись пользователя QHB

Синтаксис

createuser [connection-option...] [option...] [ROLENAME]

Описание

createuser создает нового пользователя QHB (или, точнее, роль). Только суперпользователи и пользователи с привилегией CREATEROLE могут создавать новых пользователей, поэтому createuser должен вызывать тот,

кто может подключиться как суперпользователь или пользователь с привилегией CREATEROLE .

Если вы хотите создать нового суперпользователя, вы должны подключиться как уже существующий суперпользователь, а не просто с привилегией CREATEROLE. Быть суперпользователем подразумевает возможность обходить все проверки прав доступа в базе данных, поэтому права суперпользователя не следует предоставлять легкомысленно.

createuser - это "обертка" над SQL командой CREATE ROLE. Нет разницы между созданием пользователей с помощью этой утилиты или же иным способом при обращении к серверу. Подробнее про атрибуты ролей описано в ROLE ATTRIBUTES.

Параметры

createuser принимает следующие аргументы командной строки:

FLAGS:

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти
-V, --version	Распечатать версию `createuser` и выйти
-e, --echo	Выводит на экран команды, которые createuser генерирует и отправляет на сервер.

CONNECTION OPTIONS:

Аргумент	Описание
-h, --host=HOSTNAME	Указывает имя хоста компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix.
-p, --port=PORT	Указывает порт TCP или расширение файла локального сокета домена Unix, на котором сервер прослушивает соединения.
-U, --username=USERNAME	Имя пользователя для подключения (не имя пользователя роли которое будет создано)
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	Эта опция не является существенной, так как `createuser` автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, `createuser` будет тратить попытки подключения, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.

OPTIONS:

Аргумент	Описание
-c, --connection-limit=N	Устанавливает максимальное количество подключений для нового пользователя. По умолчанию установлено без ограничений.
-d, --createdb	Новому пользователю будет разрешено создавать базы данных.
-D, --no-createdb	Новому пользователю не будет разрешено создавать базы данных. Это поведение используется по умолчанию.
-g, --role=ROLE	Указывает роль, к которой эта роль будет немедленно добавлена в качестве нового участника. Несколько ролей, можно указать, указав несколько ключей -g .
-i, --inherit	Новая роль автоматически наследует привилегии ролей, членом которых она является. Это поведение используется по умолчанию.
-I, --no-inherit	Новая роль не будет автоматически наследовать привилегии ролей, членом которых она является.
-l, --login	Новому пользователю будет разрешено войти в систему (то есть имя пользователя может использоваться в качестве начального идентификатора пользователя сеанса). Это по умолчанию.
-L, --no-login	Новому пользователю не будет разрешено войти в систему. (Роль без привилегий входа по-прежнему полезна в качестве средства управления разрешениями базы данных.)
-P, --pwprompt	Если указано, createuser выдаст запрос на ввод пароля нового пользователя. В этом нет необходимости, если вы не планируете использовать аутентификацию по паролю.
-r, --createrole	Новому пользователю будет разрешено создавать новые роли (то есть этот пользователь будет иметь привилегию CREATEROLE
-R, --no-createrole	Новый пользователь не сможет создавать новые роли. Это поведение используется по умолчанию.
-s, --superuser	Новый пользователь будет суперпользователем.
-S, --no-superuser	Новый пользователь не будет суперпользователем. Это поведение используется по умолчанию.
--interactive	Запрашивать имя пользователя, если оно не указано в командной строке, а также запрашивать, параметров `-d / -D, -r / -R, -s / -S` если не указаны в командной строке.
--replication	Новый пользователь будет иметь привилегию REPLICATION, которая более подробно описана в документации по CREATE ROLE.
--no-replication	У нового пользователя не будет привилегии REPLICATION.

ARGS:

Аргумент	Описание
ROLENAME	Определяет имя пользователя QHB, который будет создан. Это имя должно отличаться от всех существующих ролей в этой установке QHB.

Окружение

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Диагностика

В случае затруднений см. CREATE ROLE и qsql для ознакомления потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, будут применяться любые параметры подключения по умолчанию и переменные среды.

Примеры

Создание пользователя joe на сервере базы данных по умолчанию:

$ createuser joe

Создание пользователя joe на сервере базы данных по умолчанию с запросом дополнительных атрибутов:

$ createuser --interactive joe
Shall the new role be a superuser? (y/n) n
Shall the new role be allowed to create databases? (y/n) n
Shall the new role be allowed to create more new roles? (y/n) n

Чтобы создать того же пользователя joe используя сервер на хосте eden , порт 5000, с явно заданными атрибутами, взглянем на базовую команду:

$ createuser -h eden -p 5000 -S -D -R -e joe
CREATE ROLE joe NOSUPERUSER NOCREATEDB NOCREATEROLE INHERIT LOGIN;

Создание пользователя joe в качестве суперпользователя и сразу назначить пароль:

$ createuser -P -s -e joe
Enter password for new role: xyzzy
Enter it again: xyzzy
CREATE ROLE joe PASSWORD 'md5b5f5ba1a423792b526f799ae4eb3d59e' SUPERUSER CREATEDB CREATEROLE INHERIT LOGIN;

В приведенном выше примере новый пароль фактически не отображается при вводе, но мы показываем, что было введено для ясности. Как видите, пароль зашифрован перед отправкой клиенту.

Смотрите также

dropuser, CREATE ROLE, ROLE ATTRIBUTES

dropdb - удалить базу данных QHB

dropdb - утилита, позволяющая удалить ранее созданную базу данных.

Синтаксис

dropdb [FLAGS] [OPTIONS] <dbname> --host <host>

Описание

dropdb - это "обертка" над SQL командой DROP DATABASE. Нет разницы между удалением баз данных с помощью этой утилиты или же иным способом при обращении к серверу. Пользователь, который выполняет эту команду, должен быть суперпользователем или владельцем базы данных. Также для сохранения подключения необходимо подключиться к обслуживающей БД (maintenance-db), так как удалить БД, к которой подключён - нельзя, также нельзя удалить базу template1 и/или template0.

Параметры

dropdb принимает следующие аргументы командной строки:

Аргумент	Описание
`dbname`	Имя удаляемой базы данных
`-e`, `--echo`	Выводить команды, которые `dropdb` генерирует и отправляет на сервер
`-i`, `--interactive`	Запросить подтверждение перед удалением
`-V`, `--version`	Показать версию `dropdb` и выйти
`--if-exists`	Не выдавать ошибку, если базы данных не существует. В этом случае выдается уведомление
`-?`, `--help`	Показать справку об аргументах командной строки `dropdb` и выйти

dropdb также принимает следующие параметры командной строки для параметров подключения:

Аргумент	Описание
`-h host`, `--host=host`	Указывает имя или адрес компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для Unix-сокета
`-p port`, `--port=port`	Указывает порт TCP или расширение файла локального Unix-сокета, на котором сервер прослушивает соединения
`-U username`, `--username=username`	Имя пользователя
`-w`, `--no-password`	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля
`-W`, `--password`	Эта опция не является существенной, так как `dropdb` автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, `dropdb` потратит одну дополнительную попытку подключения для аутентификации. В некоторых случаях стоит ввести `-W`, чтобы не делать эту попытку
`--maintenance-db=dbname`	Задает имя базы данных, к которой нужно подключиться, чтобы удалить целевую базу данных. Если не указано иное, будет использоваться база данных `qhb`, а если и её не существует, то будет использоваться `template1`

Окружение

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвета в диагностических сообщениях. Возможные значения always, auto, never.

Диагностика

В случае затруднений см. DROP DATABASE и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, при запуске утилиты, будут применяться параметры подключения и переменные окружения, которые используются библиотекой libpq.

Примеры

Удаление базы new_db. Информацию о подключении берётся из окружения:

$ dropdb new_db

Удаление базы new_db с указанием параметров соединения в интерактивном режиме

$ dropdb -h localhost -p 5432 -i new_db
Database "new_db" will be permanently removed.
Are you sure? (Y/n):

Смотрите также

createdb, DROP DATABASE

dropuser - удалить учетную запись пользователя QHB

dropuser - удалить учетную запись пользователя QHB

Синтаксис

dropuser [connection-option...] [option...] [username]

Описание

dropuser удаляет существующего пользователя QHB. Только суперпользователи и пользователи с привилегией CREATEROLE могут удалять пользователей QHB. Чтобы удалить суперпользователя, вы должны быть самим суперпользователем.

dropuser - это "обертка" над SQL командой DROP ROLE. Нет разницы между удалением пользователей с помощью этой утилиты или же иным способом при обращении к серверу

Параметры

dropuser принимает следующие аргументы командной строки:

Аргумент	Описание
`username`	Указывает имя удаляемого пользователя QHB. Вам будет предложено ввести имя, если оно не указано в командной строке и используется параметр `-i` / `--interactive`
`-e`, `--echo`	Выводить команды, которые `dropuser` генерирует и отправляет на сервер
`-i`, `--interactive`	Запросить подтверждение перед удалением пользователя и запрашивать его, если оно не было указано в командной строке
`-V`, `--version`	Показать версию `dropuser` и выйти
`--if-exists`	Не выдавать ошибку, если пользователя не существует. В этом случае выдается уведомление
`-?`, `--help`	Показать справку об аргументах командной строки `dropuser` и выйти

dropuser также принимает следующие параметры командной строки для параметров подключения:

Аргумент	Описание
`-h host`, `--host=host`	Указывает имя или адрес компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для Unix-сокета
`-p port`, `--port=port`	Указывает порт TCP или расширение файла локального Unix-сокета, на котором сервер прослушивает соединения
`-U username`, `--username=username`	Имя пользователя для подключения. (А не удаляемого пользователя)
`-w`, `--no-password`	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля
`-W`, `--password`	Эта опция не является существенной, так как `dropuser` автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, `dropuser` потратит одну дополнительную попытку подключения для аутентификации. В некоторых случаях стоит ввести `-W`, чтобы не делать эту попытку

Окружение

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never.

Эта утилита, как и большинство других утилит QHB, также использует переменные среды, поддерживаемые libpq.

Диагностика

В случае затруднений см. DROP ROLE и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, при запуске утилиты, будут применяться параметры подключения и переменные окружения, которые используются библиотекой libpq.

Примеры

Чтобы удалить пользователя alex с сервера базы данных по умолчанию:

$ dropuser alex

Чтобы удалить пользователя alex используя сервер на хосте eden, порт 5000, с проверкой и просмотром основной команды:

$ dropuser -p 5000 -h eden -i -e alex
Role "alex" will be permanently removed.
Are you sure? (y/n) y
DROP ROLE alex;

Смотрите также

createuser, DROP ROLE

vacuumdb сборка мусора и анализ базы данных QHB

vacuumdb - сборка мусора и анализ базы данных QHB

Синтаксис

vacuumdb [connection-option...] [option...] [ --table | -t table [( column [,...] )] ] ... [dbname]

vacuumdb [connection-option...] [option...] --all | -a

Описание

vacuumdb утилита для очистки базы данных QHB. vacuumdb также генерирует внутреннюю статистику, используемую оптимизатором запросов QHB.

ⓘ
vacuumdb - это "обертка" над SQL командой VACUUM. Нет разницы между очисткой и анализом баз данных с помощью этой утилиты или же иным способом при обращении к серверу

Параметры

vacuumdb принимает следующие аргументы командной строки:

-a
--all

Обрабатывать все базы данных.
[-d] dbname
[--dbname=]dbname

Указывает имя базы данных, которая будет очищена или проанализирована. Если не указывать и не использовать параметр -a (или --all), имя базы данных считывается из переменной окружения PGDATABASE. Если не установлена переменная окружения, используется имя пользователя, указанное в параметрах подключения.
--disable-page-skipping

Отключить пропуск страниц на основе содержимого карты видимости.
-e
--echo

Выводить команды, которые vacuumdb генерирует и отправляет на сервер.
-f
--full

Выполнить «полную» очистку.
-F
--freeze

Агрессивно «замораживать» кортежи.
-j njobs
--jobs=njobs

Выполняет вакуум или анализ параллельно, запуская несколько (в количестве njobs) команд одновременно. Этот параметр сокращает время обработки, но также увеличивает нагрузку на сервер базы данных.

vacuumdb открывает njobs соединений с базой данных, поэтому убедитесь, что параметр max_connections достаточно высок, чтобы принять все соединения.

Обратите внимание, что использование этого режима вместе с параметром -f (FULL) может привести к сбоям из-за взаимоблокировки, если определенные системные каталоги обрабатываются параллельно.
--min-mxid-age mxid_age

Выполняет вакуум или анализ только для таблиц с возрастом идентификатора мультитранзакции не менее mxid_age. Этот параметр полезен для определения приоритетности таблиц для обработки, чтобы предотвратить зацикливание при обходе идентификатора мультитранзакции. (см. раздел Мультитранзакции и зацикливание).

Для этого параметра возраст идентификатора мультитранзакции для отношения является наибольшим из возрастов основного отношения и связанной с ним таблицы TOAST, если такая существует. Так как команды, выполняемые vacuumdb также будут при необходимости обрабатывать таблицу TOAST для отношений, их возрасты не нужно рассматривать по отдельности.
--min-xid-age xid_age

Выполняет вакуум или анализ только для таблиц с возрастом идентификатора транзакции не менее xid_age. Этот параметр полезен для определения приоритетности таблиц для обработки, чтобы предотвратить зацикливание идентификатора транзакции (см. раздел Предотвращение ошибок зацикливания идентификатора транзакции).

Для этого параметра возраст идентификатора транзакции для отношения является наибольшим из возрастов основного отношения и связанной с ним таблицы TOAST, если такая существует. Поскольку команды, выполняемые vacuumdb, также при необходимости будут обрабатывать таблицу TOAST для отношений, их возрасты не нужно рассматривать по отдельности.
-q
--quiet

Не отображать сообщения о прогрессе выполнения.
--skip-locked

Пропускать отношения, которые неудаётся немедленно заблокировать для обработки.
-t table[ (column [,...]) ]
--table=table[ (column [,...]) ]

Очистить или проанализировать конкретные таблицы. Имена столбцов могут быть указаны только вместе с --analyze или --analyze-only. Несколько таблиц можно очищать, написав несколько параметров -t.

Заметка
Если вы укажете столбцы, вам, вероятно, придется экранировать скобки в коносли. (См. Примеры ниже.)

-v
--verbose

Показать подробную информацию во время процесса.
-V
--version

Показать версию vacuumdb и выйти.
-z
--analyze

Рассчитать статистику для оптимизатора.
-Z
--analyze-only

Рассчитать статистику для оптимизатора (без вакуума).
--analyze-in-stages

Рассчитать статистику для оптимизатора (без вакуума), наподобие --analyze-only. Чтобы быстрее получить полезную статистику, выполняется в несколько этапов (в настоящее время в три этапа) с различными настройками конфигурации.

Этот параметр полезен для анализа базы данных, которая была заполнена путем восстановлением из дампа или с помощью утилиты qhb_upgrade. С ним vacuumdb попытается собрать некоторую статистику как можно быстрее, чтобы как можно скорее сделать базу данных пригодной для использования. А затем, рассчитать полную статистику на последующих этапах.
-?
--help

Показать справку об аргументах командной строки vacuumdb и выйти.

vacuumdb также принимает следующие аргументы командной строки для параметров подключения:

-h host
--host=host

Указывает имя или адрес компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для Unix-сокета.
-p port
--port=port

Указывает порт TCP или расширение файла локального Unix-сокета, на котором сервер прослушивает соединения.
-U username
--username=username

Имя пользователя для подключения как.
-w
--no-password

Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W
--password

Эта опция не является существенной, так как vacuumdb автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, vacuumdb потратит одну дополнительную попытку подключения для аутентификации. В некоторых случаях стоит ввести -W, чтобы не делать эту попытку.
--maintenance-db=dbname

Задает имя базы данных для подключения, чтобы определить какие другие базы данных должны быть очищены или проанализированны. Если не указано иное, будет использоваться база данных QHB, а если и её не существует, то будет использоваться template1.

Окружение

PGDATABASE

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвета в диагностических сообщениях. Возможные значения always, auto, never.

Эта утилита, как и большинство других утилит QHB, также использует переменные среды, поддерживаемые libpq.

Диагностика

В случае затруднений см. VACUUM и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, будут применяться любые параметры подключения по умолчанию и переменные среды, используемые интерфейсной библиотекой libpq.

Примечания

vacuumdb может потребоваться несколько раз подключиться к серверу QHB, каждый раз запрашивая пароль. В таких случаях удобно иметь файл ~/.pgpass.

Примеры

Очистка базы данных test:

$ vacuumdb test

Очистка и анализ для оптимизатора базы данных с именем bigdb:

$ vacuumdb --analyze bigdb

Чтобы очистить одну таблицу foo в базе данных с именем xyzzy и проанализировать один столбец таблицы для оптимизатора:

$ vacuumdb --analyze --verbose --table='foo(bar)' xyzzy

Смотрите Также

VACUUM

qhb_basebackup - резервное копирование кластера QHB

qhb_basebackup - создать резервную копию кластера QHB

Синтаксис

qhb_basebackup [option...]

Описание

qhb_basebackup используется для создания резервных копий работающего кластера баз данных QHB. Резервное копирование производится без влияния на другие клиенты базы данных и могут использоваться как для восстановления на определенный момент времени (см. раздел Непрерывное архивирование и восстановление на момент времени (PITR) ), так и в качестве отправной точки для ведомого сервера при реализации трансляции файлов или потоковой репликации.

qhb_basebackup создает побитовую копию файлов кластера, обеспечивая автоматическое переключение системы в режим резервного копирования. Резервные копии всегда берутся для целого кластера баз данных; резервное копирование отдельных баз данных или объектов базы данных невозможно. Для отдельных резервных копий объектов базы данных необходимо использовать qhb_dump.

Резервное копирование выполняется через обычное соединение QHB и использует протокол репликации. Соединение должно быть установлено под суперпользователем или пользователем, имеющим разрешения REPLICATION (см. раздел Атрибуты ролей), а qhb_hba.conf должен позволять соединение репликации. Сервер также должен быть настроен с параметром max_wal_senders, установленным достаточно высоко, чтобы оставить хотя бы один сеанс доступным для резервного копирования и одним для потоковой передачи WAL (если используется).

Может быть запущено несколько qhb_basebackup'ов одновременно, но с точки зрения производительности лучше выполнять одно резервное копирование и скопировать его результат.

qhb_basebackup может сделать резервную копию не только с ведущего, но и с ведомого кластера. Чтобы сделать резервную копию ведомого кластера, настройте его, чтобы он мог принимать подключения репликации (установите параметры max_wal_senders и hot_standby, и настройте аутентификацию). Вам также нужно будет включить full_page_writes на ведущем кластере.

Обратите внимание, что при резервном копировании ведомого кластера есть некоторые ограничения:

Файл истории резервного копирования не создаётся в целевом кластере баз данных
Если вы используете -X none, нет гарантии, что все файлы WAL, необходимые для резервного копирования, будут архивированы в конце резервного копирования.
Если ведомый сервер становится ведущим во время резервного копирования, резервное копирование завершится неудачно.
Все записи WAL, необходимые для резервного копирования, должны содержать достаточное количество полностраничных записей, для чего необходимо включить full_page_writes на ведущем кластере и не использовать инструменты pg_compresslog или archive_command для удаления полностраничных записей из файлов WAL.

Параметры

Параметр	Описание
`-D directory` `--pgdata=directory`	Каталог для резервной копии. qhb_basebackup создаст каталог и родительские каталоги, если это необходимо. Каталог может уже существовать, но должен быть пуст, иначе произойдёт ошибка. Когда резервная копия создаётся в tar режиме и каталог указан как - (тире), файл tar будет записан в стандартный поток вывода (stdout). Эта опция обязательна.
-F format --format=format	Выбор формата вывода. format может быть одним из следующих: `p` `plain` : Записать результат в виде простых файлов с той же компоновкой, что и исходном каталоге данных с сохранением табличных пространств. Если в кластере нет дополнительных табличных пространств, вся база данных будет помещена в целевой каталог. Если кластер содержит дополнительные табличные пространства, основной каталог данных будет помещен в целевой каталог, а все остальные табличные пространства будут размещены в том же абсолютном пути, что и на сервере. Это формат по умолчанию `t` `tar` : Запишите результат в виде tar-файлов в целевой каталог. Основной каталог данных будет записан в файл с именем base.tar, а все остальные табличные пространства будут названы в соответствии с их OID. Если в качестве целевого каталога указано значение - (тире), содержимое tar будет записано в стандартный вывод, подходящий для передачи, например, в gzip. Это возможно только в том случае, если в кластере нет дополнительных табличных пространств и потоковая передача WAL не используется.
`-r rate` `--max-rate=rate`	Максимальная скорость передачи данных, передаваемых с сервера. Значения указаны в килобайтах в секунду. Используйте суффикс M чтобы указать мегабайт в секунду. Суффикс k также принимается и не имеет никакого эффекта. Допустимые значения: от 32 килобайт в секунду до 1024 мегабайт в секунду. Цель состоит в том, чтобы ограничить влияние qhb_basebackup на работающий сервер. Эта опция всегда влияет на передачу каталога данных. На передачу файлов WAL влияет только метод fetch.
`-R` `--write-recovery-conf`	Создайте файл standby.signal и добавьте параметры подключения в `qhb.auto.conf` в выходном каталоге (или в файле базового архива при использовании формата tar), чтобы упростить настройку ведомого сервера. В файле `qhb.auto.conf` будут записаны параметры подключения и, если указан, слот репликации, который использует qhb_basebackup, то потоковая репликация будет использовать те же параметры.
`-T olddir=newdir` `--tablespace-mapping=olddir=newdir`	Переместите табличное пространство из каталога `olddir` в `newdir` во время резервного копирования. `olddir` должен точно соответствовать пути табличного пространства, как оно определено. (Однако ошибкой не является, если в `olddir` нет табличного пространства.) И `olddir` и `newdir` должны быть абсолютными путями. Если путь содержит знак =, экранируйте его обратной косой чертой `\`. Эта опция может быть указана несколько раз для нескольких табличных пространств (см. примеры ниже). Если табличное пространство перемещается таким образом, символические ссылки внутри основного каталога данных обновляются, чтобы указывать на новое местоположение. Таким образом, новый каталог данных готов к использованию для нового экземпляра сервера со всеми табличными пространствами в обновлённых местоположениях.
`--waldir=waldir`	Указывает местоположение для каталога журнала WAL. `waldir` должен быть абсолютным путем. Каталог журнала предзаписи можно указывать только если резервная копия находится в обычном режиме.
`-X method` `--wal-method=method`	Включает в резервную копию необходимые файлы журнала предзаписи (файлы WAL). Включает в себя журналы упреждающей записи, созданные во время резервного копирования. Если выбран метод none, можно запускать `qhbmaster` непосредственно в извлеченном каталоге без необходимости обращаться к архиву журналов, что делает его полностью автономной резервной копией. Поддерживаются следующие методы сбора журналов предзаписи: `n` `none` : Не включать журнал предзаписи в резервную копию. `f` `fetch` : Файлы журнала предзаписи собираются в конце резервного копирования. Поэтому необходимо, чтобы параметр `wal_keep_segments` был рассчитан и установлен правильно, чтобы журнал не удалялся до окончания резервного копирования. Если журнал был удалён, когда пришло время передать его, резервное копирование не удастся и станет непригодным для использования. Когда используется формат `tar`, файлы журнала с предзаписи записи будут записаны в файл base.tar. `s` `stream` : Потоковая запись журнала предзаписи при создании резервной копии. Открывает второе соединение с сервером и начинает потоковую передачу журнала предзаписи параллельно при выполнении резервного копирования. Поэтому будет использоваться два соединения, настроенных параметром max_wal_senders. Пока клиент может отслеживать поступивший журнал предзаписи, использование этого режима не требует сохранения дополнительных журналов записи на главном сервере. При использовании формата `tar` файлы журналов предзаписи будут записываться в отдельный файл с именем `pg_wal.tar`. Это значение по умолчанию.
`-z` `--gzip`	Включает gzip-сжатие результирующего tar-файла с уровнем сжатия по умолчанию. Сжатие доступно только при использовании формата `tar`, и суффикс `.gz` будет автоматически добавлен ко всем именам файлов tar.
`-Z level` `--compress=level`	Включает gzip-сжатие вывода tar-файла и указывает уровень сжатия (от 0 до 9, 0 - без сжатия и 9 - с наилучшим сжатием). Сжатие доступно только при использовании формата `tar`, и суффикс `.gz` будет автоматически добавлен ко всем именам файлов `tar`.

Окружение

Эта утилита, как и большинство других утилит QHB, использует переменные окружения, поддерживаемые libpq. (см. переменные окружения)

Переменная окружения PG_COLOR указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never.

Примечания

В начале резервного копирования на сервере, с которого берется резервная копия, должна быть зафиксирована контрольная точка. Особенно, если опция --checkpoint=fast не используется, это может занять некоторое время, в течение которого qhb_basebackup будет казаться бездействующим.

Резервная копия будет включать все файлы в каталоге данных и табличных пространствах, включая файлы конфигурации и любые дополнительные файлы, за исключением некоторых временных файлов, управляемых QHB. Копируются только обычные файлы и каталоги, за исключением того, что символические ссылки, используемые для табличных пространств, сохраняются. Символьные ссылки, указывающие на определенные каталоги, известные QHB, копируются как пустые каталоги. Другие символические ссылки и специальные файлы устройств пропускаются.

По умолчанию для табличных пространств в простом формате будут создаваться резервные копии на тот же путь, что и на сервере, если не используется опция --tablespace-mapping. Без этой опции резервное копирование в простом формате на том же хосте, что и на сервере, не будет работать, если используются табличные пространства, поскольку резервная копия должна быть записана в те же каталоги, что и исходные табличные пространства.

Когда используется режим tar, пользователь должен распаковать каждый tar-файл перед запуском сервера QHB. Если есть дополнительные табличные пространства, их tar-файлы необходимо распаковать в правильных местах. В этом случае символические ссылки для этих табличных пространств будут создаваться сервером в соответствии с содержимым файла tablespace_map который включен в файл base.tar.

qhb_basebackup работает с серверами QHB версии 1.1 и выше.

qhb_basebackup сохранит разрешения группы как в plain и в tar формате, если разрешения группы включены в исходном кластере.

Примеры

Создать базовую резервную копию сервера на mydbserver и сохранить ее в локальном каталоге /usr/local/qhb/data:

$ qhb_basebackup -h mydbserver -D /usr/local/qhb/data

Создать резервную копию локального сервера в формате tar для каждого табличного пространства и сохранить его в backup каталоге, отображая отчет о ходе выполнения во время работы:

$ qhb_basebackup -D backup -Ft -z -P

Создать резервную копию локальной базы данных с одним табличным пространством и сжать ее с помощью bzip2:

$ qhb_basebackup -D - -Ft -X fetch | bzip2 > backup.tar.bz2

(Эта команда не будет выполнена, если в базе данных есть несколько табличных пространств.)

Создать резервную копию локальной базы данных с перемещением табличного пространства из /opt/ts в ./backup/ts :

$ qhb_basebackup -D backup/data -T /opt/ts=$(pwd)/backup/ts

Смотрите Также

qhb_dump

reindexdb - переиндексировать базу данных QHB

reindexdb - переиндексировать базу данных QHB

Синтаксис

reindexdb [connection-option...] [option...] [ --schema | -S schema ] ...
    [ --table | -t table ] ... [ --index | -i index ] ... [dbname]

reindexdb [connection-option...] [option...] --all | -a

reindexdb [connection-option...] [option...] --system | -s [dbname]

Описание

reindexdb - это утилита для перестроения индексов в базе данных QHB.

reindexdb - это "обертка" над SQL командой REINDEX. Нет разницы между переиндексацией базы данных с помощью этой утилиты или же иным способом при обращении к серверу.

Параметры

reindexdb принимает следующие аргументы командной строки:

Аргумент	Описание
`-a`, `--all`	Переиндексировать все базы данных
`--concurrently`	Использовать параметр CONCURRENTLY. См. REINDEX для получения дополнительной информации
`[-d] dbname`, `[--dbname=]dbname`	Указывает имя базы данных для переиндексации. Если не указывать и не использовать параметр `-a` (или `--all`), имя базы данных считывается из переменной окружения PGDATABASE. Если не установлена переменная окружения, используется имя пользователя, указанное в параметрах подключения
`-e`, `--echo`	Выводить команды, которые `reindexdb` генерирует и отправляет на сервер
`-i index`, `--index=index`	Пересоздать конкретный индекс. Несколько индексов можно воссоздать, написав несколько ключей `-i`
`-q`, `--quiet`	Не отображать сообщения о прогрессе выполнения
`-s`, `--system`	Переиднексировать системные каталоги
`-S schema`, `--schema=schema`	Переиндексировать конкретную схему. Несколько схем можно переиндексировать, написав несколько ключей `-S`
`-t table`, `--table=table`	Переиндексировать конкретную таблицу. Несколько таблиц можно переиндексировать, написав несколько ключей `-t`
`-v`, `--verbose`	Показать подробную информацию во время процесса
`-V`, `--version`	Показать версию `reindexdb` и выйти
`-?`, `--help`	Показать справку об аргументах командной строки `reindexdb` и выйти

reindexdb также принимает следующие параметры командной строки для параметров подключения:

Аргумент	Описание
`-h host`, `--host=host`	Указывает имя или адрес компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для Unix-сокета
`-p port`, `--port=port`	Указывает порт TCP или расширение файла локального Unix-сокета, на котором сервер прослушивает соединения
`-U username`, `--username=username`	Имя пользователя
`-w`, `--no-password`	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля
`-W`, `--password`	Эта опция не является существенной, так как `reindexdb` автоматически запросит пароль, если сервер требует аутентификацию по паролю. Тем не менее, `reindexdb` потратит одну дополнительную попытку подключения для аутентификации. В некоторых случаях стоит ввести `-W`, чтобы не делать эту попытку
`--maintenance-db=dbname`	Задает имя базы данных для подключения, чтобы определить какие другие базы данных должны быть переиндексированы. Если не указано иное, будет использоваться база данных `qhb`, а если и её не существует, то будет использоваться `template1`

Окружение

PGDATABASE

PGHOST

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Эта утилита, как и большинство других утилит QHB, также использует переменные окружения, поддерживаемые libpq.

Диагностика

В случае затруднений см. REINDEX и qsql для обсуждения потенциальных проблем и сообщений об ошибках. Сервер базы данных должен работать на целевом хосте. Кроме того, при запуске утилиты, будут применяться параметры подключения и переменные окружения, которые используются библиотекой libpq.

Примечания

С помощью reindexdb может потребоваться несколько раз подключиться к серверу QHB, каждый раз запрашивая пароль. В таких случаях удобно иметь файл ~/.pgpass.

Примеры

Чтобы переиндексировать базу данных test:

$ reindexdb test`

Чтобы переиндексировать таблицу foo и индекса bar в базе данных abcd:

$ reindexdb --table=foo --index=bar abcd`

Смотрите Также

REINDEX

qhb_config - получить информацию об установленной версии QHB

qhb_config - получить информацию об установленной версии QHB

Синтаксис

qhb_config [option...]

Описание

Утилита qhb_config выводит параметры конфигурации текущей установленной версии QHB. Он предназначен, например, для использования программными пакетами, которые хотят взаимодействовать с QHB для облегчения поиска необходимых заголовочных файлов и библиотек.

Параметры

Чтобы использовать qhb_config, укажите один или несколько из следующих параметров:

Аргумент	Описание
`--bindir`	Вывести расположение пользовательских исполняемых файлов. Например, чтобы найти программу `qsql`. Обычно это то же место, где находится сама `qhb_config`
`--docdir`	Вывести расположение файлов документации
`--htmldir`	Вывести расположение файлов документации в формате HTML
`--includedir`	Вывести расположение заголовочных файлов C клиентских интерфейсов
`--pkgincludedir`	Вывести расположение других заголовочных файлов C
`--includedir-server`	Вывести расположение заголовочных файлов C для программирования сервера
`--libdir`	Вывести расположение библиотек объектного кода
`--pkglibdir`	Вывести расположение динамически загружаемых модулей либо путь где сервер будет искать их. (Другие файлы данных, зависящие от архитектуры, также могут быть установлены в этом каталоге)
`--localedir`	Вывести расположение файлов поддержки локали. (Это будет пустая строка, если поддержка локали не была настроена при сборке QHB)
`--mandir`	Вывести расположение страниц руководства
`--sharedir`	Вывести расположение архитектурно-независимых вспомогательных файлов
`--sysconfdir`	Вывести расположение общесистемных файлов конфигурации
`--pgxs`	Вывести расположение make-файлов расширений
`--configure`	Вывести параметры, которые были заданы сценарию configure при сборке QHB. Этот параметр можно использовать для последующего воспроизведения идентичной конфигурации или для выяснения того, с какими параметрами был собран используемый бинарный пакет. (Тем не менее, обратите внимание, что бинарные пакеты часто содержат специфичные патчи конкретного производителя). Смотрите также примеры ниже
`--cc`	Вывести значение переменной CC которая использовалась для сборки QHB. Показывает используемый компилятор Си
`--cppflags`	Вывести значение переменной CPPFLAGS, которая использовалась при сборки QHB. Это показывает флаги компилятора C, примененные для препроцессора (обычно флаги `-I`)
`--cflags`	Вывести значение переменной CFLAGS, которая использовалась при сборки QHB. Показывает флаги компилятора C которые использовались при сборке
`--cflags_sl`	Вывести значение переменной CFLAGS_SL, которая использовалась для сборки QHB. Показывает дополнительные флаги компилятора C, используемые для сборки разделяемых библиотек
`--ldflags`	Вывести значение переменной LDFLAGS, которая использовалась для сборки QHB. Показывает флаги компоновщика, которые использовались.
`--ldflags_ex`	Вывести значение переменной LDFLAGS_EX, которая использовалась для сборки QHB. Показывает флаги компоновщика, которые использовались только для сборки исполняемых файлов
`--ldflags_sl`	Вывести значение переменной LDFLAGS_SL, которая использовалась для сборки QHB. Здесь показаны флаги компоновщика, которые использовались только для создания разделяемых библиотек
`--libs`	Вывести значение переменной LIBS, которая использовалась для сборки QHB. Обычно он содержит флаги `-l` для внешних библиотек, прилинкованных к QHB
`--version`	Вывести версию QHB
`-?`, `--help`	Показать справку об аргументах командной строки `qhb_config` и выйти

Если указано более одного параметра, информация печатается в указанном порядке, по одному элементу в строке. Если параметры не переданы, выводится вся доступная информация с подписями к чему она относится.

Пример

Чтобы воспроизвести конфигурацию сборки текущей установки QHB, выполните следующую команду:

eval ./configure `qhb_config --configure`

Вывод qhb_config --configure оборачивается в кавычки, соответственно аргументы с пробелами представляются правильно. Поэтому для получения корректного результата использование eval необходимо.

qhb_dump - извлекает базу данных QHB в файл сценария или другой архив

qhb_dump - утилита извлечения базы данных QHB в файл сценария или другой архив.

Описание

qhb_dump - это утилита для резервного копирования базы данных QHB. Создаёт последовательные резервные копии, даже если база данных используется.

qhb_dump не блокирует доступ других пользователей к базе данных (читателей или писателей).

qhb_dump снимает дамп только с одной базы данных. Для резервного копирования всего кластера или для резервного копирования глобальных объектов, общих для всех баз данных в кластере (таких, как роли и табличные пространства), следует использовать qhb_dumpall.

Дамп может быть создан в формате SQL-сценария или файла архива. SQL-сценарий - это текстовый файл, содержащие команды SQL, необходимые для восстановления базы данных до состояния, в котором она находилась на момент сохранения. Чтобы восстановить БД используя такой скрипт, выполните его используя утилиту qsql.
Файлы сценариев могут использоваться для восстановления базы данных даже на других машинах и других архитектурах; с некоторыми изменениями, на других SQL-совместимых базах данных.

Альтернативные форматы архивных файлов должны использоваться с qhb_restore для перестройки базы данных. Они позволяют qhb_restore избирательно восстанавливать данные, или изменять порядок элементов перед восстановлением. Форматы архивных файлов предназначены для переноса между различными архитектурами.

При использовании с одним из форматов архивных файлов и в сочетании с qhb_restore, qhb_dump обеспечивает гибкий механизм архивирования и передачи. qhb_dump может использоваться для резервного копирования всей базы данных, затем qhb_restore может использоваться для проверки архива и/или выбора того, какие части базы данных должны быть восстановлены. Наиболее гибкими форматами выходного файла являются «пользовательский» формат ( -Fc ) и «каталог» ( -Fd ). Эти форматы позволяют выбирать и переупорядочивать все заархивированные элементы, поддерживают параллельное восстановление и, по умолчанию, сжимаются.

Формат «каталог» единственный, поддерживающий параллельные дампы.

Во время работы qhb_dump необходимо внимательно проверять консольный вывод на наличие предупреждений или ошибок (stderr), особенно в свете ограничений, перечисленных ниже.

Синтаксис

qhb_dump [connection-option...] [OPTION]... [DBNAME]

Параметры

Обратите внимание на то что для многих параметров существуют особенности использования и ознакомьтесь с расширенной справкой в разделе Дополнительная информация по параметрам.

Следующие параметры командной строки управляют содержимым и форматом вывода.

COMMON OPTIONS

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти.
-V, --version	Вывести версию `qhb_dump` и выйти
-v, --verbose	Выводит на экран команды, которые createuser генерирует и отправляет на сервер.

GENERAL OPTIONS

Аргумент	Описание
-f, --file=FILENAME	Перенаправить вывод в указанный файл. Можно не указывать для файловых форматов вывода, тогда используется стандартный вывод. Необходимо задать для формата вывода каталога, т.к. указывает целевой каталог вместо файла. В этом случае каталог создается `qhb_dump`.
-F, --format=`c, d, t, p`	Задать формат вывода дампа. Форматы дампов
-j, --jobs=NUM	Запустить создание дампа в `NUM` потоков. Можно использовать только с выходным форматом каталога. Подробнее.
-Z, --compress=0-9	Уровень сжатия для дампа. Подробнее
--lock-wait-timeout=TIMEOUT	Таймаут, на получение блокировки таблиц. Если невозможно заблокировать таблицу в течение указанного времени - выдаётся ошибка. Подробнее
--no-sync	Не дожидаться синхронизации записи файлов на диск Подробнее

CONNECTION OPTIONS

Аргумент	Описание
-d, --dbname=DBNAME	Имя базы данных для подключения. Эквивалентно указанию dbname в качестве первого не опционального аргумента
-h, --host=HOSTNAME	Имя хоста, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix. Значение по умолчанию берется из переменной среды `PGHOST`, далее предпринимается попытка подключения через сокет домена Unix.
-p, --port=PORT	TCP порт или расширение файла локального сокета домена Unix. По умолчанию берётся переменная среды `PGPORT`, или порт заданный при компиляции.
-U, --username=USERNAME	Имя пользователя для подключения.
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	`qhb_dump` автоматически запросит пароль, если сервер требует аутентификацию по паролю. `qhb_dump` будет пытаться подключиться, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.
--role=ROLENAME	Задает имя роли, которая будет использоваться для создания дампа. Подробнее

OPTIONS

Аргумент	Описание
-a, --data-only	Дамп только данных, а не схемы (DDL определения данных). Данные таблицы, большие объекты и значения последовательности сбрасываются. Эта опция похожа на `--section=data`, но по историческим причинам не идентична.
-b, --blobs	Включить большие объекты в дамп. Это поведение по умолчанию Подробнее
-B, --no-blobs	Исключить выгрузку блобов в дамп. Когда заданы оба параметра `-b` и `-B`, больших объектов включаются в дамп.
-c, --clean	Дополняет выходной файл командами для очистки (`DROP`) объектов базы данных перед выводом команд для их создания. Подробнее
-C, --create	Формирует команду на создание инстанса БД и подключение к нему. Подробнее
-E, --encoding=ENCODING	Создать дамп в указанной кодировке набора символов. По умолчанию дамп создается в кодировке базы данных. (Другой способ получить тот же результат - установить для переменной среды `PGCLIENTENCODING` желаемую кодировку дампа.)
-n, --schema=PATTERN	Включать в Дамп только схемы, соответствующие `pattern` Подробнее
-N, --exclude-schema=PATTERN	Исключать из Дампа схемы, соответствующие `pattern` Подробнее
-O, --no-owner	Не формировать команды для установки владельца объектов как в исходной базе данных. Подробнее
-s, --schema-only	Включает в Дамп только определения объектов (схема), но не сами данные. Подробнее
-S, --superuser=NAME	Указать имя суперпользователя, которое будет использоваться при отключении триггеров. Актуально, только если используется `--disable-triggers`. (Обычно лучше вместо этого запускать полученный скрипт как суперпользователь.)
-t, --table=PATTERN	Включать в Дамп только таблицы, соответствующие `pattern` Подробнее
-T, --exclude-table=PATTERN	Исключать из Дампа таблицы, соответствующие `pattern` Подробнее
-x, --no-privileges, --no-acl	Запретить сброс прав доступа (команды `GRANT / REVOKE`).
--binary-upgrade	Эта опция предназначена для использования утилитами обновления на месте. Использование в других целях не рекомендуется и не поддерживается. Поведение опции может измениться в будущих выпусках без предварительного уведомления.
--column-inserts	Формировать Дамп данных в виде команды INSERT с явными указанием столбцов Подробнее
--disable-dollar-quoting	Этот параметр отключает использование долларовых кавычек для тел функций; можно использовать кавычки из стандартного синтаксиса SQL.
--disable-triggers	Включать в дамп команды на отключение триггеров. Подробнее
--enable-row-security	Выгружать данные из таблиц с защитой строк. Подробнее
--exclude-table-data=PATTERN	Не сбрасывайте данные для таблиц, соответствующих `pattern`. Подробнее
--extra-float-digits=NUM	Использовать заданное значение `extra_float_digits` для чисел с плавающей запятой вместо максимально доступной точности. Обычные дампы, созданные для резервного копирования, не должны использовать эту опцию.
--if-exists	Используйте условные команды (добавить IF EXISTS ) при очистке объектов базы данных. Не работает без `--clean`.
--inserts	Создаёт дамп через команды `INSERT` Подробнее
--load-via-partition-root	Для партиции таблицы ссылаться на корневую таблицу в иерархии партицирования, а не на эту партицию. Подробнее
--no-comments	Не включать в дамп комментарии.
--no-publications	Не включать в дамп публикации.
--no-security-labels	Не включать в дамп защитные метки.
--no-subscriptions	Не включать в дамп подписки.
--no-synchronized-snapshots	Эта опция позволяет запускать `qhb_dump -j` на сервере до 9.2, более подробную информацию смотрите в документации по параметру `-j`.
--no-tablespaces	Не формировать команды для указания табличных пространств. Все объекты будут создаваться в табличном пространстве по умолчанию при восстановлении. Эта опция применима для простого текстового формата. Для форматов архива вы можете указать эту опцию при вызове `qhb_restore`.
--no-unlogged-table-data	Не выгружать данные нежурналируемых таблицы в дамп. Не влияет на выгрузку определений таблиц. На резервном сервере данные нежурналируемых таблиц никогда не выгружаются.
--on-conflict-do-nothing	Добавить `ON CONFLICT DO NOTHING` к командам `INSERT`. Работает только вместе с `--inserts, --rows-per-insert, --rows-per-insert`.
--quote-all-identifiers	Включить принудительно Экранирование идентификаторов при создании дампа Подробнее.
--rows-per-insert=NROWS	Выставляет максимально количество строк для INSERT (не COPY). Должно быть больше нуля. Любая ошибка во время загрузки приведет к потере только строк, которые являются частью проблемной INSERT.
--section=SECTION	Выбор разделов для включения в дамп Подробнее
--serializable-deferrable	Подробнее
--snapshot=SNAPSHOT	Подробнее
--strict-names	Подробнее
--use-set-session-authorization	Подробнее

ARGS

Аргумент	Описание
DBNAME	Определяет имя базы данных, которая будет выгружена. Если это не указано, используется переменная окружения PGDATABASE. Если переменная не установлена, используется имя пользователя, указанное для подключения.

Дополнительная информация по параметрам

В этом разделе описана дополнительная информация, по параметрам командной строки утилиты qhb_dump.

Уровень сжатия

-Z, --compress=0-9

Уровень сжатия для дампа. Ноль означает отсутствие сжатия. Для пользовательского формата архива это указывает сжатие отдельных сегментов табличных данных, и по умолчанию используется сжатие на умеренном уровне. Для формата простого текста установка ненулевого уровня сжатия приводит к сжатию выходного файла, как если бы он был передан через gzip; по умолчанию не сжимать.

В настоящее время формат архива tar не поддерживается.

TIMEOUT

--lock-wait-timeout=TIMEOUT

Таймаут, на получение блокировки таблиц в начале дампа. Если невозможно заблокировать таблицу в течение указанного времени - выдаётся ошибка.

Тайм-аут может быть указан в любом из форматов, принятых с помощью SET statement_timeout. (Разрешенные форматы различаются в зависимости от версии сервера, с которого выгружается дамп; целое число миллисекунд принимается всеми версиями.)

no sync

--no-sync

По умолчанию qhb_dump будет ожидать безопасной записи всех файлов на диск. Эта опция заставляет qhb_dump возвращаться без ожидания, что быстрее, но означает, что последующий сбой операционной системы может привести к повреждению дампа. Как правило, этот параметр полезен для тестирования, но его не следует использовать при сбросе данных из производственной установки.

ROLENAME

--role=ROLENAME

Задает имя роли, которая будет использоваться для создания дампа. qhb_dump выполнит команду SET ROLE rolename после подключения к базе данных. Это полезно, когда пользователю (указанному ключом -U) не хватает привилегий, необходимых для снятия дампа, но возможно переключиться на роль с необходимыми правами.

В некоторых установках задана политика, запрещающая вход в систему от имени суперпользователя, использование этой опции позволяет создавать дампы без нарушения политики.

Форматы дампов

-F format, --format= format - Параметр формата вывода. format может быть одним из следующих:

Формат	Описание
`p, plain`	Текстовый файл сценария SQL (по умолчанию)
`c, custom`	Пользовательский формат
`d, directory`	Дамп в формате каталога, подходящий для `qhb_restore`
`t, tar`	Дамп tar формата, подходящий для ввода в `qhb_restore`

custom

Пользовательский формат, подходящий для qhb_restore. Вместе с форматом каталога это наиболее гибкий формат вывода, поскольку он позволяет вручную выбирать и переупорядочивать заархивированные элементы во время восстановления.

Этот формат также сжат по умолчанию.

tar-dump

Дамп tar формата, подходящий для ввода в qhb_restore. Формат tar совместим с форматом каталога: при извлечении архива в формате tar создается действительный архив в формате каталога.

Однако формат tar не поддерживает сжатие.

Кроме того, при использовании формата tar относительный порядок элементов данных таблицы не может быть изменен во время восстановления.

Выгрузка блобов

-b, --blobs

Включить большие объекты в дамп. Это поведение по умолчанию, за исключением случаев, когда указаны ключи --schema, --table или --schema-only. Поэтому ключ -b полезен только для добавления больших объектов в дампы, где запрошена конкретная схема или таблица.

Обратите внимание, что --schema-only считаются данными и поэтому будут включены, когда используется --data-only, но не с ключом --schema-only.

Clean

-c, --clean

Дополняет выходной файл командами для очистки (DROP) объектов базы данных перед выводом команд для их создания.

Если также не указано --if-exists, восстановление может выводить сообщения о несуществующих объектах в целевой базе данных при попытке удаления.

Эта опция имеет смысл только для простого текстового формата. Для других форматов архива вы можете указать эту опцию при вызове qhb_restore.

Создание базы

-C, --create

Формирует команду на создание инстанса БД и подключение к нему. В этом случае будет не важно какая БД указывается в параметрах подключения при восстановлении.

Если указан параметр --clean, сценарий удаляет и создаёт заново целевую базу данных перед повторным подключением к ней.

С параметром --create выходные данные также формирует комментарий базы данных, если он есть, и любые параметры переменных конфигурации, специфичные для этой базы данных, то есть любые ALTER DATABASE ... SET ... и ALTER ROLE ... IN DATABASE ... SET ... команды, которые ссылаются на эту базу. Права доступа к самой базе данных также выгружаются в дамп, если не применён --no-acl.

Эта опция применима только для простого текстового формата. Для других форматов архива вы можете указать эту опцию при вызове qhb_restore.

no owner

-O, --no-owner

Не формировать команды для установки владельца объектов как в исходной базе данных. По умолчанию qhb_dump создаёт операторы ALTER OWNER или SET SESSION AUTHORIZATION для установки владельца объектов.

Эти команды успешно выполнятся только при запуске сценария суперпользователем (или тем же пользователем, которому принадлежат все объекты в сценарии). Чтобы создать сценарий, который может быть восстановлен любым пользователем, но предоставит ему право владения всеми объектами, укажите -O.

Эта опция имеет смысл только для простого текстового формата. Для форматов архива вы можете указать эту опцию при вызове qhb_restore.

schema only

-s, --schema-only

Включает в Дамп только определения объектов (схема), но не сами данные.

Эта опция является обратной к --data-only. Применение похоже на использование аргументов --section=pre-data --section=post-data, но не идентично по историческим причинам.

Не путайте это с параметром --schema, который использует термин «схема» в другом значении, чтобы исключить данные таблицы только для подмножества таблиц в базе данных, смотрите --exclude-table-data.

Параллельные дампы

При использовании опции -j, --jobs=NUM утилита qhb_dump запустит создание дампа параллельно, одновременно в NUM потоков. Эта опция сокращает время дампа, но также увеличивает нагрузку на сервер базы данных. Вы можете использовать эту опцию только с выходным форматом каталога, потому что это единственный выходной формат, в котором несколько процессов могут записывать свои данные одновременно.

qhb_dump откроет NUM + 1 соединений с базой данных, поэтому убедитесь, что ваш параметр max_connections соответствует, и обеспечивает достаточное количество соединений.

Запрос монопольных блокировок к объектам базы данных при выполнении параллельного дампа может привести к сбою. Причина в том, что мастер-процесс qhb_dump запрашивает общие блокировки для объектов, которые рабочие процессы будут выгружать позже, чтобы удостовериться, что их никто не удалит и не удалит их во время выполнения дампа. Если другой клиент затем запрашивает монопольную блокировку таблицы, эта блокировка не будет предоставлена, но будет поставлена в очередь в ожидании снятия общей блокировки главного процесса. Следовательно, любой другой доступ к таблице также не будет предоставлен и будет поставлен в очередь после запроса исключительной блокировки. Это включает в себя рабочий процесс, пытающийся сбросить таблицу. Без каких-либо мер предосторожности это будет классическая тупиковая ситуация. Чтобы обнаружить этот конфликт, рабочий процесс qhb_dump запрашивает другую общую блокировку, используя опцию NOWAIT. Если рабочему процессу не предоставлена эта общая блокировка, кто-то другой должен тем временем запросить эксклюзивную блокировку, и нет никакого способа продолжить работу с дампом, поэтому у qhb_dump нет другого выбора, кроме как прервать дамп.

Для согласованного резервного копирования сервер базы данных должен поддерживать синхронизированные моментальные снимки. С помощью этой функции клиенты базы данных могут убедиться, что они видят один и тот же набор данных, даже если они используют разные соединения. qhb_dump -j использует несколько соединений с базой данных; он подключается к базе данных один раз с главным процессом и еще раз для каждого рабочего задания. Без функции синхронизированного моментального снимка различные рабочие задания не гарантируют, что в каждом соединении будут отображаться одни и те же данные, что может привести к непоследовательному резервному копированию.

Шаблоны выгрузки

Шаблоны Схем

Включение Схем

-n pattern, --schema= pattern

Включать в Дамп только схемы, соответствующие pattern; включает как саму схему, так и все содержащиеся в ней объекты. Если эта опция не указана, все несистемные схемы в целевой базе данных будут выгружены. Несколько схем можно выбрать, написав несколько ключей -n. Параметр pattern интерпретируется как шаблон по тем же правилам, которые используются командами qsql

, поэтому можно также выбрать несколько схем, написав в шаблоне символы подстановки. При использовании подстановочных знаков, будьте осторожны, если необходимо, указывайте шаблон, чтобы предотвратить расширение оболочки подстановочными знаками; см. примеры.

Заметка
Если указан параметр -n, qhb_dump не будет пытаться создать дамп каких-либо других объектов базы данных, от которых могут зависеть выбранные схемы. Следовательно, нет никакой гарантии, что результаты дампа определенной схемы могут быть успешно восстановлены в чистую базу данных.

Заметка
Объекты, не являющиеся схемами, такие как BLOB-объекты, не выводятся, если указан параметр -n. Вы можете добавить BLOB-объекты обратно в дамп с помощью переключателя --blobs.

Исключение Схем

-N pattern , --exclude-schema= pattern

Не включать в Дамп схемы, соответствующие pattern. Шаблон интерпретируется по тем же правилам, что и для -n. Аргумент-N может быть задан более одного раза, чтобы исключить схемы, соответствующие любому из нескольких шаблонов.

Когда заданы и -n и -N, в дамп включаются схемы, которые соответствуют как минимум одному -n, но не -N. Если аргумент -N задаётся без -n, то схемы, соответствующие -N, исключаются из обычного дампа.

Шаблоны Таблиц

-t pattern, --table= pattern

Включать в Дамп только таблицы с именами, соответствующими pattern. Здесь определение «таблица» включает в себя представления, материализованные представления, последовательности и сторонние таблицы. Несколько таблиц можно выбрать, написав несколько ключей -t. Параметр pattern интерпретируется как шаблон тем же правилам, которые используются в командах qsql

, поэтому можно также выбрать несколько таблиц, написав в шаблоне символы подстановки. При использовании подстановочных знаков, будьте осторожны, если необходимо, указывайте шаблон, чтобы предотвратить расширение оболочки подстановочными знаками; см. примеры.

-n и -N не действуют при использовании -t, поскольку таблицы, выбранные с помощью -t будут выгружаться независимо от этих ключей, а объекты, не являющиеся таблицами, не будут выгружаться.

Заметка
Если указан параметр -t, qhb_dump не пытается создать дамп каких-либо других объектов базы данных, от которых могут зависеть выбранные таблицы. Следовательно, нет никакой гарантии, что результаты дампа конкретной таблицы могут быть успешно восстановлены в чистую базу данных.

Исключение Схем

-N pattern , --exclude-schema= pattern

-T pattern, --exclude-table= pattern

Не включать в Дамп схемы, соответствующие pattern. Шаблон интерпретируется по тем же правилам, что и для -t. Аргумент-T может быть задан более одного раза, чтобы исключить таблицы, соответствующие любому из нескольких шаблонов.

Когда заданы и -t и -T, в дамп включаются таблицы, которые соответствуют как минимум одному -t, но не -T. Если аргумент -T используется без -t, то таблицы, соответствующие -T, исключаются из обычного дампа.

column inserts

--column-inserts

Дамп данных в виде команды INSERT с явными указанием столбцов
(INSERT INTO table ( column, ...) VALUES ... ).

Восстановление по такому дампу очень медленное; в основном полезно для создания дампов, которые можно загружать в СУБД, отличные от QHB.

Любая ошибка во время перезагрузки приведет к потере только тех строк, которые являются частью проблемной INSERT, а не всего содержимого таблицы.

Отключение триггеров

--disable-triggers

Эта опция актуальна только при создании дампа содержащего только данные. Формирует команды для временного отключения триггеров на целевых таблицах во время восстановления данных. Используйте, если есть проверки ссылочной целостности или другие триггеры для таблиц, которые не нужно вызывать во время восстановления данных.

В настоящее время команды, создаваемые с ключом --disable-triggers должны выполняться суперпользователем. Таким образом, вы должны также указать имя суперпользователя с помощью -S или, запустить полученный скрипт как суперпользователь.

Защита строк

--enable-row-security

Эта опция актуальна только при выводе содержимого таблицы, в которой есть защита строк. По умолчанию qhb_dump выключит row_security, чтобы все данные были сброшены из таблицы. Если у пользователя недостаточно прав для обхода защиты строк, выдается ошибка. Этот параметр инструктирует qhb_dump установить вместо свойства row_security значение, позволяющее пользователю выгружать части содержимого таблицы, к которым у него есть доступ.

Обратите внимание, что если вы используете эту опцию в настоящее время, вы, вероятно, также захотите, чтобы дамп был в формате INSERT так как COPY FROM во время восстановления не поддерживает защиту строк.

exclude table data

--exclude-table-data= pattern

Не сбрасывайте данные для таблиц, соответствующих pattern.
Шаблон интерпретируется по тем же правилам, что и для -t.

--exclude-table-data аргумент может быть задан более одного раза, чтобы исключить таблицы, соответствующие любому из нескольких шаблонов.

Эта опция полезна, когда вам нужно определение конкретной таблицы, даже если вам не нужны данные в ней.

Чтобы исключить данные для всех таблиц в базе данных, см. --schema-only.

inserts

--inserts

Создаёт дамп через команды INSERT (а не COPY ). Это сделает восстановление очень медленным; в основном полезно для создания дампов, которые можно загружать в базы данных, отличные от QHB.

Любая ошибка во время перезагрузки приведет к потере только строк, которые являются частью проблемной INSERT, а не всего содержимого таблицы.

Обратите внимание, что восстановление может завершиться неудачей, если вы изменили порядок столбцов.

Опция --column-inserts безопасна от изменений порядка столбцов, хотя и медленнее.

load via partition root

--load-via-partition-root

Для партиции таблицы, в дамп формируются команды COPY или INSERT, ссылающиеся на корневую таблицу в иерархии партицирования, а не на эту партицию.

В результате при загрузке данных подходящая партиция будет выбираться заново для каждой строки. Это может быть полезно при перезагрузке данных, когда на целевом сервере строки не всегда попадают в те же партиции, в которых они находились на исходном.

Это возможно, когда столбец по которому выполнено партицирование имеет текстовый тип, а правило сортировки определено иначе на стороне системы куда выгружается дамп.

Лучше не использовать параллелизм при восстановлении из архива, созданного с помощью этой опции, потому что qhb_restore не будет точно знать, в какой раздел (ы) данный элемент данных архива будет загружать данные. Это может привести к существенному замедлению из-за конфликтов блокировок между параллельными заданиями. Возможен даже сбой восстановления из-за того что ограничение по внешнему ключу, вступит в силу до загрузки всех нужных данных.

Экранирование идентификаторов

--quote-all-identifiers

Включает принудительное экранирование всех идентификаторов при формировании дампа. Эта опция рекомендуется при выгрузке базы данных с сервера, основная версия QHB которого отличается от версии qhb_dump, или в случае если дамп предназначен для загрузки на сервер другой версии.

По умолчанию qhb_dump заключает в кавычки только идентификаторы, которые являются зарезервированными словами в своей основной версии. Это иногда приводит к проблемам совместимости при работе с серверами других версий, которые имеют разные наборы зарезервированных слов. Использование --quote-all-identifiers предотвращает такие проблемы ценой более сложного для чтения сценария дампа.

section

--section= pre-data | data | post-data

Только дамп названого раздела. Имя раздела может быть pre-data, data или post-data. Эта опция может быть указана более одного раза, чтобы выбрать несколько разделов. По умолчанию дамп всех разделов.

Раздел данных содержит фактические данные таблицы, содержимое больших объектов и значения последовательности. Элементы после данных включают определения индексов, триггеров, правил и ограничений, отличных от проверенных проверочных ограничений. Элементы предварительных данных включают все остальные элементы определения данных.

serializable deferrable

--serializable-deferrable

Используйте serializable транзакцию для дампа, чтобы гарантировать, что используемый снимок соответствует более поздним состояниям базы данных; но делайте это, ожидая точки в потоке транзакций, в которой не может быть никаких аномалий, чтобы не было риска сбоя дампа или откатывания других транзакций с serialization_failure.

См. Главу 13 для получения дополнительной информации об изоляции транзакций и управлении параллелизмом.

Эта опция не выгодна для дампа, который предназначен только для аварийного восстановления. Это может быть полезно для дампа, используемого для загрузки копии базы данных для отчетов или другого совместного использования загрузки только для чтения, в то время как исходная база данных продолжает обновляться. Без этого дамп может отражать состояние, которое не согласуется с каким-либо последовательным выполнением транзакций, в конечном итоге совершенных. Например, если используются методы пакетной обработки, партия может отображаться как закрытая в дампе без отображения всех элементов, входящих в пакет.

Эта опция не будет иметь значения, если при запуске qhb_dump нет активных транзакций чтения-записи. Если транзакции чтения-записи активны, начало дампа может быть отложено на неопределенный промежуток времени. После запуска производительность с переключателем или без него одинакова.

snapshot

--snapshot=SNAPSHOT

Используйте указанный синхронизированный моментальный снимок при создании дампа базы данных (подробности см. В таблице 9.87 ).

Эта опция полезна, когда необходимо синхронизировать дамп со слотом логической репликации (см. Главу 48 ) или с одновременным сеансом.

В случае параллельного дампа имя снимка, определенное этим параметром, используется вместо создания нового снимка.

strict names

--strict-names

Требуется, чтобы каждая --schema схемы ( -n / --schema ) и таблица ( -t / --table ) соответствовала хотя бы одной схеме / таблице в базе данных, которую нужно вывести.

Обратите внимание, что если ни один из квалификаторов схемы / таблицы не найдет совпадения, qhb_dump выдаст ошибку даже без --strict-names.

Эта опция не влияет на -N / --exclude-schema, -T / --exclude-table или --exclude-table-data.

Шаблон исключения, не соответствующий ни одному объекту, не считается ошибкой.

use set session authorization

--use-set-session-authorization

Вывести стандартные команды SQL SET SESSION AUTHORIZATION вместо команд ALTER OWNER для определения принадлежности объекта. Это делает дамп более совместимым со стандартами, но в зависимости от истории объектов в дампе может не восстановиться должным образом. Кроме того, дамп с использованием SET SESSION AUTHORIZATION, безусловно, потребует привилегий суперпользователя для правильного восстановления, тогда как ALTER OWNER требует меньших привилегий.

Устаревшие опции

-R --no-reconnect

Эта опция устарела, но все же принята для обратной совместимости.

Окружение

PGDATABASE

PGHOST

PGOPTIONS

PGPORT

PGUSER

Параметры подключения по умолчанию.

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never.

Диагностика

qhb_dump при работе выполняет операции SELECT. Если у вас есть проблемы с запуском qhb_dump, убедитесь, что вы можете запросить информацию из базы данных, например, с помощью qsql. Кроме того, будут применяться любые параметры подключения по умолчанию и переменные среды, используемые интерфейсной библиотекой libpq .

Активность базы данных qhb_dump обычно собирается сборщиком статистики. Если это нежелательно, вы можете установить для параметра track_counts значение false с помощью PGOPTIONS или команды ALTER USER.

Примечания

Если в вашем кластере баз данных есть какие-либо локальные дополнения к базе данных template1, будьте осторожны, чтобы восстановить вывод qhb_dump в действительно пустую базу данных; в противном случае вы можете получить ошибки из-за дублирования определений добавленных объектов. Чтобы создать пустую базу данных без каких-либо локальных дополнений, делайте копию используя template0 , а не template1, например:

CREATE DATABASE foo WITH TEMPLATE template0;

Если выбран дамп только для данных и используется параметр --disable-triggers, qhb_dump отправляет команды для отключения триггеров в пользовательских таблицах перед вставкой данных, а затем команды для их повторного включения после вставки данных. Если восстановление остановлено в середине, системные каталоги могут остаться в неправильном состоянии.

Файл дампа, созданный qhb_dump, не содержит статистику, используемую оптимизатором для принятия решений по планированию запросов. Поэтому целесообразно запускать ANALYZE после восстановления из файла дампа, чтобы обеспечить оптимальную производительность; см. раздел Обновление статистики планировщика и раздел Процесс «Автовакуум» для получения дополнительной информации.

Поскольку qhb_dump используется для передачи данных в более новые версии QHB, можно ожидать, что выходные данные qhb_dump загрузятся в версии сервера QHB, более новые, чем версия qhb_dump. qhb_dump также может создавать дампы с серверов QHB, которые старше его собственной версии. Однако qhb_dump не может создавать дампы с серверов QHB, более новых, чем его собственная основная версия; он откажется даже попытаться, вместо того, чтобы рискнуть сделать неправильный сброс. Кроме того, не гарантируется, что вывод qhb_dump может быть загружен на сервер более старой основной версии, даже если дамп был взят с сервера этой версии. Загрузка файла дампа на старый сервер может потребовать ручного редактирования файла дампа для удаления синтаксиса, не понятного старому серверу. Использование опции --quote-all-identifiers рекомендуется в кросс-версиях, поскольку это может предотвратить проблемы, возникающие из-за изменения списков зарезервированных слов в разных версиях QHB .

При дампе подписок логической репликации qhb_dump будет генерировать команды CREATE SUBSCRIPTION которые используют опцию connect = false, так что при восстановлении подписки не создаются удаленные подключения для создания слота репликации или для начальной копии таблицы. Таким образом, дамп может быть восстановлен без необходимости сетевого доступа к удаленным серверам. Затем пользователь должен повторно активировать подписки подходящим способом. Если задействованные хосты изменились, возможно, потребуется изменить информацию о соединении. Также может быть целесообразно обрезать целевые таблицы перед началом новой полной копии таблицы.

Примеры

Чтобы вывести базу данных mydb в файл SQL-скрипта:

$ qhb_dump mydb > db.sql

Чтобы вывести базу данных в архивный файл нестандартного формата:

$ qhb_dump -Fc mydb > db.dump

Чтобы вывести базу данных в архив формата каталогов:

$ qhb_dump -Fd mydb -f dumpdir

Чтобы вывести базу данных в архив в формате каталога параллельно с 5 рабочими заданиями:

$ qhb_dump -Fd mydb -j 5 -f dumpdir

Чтобы перезагрузить архивный файл в (только что созданную) базу данных с именем newdb :

$ qhb_restore -d newdb db.dump

Чтобы перезагрузить архивный файл в ту же базу данных, из которой он был выгружен, отбрасывая текущее содержимое этой базы данных:

$ qhb_restore -d qhb --clean --create db.dump

Выгрузить одну таблицу с именем mytab :

$ qhb_dump -t mytab mydb > db.sql

Для вывода всех таблиц, имена которых начинаются с emp в detroit схеме, кроме таблицы employee_log :

$ qhb_dump -t 'detroit.emp*' -T detroit.employee_log mydb > db.sql

Чтобы вывести все схемы, имена которых начинаются с east или west, а заканчиваются на gsm, при этом исключая любые схемы, содержащие в имени слово test :

$ qhb_dump -n 'east*gsm' -n 'west*gsm' -N '*test*' mydb > db.sql

То же самое, используя запись регулярного выражения для объединения ключей:

$ qhb_dump -n '(east|west)*gsm' -N '*test*' mydb > db.sql

Чтобы вывести все объекты базы данных, кроме таблиц, имена которых начинаются с ts_ :

$ qhb_dump -T 'ts_*' mydb > db.sql

Чтобы указать имя в верхнем или смешанном регистре в -t и связанных с ним ключах, вам нужно заключить имя в двойные кавычки; иначе шаблон будет свёрнут в нижний регистр см. Шаблоны . Но двойные кавычки являются особенными для оболочки поэтому в свою очередь, они должны быть заключены в кавычки. Таким образом, чтобы вывести одну таблицу с именем в смешанном регистре, вам нужно что-то вроде

$ qhb_dump -t "\"MixedCaseName\"" mydb > mytab.sql

Смотрите Также

qhb_dumpall, qhb_restore, qsql

qhb_dumpall - извлекает кластер базы данных QHB в файл сценария

qhb_dumpall - извлекает кластер базы данных QHB в файл сценария

Описание

qhb_dumpall - это утилита для записи ( « дампа » ) всех баз данных QHB кластера в один файл сценария. Файл сценария содержит команды SQL, которые можно использовать в качестве входных данных для qsql для восстановления баз данных. Это делается путем вызова qhb_dump для каждой базы данных в кластере. qhb_dumpall также выводит глобальные объекты, которые являются общими для всех баз данных, то есть роли базы данных и табличные пространства. ( qhb_dump не сохраняет эти объекты.)

Поскольку qhb_dumpall читает таблицы из всех баз данных, вам, скорее всего, придется подключиться как суперпользователь базы данных, чтобы получить полный дамп. Также вам понадобятся привилегии суперпользователя для выполнения сохраненного скрипта, чтобы иметь возможность добавлять роли и создавать базы данных.

Сценарий SQL будет записан в стандартный вывод. Используйте параметр -f / --file или операторы оболочки, чтобы перенаправить его в файл.

qhb_dumpall необходимо несколько раз подключиться к серверу QHB (один раз для каждой базы данных). Если вы используете аутентификацию по паролю, он будет запрашивать пароль каждый раз. В таких случаях удобно иметь файл ~/.pgpass.

Синтаксис

qhb_dumpall [connection-option...] [OPTION...]

Параметры

Следующие параметры командной строки управляют содержимым и форматом вывода.

COMMON OPTIONS

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти.
-V, --version	Вывести версию `qhb_dumpall` и выйти
-v, --verbose	Выводит на экран команды, которые `qhb_dumpall` генерирует и отправляет на сервер.

GENERAL OPTIONS

Аргумент	Описание
-f, --file=FILENAME	Перенаправить вывод в указанный файл для `qhb_dumpall`. Иначе используется стандартный вывод.
--lock-wait-timeout=TIMEOUT	Таймаут, на получение блокировки таблиц. Если невозможно заблокировать таблицу в течение указанного времени - выдаётся ошибка. Подробнее
--no-sync	Не дожидаться синхронизации записи файлов на диск Подробнее

CONNECTION OPTIONS

Аргумент	Описание
-d, --dbname=DBNAME	Ознакомиться с отличиями от стандартного поведения
-h, --host=HOSTNAME	Имя хоста, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix. Значение по умолчанию берется из переменной среды `PGHOST`, далее предпринимается попытка подключения через сокет домена Unix.
-l, --database=DBNAME	alternative-dbname
-p, --port=PORT	TCP порт или расширение файла локального сокета домена Unix. По умолчанию берётся переменная среды `PGPORT`, или порт заданный при компиляции.
-U, --username=USERNAME	Имя пользователя для подключения.
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	`qhb_dumpall` автоматически запросит пароль, если сервер требует аутентификацию по паролю. `qhb_dumpall` будет пытаться подключиться, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.
--role=ROLENAME	Задает имя роли, которая будет использоваться для создания дампа. Подробнее

OPTIONS

Аргумент	Описание
-a, --data-only	Дамп только данных, а не схемы (DDL определения данных).
-c, --clean	Включите команды SQL для очистки (удаления) баз данных перед их воссозданием. В дамп будут добавлены команды DROP для ролей и табличных пространств.
-E encoding, --encoding=encoding	Создать дамп в указанной кодировке. По умолчанию дамп создается в кодировке базы данных. (Другой способ - установить для переменной среды PGCLIENTENCODING желаемую кодировку дампа.)
-g, --globals-only	Дамп только глобальные объекты (роли и табличные пространства), без баз данных.
-O, --no-owner	Не создавать команды для установки владельца объектов Подробнее
-r, --roles-only	Дамп только ролей, без баз данных или табличных пространств.
-s, --schema-only	Дамп только определения объектов (схема), а не данные.
-S NAME, --superuser=NAME	Имя суперпользователя, которое будет использоваться при отключении триггеров. Подробнее
-t, --tablespaces-only	Дамп только табличные пространства, без баз данных или ролей.
-x, --no-privileges	Запретить сброс прав доступа (команды `GRANT / REVOKE`).
--binary-upgrade	Эта опция предназначена для использования утилитами обновления на месте. Использование в других целях не рекомендуется и не поддерживается. Поведение опции может измениться в будущих выпусках без предварительного уведомления.
--column-inserts	Формировать Дамп данных в виде команды INSERT с явными указанием столбцов Подробнее
--disable-dollar-quoting	Этот параметр отключает использование долларовых кавычек для тел функций; можно использовать кавычки из стандартного синтаксиса SQL.
--disable-triggers	Включать в дамп команды на отключение триггеров. Подробнее
--extra-float-digits=NUM	Использовать заданное значение `extra_float_digits` для чисел с плавающей запятой вместо максимально доступной точности. Обычные дампы, созданные для резервного копирования, не должны использовать эту опцию.
--exclude-database=pattern	Не Включать в Дамп базы данных, соответствующие `pattern` Подробнее
--if-exists	Используйте условные команды (добавить IF EXISTS ) при очистке объектов базы данных и других объектов. Не работает без `--clean`.
--inserts	Создаёт дамп через команды `INSERT` Подробнее
--load-via-partition-root	Для партиции таблицы ссылаться на корневую таблицу в иерархии партицирования, а не на эту партицию. Подробнее
--no-comments	Не включать в дамп комментарии.
--no-publications	Не включать в дамп публикации.
--no-security-labels	Не включать в дамп защитные метки.
--no-subscriptions	Не включать в дамп подписки.
--no-role-passwords	Не сбрасывайте пароли для ролей. Подробнее
--no-sync	Не дожидаться синхронизации записи файлов на диск Подробнее
--no-tablespaces	Не формировать команды для указания табличных пространств. Все объекты будут создаваться в табличном пространстве по умолчанию при восстановлении.
--no-unlogged-table-data	Не выгружать данные нежурналируемых таблицы в дамп. Не влияет на выгрузку определений таблиц.
--on-conflict-do-nothing	Добавить `ON CONFLICT DO NOTHING` к командам `INSERT`. Работает только с `--inserts` или `--column-inserts`.
--quote-all-identifiers	Включить принудительно Экранирование идентификаторов при создании дампа Подробнее.
--rows-per-insert=NROWS	Выставляет максимально количество строк для INSERT (не COPY). Должно быть больше нуля. Любая ошибка во время загрузки приведет к потере только строк, которые являются частью проблемной INSERT.
--use-set-session-authorization	Подробнее

Дополнительная информация по параметрам

TIMEOUT

--lock-wait-timeout=TIMEOUT

no sync

--no-sync

По умолчанию qhb_dumpall будет ожидать безопасной записи всех файлов на диск. Эта опция заставляет qhb_dumpall возвращаться без ожидания, что быстрее, но означает, что последующий сбой операционной системы может привести к повреждению дампа. Как правило, этот параметр полезен для тестирования, но его не следует использовать при сбросе данных из производственной установки.

dbname

-d connstr, --dbname=connstr

Задает параметры, используемые для подключения к серверу, в виде строки подключения.

Параметр называется --dbname для согласованности с другими клиентскими приложениями, но поскольку qhb_dumpall необходимо подключаться ко многим базам данных, имя базы данных в строке подключения будет игнорироваться. Используйте параметр -l чтобы указать имя базы данных, используемой для начального соединения, которая будет создавать дамп глобальных объектов и определять, какие другие базы данных должны быть дампированы.

alternative-dbname

-l dbname, --database=dbname

Задает имя базы данных, к которой необходимо подключиться для создания дампов глобальных объектов и определения того, какие другие базы данных должны быть выгружены. Если не указано иное, будет использоваться база данных qhb, если она не существует, будет использоваться template1 .

ROLENAME

--role=ROLENAME

Задает имя роли, которая будет использоваться для создания дампа. qhb_dumpall выполнит команду SET ROLE rolename после подключения к базе данных. Это полезно, когда пользователю (указанному ключом -U) не хватает привилегий, необходимых для снятия дампа, но возможно переключиться на роль с необходимыми правами.

no owner

-O, --no-owner Не создавать команды для установки владельца объектов в соответствии с исходной базой данных. По умолчанию qhb_dumpall выдает операторы ALTER OWNER или SET SESSION AUTHORIZATION чтобы установить владельца созданных элементов схемы. Эти операторы не будут выполнены при запуске сценария, если он не запущен суперпользователем (или тем же пользователем, которому принадлежат все объекты в сценарии). Чтобы создать сценарий, который может быть восстановлен любым пользователем, но предоставит ему право владения всеми объектами, укажите -O .

superuser

Имя суперпользователя, которое будет использоваться при отключении триггеров.

Это актуально, только если используется --disable-triggers. (Обычно лучше не указывать это и вместо этого запускать полученный скрипт как суперпользователь.)

column inserts

--column-inserts

Дамп данных в виде команды INSERT с явными указанием столбцов
(INSERT INTO table ( column, ...) VALUES ... ).

Отключение триггеров

--disable-triggers

exclude database

--exclude-database=pattern

Не Включать в Дамп базы данных, соответствующие pattern; Несколько баз можно исключить, написав несколько ключей --exclude-database.

Параметр pattern интерпретируется как шаблон по тем же правилам, которые используются командами qsql, поэтому несколько баз данных также можно исключить, написав в шаблоне символы подстановки. При использовании подстановочных знаков, будьте осторожны, если необходимо, указывайте шаблон, чтобы предотвратить расширение оболочки подстановочными знаками.

inserts

--inserts

Обратите внимание, что восстановление может завершиться неудачей, если вы изменили порядок столбцов.

Опция --column-inserts безопасна от изменений порядка столбцов, хотя и медленнее.

load via partition root

--load-via-partition-root

Для партиции таблицы, в дамп формируются команды COPY или INSERT, ссылающиеся на корневую таблицу в иерархии партицирования, а не на эту партицию.

no role passwords

--no-role-passwords

Не сбрасывать пароли для ролей. После восстановления роли будут иметь нулевой пароль, и проверка подлинности по паролю всегда будет неуспешной, пока пароль не будет установлен. Поскольку при pg_authid этой опции значения пароля не нужны, информация о роли читается из представления каталога pg_roles, а не pg_authid. Следовательно, эта опция также помогает, если доступ к pg_authid ограничен какой-либо политикой безопасности.

Экранирование идентификаторов

--quote-all-identifiers

Включает принудительное экранирование всех идентификаторов при формировании дампа. Эта опция рекомендуется при выгрузке базы данных с сервера, основная версия QHB которого отличается от версии qhb_dumpall, или в случае если дамп предназначен для загрузки на сервер другой версии.

По умолчанию qhb_dumpall заключает в кавычки только идентификаторы, которые являются зарезервированными словами в своей основной версии. Это иногда приводит к проблемам совместимости при работе с серверами других версий, которые имеют разные наборы зарезервированных слов. Использование --quote-all-identifiers предотвращает такие проблемы ценой более сложного для чтения сценария дампа.

use set session authorization

--use-set-session-authorization

Окружение

PGHOST

PGOPTIONS

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Эта утилита, как и большинство других утилит QHB, также использует переменные среды, поддерживаемые libpq .

Примечания

Поскольку qhb_dumpall вызывает qhb_dump для каждой БД, некоторые диагностические сообщения будут ссылаться на qhb_dump .

Опция --clean может быть полезна, даже если вы собираетесь восстановить скрипт дампа в новый кластер. Использование --clean разрешает сценарию удалять и заново создавать встроенные базы данных qhb и template1, гарантируя, что эти базы данных сохранят те же свойства (например, языковой стандарт и кодировку), которые были у них в исходном кластере. Без этой опции эти базы данных сохранят свои существующие свойства уровня базы данных, а также любое ранее существующее содержимое.

После восстановления рекомендуется запускать ANALYZE для каждой базы данных, чтобы оптимизатор имел полезную статистику. Вы также можете запустить vacuumdb -a -z для анализа всех баз данных.

Не следует ожидать, что скрипт дампа будет работать полностью без ошибок. В частности, поскольку сценарий будет выдавать команду CREATE ROLE для каждой роли, существующей в исходном кластере, он обязательно получит ошибку « роль уже существует » для суперпользователя начальной загрузки, если только целевой кластер не был инициализирован с другим именем суперпользователя начальной загрузки. Эта ошибка безвредна и должна игнорироваться. Использование опции --if-exists может привести к ряду дополнительных безобидных сообщений об ошибках о несуществующих объектах.

qhb_dumpall требует, чтобы все необходимые каталоги табличного пространства существовали до восстановления; в противном случае создание базы данных завершится неудачно для баз данных, расположенных не по умолчанию.

Примеры

Чтобы сбросить все базы данных:

$ qhb_dumpall > db.out

Неважно, к какой базе данных вы подключаетесь, поскольку файл сценария, созданный qhb_dumpall, будет содержать соответствующие команды для создания и подключения к сохраненным базам данных. Исключением является случай, если вы указали --clean, вы должны сначала подключиться к базе данных qhb; сценарий попытается немедленно удалить другие базы данных, и это не удастся для базы данных, к которой вы подключены.

Смотрите Также

Проверьте qhb_dump для подробной информации о возможных состояниях ошибки.

qhb_isready - проверка состояние соединения с сервером QHB

Синтаксис

qhb_isready [FLAGS] [OPTIONS]

Описание

qhb_isready - это утилита для проверки состояния соединения с сервером базы данных QHB. Статус выхода определяет результат проверки соединения.

Параметры

FLAGS:

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти.
--no-timeout	Запустить приложение без тайм-аута, используется вместо `-t 0s`
-q, --quiet	Устанавливает уровень ведения журнала в `Error`, конфликтует с флагом `verbose`.
-V, --version	Вывести версию `qhb_isready` и выйти.
-v, --verbose	Устанавливает уровень ведения журнала в `Debug` (по умолчанию: `Info`).

OPTIONS:

Аргумент	Описание
-d, --dbname DBNAME	Определяет имя базы данных для подключения (env: PGDATABASE).
-h, --host HOST	Указывает имя хоста компьютера, на котором работает сервер. Если значение начинается с косой черты, оно используется как каталог для сокета Unix-домена. (env:PGHOST)
-p, --port PORT	Указывает порт TCP или расширение файла локального сокета Unix-домена, на котором сервер прослушивает соединения. По умолчанию используется значение переменной среды (env: PGPORT) или, если не установлено, значение порта, указанного во время компиляции, обычно 5432.
-t, --timeout TIMEOUT	Максимальное количество секунд ожидания при попытке соединения, поддерживает «человеческое время», например `-t 3s`.
-U, --username USERNAME	Подключение к базе данных с использованием имени пользователя вместо имени по умолчанию. (env: PGUSER)

Статус выхода

qhb_isready возвращает оболочке:

Код выхода	Условия
0	сервер принимает соединения нормально
1	сервер отклоняет соединения (например, во время запуска или неверно заданных аргументов: `--no-existent-arg`)
2	не было ответа на попытку соединения
3	попытка не была предпринята (например, из-за неверных параметров аргумента(ов))

Примечания

Для получения статуса сервера необязательно указывать правильные значения имени пользователя, пароля или имени базы данных; однако, если указаны неправильные значения, сервер зарегистрирует неудачную попытку подключения.

Примеры

Стандартное использование:

$ qhb_isready echo $?
[INFO] /home/user/qhb/core_db/build/dbsockets:5432 - accepting connections
0

Запуск с параметрами подключения к неотвечающему кластеру QHB:

$  qhb_isready --host localhost --port 22; echo $?
[WARN] Unable to load login packet: Provided buffer (66560) is shorter than a packet length (body_length = 1397239086, packet_id = 83 (S), raw_length = 1397239090).
[ERROR] localhost:22 - connection rejected
1

Ошибка при попытке установить подключение

$ qhb_isready --host localhost --port 42; echo $?
[WARN] ConnectionError: failed to connect to 127.0.0.1:42: Failed to establish connection to 127.0.0.1:42: Connection refused (os error 111)
[ERROR] localhost:42 - no response
2

Запуск с некорректными параметрами

$ qhb_isready --host asd; echo $?
[WARN] Failed to lookup address asd: failed to lookup address information: Name or service not known
[ERROR] asd:5432 - incorrect parameters
3

qhb_receivewal - потоковые журналы записи с сервера QHB

qhb_receivewal - потоковые журналы записи с сервера QHB

Описание

qhb_receivewal используется для потоковой передачи журнала предварительной записи (Write Ahead Log, WAL) из работающего кластера QHB. Журнал упреждающей записи передается по протоколу потоковой репликации и записывается в локальный каталог. Этот каталог можно использовать в качестве расположения архива для восстановления с использованием восстановления на определенный момент времени (см. раздел Непрерывное архивирование и восстановление на момент времени).

qhb_receivewal направляет журнал упреждающей записи в режиме реального времени, поскольку он генерируется на сервере, и не ожидает завершения сегментов, как это делает archive_command. По этой причине нет необходимости устанавливать archive_timeout при использовании qhb_receivewal.

В отличие от приемника WAL резервного сервера QHB, qhb_receivewal по умолчанию сбрасывает данные WAL только тогда, когда файл WAL закрыт. Опция --synchronous должна быть указана для сброса данных WAL в режиме реального времени. Так как qhb_receivewal не применяет WAL, вы не должны допускать, чтобы он стал синхронным резервом, когда synchronous_commit равен remote_apply. Если это произойдет, он окажется резервным, который никогда не догонит, и приведет к блокировке фиксации транзакции. Чтобы избежать этого, вы должны либо настроить подходящее значение для synchronous_standby_names, либо указать application_name для qhb_receivewal, который ему не соответствует, либо изменить значение synchronous_commit на что-то отличное от remote_apply .

Журнал предварительной записи передается по обычному соединению QHB и использует протокол репликации. Соединение должно быть установлено суперпользователем или пользователем, имеющим разрешения REPLICATION (см. раздел Атрибуты ролей), а qhb_hba.conf должен разрешить соединение репликации. Сервер также должен быть настроен с max_wal_senders, установленным достаточно высоко, чтобы оставить хотя бы один сеанс доступным для потока.

Если соединение потеряно или если оно не может быть изначально установлено, с нефатальной ошибкой, qhb_receivewal будет повторять попытку подключения бесконечно и восстанавливать потоковую передачу как можно скорее. Чтобы избежать этого, используйте параметр -n.

При отсутствии фатальных ошибок qhb_receivewal будет работать до тех пор, пока не прекратится сигналом SIGINT (Control + C).

Синтаксис

qhb_receivewal [OPTION] ...

Параметры

CONNECTION OPTIONS

Аргумент	Описание
-d, --dbname=CONNSTR	Имя базы данных для подключения.
-h, --host=HOSTNAME	Имя хоста, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix. Значение по умолчанию берется из переменной среды `PGHOST`, далее предпринимается попытка подключения через сокет домена Unix.
-p, --port=PORT	TCP порт или расширение файла локального сокета домена Unix. По умолчанию берётся переменная среды `PGPORT`, или порт заданный при компиляции.
-U, --username=NAME	Имя пользователя для подключения.
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	Автоматически запросить пароль, если сервер требует аутентификацию по паролю. Утилита будет пытаться подключиться, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.

OPTIONS

Аргумент	Описание
-D, --directory=DIR	Каталог для записи вывода. Обязательный параметр.
-E, --endpos=LSN	Автоматически останавливать репликацию и выходить с кодом выхода 0, когда приём достигает указанного номера LSN. Если есть запись с LSN, равным lsn, запись будет обработана.
--if-not-exists	Не генерировать ошибку, если при опции create-slot будет найден уже существующий слот с указанным именем.
-n, --no-loop	Завершить работу с ошибкой, и не выполнять новую попытку подключения при ошибках соединения.
--no-sync	Отключить принудительный сброс на диск WAL-журналов. Последующий сбой операционной системы может привести к повреждению сегментов WAL. Полезно для тестирования, но не следует использовать при архивации WAL в производственной среде. Эта опция несовместима с `--synchronous`.
-s, --status-interval=SECS	Интервал отправки пакетов состояния. Подробнее
-S, --slot=SLOTNAME	Требовать от `qhb_receivewal` использования существующего слота репликации. Подробнее
--synchronous	Записать данные WAL на диск сразу же после их получения. Подробнее
-v, --verbose	Включает подробный режим.
-V, --version	Вывести версию `qhb_receivewal` и выйти
-Z, --compress=0-9	Включает gzip-сжатие журналов записи с опережением и указывает уровень сжатия (от 0 до 9, 0 - без сжатия и 9 - с наилучшим сжатием). Суффикс .gz будет автоматически добавлен ко всем именам файлов.
-?, --help	Показать справку об аргументах командной строки `qhb_receivewal` и выйти.

status interval

-s SECS, --status-interval=SECS

Задает количество секунд между пакетами состояния, отправляемыми обратно на сервер. Это позволяет упростить мониторинг прогресса с сервера. Нулевое значение полностью отключает периодические обновления статуса, хотя обновление по-прежнему будет отправляться по запросу сервера, чтобы избежать отключения по тайм-ауту. Значение по умолчанию составляет 10 секунд.

SLOTNAME

-S SLOTNAME, --slot=SLOTNAME Требовать от qhb_receivewal использования существующего слота репликации. Когда используется эта опция, qhb_receivewal будет сообщать серверу позицию сброса, указывая, когда каждый сегмент был синхронизирован с диском, чтобы сервер мог удалить этот сегмент, если в этом нет необходимости.

Когда клиент репликации qhb_receivewal настроен на сервере как синхронный резерв, то использование слота репликации сообщит серверу позицию сброса, но только когда файл WAL закрыт. Следовательно, такая конфигурация приведет к тому, что транзакции на первичном сервере ожидают долгое время и эффективно не будут работать удовлетворительно.

Опция --synchronous должна быть указана дополнительно для правильной работы.

synchronous

--synchronous Записать данные WAL на диск сразу после их получения. Также отправьте пакет состояния обратно на сервер сразу после очистки независимо от --status-interval.

Эта опция должна быть указана, если клиент репликации qhb_receivewal настроен на сервере как синхронный резерв, чтобы обеспечить своевременную отправку обратной связи на сервер.

Дополнительные опции

qhb_receivewal может выполнить одно из двух следующих действий для управления слотами физической репликации:

Параметр	Описание
--create-slot	Создать новый слот физической репликации с именем, указанным в параметре `--slot,` и выйти.
--drop-slot	Удалить слот репликации с именем, указанным в `--slot,` и выйти.

Статус Выхода

qhb_receivewal выйдет со статусом 0, когда завершится сигналом SIGINT . (Это нормальный способ завершить его. Следовательно, это не ошибка.) Для фатальных ошибок или других сигналов состояние выхода будет отличным от нуля.

Окружение

Эта утилита, как и большинство других утилит QHB, использует переменные окружения, поддерживаемые libpq .

Переменная окружения PG_COLOR указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never.

Примечания

При использовании qhb_receivewal вместо archive_command в качестве основного метода резервного копирования WAL настоятельно рекомендуется использовать слоты репликации. В противном случае сервер может свободно перезаписывать или удалять файлы журналов WAL перед их резервным копированием, поскольку он не имеет никакой информации ни от архива, ни от слотов репликации о том, как далеко заархивирован поток WAL. Однако обратите внимание, что слот репликации заполнит дисковое пространство сервера, если получатель не успевает за извлечением данных WAL.

qhb_receivewal сохранит разрешения группы для полученных файлов WAL, если разрешения группы включены в исходном кластере.

Примеры

Для потоковой передачи журнала предварительной записи с сервера mydbserver и его сохранения в локальном каталоге /usr/local/qhb/archive :

$ qhb_receivewal -h mydbserver -D /usr/local/qhb/archive

Смотрите Также

qhb_basebackup

qhb_recvlogical - управление потоками логического декодирования QHB

qhb_recvlogical - управление потоками логического декодирования QHB

Описание

qhb_recvlogical управляет слотами репликации с логическим декодированием и передает данные из таких слотов репликации.

Он создает соединение в режиме репликации, поэтому к нему применяются те же ограничения, что и для qhb_receivewal, плюс ограничения для логической репликации.

qhb_recvlogical не имеет эквивалента режимам просмотра и получения интерфейса SQL логического декодирования. Утилита отправляет подтверждения воспроизведения для данных в "ленивом режиме", по мере их получения и при чистом выходе. Чтобы проверить ожидающие данные в слоте, не используя их, используйте pg_logical_slot_peek_changes.

Синтаксис

qhb_recvlogical [option...]

Параметры

Для выбора действия необходимо указать хотя бы один из следующих параметров:

Возможные действия

--create-slot Создайте новый слот логической репликации с именем, заданным параметром --slot, используя плагин вывода, заданный параметром --plugin, для базы данных, заданной параметром --dbname.

--drop-slot Удалить слот репликации с именем, указанным параметром --slot, затем выйти.

--start Начать запись потока в слот логической репликации, указанный в параметре --slot, продолжая до сигнала отмены. Если поток изменений на стороне сервера заканчивается отключением или отключением сервера, повторите цикл, если не указан параметр --no-loop.

Формат потока определяется выходным плагином, указанным при создании слота. Соединение должно быть с той же базой данных, которая использовалась для создания слота.

--create-slot и --start могут быть указаны вместе. --drop-slot не может быть объединено с другим действием.

Options

Следующие параметры командной строки управляют расположением и форматом вывода и другим поведением репликации:

Аргумент	Описание
-S, --slot=SLOTNAME	Имя слота логической репликации для режимов `--create-slot, --create-slot, --drop-slot`.
-E, --endpos=LSN	Автоматически останавливать репликацию и выходить с кодом выхода 0, когда приём достигает указанного номера LSN. Подробнее
-f, --file=FILE	Записать полученные и декодированные данные транзакций в файл. Используйте `-`(минус) для стандартного вывода (stdout).
-F --fsync-interval=SECS	Частота вызова `fsync()` Подробнее
--if-not-exists	Не создавать ошибку, если `--create-slot` указан, а слот с таким именем уже существует.
-I, --startpos=LSN	В режиме `--start` начать репликацию с указанного номера LSN. Игнорируется в других режимах.
-n, --no-loop	Завершить работу с ошибкой, и не выполнять новую попытку подключения при ошибках соединения.
-o, --option=NAME[=VALUE]	Передать пару `Name:Value` в плагин вывода, указание `Value` опционально. Существующие параметры и их поведение зависит от используемого выходного плагина.
-P, --plugin=PLUGIN	Использовать указанный плагин вывода логического декодирования при создании слота репликации. Не действует, если слот уже существует.
-s, --status-interval=SECS	Интервал отправки пакетов состояния. Аналогично параметру qhb_receivewal - status interval

End position

-E lsn, --endpos=lsn Автоматически останавливать репликацию и выходить с кодом выхода 0, когда приём достигает указанного номера LSN. Если есть запись с LSN, равным lsn, запись будет обработана.

Опция --endpos не знает границ транзакции и может обрезать вывод во время транзакции. Любая частично выводимая транзакция не будет использована и будет воспроизведена снова, когда слот будет считан в следующий раз. Отдельные сообщения никогда не усекаются.

fsync-interval

-F SECS, --fsync-interval=SECS Определяет, как часто qhb_recvlogical должен вызывать вызовы fsync() чтобы убедиться, что выходной файл безопасно записан на диск. Сервер иногда запрашивает у клиента очистку и сообщает серверу о положении очистки.

Этот параметр необходим для более частого выполнения сбросов. Задание интервала 0 отключает вызовы fsync() полностью, в то же время сообщая о ходе выполнения на сервер. В этом случае данные могут быть потеряны в случае сбоя.

CONNECTION OPTIONS

Следующие параметры командной строки управляют параметрами подключения к базе данных.

Аргумент	Описание
-d, --dbname=DBNAME	Имя базы данных для подключения.
-h, --host=HOSTNAME	Имя хоста, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix. Значение по умолчанию берется из переменной среды `PGHOST`, далее предпринимается попытка подключения через сокет домена Unix.
-p, --port=PORT	TCP порт или расширение файла локального сокета домена Unix. По умолчанию берётся переменная среды `PGPORT`, или порт заданный при компиляции.
-U, --username=NAME	Имя пользователя для подключения.
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	Автоматически запросить пароль, если сервер требует аутентификацию по паролю. Утилита будет пытаться подключиться, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.

COMMON OPTIONS

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти.
-V, --version	Вывести версию утилиты и выйти.
-v, --verbose	Включает подробный режим.

Окружение

Эта утилита, как и большинство других утилит QHB, использует переменные окружения, поддерживаемые libpq .

Переменная окружения PG_COLOR указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Примечания

qhb_recvlogical сохранит разрешения группы для полученных файлов WAL, если разрешения группы включены в исходном кластере.

Смотрите также

qhb_receivewal

qhb_restore

qhb_restore - восстанавливает базу данных QHB из файла архива, созданного qhb_dump

Описание

qhb_restore - это утилита для восстановления базы данных QHB из архива, созданного qhb_dump в одном из текстовых форматов. Он выдаст команды, необходимые для восстановления базы данных до состояния, в котором она находилась на момент сохранения. Архивные файлы также позволяют qhb_restore избирательно выбирать то, что восстанавливается, или даже переупорядочивать элементы перед восстановлением. Архивные файлы предназначены для переноса между архитектурами.

qhb_restore может работать в двух режимах. Если указано имя базы данных, qhb_restore подключается к этой базе данных и восстанавливает содержимое архива непосредственно в базу данных. В противном случае сценарий, содержащий команды SQL, необходимые для перестройки базы данных, создается и записывается в файл или стандартный вывод. Этот вывод сценария эквивалентен формату вывода простого текста qhb_dump. Поэтому некоторые параметры, управляющие выводом, аналогичны параметрам qhb_dump .

Очевидно, что qhb_restore не может восстановить информацию, которой нет в файле архива. Например, если архив был создан с использованием опции « сбросить данные как команды INSERT »( qhb_dump --insert ), qhb_restore не сможет загружать данные с помощью операторов COPY.

Синтаксис

qhb_restore [connection-option...] [option...] [filename]

Параметры

qhb_restore принимает следующие аргументы командной строки.

COMMON OPTIONS

Аргумент	Описание
-?, --help	Показать справку об аргументах командной строки и выйти.
-V, --version	Вывести версию `qhb_restore` и выйти.
-v, --verbose	Включить подробный режим.

GENERAL OPTIONS

Аргумент	Описание
-f, --file=FILENAME	Укажите выходной файл для сгенерированного скрипта или для листинга (ключ `-l`). Используйте `-` для стандартного вывода.
-F, --format=`c, d, t`	Укажите формат архива. Обычно нет необходимости указывать формат, так как `qhb_restore` определит формат автоматически. См Форматы дампов
-j, --jobs=NUM	Запустить восстановление дампа в `NUM` потоков. Подробнее.

CONNECTION OPTIONS

Аргумент	Описание
-d, --dbname=DBNAME	Имя базы данных для подключения. `qhb_restore` не использует переменную PGDATABASE.
-h, --host=HOSTNAME	Имя хоста, на котором работает сервер. Если значение начинается с косой черты, оно используется в качестве каталога для сокета домена Unix. Значение по умолчанию берется из переменной среды `PGHOST`, далее предпринимается попытка подключения через сокет домена Unix.
-p, --port=PORT	TCP порт или расширение файла локального сокета домена Unix. По умолчанию берётся переменная среды `PGPORT`, или порт заданный при компиляции.
-U, --username=USERNAME	Имя пользователя для подключения.
-w, --no-password	Не запрашивать ввод пароля. Если серверу требуется аутентификация по паролю, а пароль недоступен другими способами, такими как файл .pgpass, попытка подключения завершится неудачно. Эта опция может быть полезна в пакетных заданиях и сценариях, где нет ни одного пользователя для ввода пароля.
-W, --password	`qhb_restore` автоматически запросит пароль, если сервер требует аутентификацию по паролю. `qhb_restore` будет пытаться подключиться, для аутентификации. В некоторых случаях стоит ввести `-W` чтобы избежать дополнительной попытки подключения.
--role=ROLENAME	Задает имя роли, которая будет использоваться для восстановления. Подробнее

OPTIONS

Аргумент	Описание
-a, --data-only	Восстановить только данные, а не схему (определения данных). Данные таблицы, крупные объекты и значения последовательности восстанавливаются, если они присутствуют в архиве. Эта опция похожа, но по историческим причинам не идентична `--section=data` .
-c, --clean	Очистить (DROP) объекты базы данных перед их воссозданием. (Если не используется `--if-exists` это может привести к сообщениям об ошибках, если какие-либо объекты не присутствуют в целевой базе данных.)
-C, --create	Создать базу данных перед ее восстановлением. Подробнее
-e, --exit-on-error	Выйти, если при отправке команд SQL в базу данных возникла ошибка. По умолчанию работа продолжается, а количество ошибок отображается в конце восстановления.
-I index, --index=index	Восстановить определение только именованного индекса. Несколько индексов могут быть указаны с несколькими ключами `-I`.
-l, --list	Создать оглавление архива Подробнее
-L, --use-list=FILENAME	Восстановление по оглавлению Подробнее
-n, --schema=SCHEMA	Восстановить объекты только из указанной схемы. Несколько схем могут быть указаны с несколькими ключами `-n` . Комбинируется с опцией `-t` чтобы восстановить только определенную таблицу.
-N, --exclude-schema=SCHEMA	Не восстанавливать объекты из указанной схеме. Исключает несколько схем, с несколькими ключами `-N`. Ключ `-N` приоритетнее чем`-n`, при одновременном указании - схема исключается.
-O, --no-owner	Не выполнять команды для установки владельца объектов в соответствии с исходной базой данных. Подробнее
-P, --function=NAME(args)	Восстановить только указанную функцию. Указывайте имя функции и аргументы в точности, как они указаны в оглавлении файла дампа. Несколько функций могут быть указаны с несколькими ключами `-P` .
-s, --schema-only	Восстановить только схему (определения данных), а не данные. Подробнее
-S, --superuser=NAME	Имя суперпользователя, которое будет использоваться при отключении триггеров. Актуально, только для `--disable-triggers`.
-t, --table=NAME	Восстановить определение и/или данные только указанной таблицы. Подробнее
-T, --trigger=NAME	Восстановить только названый триггер. Несколько триггеров могут быть указаны с несколькими ключами `-T`.
-x, --no-privileges	Пропустить восстановление прав доступа (команды GRANT / REVOKE).
-1, --single-transaction	Выполнить восстановление как одну транзакцию (обернуть отправленные команды в BEGIN / COMMIT ). Гарантирует что все команды завершаться успешно, либо изменения не применяются. Эта опция подразумевает `--exit-on-error`.
--disable-triggers	Отключение триггеров при восстановлении. Подробнее
--enable-row-security	Восстанавливать данные из таблиц с защитой строк. Подробнее
--if-exists	Использовать условные команды (добавить IF EXISTS ) при очистке объектов базы данных. Не работает без `--clean`.
--no-comments	Не восстанавливать комментарии даже если архив содержит их.
--no-publications	Не восстанавливать публикации даже если архив содержит их.
--no-security-labels	Не восстанавливать защитные метки даже если архив содержит их.
--no-subscriptions	Не восстанавливать подписки даже если архив содержит их.
--no-tablespaces	Не восстанавливать табличные пространства. Все объекты будут восстановлены в табличном пространстве по умолчанию.
--no-data-for-failed-tables	Не восстанавливать данные в таблицы которые не удалось создать Подробнее
--section=SECTION	Восстановить только указанный раздел. Имя раздела может быть `pre-data, data, post-data`. Подробнее
--strict-names	Требовать строго соответствия схем и таблиц таковым в файле резервной копии. Подробнее
--use-set-session-authorization	Использовать стандартные SQL команды для назначения владельцев объектов. Подробнее

Дополнительная информация по параметрам

ROLENAME

--role=rolename

Указывает имя роли, которое будет использоваться для восстановления. Эта опция заставляет qhb_restore выдавать команду SET ROLE rolename после подключения к базе данных. Это полезно, когда аутентифицированному пользователю (указанному -U ) не хватает привилегий, необходимых для qhb_restore, но он может переключиться на роль с необходимыми правами. В некоторых установках есть политика, запрещающая вход в систему непосредственно от имени суперпользователя, и использование этого параметра позволяет выполнять восстановление без нарушения политики.

create

-C, --create

Создать базу данных перед ее восстановлением. Если также указан параметр --clean удалить и заново создать целевую базу данных перед подключением к ней.

С помощью qhb_restore --create также восстанавливаются комментарий базы данных, если он есть, и любые параметры переменной конфигурации, специфичные для этой базы данных, то есть любые ALTER DATABASE ... SET ... и ALTER ROLE ... IN DATABASE ... SET ... команды, которые упоминают эту базу данных. Права доступа к самой базе данных также восстанавливаются, если не указан параметр --no-acl .

Когда используется эта опция, база данных с именем -d используется только для выдачи начальных команд DROP DATABASE и CREATE DATABASE . Все данные восстанавливаются в базу данных по имени которое указано в архиве.

Параллельное восстановление

-j NUM, --jobs=NUM

Запускайте самые трудоемкие части qhb_restore - те, которые загружают данные, создают индексы или создают ограничения - используя несколько одновременных заданий. Эта опция может значительно сократить время восстановления большой базы данных на сервере, работающем на многопроцессорной машине.

Каждое задание представляет собой один процесс или один поток, в зависимости от операционной системы, и использует отдельное соединение с сервером.

Оптимальное значение для этого параметра зависит от аппаратной настройки сервера, клиента и сети. Факторы включают количество ядер ЦП и настройку диска. Как правило, можно установить параметр равным количеству ядер ЦП на сервере, но значения, превышающие это, во многих случаях также могут привести к более быстрому восстановлению. Конечно, слишком высокие значения приведут к снижению производительности из-за перегрузки.

Эта опция поддерживает только пользовательские форматы и форматы каталогов. Входными данными должен быть обычный файл или каталог (не, например, канал). Этот параметр игнорируется при создании сценария, а не при подключении напрямую к серверу базы данных. Кроме того, несколько заданий нельзя использовать вместе с опцией --single-transaction .

Оглавление архива

-l, --list

Вывести оглавление архива. Выходные данные этой операции могут использоваться как входные данные для опции -L. Обратите внимание, что если с -l используются переключатели фильтрации, такие как -n или -t, они ограничат перечисленные элементы.

-L FILENAME, --use-list=FILENAME

Восстановите только те элементы архива, которые перечислены в FILENAME, и восстановите их в порядке их появления в файле. Обратите внимание, что если с -L используются переключатели фильтрации, такие как -n или -t, они еще больше ограничат восстановленные элементы.

Входной файл обычно создается путем редактирования вывода предыдущей операции -l. Строки можно перемещать или удалять, а также закомментировать, поместив точку с запятой ( ; ) в начале строки. Смотрите ниже примеры.

no owner

-O, --no-owner

Не выполнять команды для установки владельца объектов в соответствии с исходной базой данных. По умолчанию qhb_restore выдает операторы ALTER OWNER или SET SESSION AUTHORIZATION чтобы установить владельца созданных элементов схемы. Эти операторы потерпят неудачу, если исходное соединение с базой данных установлено не суперпользователем (или пользователем, которому принадлежат все объекты в сценарии). С ключом -O любой пользователь может использоваться для начального соединения, и этот пользователь будет владеть всеми созданными объектами.

schema only

-s, --schema-only

Восстановить только схему (определения данных), а не данные, в той степени, в которой записи схемы присутствуют в архиве.

Эта опция является обратной к --data-only. Это похоже на, но по историческим причинам не идентично указанию --section=pre-data --section=post-data .

(Не путайте это с параметром --schema, который использует слово « схема » в другом значении.)

table

-t table, --table= table

Восстановить определение и / или данные только указанной таблицы. В этом случае «таблица» включает в себя представления, материализованные представления, последовательности и сторонние таблицы. Несколько таблиц можно выбрать, написав несколько ключей -t. Эта опция может быть объединена с опцией -n для указания таблиц в конкретной схеме.

Заметка
Если указан параметр -t, qhb_restore не пытается восстановить какие-либо другие объекты базы данных, от которых могут зависеть выбранные таблицы. Следовательно, нет гарантии, что восстановление определенной таблицы в чистую базу данных будет успешным.

Заметка
Этот флаг не ведет себя идентично флагу -t qhb_dump. В настоящее время в qhb_restore нет условий для подстановочных знаков, и вы не можете включить имя схемы в его -t. И хотя флаг -t qhb_dump также будет выгружать вспомогательные объекты (например, индексы) выбранных таблиц, флаг -t qhb_restore не включает такие вспомогательные объекты.

Отключение триггеров

--disable-triggers

Эта опция актуальна только при выполнении восстановления только данных. Опция инструктирует qhb_restore выполнять команды для временного отключения триггеров на целевых таблицах во время загрузки данных. Используйте, если есть проверки ссылочной целостности или другие триггеры для таблиц, которые не нужно вызывать во время восстановления данных.

В настоящее время команды, отправляемые для --disable-triggers должны выполняться как суперпользователь. Поэтому вы должны также указать имя суперпользователя с помощью -S или, предпочтительно, запустить qhb_restore как суперпользователь.

Защита строк

--enable-row-security

Эта опция актуальна только при восстановлении содержимого таблицы с защитой строк. По умолчанию qhb_restore выключит row_security, чтобы все данные были восстановлены в таблице. Если у пользователя недостаточно прав для обхода защиты строк, выдается ошибка. Этот параметр указывает qhb_restore включить вместо row_security значение, позволяющее пользователю попытаться восстановить содержимое таблицы с включенной защитой строк. Это может по-прежнему не работать, если пользователь не имеет права вставлять строки из дампа в таблицу.

Обратите внимание, что этот параметр также требует, чтобы дамп был в формате INSERT, так как COPY FROM не поддерживает безопасность строк.

no-data-for-failed-tables

--no-data-for-failed-tables

По умолчанию данные таблицы восстанавливаются, даже если команда создания таблицы не выполнена (например, потому что она уже существует). С этой опцией данные для такой таблицы пропускаются. Это поведение полезно, если целевая база данных уже содержит требуемое содержимое таблицы. Например, вспомогательные таблицы для расширений QHB, таких, как PostGIS, могут быть уже загружены в целевую базу данных; указание этого параметра предотвращает загрузку в них дубликатов или устаревших данных.

Этот параметр действует только при восстановлении непосредственно в базу данных, но не при выводе сценария SQL.

Section

--section=SECTION

Восстановить только указанный раздел. Имя раздела может быть pre-data, data, post-data. Эта опция может быть указана более одного раза, чтобы выбрать несколько разделов. По умолчанию восстанавливается все разделы.

Раздел данных содержит фактические данные таблиц, а также определения крупных объектов. Элементы после данных состоят из определений индексов, триггеров, правил и ограничений, отличных от проверенных проверочных ограничений. Элементы предварительных данных состоят из всех других элементов определения данных.

strict-names

--strict-names

Проверять в обязательном порядке, чтобы каждая схема ( -n / --schema ) и --schema таблицы (-t / --table ) соответствовали хотя бы одной схеме / таблице в файле резервной копии.

use-set-session-authorization

--use-set-session-authorization

Использовать стандартные команды SQL SET SESSION AUTHORIZATION вместо команд ALTER OWNER для назначения принадлежности объектов. Это делает скрипт более совместимым со стандартами, но в зависимости от истории объектов в дампе, восстановление может произойти не должным образом.

Окружение

qhb_restore не использует переменную PGDATABASE, если имя базы данных не указано.

PGHOST

PGOPTIONS

PGPORT

PGUSER

Параметры подключения по умолчанию

PG_COLOR

Указывает, использовать ли цвет в диагностических сообщениях. Возможные значения always, auto, never .

Эта утилита, как и большинство других утилит QHB, также использует переменные среды, поддерживаемые libpq.

Диагностика

Когда прямое соединение с базой данных указывается с помощью опции -d, qhb_restore внутренне выполняет операторы SQL. Если у вас возникли проблемы с запуском qhb_restore, убедитесь, что вы можете выбирать информацию из базы данных, используя, например, qsql. Кроме того, будут применяться любые параметры подключения по умолчанию и переменные среды, используемые интерфейсной библиотекой libpq .

Примечания

Если в вашей установке есть какие-либо локальные дополнения к базе данных template1, будьте осторожны, чтобы загрузить вывод qhb_restore в действительно пустую базу данных; в противном случае вы можете получить ошибки из-за дублирования определений добавленных объектов. Чтобы создать пустую базу данных без каких-либо локальных дополнений, скопируйте из template0 не из template1, например:

CREATE DATABASE foo WITH TEMPLATE template0;

Ограничения

Ограничения qhb_restore подробно описаны ниже.

При восстановлении данных в существующей таблице и использовании опции --disable-triggers, утилита qhb_restore генерирует команды для отключения триггеров в пользовательских таблицах перед вставкой данных, а затем выполняет команды для их повторного включения после вставки данных. Если восстановление остановлено в середине, системные каталоги могут остаться в неправильном состоянии.

qhb_restore не может выборочно восстанавливать большие объекты; например, только для определенной таблицы. Если в архиве содержатся большие объекты, то все большие объекты будут восстановлены, или ни один из них, если они исключены с помощью -L, -t или других параметров.

Смотрите также документацию по qhb_dump для подробностей об ограничениях qhb_dump .

Файл дампа, созданный qhb_dump, не содержит статистику, используемую оптимизатором для принятия решений по планированию запросов. Поэтому целесообразно запускать ANALYZE после восстановления из дампа, чтобы обеспечить оптимальную производительность; см. раздел Обновление статистики планировщика и раздел Процесс «Автовакуум» для получения дополнительной информации.

Примеры

Предположим, мы сделали дамп базы данных mydb в пользовательском формате:

$ qhb_dump -Fc mydb > db.dump

Чтобы удалить базу данных и воссоздать ее из дампа:

$ dropdb mydb
$ qhb_restore -C -d qhb db.dump

База данных, указанная в -d может быть любой базой данных, существующей в кластере; qhb_restore использует его только для выдачи команды CREATE DATABASE для mydb. С ключом -C данные всегда восстанавливаются в имя базы данных, которое появляется в файле дампа.

Чтобы перезагрузить дамп в новую базу данных с именем newdb :

$ createdb -T template0 newdb
$ qhb_restore -d newdb db.dump

Обратите внимание, что мы не используем -C, а вместо этого подключаемся непосредственно к базе данных, в которую нужно восстановить. Также обратите внимание, что мы клонируем новую базу данных из template0 не template1, чтобы убедиться, что она изначально пуста.

Чтобы изменить порядок элементов базы данных, сначала необходимо вывести содержимое архива:

$ qhb_restore -l db.dump > db.list

Файл списка состоит из заголовка и одной строки для каждого элемента, например:

;
; Archive created at Mon Sep 14 13:55:39 2019
;     dbname: DBDEMOS
;     TOC Entries: 81
;     Compression: 9
;     Dump Version: 1.10-0
;     Format: CUSTOM
;     Integer: 4 bytes
;     Offset: 8 bytes
;     Dumped from database version: 8.3.5
;     Dumped by qhb_dump version: 8.3.8
;
;
; Selected TOC Entries:
;
3; 2615 2200 SCHEMA - public pasha
1861; 0 0 COMMENT - SCHEMA public pasha
1862; 0 0 ACL - public pasha
317; 1247 17715 TYPE public composite pasha
319; 1247 25899 DOMAIN public domain0 pasha

Точки с запятой начинаются с комментария, а цифры в начале строк относятся к внутреннему идентификатору архива, назначенному каждому элементу.

Строки в файле могут быть закомментированы, удалены и переупорядочены. Например:

10; 145433 TABLE map_resolutions qhb
;2; 145344 TABLE species qhb
;4; 145359 TABLE nt_header qhb
6; 145402 TABLE species_records qhb
;8; 145416 TABLE ss_old qhb

может использоваться в качестве входных данных для qhb_restore и восстанавливает только элементы 10 и 6 в следующем порядке:

 qhb_restore -L db.list db.dump

Смотрите Также

qhb_dump, qhb_dumpall, qsql

qsql - Интерактивный терминал QHB

qsql - интерактивный терминал QHB.

Синтаксис

qsql [параметры]

Описание

qsql - это консольный интерфейс QHB. Он позволяет вводить запросы в интерактивном режиме, выполнять их в QHB и просматривать результаты запроса. Альтернативно, ввод запросов может осуществляться из файла, конвеера ранее запущенной программы или из аргументов командной строки. Кроме того, qsql предоставляет несколько метакоманд и различные функции для облегчения написания сценариев и автоматизации широкого спектра задач.

Параметры

-h <ХОСТ>
--host <ХОСТ>: Определяет хост сервера баз данных. Если значение начинается с косой черты, оно используется как каталог для доменного сокета Unix. [default: /var/run/postgresql/]
-d <БД>
--database <БД>: Определяет имя базы данных для подключения. [default: параметр --username]
-p <ПОРТ>
--port <ПОРТ>: Указывает порт TCP или расширение файла локального сокета Unix-домена, на котором сервер прослушивает соединения. По умолчанию используется значение 5432
-U <ПОЛЬЗОВАТЕЛЬ>
--username <ПОЛЬЗОВАТЕЛЬ>: Имя пользователя [default: Пользователь ОС]
-W <ПАРОЛЬ>
--password <ПАРОЛЬ>: Явное указание пароля [deprecated]
-l, <УРОВЕНЬ>
--log-level <УРОВЕНЬ>: Уровень логирования (Off, Error, Warn, Info, Debug, Trace) [default: Info]

Дополнительные параметры (флаги)

--help: Показать справку о qsql и выйти.
-w
--no-password: Отменяет запрос пароля. В текущей версии при неудачном подключении пароль, тем не менее, будет запрошен.
--version: Распечатать версию qsql и выйти.

Документация по СУБД «Квант-Гибрид» 1.3.0