fuzzystrmatch
Модуль fuzzystrmatch предоставляет несколько функций для определения схожести и расстояния между строками.
ВНИМАНИЕ!
В настоящее время функции soundex, metaphone, dmetaphone и dmetaphone_alt плохо работают с многобайтными кодировками (такими, как UTF-8).
Этот модуль считается «доверенным», то есть его могут устанавливать обычные пользователи с правом CREATE в текущей базе данных.
Soundex
Система Soundex представляет собой метод сопоставления похожих по звучанию имен путем приведения их к одному коду. Изначально она использовалась для обработки данных переписи населения США в 1880, 1900 и 1910 г. Обратите внимание, что Soundex не очень полезна для неанглоязычных имен.
Модуль fuzzystrmatch предоставляет две функции для работы с кодами Soundex:
soundex(text) returns text
difference(text, text) returns int
Функция soundex преобразует строку в ее код Soundex. Функция difference преобразует две строки в их коды Soundex, а затем сообщает количество совпадающих позиций в этих кодах. Поскольку коды Soundex состоят из четырех символов, результат находится в диапазоне от нуля до четырех, где ноль обозначает полное несоответствие, а четыре — точное совпадение. (Таким образом, имя этой функции некорректно — лучшим именем для нее было бы similarity.)
Несколько примеров использования:
SELECT soundex('hello world!');
SELECT soundex('Anne'), soundex('Ann'), difference('Anne', 'Ann');
SELECT soundex('Anne'), soundex('Andrew'), difference('Anne', 'Andrew');
SELECT soundex('Anne'), soundex('Margaret'), difference('Anne', 'Margaret');
CREATE TABLE s (nm text);
INSERT INTO s VALUES ('john');
INSERT INTO s VALUES ('joan');
INSERT INTO s VALUES ('wobbly');
INSERT INTO s VALUES ('jack');
SELECT * FROM s WHERE soundex(nm) = soundex('john');
SELECT * FROM s WHERE difference(s.nm, 'john') > 2;
Левенштейн
Эта функция вычисляет расстояние Левенштейна между двумя строками:
levenshtein(text source, text target, int ins_cost, int del_cost, int sub_cost) returns int
levenshtein(text source, text target) returns int
levenshtein_less_equal(text source, text target, int ins_cost, int del_cost, int sub_cost, int max_d) returns int
levenshtein_less_equal(text source, text target, int max_d) returns int
И в source, и в target может быть передана любая строка, отличная от NULL, не длиннее 255 символов. Параметры стоимости (ins_cost, del_cost, sub_cost) определяют затраты на добавление, удаление или замену символов соответственно. Эти параметры можно опустить, как во второй версии функции; в этом случае все они по умолчанию равны 1.
Функция levenshtein_less_equal является ускоренной версией функции Левенштейна, предназначенной для использования, когда интерес представляют только небольшие расстояния. Если фактическое расстояние меньше или равно max_d, то levenshtein_less_equal возвращает его точное значение; в противном случае она возвращает некоторое значение, превышающее max_d. Если значение max_d отрицательное, она работает так же, как функция levenshtein.
Примеры:
test=# SELECT levenshtein('GUMBO', 'GAMBOL');
levenshtein
-------------
2
(1 row)
test=# SELECT levenshtein('GUMBO', 'GAMBOL', 2, 1, 1);
levenshtein
-------------
3
(1 row)
test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 2);
levenshtein_less_equal
------------------------
3
(1 row)
test=# SELECT levenshtein_less_equal('extensive', 'exhaustive', 4);
levenshtein_less_equal
------------------------
4
(1 row)
Metaphone
Metaphone, как и Soundex, основывается на идее составления кода, представляющего входную строку. Две строки признаются похожими, если их коды совпадают.
Эта функция вычисляет кода метафона входной строки:
metaphone(text source, int max_output_length) returns text
В source должна быть передана строка, отличная от NULL, не длиннее 255 символов. Параметр max_output_length устанавливает максимальную длину выходного кода метафона; если код оказывается длиннее, выходная строка обрезается до этой длины.
Пример:
test=# SELECT metaphone('GUMBO', 4);
metaphone
-----------
KM
(1 row)
Double Metaphone
Система Double Metaphone (двойной метафон) вычисляет две строки «похожего звучания» для заданной строки — «первичную» и «альтернативную». В большинстве случаев они совпадают, но для неанглоязычных имен в особенности они могут немного отличаться, в зависимости от произношения. Эти функции вычисляют первичный и альтернативный коды:
dmetaphone(text source) returns text
dmetaphone_alt(text source) returns text
Ограничение на длину входных строк отсутствует.
Пример:
test=# SELECT dmetaphone('gumbo');
dmetaphone
------------
KMP
(1 row)