Нечеткий поиск похожих строк в системах повышения качества данных автоматизированных систем организационного управления
Abstract
Проблема обнаружения дублирующейся информации часто встречается в системах повышения качества
данных информационных систем. В работе предлагается новый критерий похожести двух строк,
учитывающий возможность использования оператором аббревиатур и сокращений. На базе такого
критерия разработаны эффективные методы поиска похожих строк. На основании данных о штатных
должностях университета «ХАИ» проведены вычислительные эксперименты, показавшие высокое
быстродействие предложенных методов. Проблема виявлення інформації, що дублюється, часто зустрічається в системах підвищення якості даних інформаційних систем. У роботі пропонується новий критерій схожості двох рядків, що враховує можливість використання оператором абревіатур та скорочень. На основі такого критерію розроблено ефективні методи пошуку схожих рядків. На підставі даних про штатні посади університету «ХАІ» проведено обчислювальні експерименти, що показали високу швидкодію запропонованих методів.