Методы быстрого поиска похожих строк
View/ Open
Date
2008Author
Сидоренко, А.Л.
Раков, С.А.
Кулик, А.С.
Чухрай, А.Г.
Завгородний, А.Ю.
Metadata
Show full item recordAbstract
Проблема обнаружения строк, не являющихся дубликатами, но представляющих одну сущность реального мира, часто встречается в системах повышения качества данных информационных систем.
Такие похожие строки могут появляться в результате ошибок при вводе данных или использования
аббревиатур. Исследуемая в работе проблема также тесно связана с проблемой слияния баз данных и
является сложно решаемой, если требования высокой точности и скорости получения решения выдвигаются одновременно. В данной работе предлагаются два высокоточных метода поиска похожих
строк для случаев, когда возможность использования аббревиатур может либо учитываться, либо
нет. Показаны результаты применения методов на реальных данных, подтверждающие целесообразность их в системах повышения качества данных информационных систем. Проблема виявлення рядків, які є дублікатами, але які мають одну сутність реального світу, часто зустрічається у системах підвищення якості даних інформаційних систем. Такі схожі рядки можуть з'являтися внаслідок помилок під час введення даних або використання абревіатур. Досліджувана в роботі проблема також тісно пов'язана з проблемою злиття баз даних і є складною, якщо вимоги високої точності та швидкості отримання рішення висуваються одночасно. У цій роботі пропонуються два високоточні методи пошуку схожих рядків для випадків, коли можливість використання абревіатур може або враховуватися, або ні. Показано результати застосування методів реальних даних, що підтверджують доцільність їх у системах підвищення якості даних інформаційних систем.