Адаптивный Алгоритм Извлечения Информации - (LP)2 Learning Pattern by Language Processing

Это - очередная заметка из цикла обзоров технологий компьютерной лингвистики, применяемых в Шеффилдском университете. Алгоритм применяется исследователями из группы Web Intelligence Technologies для автоматизации аннотации ресурсов в Semantic Web. Это - алгоритм адаптивного Извлечения Информации, который выводит символические правила с помощью обучения по размеченному корпусу. Обучение выполняется с помощью обобщения примеров из тренировочного корпуса.

Обучение проводится в два этапа, на первом обучается набор правил разметки, на втором - генерируются дополнительные правила для устранения неточностей в разметке. Алгоритм генерации правил разметки использует положительные примеры корпуса, остальная часть корпуса рассматривается как отрицательные примеры.

Для каждого положительного примера алгоритм строит начальное правило, обощает его и хранит k лучших обощений начального правила. Для этого алгоритм находит в корпусе заданный тег (тег для которого генерируется правило разметки) и берет в тексте окно шириной W относительно центрального слова, размеченного данным тегом. Информация о тексте из этого окна преобразуется в условия правила разметки. Используя все положительные примеры корпуса правило обощается.
Полученные таким образом правила (самого общего вида) обладают высокой точностью но низкой полнотой.

При обощении правила для каждого положительного примера правило рассматривается в пространстве следующих координат: Word, Lemma, LexCat, Case, SemCat. Далее строится пространство поиска, в котором находятся оптимальные правила.