Amiclare - cистема полуавтоматического аннотирования документов для Semantic Web

Эта очередная заметка из цикла обзоров технологий компьютерной лингвистики, применяемых в Шеффилдском университете, посвящена системе Amiclare. Она предназаначена для полуавтоматической аннотации текстов в контексте разметки ресурсов в Семантической Паутине.

Система сама обучается тому, как аннотировать документы на основе обобщения документов аннотированных пользователем. Процесс аннотации заканчивается проверкой пользоватлем корректности предложений системы.

Более детально процесс аннотации делится на два этапа:
- обучение
- и аннотация с проверкой

Во время обучения пользователь сам аннотирует тексты с помощью интерфейса для аннотации Melita. Затем на основе пользовательских аннотаций Amicalre выводит правила для автоматического аннотаирования.

Для обработки естесственного языка Amiclare использует средство компьютерной лингвистики Annie, которое включено в пакет Gate. Annie выполняет токенизацию (разделение на слова) и разделение на предложения, разметку по частям речи, поиск данных по словарю и поиск именованных сущностей (Named Entity Recognition). Затем на основе адаптивного алгоритма (LP)^2 идет автоматическое формирование правил.

Пользовательские аннотации используются системой опять же в два этапа:
- самозагрузка, во время которой, система только изучает пользовательские аннотации,
- и обучение с верификацией, во время которого пользователь также аннотирует тексты без помощи системы, но система, используя полученные правила, сама начинает аннотировать тексты и сравнивает это с аннотациями пользователя. При сравнении вычисляется точность аннотаций, полученных автоматичским путем. Пропущенные аннотации и ошибки используются для переобучения. Обучение заканчивается, когда аннотации системы совпадают с пользовательскими. Тогда начинается активная аннотация, система аннотирует документы, а пользователь лишь проверяет аннотации, что также переобучает правила аннотированния.

В стандартной версии при аннотации система вставляет специальные XML теги в анотируемый текст, в версии для Semantic Web, Amiclare взавимодействует со средсвом аннотации и поэтому не меняет текст документов, а лишь передает средству аннотации информацию в виде триплета <аннотация, начальная позиция, конечная позиция>.

Адаптация системы под новую предметную область начинается с формирования набора тегов в виде онтологии. Понятия этой онтологии в последствие используются для разметки ресурса. Например, введение тега "Автор публикации" означает, что система будет обрамлять соответствующий текст данными тегами.