Извлечение Информации в Semantic Web - Шефилдский Университет

В продолжение переписки в рассылке сообщества Веба Данных черкну небольшую заметку.

Познакомился с замечательной группой исследователей The Web Intelligence Technologies group все из того же Шефилдского Университета.

Ребята используют Извлечение информации из текста для аннотации ресурсов в Semantic Web.

Основу для исследований составляет система GATE, (про нее кстати наглядно и с картинками рассказывали на RUSSIR'2008) которая предоставляет возможности для анализа текста и построения правил извлечения информации, с ее помощью можно приенять построенные правила к коллекциям данных. Есть готовые продукты и соответствующие API, но к сожалению не для Русского Языка.

Так же примечательно их участие в проекте DOT.KOM, который широко использует технологии NLP.

В контексте Semantic Web заинтересовал проект Armadillo. В качестве результатов проекта особенно порадовало автоматическое формирование базы ресторанов с описанием заведения, контактной информацией и даже ГЕО-информацией. Радует и обширная библиография по тематике Information Extraction.

Далее последует более подробный обзор методов аннотирования в Semantic Web.