Задачи. RU-EVAL: Evaluation of Russian NLP tools

О проекте

Форум RU-EVAL посвящен независимой оценке методов и алгоритмов лингвистического анализа разного уровня, ориентированных на работу с русскоязычной информацией. Высокая цель Форума - улучшение состояния науки в области автоматической обработки текстов. Инициатива направлена на создание среды, в которой научные, научно-производственные, коммерческие и т.п. разработки могли бы проходить независимую экспертизу, на обмен мнениями между разработчиками программного обеспечения, лингвистами и всеми интересующимися проблемами компьютерного анализа, на обсуждение насущных проблем и путей развития технологий, а также самих подходов к оценке алгоритмов лингвистического анализа.

Проект носит некоммерческий характер и осуществляется силами сообщества исследователей и разработчиков, занимающихся автоматической обработкой текста. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях.

Правила и методы оценки являются открытыми и формируются с учетом мнения участников. Тестовые коллекции, наборы заданий и материалы, размеченные экспертами, являются общедоступными результатами работы Форума.

Общие принципы

Целью Форума является проведение независимой оценки методов лингвистического анализа текста, ориентированных на работу с русскоязычными данными, совершенствование технологий и консолидация сообщества российских исследователей и разработчиков, занимающихся автоматическим анализом текста.

В рамках инициативы по проведению Форума предполагается регулярное проведение соревнований, посвященных тому или иному направлению автоматической обработки текста. Структурно это мероприятие представляет собой набор дорожек (tracks) - дисциплин, в которых решаются конкретные задачи компьютерного анализа (с фиксированными наборами данных и правилами оценки). Результаты работы участвующих систем проходят независимую анонимную экспертизу и открыто обсуждаются в рамках круглого стола и в виде публикаций. По завершении текущего годового цикла, с учетом накопленного опыта и интересов участников определяются приоритетные направления Форума на следующий год.

Важнейшим принципом Форума является совместное с участниками определение задач для оценки и формирование правил проведения экспертизы (оценки) результатов. Оргкомитет лишь координирует проведение дорожек.

Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы.

Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов.

Структура годового цикла

Подготовительный этап
На этом этапе определяется список участников, уточняется список рассматриваемых задач и методология создания тестовых коллекций и оценки. Оговариваются форматы и способы обмена данными, официальные метрики для оценки. Фиксируется график проведения Форума.
Для того чтобы участвовать в Форуме участник должен подать заявку в оргкомитет, а также подписать необходимые соглашения (лицензии).
Все участники получают псевдонимы, которые будут использоваться для анонимной оценки и публикации результатов. Информация о соответствии между псевдонимом и участником известна лишь самому участнику и ограниченному кругу организаторов.

Подготовка тестовых данных
Чтобы обеспечить объективность оценки и уменьшить влияние фактора тренировки и адаптации участвующих систем на тех или иных коллекциях текстов, участники совместно формируют пул тестовых данных. Коллекции текстов могут также предоставляться третьими лицами и организациями, не участвующими в соревновании напрямую. Оргкомитет формирует тестовые наборы данных, заданий и распространяет их участникам. В зависимости от происхождения данных может требоваться оформление соглашения о нераспространении и ограничении возможностей использования набора участником.

Проведение экспериментальных прогонов своей системы
Участник самостоятельно и на своем оборудовании выполняет задания дорожки. При предоставлении результатов (полученных ответов) оргкомитету участник должен использовать полученный псевдоним (например, псевдонимом может быть является имя/пароль для ftp-сервера) и соблюдать оговоренные сроки и формат представления результатов.

Экспертиза полученных результатов
Оргкомитет организует проведение оценки полученных ответов (с привлечением независимых экспертов, а также, возможно, силами самих участников в виде перекрестной экспертизы результатов друг друга). Конкретная методология оценки зависит от рассматриваемой задачи и определяется на подготовительном этапе для каждой дорожки отдельно. Информация о всех оценках будет доступна всем участникам, но эта информация будет использовать псевдонимы для ссылок на участников.
Участники имеют возможность оказывать помощь в проверке результатов. Конкретная процедура участия в процессе проверки оговаривается участниками совместно.

Анализ полученных результатов и их обсуждение
Результаты работы программ, преимущества тех или иных подходов, методология организации дорожек и другие вопросы проведения Форума открыто обсуждаются в рамках круглого стола и в виде публикаций. Предполагается, что участники самостоятельно анализируют полученные результаты и представляют презентацию, в которой описывающую (общие) принципы их подхода и наблюдаемые результаты. При этом не обязательно раскрывать свое инкогнито и все детали реализации (это зависит от доброй воли участника) - достаточно в общих чертах описать какие известные методы использовались и что отличает их подход от других. Предоставление более подробной информации о системах, результатах и проблемах приветствуется.
Независимые эксперты также имеют возможность участвовать в обсуждении результатов и подготовить обзорный доклад (публикацию) по теме Форума.
В целях популяризации Форума и стимулирования исследований в области информационного поиска в России предполагается совмещение этого мероприятия с российской конференцией близкой тематики.

Принципы оценки

Конкретные процедуры оценки безусловно различаются для различных задач автоматической обработки текста и формируются для конкретных дорожек, но можно выделить ряд общих основополагающих соображений:

Равноправие систем
Процедура оценки должна по возможности гарантировать равноправие систем при оценке результатов. Например, следует избегать любых решений, связанных с форматом выдачи, набором оцениваемых позиций (тегов) и т.п., о которых известно, что они могут дать преимущество одной системе перед другой.

Анонимность источника результата
При проведении оценки должна соблюдаться анонимность источника результата - то есть, те, кто оценивают результат, не должны знать, какая система(ы) выдала этот результат. Это необходимо для соблюдения анонимности итоговых оценок систем, а также для повышения объективности оценки.

Выборочная оценка
Невозможность сплошной ручной оценки полученных результатов обуславливается ограниченностью ресурсов, доступных для ее проведения (числа экспертов, временными или финансовыми ограничениями, и т.п.). Выборочная оценка также позволяет повысить масштаб решаемых системами задач при сохранении затрат на оценку на приемлемом уровне. Условия выборки позиций для оценки заранее обсуждаются участниками.

Использование апробированных подходов
Предпочтительным является использование апробированных методологий оценки, поскольку это повышает уверенность в получении надежных результатов.

Независимость процедуры оценки от выдачи системы
Если оцениваются отдельные элементы выдачи системы, то результат оценки не должен зависеть от местоположения элемента в исходной тестовой коллекции.

Возможность привлечения участников для оценки результатов.
Привлечение участников позволяет повысить объем доступных экспертных оценок без увеличения затрат на экспертов. Однако, поскольку в отличие от экспертов участники являются лицами заинтересованными, то повышается риск получения недостоверных результатов. Процедура оценки должна предусматривать методы обнаружения и устранения таких проблем.

Выбор дорожек

То, из каких дорожек будет состоять следующий семинар определяется исходя из интереса участников и возможностей по организации дорожек. Более формально процедура выбора состоит из следующих шагов:

Формируется множество "возможных реализуемых" дорожек.
"Возможная" дорожка - это любая дорожка, подходящая под тематику Форума. Множество возможных дорожек открыто и каждый заинтересованный участник может предлагать свои варианты на общее обсуждение.
К обсуждению принимаются дорожки для которых описана не вся требуемая информация, но для того, чтобы дорожка получила статус "реализуемой", необходимо иметь полное описание, а также обоснование доступности необходимых ресурсов (данных, экспертного времени, т.п.)

По каждой дорожке производится открытое голосование.
Целью голосования является определить заинтересованность каждого из участников в каждой из возможных дорожек (можно заявляться на участие в нескольких дорожках).

Выбираются наиболее популярные дорожки.
Отбор основан на максимизации выгоды (интереса участников) при условии ограниченности доступных ресурсов (как временных, так и финансовых на проведение оценки).

Описание дорожки включает в себя ответы на следующие вопросы:

Для оценки методов решения какой задачи дорожка предназначена?
Какой набор данных предполагается использовать? (с указанием характеристик - объёма, легальности, разнородности, ...)
Какие будут задания? Сколько? Как они будут формироваться?
В каком виде предполагается получать ответы от систем?
Как будет организована процедура оценки результатов? Сколько ручного труда необходимо и каковы предполагаемые затраты на проведение оценки?
Какие меры могут быть использованы для оценки?
Что мотивирует "осмысленность" получаемых цифр и основанных на них выводов о превосходстве тех или иных методов (методологические аспекты)? Например:
- Стабильность результатов относительно количества заданий
- Стабильность относительно процедуры оценки (порядка оценки или других факторов связанных с экспертами)
- Защищённость от фальсификации результатов участниками