Форум RU-EVAL посвящен независимой оценке методов и алгоритмов лингвистического анализа разного уровня, ориентированных на работу с русскоязычной информацией. Высокая цель Форума - улучшение состояния науки в области автоматической обработки текстов. Инициатива направлена на создание среды, в которой научные, научно-производственные, коммерческие и т.п. разработки могли бы проходить независимую экспертизу, на обмен мнениями между разработчиками программного обеспечения, лингвистами и всеми интересующимися проблемами компьютерного анализа, на обсуждение насущных проблем и путей развития технологий, а также самих подходов к оценке алгоритмов лингвистического анализа.
Проект носит некоммерческий характер и осуществляется силами сообщества исследователей и разработчиков, занимающихся автоматической обработкой текста. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях.
Правила и методы оценки являются открытыми и формируются с учетом мнения участников. Тестовые коллекции, наборы заданий и материалы, размеченные экспертами, являются общедоступными результатами работы Форума.
Общие принципы
Целью Форума является проведение независимой оценки методов лингвистического анализа текста, ориентированных на работу с русскоязычными данными, совершенствование технологий и консолидация сообщества российских исследователей и разработчиков, занимающихся автоматическим анализом текста.
В рамках инициативы по проведению Форума предполагается регулярное проведение соревнований, посвященных тому или иному направлению автоматической обработки текста. Структурно это мероприятие представляет собой набор дорожек (tracks) - дисциплин, в которых решаются конкретные задачи компьютерного анализа (с фиксированными наборами данных и правилами оценки). Результаты работы участвующих систем проходят независимую анонимную экспертизу и открыто обсуждаются в рамках круглого стола и в виде публикаций. По завершении текущего годового цикла, с учетом накопленного опыта и интересов участников определяются приоритетные направления Форума на следующий год.
Важнейшим принципом Форума является совместное с участниками определение задач для оценки и формирование правил проведения экспертизы (оценки) результатов. Оргкомитет лишь координирует проведение дорожек.
Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы.
Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов.
Выбор дорожек
То, из каких дорожек будет состоять следующий семинар определяется исходя из интереса участников и возможностей по организации дорожек. Более формально процедура выбора состоит из следующих шагов:
- Формируется множество "возможных реализуемых" дорожек.
"Возможная" дорожка - это любая дорожка, подходящая под тематику Форума. Множество возможных дорожек открыто и каждый заинтересованный участник может предлагать свои варианты на общее обсуждение.
К обсуждению принимаются дорожки для которых описана не вся требуемая информация, но для того, чтобы дорожка получила статус "реализуемой", необходимо иметь полное описание, а также обоснование доступности необходимых ресурсов (данных, экспертного времени, т.п.)
- По каждой дорожке производится открытое голосование.
Целью голосования является определить заинтересованность каждого из участников в каждой из возможных дорожек (можно заявляться на участие в нескольких дорожках).
- Выбираются наиболее популярные дорожки.
Отбор основан на максимизации выгоды (интереса участников) при условии ограниченности доступных ресурсов (как временных, так и финансовых на проведение оценки).
Описание дорожки включает в себя ответы на следующие вопросы:
- Для оценки методов решения какой задачи дорожка предназначена?
- Какой набор данных предполагается использовать? (с указанием характеристик - объёма, легальности, разнородности, ...)
- Какие будут задания? Сколько? Как они будут формироваться?
- В каком виде предполагается получать ответы от систем?
- Как будет организована процедура оценки результатов? Сколько ручного труда необходимо и каковы предполагаемые затраты на проведение оценки?
- Какие меры могут быть использованы для оценки?
- Что мотивирует "осмысленность" получаемых цифр и основанных на них выводов о превосходстве тех или иных методов (методологические аспекты)? Например:
- Стабильность результатов относительно количества заданий
- Стабильность относительно процедуры оценки (порядка оценки или других факторов связанных с экспертами)
- Защищённость от фальсификации результатов участниками