Задачи
Участники получают на вход неразмеченный текст, токенизируют его по оговоренным правилам и приписывают лексико-грамматический разбор в соответствии с условием каждой дорожки.
Участники шифруют авторство своих данных с помощью "внутреннего" пароля, присланного организаторами. При подведении результатов ответы систем будут представлены с помощью отдельного "внешнего" пароля для каждой дорожки (этим обеспечивается соблюдение полной анонимности).
Входные данные
Участники получают один файл с Основной коллекцией и один файл с коллекцией Грязные тексты.
Файлы представляют собой plain text и имеют кодировку UTF-8, без подписи BOM, концы строк имеют вид \r\n.
Выходные данные
Результаты (ответы систем) участники размещают на FTP-сервере, адрес которого указан в письме организаторов. Логин и пароль высылается участникам вместе с заданиями.
Ответы систем высылаются также в виде одного файла для каждой категории дорожек (см. п. II /1, 2,3 выше),
а именно:
один файл с ответами для дорожек ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, РЕДКИЕ СЛОВА,
под названием output1_<пароль>.txt, например output1_green
один файл в ответами для дорожек ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS
под названием output2_<пароль>.txt, например output2_green
один файл с ответами для дорожки КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ.
под названием output3_<пароль>.txt, например output3_green
Файлы имеют кодировку UTF-8 (без подписи BOM, концы строк имеют вид \r\n) и также представляет собой plain text.
Вместе с каждым файлом Ответа системы участник размещает на сервере второй файл под названием вида output1_green_tracks.txt,
в котором указывает список дорожек, в которых участвует файл, из следующего списка:
track_2010_lemma
track_2010_pos
track_2010_gram
track_2010_rare
track_2010_scan
track_2010_lemma_disamb
track_2010_pos_disamb
Названия дорожек разделяются концом строки.
В конце списка еще раз пишется внутренний пароль.
Формат ответов
Ответы для дорожек даются сплошным массивом, файл не должен содержать никаких других
элементов, кроме текста и разметки. Ответы предоставляются в следующем формате:
Каждая словоформа дается с новой строки, после нее ставится знак конца строки.
Каждый разбор дается с новой строки.
Знаки пунктуации и другие элементы, не подлежащие разбору, даются с новой строки.
Морфологическая информация в разборе дается в следующей последовательности: лемма, часть речи, значения грамматических категорий (граммемы). Перед леммой, частью речи и первой граммемой ставится знак табуляции. Далее все граммемы разделяются запятой. После последней граммемы идет конец строки. Например:
пила
_ _пить_ _V_ _f,past,sg
_ _пила_ _S_ _f,sg,nom
,
ела
_ _есть_ _V_ _f,past,sg
Несловарные элементы (знаки препинания, слова, записанные латинскими буквами, другая
псевдографика, html-теги) в оценке не участвуют - эти строки имеют формат
несловарное_слово-конец_строки
см. разметку запятой в примере выше.
Соглашение об обозначении частей речи и признаков грамматических категорий
Части речи
Для разметки используется упрощенная система частей речи:
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
V — глагол (пользоваться, обрабатывать)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
ADV — прочие неизменяемые слова (частицы, междометия, вводные слова)
Имена собственные размечаются как имена существительные (S)
Не участвуют в оценке и могут быть размечены любым образом:
Местоимения (включая наречные и предикативные)
Числительные, в том числе записанные цифрами
Составные предлоги и союзы (потому что, в течение)
Инициалы
Морфология (грамматические_признаки)
В категориях ADV,PR,CONJ поле остается пустым.
Морфология указывается только для S,A,V
Здесь также используется сокращенный набор признаков:
род - m, f, n
падеж - nom, gen, dat, acc, ins, loc
число - sg, pl
время/наклонение/причастие/деепричастие - pres, past, imper, inf, partcp, ger
залог - act, pass (указывается только в формах причастий)
лицо - 1p, 2p, 3p
Не участвуют в оценке следующие грамматические категории:
переходность глагола
вид глагола
одушевленность имен
краткая/полная/сравнительная/превосходная форма прилагательного и наречия
возвратность глагола
залог: указывается только в формах причастий
Отдельные особенности (признаки, не участвующие в оценке, могут быть размечены любым образом):
формы типа "пишу" и формы типа "напишу" объединяются в форму непрош. времени (pres),
формы типа "пойдемте" - в оценке не участвуют
формы имен из серии "пойти в солдаты", "попить чаю" - в оценке не участвуют
"в году" (второй предложный, местный) - loc
счетная форма (два шар/а) - gen
звательный падеж (Маш! отче и др.) - в оценке не участвует
сравнительные степени на ПО- (попроще) - в оценке не участвуют
род слов общего рода (врач) - в оценке не участвует
Буквы Е и Ё в лемматизации считаются равноправными.
Капитализация (разница между прописными и строчными буквами) не учитывается.
Общая процедура проведения экспертизы
Экспертиза строится на выборочной проверке ответов, присланных участниками. Основанием проведения
экспертизы является "Золотой стандарт". "Золотым стандартом" называются случайно выбранные предложения
из Основной коллекции (объемом около 2000 словоупотреблений). Кроме того, в "Золотой стандарт" входят
предложения с редкими словами, заранее подобранные экспертами и включенные в Основную коллекцию.
На дорожках ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS проверке
подвергаются целые предложения. На дорожках РЕДКИЕ СЛОВА и КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ
проверке подвергаются отдельные слова в контексте предложений.
На дорожках без дизамбигуации правильным ответом системы считается ответ, в котором хотя бы один из
разборов совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки.
Не требуется наличие всех допустимых для словоформы разборов. Наличие лишних разборов не штрафуется.
На дорожках с дизамбигуацией правильным ответом системы считается единственный или идущий первым ответ,
если он совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки.
При оценке на каждой из дорожек оцениваются только данные полей, релевантных для дорожки.
Отсутствие других полей (например, значений грамматических категорий) на результаты не влияет.
Экспертиза проводится в четыре этапа.
1 этап - ручная разметка Золотого стандарта силами экспертов.
Ручная разметка проводится параллельно с проведением дорожек. Золотой стандарт делится на
фрагменты, каждый фрагмент размечается независимо двумя экспертами. Случаи, в которых
аннотаторы расходятся, а также затрудняются с ответом, обсуждаются коллективно. Если аннотаторы
не могут прийти к удовлетворительному однозначному решению относительно каких-либо случаев, то они
исключаются из Золотого стандарта.
2 этап - автоматическое составление списка расхождений между ответом системы и Золотым
стандартом.
3 этап - оценка экспертами расхождений по шкале:
права система / прав стандарт / грамматически спорный вопрос / не знаю.
В категорию "права система", в частности, попадают случаи, когда расхождения между ответом системы и
Стандартом носят технический характер (различия в кодировках, формате и т.п.).
К категории "грамматически спорный вопрос" относятся, в частности, расхождения, связанные
с членением текста на словоформы (составные предлоги, союзы и проч.), случаи, в которых мы
не вправе требовать чудес интеллекта от морфологической системы (например, решение вопроса
о возвратности, и, соответственно, о лемме глагола в контексте "корабли показывались на горизонте") и др.
Каждый ответ системы на каждой дорожке оценивается одним экспертом. Для обеспечения
согласованности оценок, выставляемых разными экспертами, команда экспертов составляет
типологию расхождений между системами и стандартом (например, что считать "грамматически
спорным вопросом") и вырабатывает общие решения.
4 этап - количественная оценка расхождений и составление рейтингов.
Оценкам расхождений присваиваются веса 1 (прав стандарт) и 0 (во всех остальных случаях). Случаи
совпадения решений Системы и Стандарта также получают вес 0.