Подкорпус, аннотированный вручную - Википедия - Manually Annotated Sub-Corpus

MASC представляет собой сбалансированное подмножество письменных текстов и транскрибированной речи из 500 тыс. слов, взятых в основном из открытых Американский национальный корпус (OANC). OANC представляет собой корпус из 15 миллионов слов (и его число постоянно растет), выпущенный с 1990 года, и все они находятся в общественном достоянии или иным образом свободны от ограничений на использование и распространение.

Все MASC включают проверенные вручную аннотации для логической структуры (заголовки, разделы, абзацы и т. Д.), Границ предложений, трех различных токенизаций со связанной частью речевых тегов, поверхностного синтаксического анализа (фрагменты существительных и глаголов), именованных сущностей (человек, местоположение, организация, дата и время), и Penn Treebank синтаксис. В рамках проекта MASC были созданы дополнительные вручную или проверенные аннотации для частей субкорпуса, включая полнотекстовые аннотации для FrameNet элементы фрейма и более 100 тыс. предложений с WordNet 3.1 смысловые теги, одна десятая из которых также аннотирована для FrameNet элементы каркаса. Аннотации всего или части субкорпуса по широкому спектру других языковых явлений были предоставлены другими проектами, в том числе PropBank, TimeBank, Мнение MPQA, и несколько других. Аннотации со ссылками и границы разделов всего корпуса MASC планируется выпустить к концу 2016 года.

Аннотации WordNet для всех вхождений 114 слов также включены в дистрибутив MASC, а также FrameNet аннотации на 50-100 вхождений каждого из 114 слов. Предложения с WordNet и FrameNet аннотации также распространяются как часть Корпус предложений MASC.

Жанры

В отличие от большинства свободно доступных корпусов, включающих широкий спектр лингвистических аннотаций, MASC содержит сбалансированный выбор текстов из широкого диапазона жанров:

ЖанрФайлов нетНет словПроцент корпуса
Протокол судебного заседания2300526%
Стенограмма дебатов2323256%
Электронное письмо78276426%
Сочинение7255905%
Вымысел5315186%
Правительственные документы5245785%
Журнал10256355%
Буквы40233255%
Газета41235455%
Нехудожественная литература4251825%
Разговорный11257835%
Технический8278956%
Путеводители7267085%
Twitter2241805%
Блог21281996%
Фиклеты5262995%
Сценарий фильма2282406%
Спам110234905%
Анекдоты16265825%
ОБЩИЙ376506768

Аннотации

В настоящее время MASC включает семнадцать различных типов лингвистических аннотаций (* = в производстве; ** в настоящее время доступны только в исходном формате):

Тип аннотацииНет слов
Логический506768
Токен506768
Приговор506768
POS / лемма (GATE)506768
POS (Penn Treebank)506768
POS (FrameNet)506768
Куски существительных506768
Куски глагола506768
Именованные объекты (человек, организация, место, дата)506768
Синтаксис Penn Treebank506768
Coreference*506768
Границы статей, различия ядра / сателлита, маркеры дискурса*506768
FrameNet рамы / элементы рамы39160
PropBank**88530
Мнение51243
TimeBank*55599
Преданная вера4614
Мероприятие4614
Банк деревьев зависимостей**5434
Лексическая подстановка**35,547

Все аннотации MASC, как предоставленные, так и созданные собственными силами, преобразуются в формат графических аннотаций (GrAF), определенный структурой лингвистических аннотаций (LAF) ISO TC37 SC4. ANC2Go может преобразовывать аннотации всего или части MASC в любой из нескольких других форматов, включая формат CONLL IOB и форматы для использования в UIMA и Общая архитектура для текстовой инженерии.

Распределение

MASC - это открытый ресурс данных, который может использовать кто угодно для любых целей. В то же время это совместный ресурс сообщества, который поддерживается аннотациями и производными данными сообщества. Его можно бесплатно загрузить с Страница загрузки MASC или через Консорциум лингвистических данных.

MASC также распространяется в форме с тегами части речи с Инструментарий естественного языка.

Смотрите также

Рекомендации

внешняя ссылка