Лонгитюдный корпус русской детской речи RusLan-M

Корпус RusLan-M содержит размеченные лонгитюдные материалы спонтанной речи двух монолингвальных русскоязычных детей — мальчика Яши и девочки Тоси. Ресурс содержит видео- и аудиозаписи общей длительностью около 41 часа, а также транскрипты детской и обращённой к детям речи, дополненные морфологической и синтаксической разметкой. Корпус размещён в открытом доступе в базе данных CHILDES. Для Тоси записи осуществлялись матерью и няней в возрасте от 0;10 до 3;10 (≈29 часов; 21 421 высказывание ребёнка и 40 811 высказываний взрослых). Речь Яши записывалась отцом в возрасте от 1;5 до 3;0 (≈12 часов; 13 965 и 12 278 высказываний соответственно). В рамках подготовки данных проведена анонимизация: выполнено размытие лиц и удаление персональных сведений, а также частичная замена видео на аудиофайлы. Получено информированное согласие родителей; имена участников сохранены. Морфологическая разметка выполнена автоматическим анализатором Mystem (https://yandex.ru/dev/mystem) с последующей ручной проверкой. Аннотированные выборки существительных и глаголов доступны в открытом репозитории (hubofdata). Транскрипты в CHILDES дополнены автоматической разметкой с использованием BatchAlign2 в строках %mor и %gra; она носит пилотный характер. Корпус RusLan-M представляет собой важный инструмент для лингвистических исследований, который имеет огромный потенциал для применения в будущем.

ទិន្នន័យ និងធនធាន

Additional Info

Field Value
Source https://talkbank.org/childes/access/Slavic/Russian/RusLan.html
Author Валерия Лелик, Мария Дьячкова, Светлана Дорофеева, Анастасия Лопухина, Ольга Драгой, Ирина Секерина
Maintainer Мария Дьячкова
Version 1.0
Last Updated មករា 28, 2026, 12:52 (UTC)
Created មករា 27, 2026, 11:52 (UTC)