13. Корпусная лингвистика: цели, задачи, методы.
Корпус – репрезентативное собрание текстов, обычно в читаемом машиной формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории.
Корпусная лингвистика – деятельность, требующаяся для составления и использования корпуса, направленная на исследование естественного использования языка.
Цель КЛ – исследование естественного использования языка.
Задачи КЛ:
- Сбор текстов с определенной целью
- Их машинная обработка
- Помощь в создании словарей (лексикографическая поддержка)
- Составление конкордансов (список встречающихся в тексте словоформ, располож в алфавитном порядке. В противоположность словарю, слово дается с его словесным окружением).
- Составление частотных словарей
- Создание национальных корпусов
- Исследование использования естественного языка в разных регистрах
- Помощь в создании лингводидактических пособий
- Проверка лингвистических теорий
Существует 2 типа корпусов: Национальный (средний объем 160 млн слов) и корпусы, предназначенные для определенных целей. Национальный корпус представляет данный язык на определенном этапе (ах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов. # ruscorpora.ru
Методы КЛ – КЛ сама представляет собой пучок методов из разных областей лингвистических исследований.
Главная цель КЛ – лингвистическое описание яз системы (подход от конкретного изучения коммуникации людей), особый способ отражения речевого материала в корпусе текстов, кот может использоваться в свою очередь другими лингв дисциплинами.
КЛ имеет 2 черты, дающие основание претендовать на положение самостоятельной дисциплины:
- Характер используемого словесного материала
- Специфика инструментария
Отступления КЛ:
- КЛ не отрицает ценности и необходимостиречевых данных, не представленных в корпусной форме
- КЛ утверждает то, что из корпусов текстов невозможно извлечь все возможные лингв выводы, те корпус текстов не является самодостаточным.
Лингв корпусы:
1) Brown corpus (1млн слов)
2) LOB (London Oslo/Bergen corpus) (1 млн слов британского англ, аналог Brown corpus)
3) British national corpus
4) International corpus of English (600 тыс словоупотреблений)
5) Bank of English (585млн словоупотреблений)
6) Co build corpus
7) Американский национальный корпус ( в свободном доступе 14 млн словоупотреблений, 15 % объем устных текстов от общего объема)
КЛ лучше всего представляется в виде пучка методов, процедур и ресурсов, имеющих дело с эмпирическими данными в лингвистике. В качестве методологии, подъем современной КЛ тесно связан с историей лингвистики как эмпирической науки.
В основе КЛ лежали:
1) историческая лингвистика – изменения в языке и реконструкция (сравнительно историч метод)
2) Написание грамматик, лексикография и обучение языку (Герман Пауль)
3) Социолингвистика – языковое многообразие.
- 1. Макроструктура словаря. Микроструктура словаря.
- 2. Типы лингвистических словарей
- 3. Компьютерная обработка текста: описание моделей и направлений разработок
- 4. Статистика речи и автоматический анализ текста
- 5. Речевое общение в системах «Человек - пк»
- 6. Предмет прикладной лингвистки. Связь прикладной лингвистики с теоретической лингвистикой. Российский и западный подходы к термину «прикладная лингвистика»
- 7. Государственное регулирование языка: языковая политика, языковое
- 13. Корпусная лингвистика: цели, задачи, методы.
- 14. Судебная лингвистика: цели, задачи, методы.
- 8. Применение лингвистических знаний в компьютерных технологиях (компьютерная лингвистика)
- 1 Этап: Выбор материала-корпуса языковых данных.
- 2 Этап: Выбор концептуальной переменной и определение ее значений — языковых репрезентантов в тексте
- 4 Этап: Отбор кодировщиков и формулировка инструкций по кодирования
- 5 Этап. Кодировка данных
- 6 Этап.
- 12. Перевод как прикладная лингвистическая дисциплина. Машинный перевод
- 15. Автоматизированные информационные системы, их классификация
- 16. Информационные языки
- 17. Прикладное и теоретическое терминоведение. 3 формы неоднозначности термина.
- 18. Понятие гипертекста, гипертекстовые технологии
- 20. Понятие модели. Моделирование в лингвистике. Типы лингвистических моделей.
- Теория формальных грамматик
- 9. Язык как средство социального влияния и контроля