2.4. Основные понятия дисциплины
Индуктивные науки– науки, которые строятся на основе обобщения наблюдений и экспериментов, их выводы имеют вероятностный характер и различную надёжность.
Дедуктивные науки– науки, которые строятся на основе аксиоматического метода (математика, логика, некоторые разделы физики).
Аксиоматический метод– способ построения научной теории, при котором в основу кладутся некоторые исходные положения (аксиомы илипостулаты), а все остальные положения (теоремы) выводятся из исходных путем рассуждений, называемых доказательствами.
Количественный анализ– выявление и формирование системы численных характеристик изучаемых объектов, явлений и процессов, которые будут подвергнуты определенной математической обработке.
Квантитативная лингвистика– междисциплинарное направление в прикладных исследованиях (условное название, широко используемое в современной научной литературе). В качестве основного инструмента изучения языка и речи используютсяколичественныеилистатистическиеметоды анализа. Противопоставляется комбинаторной лингвистике, в которой доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д.
Лингво-математическая модель– математическое представление таких сторон и свойств лингвистических объектов, которые могут быть формализованы и выражены на математическом языке при помощи математических средств.
Математическая экспликациия лингвистического объекта или явления – расчленение сложной лингвистической проблемы (не имеющей полного решения) на более простые, логически сформулированные и имеющие алгоритмическое решение математические задачи.
Адекватность математического метода– степень соответствия формальной модели, предполагаемой методом, характеру изучаемого с его помощью явления. В силу трудностей формализации лингвистических явлений проблемаадекватности математического методав лингвистике стоит очень остро. Любая модель всегда более проста, чем отражаемая ею реальность. Задачи лингвиста, желающего эффективно применить математический метод, сводятся к четкому выделению того, что именно он отразил, использовав тот или иной математический аппарат и от чего в процессе такого использования абстрагировался; к определению на этой основе того, какими выводами и в каком смысле он может практически пользоваться; к выработке подходов к тому, чтобы максимально использовать отображенные обстоятельства; к попытке учесть то, что не было отражено, при интерпретации результатов применения математического метода. Решение этих задач возможно лишь при соблюдении ряда методологических принципов применения математических методов в лингвистическом исследовании и требует тесного контакта лингвиста и математика.
Выборочный метод – метод изучения некоторой обозримой части генеральной совокупности (ГС) – выборочной совокупности (ВС) из-за невозможности или нецелесообразности рассмотрения всей ГС. При этом основные статистические характеристики ВС рассматриваются какнекое приближениехарактеристик объектов ГС, и результаты обработки выборочных данных обобщаются (экстраполируются) на всю ГС и даже на подобные однородные совокупности.
Генеральная совокупность (ГС)– множество всех возможных однородных объектов, обладающих признаками (признаком), составляющими предмет анализа.Генеральная лингвистическая совокупность (ГЛС)– совокупность однородных лингвистических объектов (лингвистических единиц), обладающих признаком/признаками, составляющим/и предмет лингвистического анализа.
Выборочная совокупность (ВС) или выборка– часть объектов ГС, отобранная с помощью специальных приемов для получения надёжной информации обо всей ГС.
Репрезентативность – способность ВС отражать все исследуемые свойства объектов в той пропорции, которая наблюдается в ГС, т. е. частота исследуемых свойств в ВС должна быть близка соответствующей частоте в ГС.
Объём выборки– число единиц наблюдения, составляющих ВС. Определение объёма выборки, удовлетворяющего заданным требованиям точности, представляет собой один из основных этапов ее формирования.
Относительная ошибка δ (степень точности)– величина, которая характеризует ширину доверительного интервала, в который попадает относительная частота исследуемого свойства. Таким образом, если частотаf какого-либо свойства (параметра и т. п.) вычислена с относительной ошибкойδ, то это означает, что реальная частота попадает в интервал от (f - δ*f) до (f + δ*f).
Надежность ρ(измеряемую в % или в виде десятичной дроби) трактуют обычно так. Пусть проведен один опыт на выборкеАи получена частотаfисследуемого свойства с относительной ошибкойδ, тогда надёжностьρ=95% (илиρ=0,95) означает, что если взять 100 аналогичныхАвыборок, то в95из них относительная частотаfбудет находиться в пределах от (f - δ*f) до (f + δ*f) и лишь в5из нихможетвыходить за эти пределы.
В лингвостатистических моделях:
– словоупотребление(по Г. Глúсону) – цепочка букв, заключенная между двумя пробелами в тексте и имеющая одно значение (омонимические словоупотребления рассматриваются как различные);
– словоформа– полностью совпадающие словоупотребления;
– слово– некоторый класс (сумма) семантически и грамматически связанных между собой словоформ.
– лемма(словарная словоформа) – слово в основной,исходной форме,в качестве которой в русском языке выступает обычно именительный падеж единственного числа –для именных форм и инфинитив –для глагольных форм.
Словоупотребление является единицей текста (речь), слово –единицей словаря (язык), словоформа обычно используется в качестве единицы частотного словаря.
Корпусная лингвистика– раздел лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов текстов с помощью компьютерных технологий. Предметкорпусной лингвистики– теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований широким кругом пользователей.
Лингвистический (языковой) корпус текстов– большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.Под репрезентативностью корпуса понимают необходимо-достаточное и пропорциональное представление текстов различных периодов, жанров, стилей, авторов и т. п. Строго математическое описание репрезентативности невозможно, однако к этому нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.
Частотный словарь– включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания), которые зарегистрированы составителем в обследованных им текстах (или тексте). При этих словах, словоформах и т.д. указываются частоты их употребления в данных текстах (тексте).
Сущность контент-анализа– по внешним (количественным) характеристикам текста на уровне слов и словосочетаний делаются правдоподобные предположения о его плане содержания и, как следствие, выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях, ценностных ориентациях и т. д.
- Федеральное агентство по образованию
- I. Пояснительная записка
- 1.1. Цели и задачи дисциплины
- 1.2. Требования к уровню освоения содержания дисциплины
- 1.3. Объем дисциплины и виды учебной работы
- II. Содержание дисциплины
- 2.1. Разделы дисциплины и виды занятий
- Содержание разделов дисциплины
- I модуль. Элементы прикладной лингвистики
- II модуль. Вероятностно-статистическое изучения языка и речи
- 2.3. Практические и семинарские занятия
- № 1. Языкознание и математика. Математическая лингвистика
- № 2. Вероятностно-статистическое изучение языка и речи
- № 3. Контент-анализ
- № 4. Важнейшие применения частотных словарей
- № 5. Семиотика и лингвосемиотические основы переводоведения
- № 6. Современная глоттохронология
- 2.4. Основные понятия дисциплины
- 2.5. Задания для самостоятельной работы
- III. Формы контроля и требования к зачёту по дисциплине
- 3.1. Текущий и итоговый контроль усвоения знаний
- 3.2. Вопросы к зачёту
- IV. Учебно-методическое обеспечение дисциплины
- 4.1. Рекомендуемая литература
- 4.2. Средства обеспечения освоения дисциплины Материально-техническое обеспечение дисциплины
- Современные информационные технологии и мультимедийные продукты
- V. Методические рекомендации по организации изучения дисциплины
- 5.1. Общие рекомендации
- 5.2. Указания по выполнению заданий самостоятельной работы Задание № 1. (Задача а.Б. Долгопольского и а.А. Зализняка)
- Задание № 2. Классификация местоимений русского языка
- Задание № 3. Лабораторная работа № 1 «Статистический анализ рекламных текстов из нкря»
- Изучить информацию о Национальном корпусе русского языка на сайте корпуса: http://ruscorpora.Ru/ (разделы «что такое корпус?», «состав и структура», «статистика», «параметры текстов»).
- Провести статистический анализ рекламных текстов, представленных в Национальном корпусе русского языка
- Задание № 4. Лабораторная работа № 2 «Статистический анализ современного газетного текста»
- Задание № 5. Лабораторная работа № 3 «Контент-анализ литературного текста»
- I. Заполните таблицу
- II. Проведите анализ личностных качеств героев
- I. Заполните таблицу
- II. Проведите анализ личностных качеств героев
- Теоретические основы исследования.
- Требования к оформлению работы (контент-анализ)
- 5.4. Указания для студентов заочной формы обучения
- VI. Приложение задачи по глоттохронологии
- Домашнее задание