2010_mmla_umk

2.4. Основные понятия дисциплины

Индуктивные науки– науки, которые строятся на основе обобщения наблюдений и экспериментов, их выводы имеют вероятностный характер и различную надёжность.

Дедуктивные науки– науки, которые строятся на основе аксиоматического метода (математика, логика, некоторые разделы физики).

Аксиоматический метод– способ построения научной теории, при котором в основу кладутся некоторые исходные положения (аксиомы илипостулаты), а все остальные положения (теоремы) выводятся из исходных путем рассуждений, называемых доказательствами.

Количественный анализ– выявление и формирование системы численных характеристик изучаемых объектов, явлений и процессов, которые будут подвергнуты определенной математической обработке.

Квантитативная лингвистика– междисциплинарное направление в прикладных исследованиях (условное название, широко используемое в современной научной литературе). В качестве основного инструмента изучения языка и речи используютсяколичественныеилистатистическиеметоды анализа. Противопоставляется комбинаторной лингвистике, в которой доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д.

Лингво-математическая модель– математическое представление таких сторон и свойств лингвистических объектов, которые могут быть формализованы и выражены на математическом языке при помощи математических средств.

Математическая экспликациия лингвистического объекта или явления – расчленение сложной лингвистической проблемы (не имеющей полного решения) на более простые, логически сформулированные и имеющие алгоритмическое решение математические задачи.

Адекватность математического метода– степень соответствия формальной модели, предполагаемой методом, характеру изучаемого с его помощью явления. В силу трудностей формализации лингвистических явлений проблемаадекватности математического методав лингвистике стоит очень остро. Любая модель всегда более проста, чем отражаемая ею реальность. Задачи лингвиста, желающего эффективно применить математический метод, сводятся к четкому выделению того, что именно он отразил, использовав тот или иной математический аппарат и от чего в процессе такого использования абстрагировался; к определению на этой основе того, какими выводами и в каком смысле он может практически пользоваться; к выработке подходов к тому, чтобы максимально использовать отображенные обстоятельства; к попытке учесть то, что не было отражено, при интерпретации результатов применения математического метода. Решение этих задач возможно лишь при соблюдении ряда методологических принципов применения математических методов в лингвистическом исследовании и требует тесного контакта лингвиста и математика.

Выборочный метод – метод изучения некоторой обозримой части генеральной совокупности (ГС) – выборочной совокупности (ВС) из-за невозможности или нецелесообразности рассмотрения всей ГС. При этом основные статистические характеристики ВС рассматриваются какнекое приближениехарактеристик объектов ГС, и результаты обработки выборочных данных обобщаются (экстраполируются) на всю ГС и даже на подобные однородные совокупности.

Генеральная совокупность (ГС)– множество всех возможных однородных объектов, обладающих признаками (признаком), составляющими предмет анализа.Генеральная лингвистическая совокупность (ГЛС)– совокупность однородных лингвистических объектов (лингвистических единиц), обладающих признаком/признаками, составляющим/и предмет лингвистического анализа.

Выборочная совокупность (ВС) или выборка– часть объектов ГС, отобранная с помощью специальных приемов для получения надёжной информации обо всей ГС.

Репрезентативность – способность ВС отражать все исследуемые свойства объектов в той пропорции, которая наблюдается в ГС, т. е. частота исследуемых свойств в ВС должна быть близка соответствующей частоте в ГС.

Объём выборки– число единиц наблюдения, составляющих ВС. Определение объёма выборки, удовлетворяющего заданным требованиям точности, представляет собой один из основных этапов ее формирования.

Относительная ошибка δ (степень точности)– величина, которая характеризует ширину доверительного интервала, в который попадает относительная частота исследуемого свойства. Таким образом, если частотаf какого-либо свойства (параметра и т. п.) вычислена с относительной ошибкойδ, то это означает, что реальная частота попадает в интервал от (f - δ_*f) до (f + δ_*f).

Надежность ρ(измеряемую в % или в виде десятичной дроби) трактуют обычно так. Пусть проведен один опыт на выборкеАи получена частотаfисследуемого свойства с относительной ошибкойδ, тогда надёжностьρ=95% (илиρ=0,95) означает, что если взять 100 аналогичныхАвыборок, то в95из них относительная частотаfбудет находиться в пределах от (f - δ*f) до (f + δ*f) и лишь в5из нихможетвыходить за эти пределы.

В лингвостатистических моделях:

– словоупотребление(по Г. Глúсону) – цепочка букв, заключенная между двумя пробелами в тексте и имеющая одно значение (омонимические словоупотребления рассматриваются как различные);

– словоформа– полностью совпадающие словоупотребления;

– слово– некоторый класс (сумма) семантически и грамматически связанных между собой словоформ.

– лемма(словарная словоформа) – слово в основной,исходной форме,в качестве которой в русском языке выступает обычно именительный падеж единственного числа –для именных форм и инфинитив –для глагольных форм.

Словоупотребление является единицей текста (речь), слово –единицей словаря (язык), словоформа обычно используется в качестве единицы частотного словаря.

Корпусная лингвистика– раздел лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов текстов с помощью компьютерных технологий. Предметкорпусной лингвистики– теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований широким кругом пользователей.

Лингвистический (языковой) корпус текстов– большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.Под репрезентативностью корпуса понимают необходимо-достаточное и пропорциональное представление текстов различных периодов, жанров, стилей, авторов и т. п. Строго математическое описание репрезентативности невозможно, однако к этому нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Частотный словарь– включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания), которые зарегистрированы составителем в обследованных им текстах (или тексте). При этих словах, словоформах и т.д. указываются частоты их употребления в данных текстах (тексте).

Сущность контент-анализа– по внешним (количественным) характеристикам текста на уровне слов и словосочетаний делаются правдоподобные предположения о его плане содержания и, как следствие, выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях, ценностных ориентациях и т. д.

Содержание