Беликов В

5.1. Отбор информантов

Проблему отбора информантов обычно рассматривают в связи с анкетированием, но она важна при любом социолингвистическом исследовании. Задачи, которыми занимается социолингвист, всегда привязаны к определенному социуму; вслед за социологами социолингвисты называют членов этого социума генеральной совокупностью. Генеральная совокупность (применительно к задачам социолингвистики) – это множество всех индивидов, чьи языковые особенности являются объектом конкретного социолингвистического анализа. В зависимости от поставленной задачи размеры этой совокупности могут сильно различаться. Если изучаются особенности коммуникативного поведения в малой группе, то детальное исследование всей генеральной совокупности не представляет серьезной проблемы, но в большинстве случаев социолингвист имеет дело с такими генеральными совокупностями, которые полностью обозримы лишь чисто теоретически.

Если мы собираемся изучать билингвизм в Татарстане, то генеральной совокупностью является все население этой республики. Если объектом исследования выбрано варьирование редукции гласных у носителей русского литературного языка в зависимости от возраста, то в генеральную совокупность должны войти все носители русского литературного языка. Если предполагается исследовать речевые особенности русскоязычных хиппи, то в генеральную совокупность попадает всякий, кто относит себя к хиппи.

В подобных случаях, когда вся генеральная совокупность труднообозрима, исследователи прибегают к отбору некоторых типичных представителей генеральной совокупности, формируют выборочную совокупность, или выборку. Естественно, чем меньше выборка, тем меньше временных и материальных ресурсов требуется для ее обследования, но в отношении изучаемых явлений выборка должна быть репрезентативной для всей генеральной совокупности: те, кто попадает в выборку, должны представлять собой миниатюрную модель всей генеральной совокупности.

Перед исследователем встает очень сложная задача: заранее установить, какие именно свойства членов генеральной совокупности могут отразиться на изучаемых аспектах языкового поведения. Например, при исследовании билингвизма заведомо важны следующие параметры индивида: этническая принадлежность, район проживания (сельская местность, небольшой город, крупный город), возраст, пол, уровень образования. Это означает, что распределение носителей этих характеристик в выборке должно максимально приближаться к тому, как обстоит дело в генеральной совокупности. Поскольку каждый индивид обладает специфическим набором таких характеристик, в выборке должны быть соответствующим образом представлены именно эти наборы. Например, среди отобранных в выборку городских татар распределение по полу, возрасту и образованию должно соответствовать этим показателям среди всех городских татар генеральной совокупности. В том случае, если носители отдельных характеристик будут отбираться независимо, теоретически может появиться такая выборка, где квота по высшему образованию будет заполнена одними женщинами, квота по лицам старших возрастов – только горожанами и т. п. В результате по каждому параметру в отдельности выборка будет повторять генеральную совокупность, однако не будет репрезентативной. Если при выборке соблюдаются характерные для генеральной совокупности соотношения лиц с определенными наборами тех социальных параметров, что признаны значимыми для исследования, то такая выборка называется квотной пропорциональной выборкой, а соответствующие параметры – связанными.

Вторая из сформулированных выше гипотетических задач (варьирование редукции гласных) демонстрирует наличие одной очень серьезной проблемы, без решения которой невозможно произвести выборку. За внешней легкостью обозначения генеральной совокупности ("носители русского литературного языка") может скрываться чрезвычайная трудность точного определения ее границ: необходимо сформулировать, каковы основания для включения или невключения индивида в число носителей литературного языка, и лишь после этого приступать к формированию репрезентативной выборки.

С проблемой выборки сталкиваются не только социолингвисты, но и лингвисты "чистые": например, при подборе информантов с целью описания ранее не исследованного языка, в диалектологической экспедиции, при подборе дикторов для инструментального фонетического анализа и т. п. Но для такого рода задач первый попавшийся или даже "среднестатистический" носитель языка не очень годится; подходящих информантов помогают найти квалификация, исследовательский и жизненный опыт специалиста. Одни носители языка могут оказаться более пригодными для продуцирования связных текстов, другие – обладающие идеальной дикцией – для изучения фонетики, третьи – для сбора словарных материалов и фразеологии. Каждый, кому приходилось заниматься полевым описанием языка, знает, как непросто найти хорошего информанта-"грамматиста", который легко справляется с синтаксическими и морфологическими трансформациями, а подчас и включается в научный поиск. Немаловажными являются и легкость достижения контакта исследователя с информантом, его утомляемость и другие психологические особенности. В конце концов "чистый" лингвист может остановить свой выбор на двух-трех основных информантах, иногда прибегая к контрольным проверкам языковых фактов у других носителей языка. Подобный отбор социологи называют целевой выборкой. Для описательной лингвистики целевая выборка является ведущим и, бесспорно, очень продуктивным способом подбора информантов, но она имеет лишь вспомогательный характер для многих социолингвистических задач, а именно таких, которые направлены на выявление языковых характеристик некоторого социума в целом.

Безусловные преимущества этого типа выборки – простота и экономичность, недостаток – невысокая достоверность полученных социолингвистических данных. Увеличение размеров целевой выборки мало помогает: когда информанты отбираются с опорой лишь на исследовательское чутье, невозможно обосновать представительность полученных данных для всей генеральной совокупности. При этом чем многочисленнее и разнороднее генеральная совокупность, тем менее надежными становятся результаты.

Многие социолингвистические задачи не предполагают статистической обработки материала, для их решения целевая выборка оказывается оптимальной. Приведем такой пример. Собирая материал для словаря сленга хиппи, автор целевым образом отбирал интервьюируемых среди представителей различных "системных" группировок Москвы, Санкт-Петербурга, Таллина, Уфы. При обработке материала "слово считалось используемым носителями сленга, если хотя бы несколько опрошенных информантов, идентифицирующих себя как хиппи, знали и употребляли это слово (при этом подразумевалось, что опрошенные информанты не относятся к одной и той же компании, и, таким образом, рассматриваемое слово не является окказионализмом)" [Рожанский 1992: 5]. Для обоснования включения слова в словарь проводился опрос контрольных информантов, не относящих себя к хиппи.

Целевой выборке противостоят различные виды вероятностных выборок. Наиболее точной, но и наиболее трудоемкой является так называемая случайная выборка. Определение случайный следует в данном случае понимать не в обиходном его значении ('бессистемный'), а как теоретико-вероятностный термин: при случайном выборе любой элемент (и любой набор элементов) генеральной совокупности имеет равную вероятность попасть в выборочную совокупность. Чтобы идеально соблюсти требования простой случайной выборки, необходимо иметь полный список всех элементов генеральной совокупности и далее выбирать из него необходимое число элементов при помощи таблиц случайных чисел. На практике случайную выборку часто заменяют систематической, когда при необходимости выбрать i единиц из генеральной совокупности, содержащей п единиц, отбирают каждую n/i-ю единицу из общего списка.

Размеры выборки зависят от степени разнообразия единиц, образующих генеральную совокупность. Если все элементы абсолютно одинаковы, то и выборка может быть сколь угодно мала; напротив, чем выше неоднородность генеральной совокупности, тем больше должно быть выборочное отношение (численное соотношение выборки и генеральной совокупности). Иными словами, при неизменной генеральной совокупности увеличение выборки позволяет уменьшить количество возможных ошибок в собранном материале, при неизменных размерах генеральной и выборочной совокупностей количество ошибок зависит от структуры генеральной совокупности: чем она сложнее (т. е. чем большим числом разнородных признаков – например, полом, возрастом, уровнем образования, профессией и т. п. - она характеризуется), тем выше вероятность ошибок.

Облегчить процесс выборки помогает кластерная выборка, которая предполагает разбиение генеральной совокупности на территориальные кластеры (от англ, cluster, букв, 'пучок, куст', а также 'группа') с последующей выборкой индивидов в пределах кластеров.

Еще один вид выборки - стратифицированная случайная выборка. Исследователь обычно имеет представление о структуре генеральной совокупности и может подразделить ее на определенные страты. Так, среди множества носителей русского литературного языка выделяются такие страты, как промышленные рабочие со средним образованием, служащие, журналисты и писатели, студенты-филологи и пр. Чтобы быть уверенным, что в выборку попадет должное количество представителей каждой страты, достаточно провести случайную выборку в каждой из них, а затем объединить полученные выборки. В этом случае уменьшение размеров выборки не приводит к увеличению ошибки. При стратифицированной выборке гораздо проще соблюсти принцип пропорционального представления в ней квот с необходимыми наборами социальных параметров.

Может показаться, что выделение самих страт и определение их численного соотношения представляет собой дополнительную сложность, однако стратификация множества носителей литературного языка существует независимо от исследователя и применение стратифицированной выборки позволяет лишь более отчетливо осознать проблему определения границ множества носителей литературного языка.

Для упрощения процесса подбора индивидов, подлежащих изучению, различные типы выборок могут совмещаться в многоступенчатую выборку. Многоступенчатые выборки особенно эффективны, если необходимо создать представительную выборку, элементы которой различаются по многим значимым параметрам.

Например, для исследования билингвизма молодежи в многоязычном городе структура выборки должна повторять структуру генеральной совокупности по всем параметрам, которые могут влиять на коммуникативное поведение билингвов. Сведения о социальной и этнической структуре молодежи можно почерпнуть из официальных источников (при этом надо иметь в виду, что соотношение различных этносов среди молодежи может значительно отличаться от их соотношения во всем населении города – как за счет отличий в возрастной структуре отдельных народов, так и за счет разницы в интенсивности миграционных процессов). Выборку незанятой молодежи целесообразно проводить по месту жительства, работающей молодежи – по предприятиям и учреждениям, старшеклассников – по школам, студентов - по вузам. Для выборки из каждой страты территорию города можно разбить на кластеры, но в общем случае "жилые", "производственные" и тому подобные кластеры не будут совпадать. В идеале кластеры каждой страты следует подвергнуть процедуре случайной выборки (которая может быть и многоступенчатой: при "жилой" выборке сначала случайным образом отбираются административные районы, внутри отобранных районов – кварталы и далее отдельные дома), а затем уже в отобранных кластерах произвести выборку индивидов. Конечно, нельзя забывать, что этносы в городе могут быть расселены неравномерно.

Изложенные способы получения выборочной совокупности – это тот идеал, к которому надо стремиться. Для социолингвиста, изучающего большие генеральные совокупности, он редко достижим, и не только из-за сложностей, связанных со случайной выборкой^⁷⁵: само обследование и последующая обработка собранного материала требуют больших материальных вложений.

У нас в стране самым впечатляющим мероприятием такого рода стало изучение под руководством В. А. Аврорина языковой ситуации в Сибири: в 1967–1969 гг. был обследован 31 народ (всего охвачено 58 тыс. человек, более 7% коренного сельского населения Сибири)^⁷⁶. Однако национальная и языковая политика того времени не предполагала реальных мероприятий по поддержке местных языков, и в результате собранные материалы оказались невостребованы, обработаны они были неполностью и опубликованы лишь частично.

Методически аккуратные массовые социолингвистические исследования возможны лишь при поддержке заинтересованных в них государственных институтов, а это мало где в мире имеет место. Приятное исключение составляет Япония, где государство на протяжении многих лет финансирует многоаспектные социолингвистические исследования. Информанты подбираются не только по социальным характеристикам, но и по психологическим (например, на определенном этапе отбора "испытуемым предлагалось просмотреть мультфильм, в котором постепенно собака превращалась в кошку; выяснялось, в какой момент это отметил тот или иной информант <...> в результате к анкетированию допускались лишь лица с наиболее усредненной реакцией, которые имели больше шансов считаться типичными носителями языка") [Алпатов 1988: 98]. Тщательный отбор информантов делает вполне репрезентативными для всех говорящих по-японски выборки в несколько сотен, а для некоторых задач даже и десятков человек.

Для сравнительно небольших генеральных совокупностей вполне реально получить выборку, приближающуюся ко всему изучаемому социуму по многим параметрам. Например, при исследовании этно-языковых процессов у сельских шорцев Кемеровской области в 1976 г. (изучалось владение шорским и русским языками, использование их в быту и на производстве) выборка производилась с учетом половозрастной и социально-профессиональной структуры населения. При этом в выборке доля неквалифицированных работников составила 56,9% (всего среди работающего населения, по данным нехозяйственных книг сельсоветов, эта категория составляла 58,0%; далее показатели по генеральной совокупности приведены в скобках), квалифицированных работников физического труда – 29,6% (29,8%), механизаторов - 5,6% (6,0%), служащих - 4,3% (4,8%) и т. д.; почти идентична и половозрастная структура: например, среди женщин лица старше 60 лет составили в выборке 18,6% (среди всех взрослых женщин – 17,6%), в возрасте 50-59 лет - 16,5% (16,0%), 35-49 лет - 25,0% (27,9%) и т. д.

Примерно такое же соотношение соблюдалось в выборке повторного обследования через 10 лет, в 1986 г. [Патрушева ^Г₁₉96: 123-124].

Определение выборочного отношения – наиболее сложный и ответственный этап подготовки обследования, но при аккуратном и тщательном подходе репрезентативными могут оказаться достаточно небольшие выборки.

Социологи накопили значительный опыт в выделении выборочной совокупности. Институт Гэллапа и другие авторитетные организации, занимающиеся изучением общественного мнения всего населения США, пользуются выборками в 1,5–2 тыс. человек [Смелзер 1994: 641]. Популярные в России конца 1990-х годов еженедельные опросы "за кого бы вы голосовали, если бы выборы президента происходили в ближайшее воскресенье", результаты которых регулярно комментировались на телеканале НТВ, также проводились на выборке в 1,5-2 тыс. человек (были представлены разные слои населения 29 регионов).

Однако буквальное перенесение чисто социологических приемов на подготовку значимой в языковом отношении выборки может закончиться провалом даже при гораздо больших значениях выборочного отношения.

В ходе проводившегося в 1994 г. Госкомстатом России "выборочного социально-демографического обследования (микропереписи) населения с охватом 5% постоянного населения" [Ежегодник 1995: 13] в отличие от предыдущих переписей задавались социолингвистически значимые вопросы. Детали отбора выборочной совокупности не публиковались, но можно думать, что ее формировали грамотные социологи, работавшие по общепринятой у нас в стране, хорошо обкатанной методике многоступенчатой выборки: территория страны делится на зоны, "в каждой зоне производится стратификация административных районов и городов <...> на страты^⁷⁷ равного объема. Из каждой страты с вероятностью, пропорциональной размеру района/города, отбирается в выборку один район или город. В каждом из районов отбираются случайно конкретные поселения" и так далее, вплоть до случайного выбора респондента [Социология 1996: 426].

Вероятно, полученные в ходе микропереписи чисто демографические сведения (типы и размеры домохозяйств, распределение женщин по числу рожденных детей в зависимости от возраста и т. п.) достаточно надежны, но то, что интересует социолингвиста (таблица "Население по национальности и владению языками" [Ежегодник 1995: 25–27]), явно не соответствует реальности.

Рассмотрим фрагмент указанной таблицы, касающийся некоторых народов Севера (табл. 1). В нашу таблицу мы отобрали данные об использовании соответствующих этнических языков дома ("на 1000 человек данной национальности") – колонка 1, в учебном заведении, дошкольном учреждении ("на 1000 человек данной национальности, посещающих учебные заведения или дошкольные учреждения") -колонка 2 и на работе ("на 1000 человек данной национальности, имеющих занятия") – колонка 3. Данные об абсолютном числе опрошенных отсутствуют (надо полагать, для каждого народа они не должны сильно отличаться от 5%), но в публикации народы упорядочены по убыванию. Для сопоставления и верификации результатов воспользуемся материалами переписи 1989 г. по численности в пределах РСФСР (тыс. человек) – колонка 4, и доле тех, кто назвал этнический язык родным (%), – колонка 5.

В этой таблице стоит обратить внимание на данные по ненцам, чукчам и нганасанам; согласно переписи, они довольно хорошо сохранили знание этнических языков, то же подтверждают и исследователи (ср.: "положение чукотского языка, наряду с ненецким <...> наиболее благоприятно из всех языков народностей Севера" [Булатова и др. 1997: 20]). Между тем микроперепись показала невысокое использование соответствующих языков во всех сферах. Судя по тому, что на производстве эти народы практически не пользуются родными языками, они, вероятно, трудятся в интернациональных коллективах. Между тем известно, что большая их часть занята преимущественно физическим трудом в сельской местности (в основном это выпас оленей в тундре, причем трудовые коллективы этнически довольно однородны), среди ненцев на 1989 г. таковых было 69,1% от общего числа занятых, среди чукчей – 76,8%, среди нганасан – 86,6%. При более внимательном взгляде на табл.1 выясняется, что в упорядоченном по численности списке народов ненцы пропустили вперед вдвое уступавших им в 1989 г. шорцев, чукчи - долган, а нганасаны даже энцев, которых они численно превосходят в шесть с лишним раз!

Ясно, что расселение народов по административным районам и отдельным населенным пунктам далеко от равномерности. Если этническая стратификация не учитывается, в число респондентов могут попасть нетипичные представители малочисленных народов, а какие-то этносы вооб-Ще выпадут из выборочной совокупности.

Таблица 1

	1994			1989
	Используют этнический язык			Численность этноса, тыс. чел.	% назвавших этнич. язык родным
	дома	в учеб, завед.	на работе	Численность этноса, тыс. чел.	% назвавших этнич. язык родным
Эвенки	61	6	7	29,9	30,4
Ханты	269	7	102	22,3	60,8
Эвены	201	71	188	17,1	43,8
Шорцы	222	17	31	15,7	57,5
Ненцы	263	–	62	34,2	77,7
Нанайцы	106	22	33	11,9	44,1
Долганы	487	29	189	6,6	84,0
Чукчи	54	–	16	15,1	70,4
Манси	40	–	–	8,3	36,7
Селькупы	304	-	24	3,6	47,7
Нивхи	7	-	–	4,6	23,3
Ительмены	15	-	16	2,4	18,8
Саами	-	-	–	1,8	42,0
Эскимосы	11	-	–	1,7	51,6
Ульчи	28	-	–	3,2	30,7
Юкагиры	-	–	–	1Д	32,0
Орочи	-	-	–	0,9	17,8
Удэгейцы	54	-	–	1,9	24,3
Кеты	42	-	-	1Д	48,8
Энцы	45	–	100	0,2	46,5
Алеуты	71	-	200	0,6	25,3
Негидальцы	–	–	–	0,6	26,6
Нганасаны	286	–	–	1,3	83,4
Тофалары	200	-	-	0,7	42,8
Ульта (сроки)	–	–	–	0,2	44,7

Даже если бы 5-процентная выборка равномерно охватывала каждый народ, она не могла бы дать достоверных социолингвистических результатов для тех этносов, которые насчитывают несколько сотен или тысяч человек, поскольку выборочная совокупность должна охватывать определенное число носителей различных комбинаций нескольких социальных параметров, часто многозначных. Не случайно организаторы упоминавшегося наиболее фундаментального массового обследования языков Сибири пришли к выводу о необходимости неравной выборки для отдельных народов: от 2,5% для якутов и бурят до 100% для самых малочисленных. В противном случае "полученная информация носила бы случайный и малоубедительный характер" [Аврорин 1975: 254].

Содержание