Традиционным обозначением для объема выборки является. Объем выборки - выборочный метод социологического исследования

Идентификация объектов генеральной совокупности

Выбор метода обследования

Сплошное обследование

Выборочное обследование

Выбор процедуры формирования выборки

Расчет объема выборки

Реализация плана выборки

Рис. 4.3. Планирование выборки

Планирование выборки включает следующие процедуры (рис. 4.3):

    Выделение объектов генеральной совокупности.

    Определение метода обследования.

    Определение процедуры формирования выборки.

    Определение объема выборки.

Выделение объектов генеральной совокупности

Генеральная совокупность - это множество всех единиц, являющих­ся объектами исследования.

На этом этапе подготовки исследования необходимо определить, какие субъекты составляют исследуемую генеральную совокупность. Как правило, субъекты, входящие в генеральную совокупность, не­однородны, поэтому при определении типичных представителей объек­та исследования некоторые группы могут быть упущены. Особенно сложно представить все элементы генеральной совокупности, состоя­щей из организаций, поскольку не все фирмы афишируют свою дея­тельность. В качестве генеральной совокупности могут быть опреде­лены рынок в целом, сегмент рынка или целевая группа субъектов.

Определение метода обследования

В зависимости от объема генеральной совокупности и целей исследо­вания могут быть использованы методы сплошного или выборочного обследования.

Метод сплошного обследования заключается в изучении всех еди­ниц генеральной совокупности. Метод связан с высокими затратами на проведение исследования, его использование оправдано, например, в случае малого количества потребителей, представляющих сегмент, или в случае, когда объем покупок данного клиента составляет значи­тельную долю от емкости рынка в целом.

Выборка - это группа объектов исследования, которая является носителем характеристик всех единиц генеральной совокупности, на­пример группа потребителей, представляющих интересы и вкусы все­го целевого рынка.

Метод выборочного обследования обеспечивает меньшую точность по сравнению с методом сплошного обследования, однако он менее трудоемок. Целесообразно использование данного метода при наличии большого числа однородных единиц генеральной совокупности.

Метод выборочного обследования предоставляет информацию о ге­неральной совокупности на основании обследования только ее части, поэтому данные, полученные в ходе выборочного обследования, имеют вероятностный характер. На практике это означает, что в результате исследования определяется не конкретное значение, а интервал, в ко­тором находится искомое значение. Вероятность, с которой можно ут­верждать, что ошибка выборки не превысит некоторую заданную величину, называется доверительной вероятностью.

Свойство выборки отражать характеристики генеральной совокуп­ности называется репрезентативностью. Различие между характерис­тиками генеральной и выборочной совокупностей называется ошиб­кой выборки, которая зависит от выбранной процедуры составления (формирования) выборки.

Процедуры формирования выборки

Процедура составления выборки - это последовательность отбора респондентов в выборку.

Отбор респондентов может сопровождаться систематическими и случайными ошибками. Систематические ошибки возникают при не­правильно выбранной процедуре составления выборки. Случайные ошибки существуют всегда, поскольку связаны с влиянием сложно-предсказуемых факторов. Влияние случайности полностью устранить невозможно, но величину случайной ошибки можно определить с по­мощью статистических методов. Систематическую ошибку невозмож­но оценить, но можно устранить, изменив процедуру выборки.

Учитывая наличие двух типов ошибок при формировании выбор­ки, выделяют случайные (вероятностные) и неслучайные (детерми­нированные) виды процедур составления выборки.

Неслучайные процедуры формирования выборки

Неслучайные процедуры составления выборки самим процессом фор­мирования предполагают неслучайный выбор респондентов, чье мне­ние может отличаться от мнения генеральной совокупности в целом, порождая тем самым наличие неслучайной (систематической) ошиб­ки данных в результатах исследования. При использовании неслучай­ных процедур отбор респондентов в выборку производится на основе каких-либо принятых условий, ограничивающих круг вероятных уча­стников исследования. Например, в выборку отбираются только те респонденты, которые владеют компьютером или зашли в магазин с 10 до 11 часов.

Возможны следующие виды неслучайных выборок:

Произвольная выборка - элементы выбираются без плана, бес­системно; способ недорог и удобен, но порождает неточность и нерепрезентативность;

    типовая выборка - набор ограничен лишь характерными (типичными) элементами генеральной совокупности; используется, например, при формировании фокус-групп; требует, однако, наличия сведений о типичности изучаемых объектов;

    квотированная выборка - структура выборки строится по аналогии с распределением определенных признаков в генеральной совокупности; от каждой группы генеральной совокупности отбираются участники исследования, количество которых пропорционально представительству группы в генеральной совокупности.

Случайные процедуры формирования выборки

При формировании случайной выборки применяют следующие про­цедуры.

    простая выборка - элементы выбираются с помощью случайных чисел; при данном подходе предполагается, что для всех единиц генеральной совокупности вероятность быть избранной в выборочную совокупность одинакова (значение вероятности равняется отношению объема выборки к объему генеральной совокупности). Метод очень трудоемок и обязывает иметь список всех единиц генеральной совокупности;

    систематическая (механическая) выборка - первый элемент выбирается с помощью случайных чисел, остальные элементы выборки отбираются через равные интервалы (интервал скачка), которые равны отношению объема генеральной совокупности к объему выборки. Данный порядок формирования выборки значительно упрощает процедуру, однако может внести искажения в структуру выборки, если генеральная совокупность упорядочена по какому-либо признаку.

Если генеральная совокупность упорядочена по существенному признаку (признак считается существенным, если он определяет со­стояние исследуемого показателя), то для уменьшения искажений выборочной характеристики следует отбирать единицы выборки из середины установленного интервала. Аналогично поступают и в том случае, когда генеральная совокупность упорядочена по второстепен­ному признаку, частично влияющему на изучаемый объект.

Если генеральная совокупность упорядочена по нейтральному при­знаку (который не оказывает влияния на поведение изучаемого объек­та), то допустимо включение в выборку любой единицы генеральной совокупности из установленного интервала;

Стратифицированная (типическая или групповая) выборка - генеральная совокупность делится на группы с набором определенных признаков (сегменты или страты), в каждой из которой с помощью случайного отбора формируется своя выборка; весовой коэффициент каждой страты в общем объеме выборки соответ­ствует ее удельному весу в генеральной совокупности; кластерная (серийная) выборка - генеральная совокупность де­лится на идентичные группы (гнезда, клумбы или кластеры). Кластеры должны быть по возможности однотипными, состав кластера должен быть подобен генеральной совокупности. Слу­чайным образом из генеральной совокупности отбираются не­сколько групп, которые подвергаются сплошному обследованию (одноступенчатый подход). Возможен и двухступенчатый под­ход, когда первоначально формируется выборка из кластеров, из нее случайным образом отбираются единицы исследования (т. е. единица выборки предыдущей стадии становится генераль­ной совокупностью для последующей). Недостаток этой проце­дуры формирования выборки - кластеры могут быть неоднород­ны между собой, однако эта процедура проста и экономична.

Многоступенчатые выборки

Любой тип выборки может быть как одно-, так и многоступенчатым. Многоступенчатая выборка применяется в тех случаях, когда извлечь выборку из генеральной совокупности прямым путем затруднитель­но, при этом все единицы отбора на каждой ступени равноценны для обследования.

Многоступенчатый отбор, соединяющий различные процедуры фор­мирования выборки, делает выборку комбинированной. Такой вари­ант формирования выборки позволяет добиться наиболее рациональных и экономичных условий сбора данных в соответствии с поставленны­ми задачами.

Определение объема выборки

Определение размера выборки является некоторым компромиссом между теорией о точности результатов исследования и возможностью ее практической реализации по объему затрат на сбор информации.

Наиболее применимы следующие методы определения объема вы­борки:

1. Произвольный метод расчета; в этом случае объем выборки оп­ределяется на уровне 5-10 % от генеральной совокупности.

    Традиционный метод расчета; связан с проведением периодических ежегодных исследований, охватывающих, например, 500, 1000 или 1500 респондентов.

    Статистический метод расчета; основывается на определении статистической надежности информации.

    Метод расчета с помощью номограмм.

    Эмпирический метод; в этом случае выборка считается достаточной, когда все новые сведения вносят лишь незначительные изменения (которыми можно пренебречь) в уже собранные результаты исследования.

    Затратный метод; основан на размере расходов, которые допустимо затратить на проведение исследования.

Статистический метод расчета объема выборки

На объем статистической выборки влияют следующие факторы:

    Наличие сведений об объеме генеральной совокупности и степени ее однородности.

    Требуемая точность результатов, регулируемая величиной максимально допустимой ошибки репрезентативности и величиной доверительной вероятности, с которой делается заключение о достоверности результатов исследования.

    Наличие сведений о средних показателях генеральной совокупности по исследуемому признаку или об интервале варьирования признака(дисперсии).

    Возможность повторного попадания единицы генеральной совокупности в выборку.

При определении объема выборки для больших совокупностей (ког­да объем выборки составляет менее 5% генеральной совокупности) могут использоваться следующие формулы:

а) повторная выборка (при возможности повторного попадания еди­ницы генеральной совокупности в выборку) при неизвестном объеме генеральной совокупности, но известном распределении контролиру­емого признака:

где t - нормированное отклонение, которое определяется по выбран­ному уровню доверительной вероятности (при 95% доверительной вероятности t = 1,96; при 99% доверительной вероятности t = 2,58); р - найденная вариация генеральной совокупности, в % или в долях; q = 100 - р; Д - допустимая ошибка, в % или в долях;

б) повторная выборка при известной дисперсии изучаемого призна­ка (о):

в) бесповторная выборка (при исключении возможности повторно­го попадания единицы генеральной совокупности в выборку) при из­вестном объеме генеральной совокупности и известном распределе­нии контролируемого признака:

где N - ;

г) бесповторная выборка при известной дисперсии изучаемого признака:

Выборка признается малой, если ее объем превышает 5% генераль­ной совокупности, в этом случае объем выборки может быть откор­ректирован:

где п" - объем выборки для малой совокупности, п - объем статисти­ческой выборки, N - объем генеральной совокупности.

Расчет статистической выборки при нормированном отклонении t = 2 и допустимой ошибке 5% (см. табл. 4.2) показывает, что для боль­ших совокупностей объем выборки может быть определен любым спо­собом, поскольку используемые практические приемы приводят ско­рее к завышению объема обследуемой совокупности.

Таблица 4.2 Зависимость размера выборки от величины генеральной совокупности*

Объем генеральной совокупности

Объем выборки

* при нормированном отклонении t = 2 и допустимой ошибке 5%.

Из табл. 4.2 видно, что при размере генеральной совокупности бо­лее 5000 ее величина не влияет на размер выборки, поэтому формула может принять следующий вид (величиной 1/ N можно пренебречь):

(4.6)

Например, из проведенных ранее исследований известно, что рас­пределение ответов на интересующий исследователя вопрос (напри­мер о статусе пользователя) составило 60% и 40% (60% респондентов ответили утвердительно на вопрос о пользовании продуктом и 40% - отрицательно). Доля целевых респондентов в общем объеме респон­дентов составляет 70%. Для более детального анализа необходимо по­лучить 100 положительных ответов. Чтобы получить этот результат, требуется опросить 238 человек:

Таким образом, при отсутствии точной информации о размере и ха­рактеристиках генеральной совокупности (при условии, что она не менее 5000) достаточно включить в выборку 400 ее представителей. Однако следует учесть, что если мы собираемся контролировать струк­туру выборки по нескольким параметрам, то объем выборки будет го­раздо больше. Г. А. Черчилль в своей работе «Маркетинговые иссле­дования» приводит на этот счет правило: «Объем выборки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классифи­кационной составляющей»; также следует сделать поправку на то, что отдельные респонденты, включенные в выборку, могут оказаться вне досягаемости или отказаться участвовать в исследовании.1

Количество респондентов, которых необходимо опросить для полу­чения необходимого количества положительных ответов на интересу­ющий вопрос, можно рассчитать по формуле:

где П - требуемое для анализа количество положительных ответов; Pj - доля положительных ответов; Р 2 - доля целевых групп, рассчи­тываемая как произведение всех долей респондентов, удовлетворя­ющих установленным требованиям (возраст, пол, статус пользовате­ля и т. д.).

Использование номограмм для расчета объема выборки

Стремление упростить процедуру расчета объема выборки приводит к созданию таблиц, шкал или программ, которые ориентированы на обе­спечение статистической надежности информации, но при этом не обре­меняют пользовагеля знаниями специальных формул из области стати­стики. Например, существует калькулятор выборки (www. shortway. to/few/calculator, htm), на сайте Gallup (www. gallup. ru) можно найти таблицу, связывающую показатели размера выборки, распределения ответов с величиной стандартной ошибки (табл. 4.3).

Таблица 4.3 Взаимосвязь показателей размера выборки, распределения ответов и стандартной ошибки

Распределение ответов,

Размер выборки,

Номограмма является графическим способом определения размера выборки. Номограмма включает три шкалы (рис. 4.4). На шкале слева устанавливается разметка показателя среднеквадратического откло­нения или распределения доли признака. На правой шкале наносится разметка точности измерения в виде допустимой ошибки (половины интервала) при заданной доверительной вероятности 95 или 99%. На средней шкале делается разметка, соответствующая требуемому объ­ему выборки. На правой и левой шкалах делаются отметки на уровне желаемых значений показателей (доли признака и допустимой ошиб­ки). Линейкой эти две отметки соединяются, на пересечении линейки со средней шкалой делается отметка, соответствующая тому объему выборки, который отвечает пожеланиям исследователя.

Рис. 4.4. Номограмма для определения объема выборки (доверительная вероятность 95%)"

4.5. Определение объема выборки

Процедура составления плана выборки включает последовательное решение трех следующих задач:

Определение объекта исследования;

Определение структуры выборки;

Определение объема выборки.

Как правило, объект маркетингового исследования представляет собой совокупность объектов наблюдения, в качестве которых могут выступать потребители, сотрудники компании, посредники и т.д. Если эта совокупность настолько малочисленна, что исследовательская группа располагает необходимыми трудовыми, финансовыми и временными возможностями для установления контакта с каждым из ее элементов, то вполне реально проведение сплошного исследования всей совокупности. В этом случае, определив объект исследования, можно приступать к следующей процедуре (выбору метода сбора данных, орудия исследования и способа связи с аудиторией).

Однако на практике очень часто не представляется возможным или целесообразным проведение сплошного исследования всей совокупности. Для этого могут быть следующие причины:

Невозможность установления контакта с некоторыми элементами совокупности;

Неоправданно большие расходы на проведение сплошного исследования или наличие финансовых ограничений, не позволяющих проведение сплошного исследования;

Сжатые сроки, отведенные для исследования, обусловленные утратой со временем актуальности информации или другими причинами и не позволяющие осуществить сбор, систематизацию и анализ обширных данных для всей совокупности.

Поэтому большие и разбросанные совокупности часто изучаются с помощью выборки, под которой, как известно, понимается часть совокупности, призванная олицетворять совокупность в целом.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки .

Различают два подхода к структуре выборки - вероятностный и детерминированный.

Вероятностный подход к структуре выборки предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Существуют различные виды выборок, основанных на теории вероятностей (типическая, гнездовая и др.). Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования.

Вероятностная выборка более точна, позволяет исследователю оценить степень достоверности собранных им данных, хотя она сложней и дороже, чем детерминированная.

Детерминированный подход к структуре выборки предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах.

на соображениях удобства , состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода обусловлено, возможно, низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

Однако, с другой стороны, простота, экономичность и оперативность исследования, проводимого этим методом, снискали ему довольно широкое распространение на практике и, прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем.

Метод формирования выборки, основанный на решении исследователя , состоит в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, чем предыдущий, поскольку в его основе лежит ориентировка на характерных представителей исследуемой совокупности, хотя и подбираемых на основе субъективных представлений исследователей о ней.

Метод формирования выборки, основанный на контингентных нормах , состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены путем проведения предварительных исследований и в отличие от предыдущего метода не носят субъективного характера. Поэтому данный метод является более совершенным, он позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

Выбрав структуру выборки (подход к ее формированию, вид вероятностной или метая формирования детерминированной выборки), исследователю предстоит определить объем, т.е. количество элементов выборочной совокупности.

Объем выборки определяет достоверность информации , полученной в результате ее исследования, а также необходимые для проведения исследования затраты. Объем выборки зависит от уровня однородности или разновидности изучаемых объектов.

Чем больше объем выборки, тем выше ее точность и больше затраты на проведения ее обследования. При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул, на основе заданных требований к ее точности.

На практике используется несколько подходов к определению объема выборки:

1. Произвольный подход основан на применении «правила большого пальца». Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.

Объем выборки может быть установлен исходя из неких заранее оговоренных условий. К примеру, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой.

Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы

2. Объем выборки от уровня доверительного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью итоговых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случайные ошибки, связанные с природой любых статистических погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки (табл. 4.2).

Таблица 4.2

Расчетная таблица выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расчетам того же автора, можно указать величины фактической ошибки выборки в зависимости от ее объема, что для нас весьма важно, памятуя, что величина допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентному уровню.

Таблица 4.3

Расчетная таблица

Наряду со случайными возможны ошибки систематического характера. Они зависят от организации выборочного обследования. Это разнообразные смещения выборки в сторону одного из полюсов выборочного параметра.

3. Объем выборки на основе статистического анализа . Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.

Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете достоверных интервалов. Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения (рис. 4.1). При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов – о высокой вариации (широкая кривая распределения).

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос.

Малая вариация

Высокая вариация

Рис. 4.1. Вариация и кривые распределения

Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в узком осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.

Доверительный интервал – это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Доверительный интервал тесно связан со средним квадратическим отклонением изучаемого признака в генеральной совокупности: чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав определенный процент ответов.

Доверительный интервал, равный или 95 %, или 99 %, является стандартным при проведении маркетинговых исследований. Ни одна фирма не проводит маркетинговых исследований, формируя несколько выборок. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки; z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности; p – найденная вариация для выборки; g – (100-р); е – допустимая ошибка.

При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50 %, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.

Возможно определение объема выборки на основе использования средних значений, а не процентных величин.

где s – среднее квадратическое отклонение.

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

где .

Выше шел разговор о совокупностях очень больших размеров. Однако в ряде случаев совокупности не являются большими. Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам. Если объем выборки превышает 5 % от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент.

Объем выборки в данном случае определяется следующим образом:

,

Определение объема вероятностной выборки

Объем вероятностной выборки определяется по специальным формулам, в зависимости от заданной достоверности , точности исследования и дисперсии генеральной совокупности.

Теоретической основой возможности использования выборочного обследования для оценки характеристик генеральной совокупности является центральная предельная теорема .

Центральная предельная теорема гласит: для простых случайных выборок объемом n , выделенных из генеральной совокупности с истинным средним μ и дисперсией σ2 , для больших n распределение выборочных средних приближается к нормальному с центром, равным истинному среднему, и дисперсией, равной отношению дисперсии генеральной совокупности к объему выборки, то есть:

Теорема верна для любого распределения частот в генеральной совокупности, однако чем ближе распределение в генеральной совокупности к нормальному, тем меньший объем выборки необходим для достижения эквивалентной достоверности и точности исследования.

На практике исследователь формирует только одну выборку из генеральной совокупности и ему необходимо знать, какой должен быть объем выборки для соблюдения заданных параметров достоверности и точности. Формула для определения объема выборки при оценке среднего может быть выведена, исходя из положений центральной предельной теоремы, и имеет вид:

n - необходимый объем выборки;

z - количество интервалов, характеризующих требование к достоверности исследования;

H - требуемая величина точности исследования;

σ2 - дисперсия генеральной совокупности.

Рассмотрим подробнее параметры правой части уравнения.

Достоверность характеризует вероятность того, что конкретная случайная выборка адекватно отражает характеристику генеральной совокупности.

Достоверность 99% означает, что в 99 выборках из 100 средняя генеральной совокупности будет входить в интервал средней, полученной в результате выборочного исследования.

Пример . Например, проведено три независимых выборочных исследования уровня доходов населения в конкретном регионе. Получены следующие данные о среднем уровне дохода: 300 10 грн., 310 10 грн., 305 10 грн., истинное среднее значение равно 302 грн.

Как видим, истинное среднее значение входит во все три интервала.

При достоверности 99% и заданной точности 10 грн. в 99 выборках из ста среднее выборки будет находиться в интервале от 292 до 312 грн. В одном случае из ста мы получим результат либо ниже 292 грн., либо больше 312 грн. Результаты такого исследования будут недостоверны, т.к. среднее генеральной совокупности не будет входить в коридор полученной в результате выборочного исследования средней величины.

В представленной формуле достоверность характеризуется величиной z, которая определяется по таблице z-распределения в зависимости от заданной достоверности в процентах.

Приведем соответствие только для некоторых типичных вероятностей: 68,26% (z=1), 95,45% (z=2), 99,73% (z=3).

z-распределение – Стандартное нормальное (Z) распределение

Значение z (z value) – количество стандартных ошибок, на которое точка удалена от среднего значения.

Вместо таблицы для вычисления вероятности попадания случайной величины в отмеченный (заштрихованный) диапазон

можно воспользоваться следующей формулой EXCEL:

2*НОРМСТРАСП(z)-1

подставив в нее требуемое значение z. Например:

Точность определяется исследователем, исходя из конкретной поставленной задачи.

Если исследуемая величина является абсолютной, то и точность должна быть представлена абсолютной, а не относительной величиной. При определении процентов (долей) точность определяется в процентах.

При определении точности исследователь должен учитывать возможное исследование динамики показателя.

Пример . Например, если при точности 10 грн. результаты исследования в прошлом году определили средний доход в 300 грн., а в текущем 305 грн., делать выводы об увеличении дохода некорректно, т.к. величина изменения входит в заданный интервал точности (менее 10 грн.).

Наиболее сложным при расчете объема выборки является определение дисперсии . При оценке среднего возникают два основных случая:

1) дисперсия генеральной совокупности известна на основании предыдущих исследований;

2) дисперсия генеральной совокупности неизвестна.

Возможность использования дисперсии, полученной в результате предыдущих исследований , основана на том, что этот параметр генеральной совокупности более инерционен, чем среднее. Другими словами, он изменяется медленнее и, следовательно, если вы, к примеру, ежегодно изучаете уровень дохода населения, то можете использовать величину дисперсии, полученную в прошлогодних исследованиях.

Пример расчета объема выборки .

Во-первых, на объем выборки влияет уровень доверительности α, по которому при помощи специальной таблицы определяется нормированное отклонение z. Например, для случая α = 99% по таблице найдем z = 2,58.

Во-вторых, оказывает влияние уровень (коэффициент) вариации . Примем, например, коэффициент вариации равным = 50%.

В-третьих, на объем выборки влияет требуемая точность (допустимая ошибка)

Если об уровне генеральной Вам ничего неизвестно , то для оценки уровня дисперсии возможно применение правила трех сигм . При нормальном распределении 99% параметров характеристики должно находиться в интервале плюс-минус три сигмы от истинной средней. Проводя исследование, Вы должны оценить типичный верхний (b ) и нижний (a ) уровни параметра , интервал между которыми и составляет шесть сигм. Величина сигмы составит разницу уровней параметра деленную на 6.

Дисперсия или вариация var:

,

где b, a – соответственно верхнее и нижнее значение параметра.

Сигма – это среднеквадратическое отклонение (стандартное отклонение):

.

Пример . Например, при исследовании уровня дохода нижнее значение параметра принимается на уровне 0 грн., а верхнее, предположим, на уровне 6000 грн. В этом случае значение среднеквадратичного (стандартного) отклонения составит: (6000-0)/6=1000.

Следует заметить, что если исследователь действительно готов к проведению исследования, то определение типичных нижней и верхней границы параметра не представляют особой сложности.

При работе с маркетинговыми шкалами принимаемая величина дисперсии зависит от количества точек шкалы и типа распределения частот.

Наихудшим в маркетинговых исследованиях (соответствующей максимальной дисперсии) считается равномерное распределение ответов между точками шкалы. Наилучшим – нормальное с максимальной частотой ответов в середине шкалы.

Таблица 5.1. Типовые диапазоны дисперсий в зависимости от количества точек шкалы

Нижние уровни диапазона соответствуют нормальному распределению частот, верхние – равномерному.

Рассмотренная выше формула определения объема выборки применяется при оценке средних величин .

Если исследователь работает с процентами или долями , то формула трансформируется в следующий вид:

,

где р - доля людей, положительно или отрицательно отвечающих на поставленный вопрос.

При работе с процентами в формулу вместо единицы подставляется 100.

Очевидно, что максимальное значение множителя (1-р)р имеет место при одинаковой доле положительных и отрицательных ответов и составляет при работе с долями 0,25, а при работе с процентами – 2500. Однако результат при работе с долями или процентами будет эквивалентен, так как численное значение квадрата точности, стоящее в знаменателе, также будет отличаться в 10000 раз.

За исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если исследуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если совокупность состоит из 50, 500, 5000 или 50000 элементов.

В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычислении объема выборки с помощью дисперсии совокупности σ2 или дисперсии выборки s2.

Пример (Н.Б.Сафронова, И.Е.Корнеева). Проведем расчет выборки для маркетингового исследования, посвященного узнаваемости потребителями торговой марки. Значение вероятности P = 0,954, предельно допустимая ошибка данного исследования не должна превышать 5%. Какое количество респондентов необходимо опросить для решения этой проблемы в порядке случайной повторной выборки притом, что данные о распределении признаков отсутствуют?

Решение . Так как доля признака неизвестна, допустим, что 50% потребителей знают торговую марку, а 50% – нет. Используем формулу расчета выборки с учетом доли признака:

= =400 чел.

Более сложные методы расчета объема выборки необходимы при использовании в процессе анализа двойной или тройной табуляции. Это связано с тем, что достоверность и точность, достигаемая при рассчитанном объеме выборки, для выборки в целом, не достигается для отдельных ее частей, на которые разбивается выборка в процессе табуляции.

Пример . Например, при определении среднего уровня дохода населения определенный объем выборки может быть достаточен, но он недостаточен для определения среднего уровня дохода мужчин и женщин (при заданных точности и достоверности). Это легко понять, потому что количество мужчин и женщин, принявших участие в опросе отдельно, меньше количества всех респондентов. Зная, однако, соотношение мужчин и женщин, легко определить, с какой точностью рассчитан уровень среднего дохода для каждой из рассматриваемых групп.

Определение объема выборки: среднее

Метод, использованный для создания доверительного интервала, можно модифицировать так, чтобы определить объем выборки с учетом желательного доверительного интервала. Предположим, что вы хотите рассчитать ежемесячный расход семьи на покупки в универмаге более точно, так, чтобы полученный результат находился в пределах ±5,00 долларов от истин­ного среднего значения исследуемой совокупности. Каким должен быть объем выборки? В табл. 12.2 приведен необходимый перечень действий, который вы должны выполнить.

1. Определите степень точности. Это максимально допустимое различие (D) между выбороч­ным средним и генеральным средним. В нашем примере D = ±5,00 долларов.

2. Укажите уровень достоверности. Предположим, что желательный уровень достоверности 95%.

3. Определите значение г, связанное с данным уровнем достоверности, воспользовавшись табл. 2 в Приложении "Статистические таблицы". При 95%-ном уровне достоверности ве­роятность того, что среднее значение генеральной совокупности выйдет за пределы одно­стороннего интервала, равна 0,025 (0,05/2). Соответствующее значение г составляет 1,96.

4. Определите стандартное отклонение среднего генеральной совокупности. Его можно получить из вторичных источников или рассчитать, проведя пилотное исследование. Кроме того, стандартное отклонение можно установить на основе мнения исследователя. Например, диапазон нормально распределенной переменной примерно укладывается в шесть стандартных отклонений (по три слева и справа от среднего значения). Таким образом, можно рассчитать среднеквадратичное от­клонение, разделив величину всего диапазона на 6. Исследователь часто может определить раз­меры диапазон, исходя из собственного понимания анализируемых явлений.

5. Определите объем выборки, воспользовавшись формулой стандартной ошибки среднего:

В нашем примере

(округленное в большую сторону до ближайшего целого числа).

неквадратичное отклонение выборки 5, равное 50,00. Тогда исправленный доверительный интервал составит

Обратите внимание, что полученный доверительный интервал уже предполагаемого. Это вызвано тем, что среднеквадратичное отклонение совокупности завышено на основании выборочных характеристик.

8. Иногда точность определена в относительных, а не абсолютных показателях. Другими сло­вами, может быть известно, что результат вычисления должен составить плюс-минус R% от среднего. Это означает, что D = rm .

В этом случае объем выборки можно определить как

Объем генеральной совокупности N не влияет на объем выборки напрямую, за исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если ис­следуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если сово­купность состоит из 50,500,5000 или 50000 элементов. В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычисле­нии объема выборки с помощью дисперсии совокупности s2 или дисперсии выборки s2.

В каждой профессии есть свой набор любимых вопросов. Для исследователей рынка этот список возглавляет, безусловно, вопрос о размере выборки. Обычно его формулируют так:

  • Мы хотели бы заказать исследование по посетителям московских торговых центров. Какая нам нужна выборка?
  • Наша целевая аудитория – примерно 300 000 человек. Сколько людей нам нужно опросить, чтобы было репрезентативно? А если целевая аудитория будет 3 млн?
  • Нам нужно оценить потенциал продаж квартир в Санкт-Петербурге жителям северных городов России. Какую сделать выборку?
Размер выборки действительно важен, потому что определяет стоимость будущего исследования, не говоря уже о качестве итоговых результатов и выводов. В этой статье мы расскажем о том, как рассчитать оптимальный размер выборки массового опроса. Наш материал будет полезен всем, кто так или иначе сталкивается с необходимостью проведения маркетинговых исследований своими силами или заказывает их у специализированного агентства.

Главное заблуждение о размере выборки

Многие уверены, что чем больше размер целевой группы, тем больше должен быть размер выборки. Поэтому, якобы, чтобы узнать мнение жителей маленького города, достаточно опросить человек 200-300, ну а для выяснения мнения по России в целом и 5000 будет мало.

Между тем, этот стереотип не имеет ничего общего с реальностью. Размер выборки не зависит от численности целевой группы (на языке статистики она называется «генеральной совокупностью») и определяется двумя совершенно другими факторами. Единственное исключение из этого правила – случаи, когда генеральная совокупность очень маленькая, например, 1-2 тысячи человек, но такие ситуации в реальной практике маркетинговых исследований встречаются редко.

Два фактора, от которых зависит размер выборки

Размер выборки массового опроса зависит от двух факторов:

  1. Точности данных, которые нужно получить на выходе – это та самая «статистическая погрешность». Для выборки в 100 респондентов она будет в пределах плюс-минус 10%, а для выборки в 1000 респондентов – в пределах плюс-минус 3,1%. Более подробно об этом – ниже.
  2. Количества и размера подгрупп, на которые нужно разбивать выборку при анализе. Например, если проводится электоральное исследование, то в основном нас будет интересовать ядро активных избирателей. Как правило, доля «ядра» редко превышает 20-25% от всего населения. Поэтому размер выборки нужно рассчитывать так, чтобы одна четверть от ее общего объема позволяла проводить полноценный статистический анализ.
Вопреки расхожему мнению, качество выборки определяется не ее размером, а репрезентативностью. Репрезентативность – это соответствие между выборкой и генеральной совокупности по ключевым параметрам. Чаще всего, в качестве таких «реперных точек» используют легко измеряемые социально-демографические показатели: пол, возраст, образование, род занятий и место жительства.

Две разновидности ошибки выборки

Любое выборочное наблюдение (то есть когда мы опрашиваем не всех подряд, а делаем случайный отбор из генеральной совокупности) сопряжено с погрешностью данных. Эту погрешность обычно называют «ошибкой выборки». Она может быть двух видов:

  1. Систематическая – связана с ошибками проектирования выборки. Оценить ее размер, направление и степень смещения очень сложно, чаще всего – невозможно. Например, если вопросы респондентам будут задавать представители маргинальных социальных слоев, это повлияет на готовность участвовать в исследовании со стороны представителей более обеспеченных групп населения. В итоге это приведет к крайне трудно оцениваемой систематической ошибке и искажению данных.
  2. Случайная – связана с действием законов статистики. Ее размер легко рассчитывается по формулам математической статистики и теории вероятности. Они позволяют делать обоснованные выводы о доверительном интервале признака. Например, если статистическая погрешность составляет плюс-минус 10%, а полученное значение показателя оказалось равно 25%, то доверительный интервал равен от 15% до 35%.

Задача исследователя – собрать данные так, чтобы минимизировать систематическую ошибку выборки. Тогда можно будет свести статпогрешность лишь к случайной ошибке, которую можно рассчитать по формулам.

Как рассчитать размер случайной ошибки выборки

Случайная ошибка выборки зависит не только от объема выборки, но и от дисперсии, то есть степени однородности данных. Чем однороднее данные (т.е. чем меньше разброс полученных значений, или дисперсия), тем меньше ошибка выборки.

Существует формула расчета случайной ошибки выборки, однако для удобства рекомендуем пользоваться онлайн-калькуляторами, например, вот этим . Он позволяет легко провести два вида расчета:

  • рассчитать величину статистической погрешности на основе размера выборки и предполагаемой дисперсии;
  • определить размер выборки, требуемый для получения оценки нужной степени точности.
Вот так выглядит его рабочее окно:

В качестве параметра доверительной надежности (одно из полей в калькуляторе) обычно используется значение в 95%. Это означает, что в 95% случаев распределение признака в генеральной совокупности попадет в рассчитанный доверительный интервал (т.е. само значение признака в выборке плюс-минус размер статистической погрешности). Реже используется значение надежности в 97% или 99% – оно, соответственно, означает, что подобное попадание произойдет в 97% или 99% случаев. В данном случае надежность выборки повышается, но увеличивается размер выборки.

Самое сложное при определении размера выборки – поиск компромисса между требуемой точностью и стоимостью сбора данных. Этот процесс усложняется тем, что увеличение размера выборки в четыре раза приводит к увеличению точности лишь в два раза (соответствует квадратному корню от величины прироста выборки).

Кейс: определение размера выборки для оценки потенциала рынка продаж столичной недвижимости покупателям из регионов

В ноябре-декабре 2016 года мы провели исследование спроса на квартиры в новостройках Москвы и Санкт-Петербурга со стороны жителей разных городов России. Исследование включало в себя три метода сбора данных: массовый репрезентативный опрос населения в возрасте от 20 до 60 лет (проводился с использованием технологии CATI), а также серию экспертных интервью с риэлторами и глубинных интервью с потенциальными покупателями квартир.

Исследование охватывало 33 города, отличающихся повышенным спросом на петербургскую и московскую недвижимость. Плановая выборка исследования, рассчитанная по формулам, составила 21 500 респондентов. Этот объем значительно больше «стандартного» объема выборки, используемого в маркетинговых исследованиях. С чем же связан такой большой размер выборки?

Все дело в том, что клиенту были нужны оценки отдельно по каждому городу, а не просто «в целом по стране». Фактически мы работаем не с 1 выборкой, а с 33 отдельными выборками по каждому городу. Доля людей, заинтересованных в покупке квартиры в Санкт-Петербурге или Москве, была экспертно определена в рамках 5% от числа жителей опрашиваемых городов.

В зависимости от важности города для заказчика, руководитель проекта со стороны Агентства определил допустимую статистическую погрешность, в которую должны укладываться итоговые результаты. Для этого мы использовали специальный макрос в MS Excel, но эти расчеты можно также выполнить с помощью калькулятора выборки. В результате размер выборки варьировал от 500 до 1000 респондентов по каждому из городов исследования, что в сумме и дало заявленные 21 500 человек.

  1. Определите структуру целевой группы. Планируете ли вы анализировать отдельные подгруппы или достаточно будет анализа по выборке в целом?
  2. Определите желаемую точность данных. Например, если нужно оценить динамику рыночной доли за год, подставьте в специальный калькулятор примерное значение доли и «поиграйте» с разными объемами выборки.
  3. Найдите баланс между стоимостью сбора данных (прямо пропорциональна объему выборки) и требуемой точностью.

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

Населения нередко проводятся среди больших групп людей. Зачастую ошибочным является представление о том, что достоверность результатов будет выше, если на вопросы ответит каждый член общества. Вследствие огромных временных, денежных затрат и трудоемкости такое обследование оказывается неприемлемым. С ростом численности респондентов не только увеличатся расходы, но и возрастет риск получения неверных данных. С практической точки зрения множество анкетеров и кодировщиков снизят вероятность достоверного контроля их действий. Такой опрос называется сплошным.

В социологии чаще всего применяется несплошное исследование, или выборочный метод. Результаты его могут распространяться на большую совокупность людей, которая именуется генеральной.

Определение и значение выборочного метода

Выборочный метод- это количественный способ отбора части исследуемых единиц из общей массы, при этом итоги обследования будут распространяться и на каждого индивида, не принявшего участия в этом.

Выборочный метод является и предметом научного исследования, и учебной дисциплиной. Он выступает средством получения достоверной информации о генеральной совокупности и помогает дать оценку всех ее параметров. Условия отбора единиц влияют в последующем на статистический анализ результатов. Если выборочные процедуры осуществлены некачественно, использование даже самых надежных методов обработки собранной информации окажется бесполезным.

Ключевые понятия теории выбора

Называют взаимосвязь единиц, относительно которых формулируются выводы выборочного исследования. В качестве нее могут выступать жители одной страны, конкретного населенного пункта, рабочий коллектив предприятия и т. д.

Выборочную совокупность (или выборку) составляет часть генеральной, которая была выделена с использованием специальных методик и критериев. Например, в процессе формирования учитываются статистические критерии.

Количество индивидов, вошедших в ту или иную совокупность, называют ее объемом. Но он может быть выражен не только числом людей, но и избирательными участками, населенными пунктами, то есть определенно крупными единицами, включающими в себя единицы наблюдения. Но это уже является многоступенчатой выборкой.

Единицей отбора являются составные части генеральной совокупности, ими могут быть как непосредственно единицы наблюдения (одноступенчатая выборка), так и более крупные формирования.

Большую роль в получении достоверных результатов исследования с применением выборочного метода является такое свойство, как репрезентативность отбора. То есть часть генеральной совокупности, ставшая респондентами, должна полностью воспроизводить все ее характеристики. Любое отклонение признается ошибкой.

Этапы применения выборочного метода

Каждое эмпирическое состоит из этапов. В случае применения выборочного метода их очередность будет выстроена следующим образом:

  1. Создание проекта выборки: устанавливается генеральная совокупность, характеризуются процедуры выбора, объемы.
  2. Реализация проекта: в ходе сбора социологической информации происходит выполнение анкетерами заданий с указанием способом отбора респондентов.
  3. Выявление и корректировка ошибок репрезентативности.

Типы выборок в социологии

После определения генеральной совокупности исследователь переходит к выборочным процедурам. Они могут разделяться по двум видам (критериям):

  1. Роль вероятностных законов в ходе осуществления выборки.
  2. Количество ступеней отбора.

Если применять первый критерий, то выделяют метод случайной выборки и неслучайный отбор. На основании последнего можно утверждать, что выборка может быть одноступенчатой и многоступенчатой.

Типы выборокпрямым образом отражаются не только на этапах подготовки и проведения исследования, но и на его результатах. Прежде чем отдать предпочтение одному из них, следует разобраться в содержании понятий.

Определение «случайный» в бытовом применении получило совершенно противоположенное значение, чем в математике. Такой отбор осуществляется по строгим правилам, не допускается никакое отступление от них, так как важно обеспечить каждой единице генеральной совокупности одинаковые шансы быть включенной в выборку. При несоблюдении данных условий эта вероятность будет разной.

В свою очередь случайная выборка подразделяется на:

  • простую;
  • механическую (систематическую);
  • гнездовую (серийную, кластерную);
  • стратифицированную (типическую или районированную).

Простой выборочный метод осуществляется при помощи таблицыслучайных чисел. Первоначально определяется объем выборки; создается полный перечень пронумерованных респондентов, входящих в генеральную совокупность. Используются для отбора специальные таблицы, содержащиеся в математико-статистических изданиях. Любые отличные от них применять запрещается. Если объем выборкипредставляет трехзначное число, то номер каждой единицы отбора должен быть трехзначным, а именно: от 001 до 790. Последнее число означает общее количество человек. В исследовании примут участие те люди, которым был присвоен номер в указанном диапазоне, встречающийся в таблице.

Систематический отбор основан на вычислениях. Предварительно составляется алфавитный список всех элементов генеральной совокупности, устанавливается шаг и только потом - объем выборки. Формула для шагапредставлена следующим образом:

N: n, где N - генеральная совокупность, а n - выборка.

Например, 150 000: 5 000 = 30. Таким образом, каждый тридцатый человек будет отобран для участия в опросе.

Сущность гнездового типа

Гнездовая выборка используется в условиях, если исследуемая совокупность людей состоит из маленьких по числу естественных групп. В таком случае следует учесть, что на первом шаге определяется списочное количество таких гнезд. При помощи таблицы случайных чисел происходит отбор и проводится сплошной опрос всех респондентов, состоящих в каждом отобранном гнезде. При этом чем больше их приняло участие в исследовании, чем меньше средняя ошибка выборки. Однако использовать такую методику возможно при условии наличия схожего признака у изучаемых гнезд.

Сущность стратифицированного выбора

Стратифицированная выборка отличается от предыдущих тем, что накануне отбора генеральная совокупность разбивается на страты, то есть однородные части, имеющие общий признак. Например, уровень образования, электоральные предпочтения, уровень удовлетворенности различными сторонами жизни. Самым простым вариантом является разделение испытуемых по полу и возрасту. Принципиально необходимо провести отбор таким образом, чтобы из каждой страты было выделено число лиц, пропорциональное общему количеству.

Объем выборки в таком случае может быть меньшим, чем в ситуации со случайным отбором, но при этом репрезентативность будет выше. Следует признать, что стратифицированная выборка будет самой затратной в финансовом и информационном плане, а гнездовая - самой выгодной в этом плане.

Неслучайная квотная выборка

Существует также квотная выборка. Она - единственный вид неслучайного отбора, который имеет математическое обоснование. Квотная выборка формируется из единиц, которые должны быть представлены пропорциями и соответствовать генеральной совокупности. В таким виде осуществляется целенаправленное распределение признаков. Если в числе исследуемых признаков выступают мнения, оценки людей, то квотными являются зачастую пол, возраст, образование респондентов.

В социологическом исследовании выделяют также два способа отбора: повторный и бесповторный. При первом избранная единица после обследования возвращается в генеральную совокупность, чтобы дальше участвовать в отборе. Во втором варианте респонденты отсортировываются, что повышает шансы остальных членов генеральной совокупности быть выбранным.

Ученый-социолог Г. А. Черчилль разработал такое правило: размер выборки должен стремиться обеспечить не меньше 100 наблюдений для первостепенных и 20-50 для второстепенной классификационной составляющей. Следует иметь в виду, что часть респондентов, вошедших в выборку, по различным причинам может не принять участие в опросе или вовсе от него отказаться.

Способы определения объема выборки

В социологических исследованиях применимы такие методы:

1. Произвольный, то есть объем выборки определяется в пределах 5-10 % состава генеральной совокупности.

2. Традиционный метод расчета основывается на проведении регулярных исследований, например, один раз в год с охватом 600, 2 000 или 2 500 респондентов.

3. Статистический - заключается в установлении надежности информации. Статистика как наука не развивается изолированно. Предметы и области ее исследования активно задействуются в других смежных отраслях: технических, экономических и гуманитарных. Так, ее методы используются в социологии, при подготовке к опросам и, в частности, при определении объемов выборок. Статистика как наука обладает обширной методологической базой.

4. Затратный, при котором установлена допустимая сумма расходов на исследование.

5. Объем выборки равен может быть числу единиц генеральной совокупности, тогда исследование будет носить сплошной характер. Такой подход применим в малых группах. Например, трудовой коллектив, студенты и т. д.

Ранее удалось установить, что выборка будет считаться репрезентативной, когда ее характеристики описывают свойства генеральной совокупности с минимальной погрешностью.

Оценка объема выборки предваряет окончательные расчеты количества единиц, которые будут выделены из генеральной совокупности:

n = Npqt 2: N∆ 2 p + pqt 2 , в которой N - количество единиц генеральной совокупности, p - доля изучаемого признака (q = 1 - p), t - коэффициент соответствия доверительной вероятности Р (определяется по специальной таблице), ∆ p - допустимая ошибка.

Это только один вариант того, как вычисляется объем выборки. Формула может изменяться в зависимости от условий и выбранных критериев исследования (например, повторная или бесповторная выборка).

Ошибки выборки

Социологические опросы населения основываются на использовании одного из типов выборки, рассмотренных нами выше. Однако в любом случае задачей каждого исследователя должна стать оценка степени точности полученных показателей, то есть нужно определить, насколько они отражают характеристики генеральной совокупности.

Ошибки выборки можно разделить на случайные и неслучайные. Первый вид подразумевает отклонение выборочного показателя от генерального, которое можно выразить разностью их долей (средней) и которое вызвано только не сплошным типом обследования. И совершенно закономерно, если этот показатель снижается на фоне увеличения количества опрошенных респондентов.

Систематической ошибкой называют отклонение от генерального показателя, также найденное в результате вычитания выборочной и генеральной доли и возникшее из-за несоответствия методики формирования выборки установленным правилам.

Данные типы ошибок входят в общую ошибку выборки. В исследовании из генеральной совокупности можно извлечь только одну выборку. Расчет величины максимально возможного отклонения выборочного показателя можно выполнить по специальной формуле. Оно называется предельной ошибкой выборки. Существует также такое понятие, как средняя ошибка выборки. Это среднее квадратическое отклонение выборочных от генеральной долей.

Выделяют также апостериорный (послеопытный) вид ошибки. Под ним подразумевается отклонение показателей выборочной от генеральной доли (средней). Оно вычисляется методом сравнения генерального показателя, информация о котором поступила от надежных источников, и выборочного, который был установлен в ходе опроса. В качестве достоверных источников информации выступают нередко отделы кадров предприятий, государственные органы статистики.

Существует также априорная ошибка, также являющаяся отклонением выборочного и генерального показателей, которой можно выразить разностью их долей и рассчитать которую можно по специальной формуле.

В учебных исследованиях чаще всего совершаются следующие ошибки, связанные с проведением отбора респондентов для опроса:

1. Выборочные совокупности групп, принадлежащие к разным генеральным. При их использовании разрабатываются статистические выводы, которые относятся ко всей выборке. Совершенно очевидно, что это не может быть приемлемо.

2. В расчет не принимаются организационные и финансовые возможности исследователя, когда рассматриваются типы выборок, и одной из них отдается предпочтение.

3. Не в полном объеме используются статистические критерии структуры генеральной совокупности при предотвращении ошибок выборки.

4. Не учитываются требования репрезентативности отбора респондентов в ходе сравнительных исследований.

5. Инструкция для интервьюера должна быть адаптирована с учетом специфики принятого типа отбора.

Характер участия респондентов в исследовании может быть открытым или анонимным. Это следует учитывать про формировании выборки, так как, не согласившись с условиями, участники могут выбыть.

Интервальное оценивание вероятности события. Формулы расчета численности выборки при собственно-случайном способе отбора.

Для определения вероятностей интересующих нас событий мы применяем выборочный метод : проводим n независимых экспериментов, в каждом из которых может произойти (или не произойти) событие А (вероятность р появления события А в каждом эксперименте постоянна). Тогда относительная частота p* появлений событий А в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события А в отдельном испытании. При этом величину p* называют выборочной долей появлений события А , а р - генеральной долей .

В силу следствия из центральной предельной теоремы (теорема Муавра-Лапласа) относительную частоту события при большом объеме выборки можно считать нормально распределенной с параметрами M(p*)=p и

Поэтому при n>30 доверительный интервал для генеральной доли можно построить, используя формулы:


где u кр находится по таблицам функции Лапласа с учетом заданной доверительной вероятности γ: 2Ф(u кр)=γ.

При малом объеме выборки n≤30 предельная ошибка ε определяется по таблице распределения Стьюдента :
где t кр =t(k; α) и число степеней свободы k=n-1 вероятность α=1-γ (двустороння область).

Формулы справедливы, если отбор проводился случайным повторным образом (генеральная совокупность бесконечна), в противном случае необходимо сделать поправку на бесповторность отбора (таблица).

Средняя ошибка выборки для генеральной доли

Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный
Доля единиц w = . Точность ε = . Вероятность γ =

Задачи о генеральной доле

На вопрос «Накрывает ли доверительный интервал заданное значение p 0 ?» - можно ответить, проверив статистическую гипотезу H 0:p=p 0 . При этом предполагается, что опыты проводятся по схеме испытаний Бернулли (независимы, вероятность p появления события А постоянна). По выборке объема n определяют относительную частоту p * появления события A: где m - количество появлений события А в серии из n испытаний. Для проверки гипотезы H 0 используется статистика, имеющая при достаточно большом объеме выборки стандартное нормальное распределение (табл. 1).
Таблица 1 - Гипотезы о генеральной доле

Гипотеза

H 0:p=p 0 H 0:p 1 =p 2
Предположения Схема испытаний Бернулли Схема испытаний Бернулли
Оценки по выборке
Статистика K
Распределение статистики K Стандартное нормальное N(0,1)

Пример №1 . С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал , с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
Решение. По условию выборочная доля женщин составляет (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле

Значение u кр находим по таблице функции Лапласа из соотношения 2Ф(u кр)=γ, т.е. Функция Лапласа (приложение 1) принимает значение 0.475 при u кр =1.96. Следовательно, предельная ошибка и искомый доверительный интервал
(p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.

Пример №2 . Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80 %. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
Решение . Выборочная доля «удачных» дней составляет
По таблице функции Лапласа найдем значение u кр при заданной
доверительной вероятности
Ф(2.23) = 0.49, u кр = 2.33.
Считая отбор бесповторным (т.е. две проверки в один день не проводилось), найдем предельную ошибку:
где n=40 , N = 365 (дней). Отсюда
и доверительный интервал для генеральной доли: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

Пример №3 . Проверив 2500 изделий в партии, обнаружили, что 400 изделий высшего сорта, а n–m – нет. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю высшего сорта с точностью до 0.01 ?
Решение ищем по формуле определения численности выборки для повторного отбора.

Ф(t) = γ/2 = 0.95/2 = 0.475 и этому значению по таблице Лапласа соответствует t=1.96
Выборочная доля w = 0.16; ошибка выборки ε = 0.01

Пример №4 . Партия изделий принимается, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0.97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости α=0,02 принять партию?
Решение . Сформулируем основную и альтернативную гипотезы.
H 0:p=p 0 =0,97 - неизвестная генеральная доля p равна заданному значению p 0 =0,97. Применительно к условию - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0.97; т.е. партию изделий можно принять.
H 1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Наблюдаемое значение статистики K (таблица) вычислим при заданных значениях p 0 =0,97, n=200, m=193


Критическое значение находим по таблице функции Лапласа из равенства


По условию α=0,02 отсюда Ф(Ккр)=0,48 и Ккр=2,05. Критическая область левосторонняя, т.е. является интервалом (-∞;-K kp)= (-∞;-2,05). Наблюдаемое значение К набл =-0,415 не принадлежит критической области, следовательно, на данном уровне значимости нет оснований отклонять основную гипотезу. Партию изделий принять можно.

Пример №5 . Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты. Среди 200 отобранных изделий первого завода оказалось 20 бракованных, среди 300 изделий второго завода - 15 бракованных.
На уровне значимости 0.025 выяснить, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей.

По условию α=0,025 отсюда Ф(Ккр)=0,4875 и Ккр=2,24. При двусторонней альтернативе область допустимых значений имеет вид (-2,24;2,24). Наблюдаемое значение K набл =2,15 попадает в этот интервал, т.е. на данном уровне значимости нет оснований отвергать основную гипотезу. Заводы изготавливают изделия одинакового качества.