Данные по выборке. Как правильно рассчитать объем выборки


План

  • Введение
  • 1. Роль выборки
  • Заключение
  • Список литературы

Введение

Статистика - аналитическая наука, которая необходима всем современным специалистам. Современный специалист не может быть грамотным, если он не владеет статистической методологией. Статистика - важнейший инструмент связи предприятия с обществом. Статистика одна из важнейших дисциплин в учебном плане всех специальностей, т.к. статистическая грамотность - неотъемлемая составляющая высшего образования, а по количеству отведенных часов в учебном плане она занимает одно из первых мест. Работая с цифрами, каждый специалист должен знать, как получены те или иные данные, какова их природа исчисления, насколько они полны и достоверны.

1. Роль выборки

Множество всех единиц совокупности, обладающих определенным признаком и подлежащих изучению, носит в статистике название генеральной совокупности.

На практике по тем или иным причинам не всегда возможно или же нецелесообразно рассматривать всю генеральную совокупность. Тогда ограничиваются изучением лишь некоторой части ее, конечной целью которого является распространение полученных результатов на всю генеральную совокупность, т.е. применяют выборочный метод.

Для этого из генеральной совокупности особым образом отбирается часть элементов, так называемая выборка, и результаты обработки выборочных данных (например, средние арифметические значения) обобщаются на всю совокупность.

Теоретической основой выборочного метода является закон больших чисел. В силу этого закона при ограниченном рассеивании признака в генеральной совокупности и достаточно большой выборке с вероятностью, близкой к полной достоверности, выборочная средняя может быть сколь угодно близка к генеральной средней. Закон этот, включающий в себя группу теорем, доказан строго математически. Таким образом, средняя арифметическая, рассчитанная по выборке, может с достаточным основанием рассматриваться как показатель, характеризующий генеральную совокупность в целом.

2. Методы вероятностного отбора, обеспечивающие репрезентативность

Для того чтобы можно было по выборке делать вывод о свойствах генеральной совокупности, выборка должна быть репрезентативной (представительной), т.е. она должна полно и адекватно представлять свойства генеральной совокупности. Репрезентативность выборки может быть обеспечена только при объективности отбора данных.

Выборочная совокупность формируется по принципу массовых вероятностных процессов без каких бы то ни было исключений от принятой схемы отбора; необходимо обеспечить относительную однородность выборочной совокупности или ее разделение на однородные группы единиц. При формировании выборочной совокупности должно быть дано четкое определение единицы отбора. Желателен приблизительно одинаковый размер единиц отбора, причем результаты будут тем точнее, чем меньше единица отбора.

Возможны три способа отбора: случайный отбор, отбор единиц по определенной схеме, сочетание первого и второго способов.

Если отбор в соответствии с принятой схемой проводится из генеральной совокупности, предварительно разделенной на типы (слои или страты), то такая выборка называется типической (или расслоенной, или стратифицированной, или районированной). Еще одно деление выборки по видам определяется тем, что является единицей отбора: единица наблюдения или серия единиц (иногда используют термин "гнездо"). В последнем случае выборка называется серийной, или гнездовой. На практике часто используется сочетание типической выборки с отбором сериями. В математической статистике, обсуждая проблему отбора данных, обязательно вводят деление выборки на повторную и бесповторную. Первая соответствует схеме возвратного шара, вторая - безвозвратного (при рассмотрении процесса отбора данных на примере отбора шаров разного цвета из урны). В социально-экономической статистике нет смысла применять повторную выборку, поэтому, как правило, имеется в виду бесповторный отбор.

Так как социально-экономические объекты имеют сложную структуру, то выборку бывает довольно трудно организовать. Например, чтобы провести отбор домохозяйств при изучении потребления населением крупного города, легче произвести сначала отбор территориальных ячеек, жилых домов, потом квартир или домохозяйств, затем респондента. Такая выборка называется многоступенчатой. На каждой ступени используются разные единицы отбора: более крупные - на начальных ступенях, на последней ступени единица отбора совпадает с единицей наблюдения.

Еще один вид выборочного наблюдения - многофазовая выборка. Такая выборка включает определенное количество фаз, каждая из которых отличается подробностью программы наблюдения. Например, 25% всей генеральной совокупности обследуются по краткой программе, каждая 4-я единица из этой выборки обследуется по более полной программе и т.д.

При любом виде выборки отбор единиц производится тремя отмеченными способами. Рассмотрим процедуру случайного отбора. Прежде всего, составляется список единиц совокупности, в котором каждой единице присваивается цифровой код (номер или метка). Затем производится жеребьевка. Закладываются в барабан шары с соответствующими номерами, они перемешиваются и проводится отбор шаров. Выпавшие номера соответствуют единицам, попавшим в выборку; число номеров равно запланированному объему выборки.

Отбор жеребьевкой может быть подвержен смещениям, вызванным недостатками техники (качеством шаров, барабана) и другими причинами. Более надежен с точки зрения объективности отбор по таблице случайных чисел. Такая таблица содержит серии цифр, чередующихся случайным образом, отобранных путем электронных сигналов. Так как мы пользуемся десятичной цифровой системой 0, 1, 2,., 9, вероятность появления любой цифры равна 1/10. Следовательно, если бы нужно было создать таблицу случайных чисел, включающую 500 знаков, то из них около 50 были бы 0, столько же - 1 и т.д.

Часто используется отбор по какой-либо схеме (так называемая направленная выборка). Схема отбора принимается такой, чтобы отразить основные свойства и пропорции генеральной совокупности. Простейший способ: по спискам единиц генеральной совокупности, составленным так, чтобы упорядочивание единиц было бы не связано с изучаемыми свойствами, проводится механический отбор единиц с шагом, равным N: п. Обычно отбор начинают не с первой единицы, а отступив полшага, чтобы уменьшить возможность смещения выборки. Частота появления единиц с теми или иными особенностями, например студентов с тем или иным уровнем успеваемости, живущих в общежитии, и т.д. будет определяться той структурой, которая сложилась в генеральной совокупности.

Для большей уверенности в том, что выборка отразит структуру генеральной совокупности, последняя подразделяется на типы (страты или районы), и проводится случайный или механический отбор из каждого типа. Общее число единиц, отобранных из разных типов, должно соответствовать объему выборки.

Особые трудности возникают, когда нет списка единиц, а отбор нужно произвести либо на местности, либо из образцов продукции на складе готовой продукции. В этих случаях важно детально разработать схему ориентации на местности и схему отбора и следовать ей, не допуская отклонений. Например, счетчик имеет указание двигаться от определенной автобусной остановки на север по четной стороне улицы и, отсчитав два дома от первого угла, войти в третий и провести опрос в каждом 5-м жилом помещении. Неукоснительное следование принятой схеме обеспечивает выполнение главного условия формирования репрезентативной выборки - объективности отбора единиц.

От случайной выборки следует отличать квотный отбор, когда выборка конструируется из единиц определенных категорий (квот), которые должны быть представлены в заданных пропорциях. Например, при опросе покупателей универмага может быть запланировано провести отбор 150 респондентов, в том числе 90 женщин, из них 25 - девушек,20 - молодых женщин с маленькими детьми, 35 - женщин среднего возраста, одетых в деловой костюм, 10 - женщин 50 лет и старше; кроме того, планировался опрос 70 мужчин, из них 25 - подростков и юношей,20 - молодых мужчин с детьми, 15 - мужчин, которые одеты в костюмы, 10 - мужчин, одетых в спортивную одежду. Для определения потребительских ориентаций и предпочтений такая выборка, может быть, и хороша, но если мы захотим по ней установить среднюю сумму покупок, их структуру, мы получим непредставительные результаты. Это происходит потому, что квотная выборка нацелена на отбор определенных категорий.

Выборка может быть нерепрезентативной, даже если она формируется в соответствии с известными пропорциями генеральной совокупности, но отбор проводится без какой-либо схемы - единицы набираются как угодно, лишь бы обеспечить соотношение их категорий в тех же пропорциях, что и в генеральной совокупности (например, соотношение мужчин и женщин, респондентов в возрасте моложе и старше трудоспособного и в трудоспособном и т.д.).

Эти замечания должны предостеречь вас от подобных подходов к формированию выборки и еще раз подчеркнуть необходимость объективного отбора.

3. Организационные и методологические особенности случайной, механической, типической и серийной выборки

В зависимости от того, как осуществляется отбор элементов совокупности в выборку, различают несколько видов выборочного обследования. Отбор может быть случайным, механическим, типическим и серийным.

Случайным является такой отбор, при котором все элементы генеральной совокупности имеют равную возможность быть отобранными. Другими словами, для каждого элемента генеральной совокупности обеспечена равная вероятность попасть в выборку.

выборка статистическая вероятностный случайный

Требование случайности отбора достигается на практике с помощью жребия или таблицы случайных чисел.

При отборе способом жеребьевки все элементы генеральной совокупности предварительно нумеруются и номера их наносятся на карточки. После тщательной перетасовки из пачки любым способом (подряд или в любом другом порядке) выбирается нужное число карточек, соответствующее объему выборки. При этом можно либо откладывать отобранные карточки в сторону (тем самым осуществляется так называемый бесповторный отбор), либо, вытащив карточку, записать ее номер и возвратить в пачку, тем самым давая ей возможность появиться в выборке еще раз (повторный отбор). При повторном отборе всякий раз после возвращения карточки пачка должна быть тщательно перетасована.

Способ жеребьевки применяется в тех случаях, когда число элементов всей изучаемой совокупности невелико. При большом объеме генеральной совокупности осуществление случайного отбора методом жеребьевки становится сложным. Более надежным и менее трудоемким в случае большого объема обрабатываемых данных является метод использования таблицы случайных чисел.

Механический отбор производится следующим образом. Если формируется 10% -ная выборка, т.е. из каждых десяти элементов должен быть отобран один, то вся совокупность условно разбивается на равные части по 10 элементов. Затем из первой десятки выбирается случайным образом элемент. Например, жеребьевка указала девятый номер. Отбор остальных элементов выборки полностью определяется указанной пропорцией отбора N номером первого отобранного элемента. В рассматриваемом случае выборка будет состоять из элементов 9, 19, 29 и т.д.

Механическим отбором следует пользоваться осторожно, так как существует реальная опасность возникновения так называемых систематических ошибок. Поэтому прежде чем делать механическую выборку, необходимо проанализировать изучаемую совокупность. Если ее элементы расположены случайным образом, то выборка, полученная механическим способом, будет случайной. Однако нередко элементы исходной совокупности бывают частично или даже полностью упорядочены. Весьма нежелательным для механического отбора является порядок элементов, имеющий правильную повторяемость, период которой может совпасть с периодом механической выборки.

Нередко элементы совокупности бывают упорядочены по величине изучаемого признака в убывающем или возрастающем порядке и не имеют периодичности. Механический отбор из такой совокупности приобретает характер направленного отбора, так как отдельные части совокупности оказываются представленными в выборке пропорционально их численности во всей совокупности, т.е. отбор направлен на то, чтобы сделать выборку представительной.

Другим видом направленного отбора является типический отбор. Следует отличать типический отбор от отбора типичных объектов. Отбор типичных объектов применялся в земской статистике, а также при бюджетных обследованиях. При этом отбор "типичных селений" или "типичных хозяйств" производился по некоторым экономическим признакам, например по размерам землевладения на двор, по роду занятий жителей и т.п. Отбор такого рода не может быть основой для применения выборочного метода, так как здесь не выполнено основное его требование - случайность отбора.

При собственно типическом отборе в выборочном методе совокупность разбивается на группы, однородные в качественном отношении, а затем уже внутри каждой группы производится случайный отбор. Типический отбор организовать сложнее, чем собственно случайный, так как необходимы определенные знания о составе и свойствах генеральной совокупности, но зато он дает более точные результаты.

При серийном отборе вся совокупность разбивается на группы (серии). Затем путем случайного или механического отбора выделяют определенную часть этих серий и производят их сплошную обработку. По сути дела, серийный отбор представляет собой случайный или механический отбор, осуществленный для укрупненных элементов исходной совокупности.

В теоретическом плане серийная выборка является самой несовершенной из рассмотренных. Для обработки материала она, как правило, не используется, но представляет определенные удобства при организации обследования, особенно в изучении сельского хозяйства. Например, ежегодные выборочные обследования крестьянских хозяйств в годы, предшествовавшие коллективизации, проводились способом серийного отбора. Историку полезно знать о серийной выборке, поскольку он может встретиться с результатами таких обследований.

Кроме описанных выше классических способов отбора в практике выборочного метода используются и другие способы. Рассмотрим два из них.

Изучаемая совокупность может иметь многоступенчатую структуру, она может состоять из единиц первой ступени, которые, в свою очередь, состоят из единиц второй ступени, и т.д. Например, губернии включают в себя уезды, уезды можно рассматривать как совокупность волостей, волости состоят из сел, а села - из дворов.

К таким совокупностям можно применять многоступенчатый отбор, т.е. последовательно осуществлять отбор на каждой ступени. Так, из совокупности губерний механическим, типическим или случайным способом можно отобрать уезды (первая ступень), затем одним из указанных способов выбрать волости (вторая ступень), далее провести отбор сел (третья ступень) и, наконец, дворов (четвертая ступень).

Примером двухступенчатого механического отбора может служить давно практикуемый отбор бюджетов рабочих. На первой ступени механически выбираются предприятия, на второй - рабочие, бюджет которых обследуется.

Изменчивость признаков исследуемых объектов может быть различной. Например, обеспеченность крестьянских хозяйств собственной рабочей силой колеблется меньше, чем, скажем, размеры их посевов. В связи с этим меньшая по объему выборка по обеспеченности рабочей силой будет столь же представительной, как и большая по числу элементов выборка данных о размерах посевов. В этом случае из выборки, по которой определяются размеры посевов, можно сделать под выборку, достаточно репрезентативную для определения обеспеченности рабочей силой, осуществив тем самым двухфазный отбор. В общем случае можно добавить и следующие фазы, т.е. из полученной подвыборки сделать еще подвыборку и т.д. Этот же способ отбора применяется в тех случаях, когда цели исследования требуют различной точности при исчислении разных показателей.

Задание 1. Описательная статистика

На экзамене 20 студентов получили следующие оценки (по 100 бальной шкале):

1) Построить ряд распределения частот, относительных и накопленных частот для 5 интервалов;

2) Построить полигон, гистограмму и кумулятивный полигон;

3) Найти среднюю арифметическую, моду, медиану, первый и третий квартили, межквартальный размах, стандартное отклонение и коэффициенты вариации. Проанализировать данные с использованием этих характеристик и указать интервал, включающий 50% центральных значений указанных величин.

1) x (min) =53, x (max) =98

R=x (max) - x (min) =98-53=45

h=R/1+3.32lgn, где n - объем выборки, n=20

h= 45/1+3.32*lg20= 9

a (i) - нижняя граница интервала, b (i) - верхняя граница интервала.

a (1) = x (min) - h/2, b (1) = a (1) +h, тогда, если b (i) - верхняя граница i-го интервала (причем a (i+1) =b (i)), то b (2) =a (2) +h, b (3) =a (3) +h и т.д. Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет равно или больше x (max).

a (1) = 47.5 b (1) = 56.5

a (2) = 56.5 b (2) = 65.5

a (3) = 65.5 b (3) = 74.5

a (4) = 74.5 b (4) = 83.5

a (5) = 83.5 b (5) = 92.5

a (6) = 92.5 b (6) = 101.5

Интервалы, a (i) - b (i)

Подсчет частот

Частота, n (i)

Накопленная частота, n (hi)

2) Для построения графиков запишем вариационные ряды распределения (интервальный и дискретный) относительных частот W (i) = n (i) /n, накопленных относительных частот W (hi) и найдем отношение W (i) /h, заполнив таблицу.

x (i) =a (i) +b (i) /2; W (hi) =n (hi) /n

Статистический ряд распределения оценок:

Интервалы, a (i) - b (i)

Для построения гистограммы относительных частот по оси абсцисс откладываем частичные интервалы, на каждом из которых строим прямоугольник, площадь которого равна относительной частоте W (i) данного i-го интервала. Тогда высота элементарного прямоугольника должна быть равна W (i) /h.

Из гистограммы можно получить полигон того же распределения, если середины верхних оснований прямоугольников соединить отрезками прямой.

Для построения кумуляты дискретного ряда по оси абсцисс откладываем значения признака, а по оси ординат - относительные накопленные частоты W (hi). Полученные точки соединяем отрезками прямых. Для интервального ряда по оси абсцисс откладываем верхние границы группировки.

3) Среднее арифметическое значение находим по формуле:

Мода рассчитывается по формуле:

Нижняя граница модального интервала; h - ширина интервала группировки; - частота модального интервала; - частота интервала, предшествующего модальному; - частота интервала, следующего за модальным. = 23,125.

Найдем медиану:

n=20: 53,58,59,59,63,67,68,69,71,73,78,79,85,86,87,89,91,91,98,98

Подставив значения, получаем: Q1=65;

Значение второго квартиля совпадает со значением медианы, поэтому Q2=75.5; Q3= 88.

Межквартальный размах равен:

Среднеквадратическое (стандартное) отклонение находим по формуле:

Коэффициент вариации:

Из данных расчетов видно, что 50% центральных значений указанных величин включает в себя интервал 74,5 - 83,5.

Задание 2. Статистическая проверка гипотез.

Предпочтения в спорте для мужчин, женщин и подростков следующие:

Проверить гипотезу о независимости предпочтения от пола и возраста б = 0,05.

1) Проверка гипотезы о независимости предпочтений в спорте.

Коэффициент Пирсена:

Табличное значение критерия хи-квадрат со степенью свободы 4 при б = 0,05 равно ч 2 табл =9,488.

Так как, то гипотеза отвергается. Различия в предпочтениях существенные.

2. Гипотеза о соответствии.

Волейбол как вид спорта ближе всего к баскетболу. Проверим соответствие в предпочтениях для мужчин, женщин и подростков.

Ф 2 =0.1896+0.1531+0.1624+0.1786+0.1415+0.1533 = 0.979.

При уровне значимости б = 0,05 и степени свободы k = 2 табличное значение ч 2 табл =9,210.

Так как Ф 2 >, то различия в предпочтениях существенные.

Задание 3. Корреляционно-регрессионный анализ.

Анализ дорожно-транспортных происшествий дал следующую статистику относительно процента водителей, моложе 21 года и числа происшествий с тяжелыми последствиями на 1000 водителей:

Провести графический и корреляционно-регрессионный анализ данных, спрогнозировать число ДТП с тяжелыми последствиями для города, в котором число водителей, моложе 21 года равно 20% от общего числа водителей.

Получаем выборку объема n = 10.

x - процент водителей моложе 21 года,

y - число происшествий на 1000 водителей.

Уравнение линейной регрессии имеет вид:

Последовательно вычисляем:

Аналогично находим

Выборочный коэффициент регрессии

Связь между x, y сильная.

Уравнение линейной регрессии принимает вид:

На рисунке представлено поле рассеяния и график линейной регрессии . Проводим прогноз для x n =20 .

Получаем y n =0 .2 9*20-1 .4 6 = 4 .3 4 .

Прогнозное значение получилось больше всех значений, представленный в исходной таблице . Это следствие того, что корреляционная зависимость прямая и коэффициент равен 0,29 достаточно большой . На каждую единицу приращения Дx он дает приращение Дy =0 .3

Задание 4 . Анализ временных рядов и прогнозирование .

Спрогнозировать значения индексов на ближайшую неделю, используя:

а) метод скользящей средней, выбрав для ее вычисления трехнедельные данные;

б) экспоненциальную взвешенную среднюю, выбрав в качестве б=0,1.

Из таблицы случайных чисел находим номера 41, 51, 69, 135, 124, 93, 91, 144, 10, 24.

Располагаем их в порядке возрастания: 10, 24, 41, 51, 69, 91, 93, 124, 135, 144.

Проводим новую нумерацию от 1 до 10. Получаем исходные данные для десяти недель:

Экспоненциальное сглаживание при б = 0,1 дает только одно значение.

Для середины всего срока получаем три прогноза: 12,855; 1309; 12,895.

Наблюдается согласование этих прогнозов.

Задание 5 . Индексный анализ .

Компания занимается перевозкой грузов. Имеются данные за ряд лет по объемам перевозки 4-х видов грузов и стоимости перевозки единицы груза.

Определите простые индексы цен, количества и стоимости для каждого вида продукта, а также индексы Ласпейреса и Паше и индекс стоимости. Прокомментируйте полученные результаты содержательно.

Решение. Вычислим простые индексы:

Индекс Ласпейреса:

Индекс Паше:

Индеек стоимости:

Индивидуальные индексы указывают на разнобой в изменении цен и количеств по грузам А, В, С, Д. Агрегатные индексы указывают на общие тенденции изменения. В целом стоимость перевозимых грузов уменьшилась на 13%. Причина в том, что самый дорогой груз уменьшился на 42% по количеству, а его тариф почти не изменился.

Годы 16-20 нумеруем по порядку от 1 до 5. Исходные данные принимают вид:

Сначала исследуем динамику количества груза А.

Показатель

Абсолютные приросты

Темпы роста, %

Темпы прироста, %

При этом темпы роста усреднялись по формулам :

, .

Для темпа прироста в любом случае Т пр р -1 .

Теперь рассматриваем груз Д .

Показатель

Абсолютные приросты

Темпы роста, %

Темпы прироста, %

Заключение

Средние величины и их разновидности в статистике играют большую роль. Средние показатели широко применяются в анализе, так как именно в них находят свое проявление закономерности массовых явлений и процессов как во времени, так и в пространстве. Так, например, закономерность повышения производительности труда находит свое выражение в статистических показателях роста средней выработки на одного работающего в промышленности, закономерность неуклонного роста уровня благосостояния населения проявляется в статистических показателях увеличения средних доходов рабочих и служащих и т.д.

Широкое применение имеют такие описательные характеристики распределения варьирующего признака как мода и медиана. Они являются конкретными характеристиками, их значение имеет какая-либо конкретная варианта в вариационном ряду.

Так, чтобы охарактеризовать наиболее часто встречающуюся величину признака, применяют моду, а чтоб показать количественную границу значения варьирующего признака, которую достигла половина членов совокупности - медиану.

Таким образом, средние величины помогают изучать закономерности развития промышленности, конкретной отрасли, общества и страны в целом.

Список литературы

1. Теория статистики: Учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова; Под ред.Р.А. Шмойловой. - 4-е изд., перераб. и доп. - М.: Финансы и статистика, 2005. - 656с.

2. Гусаров В.М. Статистика: Учебное пособие для вузов. - М.: ЮНИТИ-ДАНА, 2001.

4. Сборник задач по теории статистики: Учебное пособие/ Под ред. проф.В. В. Глинского и к. э. н., доц.Л.К. Серга. Изд. З-е. - М.: ИНФРА-М; Новосибирск: Сибирское соглашение, 2002.

5. Статистика: Учебное пособие/Харченко Л-П., Долженкова В.Г., Ионин В.Г. и др., Под ред. В.Г. Ионина. - Изд.2-е, перераб. и доп. - М.: ИНФРА-М. 2003.

Подобные документы

    Дескриптивная статистика и статистический вывод. Способы отбора, обеспечивающие репрезентативность выборки. Влияние вида выборки на величину ошибки. Задачи при применении выборочного метода. Распространение данных наблюдения на генеральную совокупность.

    контрольная работа , добавлен 27.02.2011

    Выборочный метод и его роль. Развитие современной теории выборочного наблюдения. Типология методов отбора. Способы практической реализации простой случайной выборки. Организация типической (стратифицированной) выборки. Объем выборки при квотном отборе.

    доклад , добавлен 03.09.2011

    Цель выборочного наблюдения и формирование выборки. Особенности организации различных видов выборочного наблюдения. Ошибки выборочного отбора и методы их расчета. Применение выборочного метода для анализа предприятий топливно-энергетического комплекса.

    курсовая работа , добавлен 06.10.2014

    Выборочное наблюдение как метод статистического исследования, его особенности. Случайный, механический, типический и серийный виды отбора при образовании выборочных совокупностей. Понятие и причины возникновения ошибки выборки, методы ее определения.

    реферат , добавлен 04.06.2010

    Понятие и роль статистики в механизме управления современной экономикой. Сплошное и несплошное статистическое наблюдение, описание выборочного метода. Виды отбора при выборочном наблюдении, ошибки выборки. Производственные и финансовые показатели.

    курсовая работа , добавлен 17.03.2011

    Изучение выполнения плана. Десятипроцентное выборочное обследование по методу случайного бесповторного отбора. Себестоимость продукции завода. Предельная ошибка выборки. Динамика средних цен и объема продажи продукта. Индекс цен переменного состава.

    контрольная работа , добавлен 09.02.2009

    Получение выборки объема n-нормального распределения случайной величины. Нахождение числовых характеристик выборки. Группировка данных и вариационный ряд. Гистограмма частот. Эмпирическая функция распределения. Статистическое оценивание параметров.

    лабораторная работа , добавлен 31.03.2013

    Сущность понятий выборки и выборочного наблюдения, основные виды и категории отбора. Определение объема и численности выборки. Практическое применение статистического анализа выборочного наблюдения. Расчет ошибок выборочной доли и выборочной средней.

    курсовая работа , добавлен 17.02.2015

    Понятие о выборочном наблюдении. Ошибки репрезентативности, измерение ошибки выборки. Определение необходимой численности выборки. Применение выборочного метода вместо сплошного. Дисперсия в генеральной совокупности и сопоставление показателей.

    контрольная работа , добавлен 23.07.2009

    Виды отбора и ошибки наблюдения. Способы отбора единиц в выборочную совокупность. Характеристика коммерческой деятельности предприятия. Выборочное обследование потребителей продукции. Распространение характеристик выборки на генеральную совокупность.

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Процедура составления плана выборки включает последовательное решение трех следующих задач:

Определение объекта исследования;

Определение структуры выборки;

Определение объема выборки.

Как правило, объект маркетингового исследования представляет собой совокупность объектов наблюдения, в качестве которых могут выступать потребители, сотрудники компании, посредники и т.д. Если эта совокупность настолько малочисленна, что исследовательская группа располагает необходимыми трудовыми, финансовыми и временными возможностями для установления контакта с каждым из ее элементов, то вполне реально проведение сплошного исследования всей совокупности. В этом случае, определив объект исследования, можно приступать к следующей процедуре (выбору метода сбора данных, орудия исследования и способа связи с аудиторией).

Однако на практике очень часто не представляется возможным или целесообразным проведение сплошного исследования всей совокупности. Для этого могут быть следующие причины:

Невозможность установления контакта с некоторыми элементами совокупности;

Неоправданно большие расходы на проведение сплошного исследования или наличие финансовых ограничений, не позволяющих проведение сплошного исследования;

Сжатые сроки, отведенные для исследования, обусловленные утратой со временем актуальности информации или другими причинами и не позволяющие осуществить сбор, систематизацию и анализ обширных данных для всей совокупности.

Поэтому большие и разбросанные совокупности часто изучаются с помощью выборки, под которой, как известно, понимается часть совокупности, призванная олицетворять совокупность в целом.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки .

Различают два подхода к структуре выборки - вероятностный и детерминированный.

Вероятностный подход к структуре выборки предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Существуют различные виды выборок, основанных на теории вероятностей (типическая, гнездовая и др.). Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования.

Вероятностная выборка более точна, позволяет исследователю оценить степень достоверности собранных им данных, хотя она сложней и дороже, чем детерминированная.

Детерминированный подход к структуре выборки предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах.

на соображениях удобства , состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода обусловлено, возможно, низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

Однако, с другой стороны, простота, экономичность и оперативность исследования, проводимого этим методом, снискали ему довольно широкое распространение на практике и, прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем.

Метод формирования выборки, основанный на решении исследователя , состоит в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, чем предыдущий, поскольку в его основе лежит ориентировка на характерных представителей исследуемой совокупности, хотя и подбираемых на основе субъективных представлений исследователей о ней.

Метод формирования выборки, основанный на контингентных нормах , состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены путем проведения предварительных исследований и в отличие от предыдущего метода не носят субъективного характера. Поэтому данный метод является более совершенным, он позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

Выбрав структуру выборки (подход к ее формированию, вид вероятностной или метая формирования детерминированной выборки), исследователю предстоит определить объем, т.е. количество элементов выборочной совокупности.

Объем выборки определяет достоверность информации , полученной в результате ее исследования, а также необходимые для проведения исследования затраты. Объем выборки зависит от уровня однородности или разновидности изучаемых объектов.

Чем больше объем выборки, тем выше ее точность и больше затраты на проведения ее обследования. При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул, на основе заданных требований к ее точности.

На практике используется несколько подходов к определению объема выборки:

1. Произвольный подход основан на применении «правила большого пальца». Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.

Объем выборки может быть установлен исходя из неких заранее оговоренных условий. К примеру, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой.

Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы

2. Объем выборки от уровня доверительного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью итоговых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случайные ошибки, связанные с природой любых статистических погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки (табл. 4.2).

Таблица 4.2

Расчетная таблица выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расчетам того же автора, можно указать величины фактической ошибки выборки в зависимости от ее объема, что для нас весьма важно, памятуя, что величина допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентному уровню.

Таблица 4.3

Расчетная таблица

Объем выборки, если генеральная совокупность  5000

Фактическая ошибка при данном объёме выборки, %

Наряду со случайными возможны ошибки систематического характера. Они зависят от организации выборочного обследования. Это разнообразные смещения выборки в сторону одного из полюсов выборочного параметра.

3. Объем выборки на основе статистического анализа . Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.

Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете достоверных интервалов. Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения (рис. 4.1). При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов – о высокой вариации (широкая кривая распределения).

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос.

Малая вариация

Высокая вариация

Рис. 4.1. Вариация и кривые распределения

Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в узком осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.

Доверительный интервал – это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Доверительный интервал тесно связан со средним квадратическим отклонением изучаемого признака в генеральной совокупности: чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав определенный процент ответов.

Доверительный интервал, равный или 95 %, или 99 %, является стандартным при проведении маркетинговых исследований. Ни одна фирма не проводит маркетинговых исследований, формируя несколько выборок. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки; z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности; p – найденная вариация для выборки; g – (100-р); е – допустимая ошибка.

При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50 %, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.

Возможно определение объема выборки на основе использования средних значений, а не процентных величин.

где s – среднее квадратическое отклонение.

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

где .

Выше шел разговор о совокупностях очень больших размеров. Однако в ряде случаев совокупности не являются большими. Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам. Если объем выборки превышает 5 % от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент.

Объем выборки в данном случае определяется следующим образом:

,

где n - объем выборки для малой совокупности; n 0 – объем выборки, рассчитанный по приведенным выше формулам; N – объем генеральной совокупности.

Очевидно, что использование выборки меньших размеров приведет к экономии времени и средств.

Приведенные формулы расчета объема выборки основаны на предположении, что все правила формирования выборки были соблюдены и единственной ошибкой выборки является ошибка, обусловленная ее объемом. Однако, следует помнить, что объем выборки определяет точность полученных результатов, но не их представительность.

Последняя определяется методом формирования выборки. Все формулы для расчета объема выборки предполагают, что репрезентативность гарантируется использованием корректных вероятностных процедур формирования выборки.

Объем, выборки определяется аналитическими, задачами исследования, а ее репрезентативность - целевой установкой программы. Именно программа задает образ необходимой генеральной совокупности для проведения выборки. Будет ли это все население или особые его структурные образования, все элементы изучаемого объекта или только выделяемые по заданным программой критериям, генеральную совокупность составляют все единицы, определенного в программе объекта.

При детерминированном подхода к структуре выборки в общем случае не представляется возможным расчетным путем точно определить ее объем в соответствии с заданным критерием достоверности полученной информации. В этом случае объем выборки может быть определен эмпирически. Ориентиром здесь может служить опыт проведения маркетинговых исследований за рубежом. Так, при обследовании покупателей высокая точность выборки обеспечивается, даже если ее объем не превышает 1% всей совокупности при проведении опросов покупателей средних и крупных розничных фирм, количество опрашиваемых (объем выборки), как правило, колеблется от 500 до 1000 человек.

Значение процедуры выбора метода сбора первичной информации, и орудия исследования состоит в том, что результаты этого выбора определяют как достоверность и точность подлежащей сбору информации, так и продолжительность, и дороговизну ее сбора.

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

Часто бывает так, что необходимо проанализировать какое-либо конкретное социальное явление и получить информацию о нем. Такие задания часто возникают в статистике и при статистических исследованиях. Проверить полностью определенное социальное явление чаще всего бывает невозможным. Например, как узнать мнение населения или всех жителей определенного города по какому-либо вопросу? Спрашивать абсолютно всех – дело практически невозможное и очень трудоемкое. В таких случаях нам и необходима выборка. Это именно то понятие, на котором основаны практически все исследования и анализы.

Что такое выборка

При анализе конкретного социального явления необходимо получить информацию о нем. Если взять любое исследование, то можно заметить, что исследованию и анализу подлежит не каждая единица совокупности объекта исследования. Во внимание берется только определенная часть всей этой совокупности. Вот этот процесс и является выборкой: когда исследуются только определенные единицы из множества.

Конечно же, многое зависит от вида выборки. Но есть и основные правила. Главное из них гласит, что отбор из совокупности должен быть абсолютно случайным. Единицы совокупности, которые будут использованы, не должны быть выбраны из-за какого-либо критерия. Грубо говоря, если необходимо набрать совокупность из населения определенного города и отобрать только мужчин, то в исследовании будет ошибка, потому что отбор был проведен не случайно, а отобран по гендерному признаку. Практически все методы выборки основаны на этом правиле.

Правила выборки

Для того чтобы отобранная совокупность отражала основные качества всего явления, она должна быть построена по конкретным законам, где основное внимание необходимо уделять следующим категориям:

  • выборка (выборочная совокупность);
  • генеральная совокупность;
  • репрезентативность;
  • ошибка репрезентативности;
  • единица совокупности;
  • способы построения выборки.

Особенности выборочного наблюдения и составления выборки заключаются в следующем:

  1. Все полученные результаты основаны на математических законах и правилах, то есть при правильном проведении исследования и при правильных расчетах результаты не будут искажены по субъективному признаку
  2. Дает возможность значительно быстрее и с меньшими затратами времени и ресурсов получить результат, изучая не весь массив событий, а только их часть.
  3. Может быть применено для изучения различных объектов: от конкретных вопросов, например, возраст, пол интересующей нас группы, к изучению общественного мнения или уровня материального обеспечения населения.

Выборочное наблюдение

Выборочное - это такое статистическое наблюдение, при котором исследованию подвергается не вся совокупность изучаемого, а лишь некоторая, отобранная определенным образом ее часть, а полученные результаты изучения этой части распространяются на всю совокупность. Эта часть называется выборочной совокупностью. Это единственный способ изучения большого массива объекта исследования.

Но выборочное наблюдение может использоваться только в тех случаях, когда необходимо исследовать лишь малую группу единиц. Например, при исследовании соотношения мужчин к женщинам в мире, будет использоваться выборочное наблюдение. По понятным причинам – взять во внимание каждого жителя нашей планеты невозможно.

А вот при таком же исследовании, но не всех жителей земли, а определенного 2 «А» класса в конкретной школе, определенного города, определенной страны, может обойтись без выборочного наблюдения. Ведь проанализировать весь массив объекта исследования – вполне возможно. Необходимо посчитать мальчиков и девочек этого класса - вот и будет соотношение.


Выборочная и генеральная совокупность

На самом деле все не так сложно, как звучит. В любом объекте изучения есть две системы: генеральная и выборочная совокупность. Что же это такое? Все единицы относятся к генеральной. А к выборочной – те единицы общей совокупности, которые были взяты для выборки. Если все правильно сделано, то отобранная часть будет составлять уменьшенный макет всей (генеральной) совокупности.

Если говорить о генеральной совокупности, то можно выделить всего две ее разновидности: определенная и неопределенная генеральная совокупность. Зависит от того, известно ли общее количество единиц данной системы или нет. Если это определенная генеральная совокупность, то выборку будет делать легче из-за того, что известно, какой процент от общего количества единиц будет составлять выборка.

Этот момент очень необходим в исследованиях. Например, если необходимо исследовать процент недоброкачественной продукции кондитерских изделий на конкретном заводе. Допустим, что генеральная совокупность уже определена. Точно известно, что в год это предприятие производит 1000 кондитерских изделий. Если сделать выборку 100 случайных кондитерских изделий из этой тысячи и отправить их на экспертизу, то погрешность будет минимальной. Грубо говоря, исследованию подлежало 10 % всей продукции, и по результатам можем, приняв во внимание ошибку репрезентативности, говорить о недоброкачественности всей продукции.

А если провести выборку 100 кондитерских изделий из неопределенной генеральной совокупности, где их на самом деле было, допустим, 1 млн единиц, то результат выборки и самого исследования будет критически неправдоподобным и неточным. Чувствуете разницу? Поэтому определенность генеральной совокупности в большинстве случаев крайне важна и очень сильно влияет на результат исследования.


Репрезентативность совокупности

Итак, теперь один из самых главных вопросов - какой должна быть выборка? Это самый главный момент исследования. На этом этапе необходимо рассчитать выборку и отобрать единицы из общего числа в нее. Совокупность была отобрана правильно, если определенные особенности и характеристики генеральной совокупности остается и в выборочной. Это называется репрезентативностью.

Иными словами, если после отбора часть сохраняет те же самые тенденции и особенности что и все количество исследуемого, то такая совокупность называется репрезентативной. Но не каждая определенная выборка может быть отобрана из репрезентативной совокупности. Бывают и такие объекты исследования, выборка которых просто не может быть репрезентативной. Отсюда и возникает понятие ошибки репрезентативности. Но об этом поговорим подробнее чуть больше.

Как сделать выборку

Итак, чтобы репрезентативность была максимальной, выделяют три основные правила выборки:

  1. Самым уникальным показателем числа выборки считается 20 %. Статистическая выборка в 20 % будет практически всегда давать результат максимально приближенный к действительности. В то же самое время нет необходимости переносить в собранную большую часть генеральной совокупности. 20 % выборки – это тот показатель, который выработан многими исследованиями. Приведем еще немного теории. Чем больше выборка, тем меньше ошибка репрезентативности и точнее результат исследования. Чем ближе будет выборочная совокупность к генеральной по количеству единиц, тем более точными и правильными будут результаты. Ведь если исследовать всю систему, тогда результат будет 100 %. Но здесь уже нет выборки. Это те исследования, в которых исследуется весь массив, все единицы, поэтому это нас не интересует.
  2. В случае нецелесообразности обработки 20 % генеральной совокупности допускается изучение единиц совокупности в количестве не менее 1001. Это также один из показателей исследования массива объекта исследования, который выработался со временем. Конечно же, он не даст точных результатов при больших массивах исследования, но максимально приблизит к возможной точности выборки.
  3. В статистике существует множество формул и сведенных таблиц. В зависимости от объекта исследования и от критерия выборки, существует целесообразность выбора той или иной формулы. Но этот пункт используется в сложных и многоэтапных исследованиях.

Погрешность (ошибка) репрезентативности

Главной характеристикой качества выбранной выборки является понятие «погрешности репрезентативности». Что же это такое? Это определенные расхождения между показателями выборочного и сплошного наблюдения. По показателям погрешности репрезентативность делят на надежную, обычную и приближенную. Иначе говоря, допустимыми являются отклонения в размере до 3 %, от 3 до 10 % и от 10 до 20 % соответственно. Хотя в статистике желательно, чтобы погрешность не превышал 5-6 %. В противном случае есть повод говорить о недостаточной репрезентативности выборки. Для вычисления погрешности репрезентативности и того, как она влияет на выборочную или генеральную совокупность, во внимание берутся многие факторы:

  1. Вероятность, с которой необходимо получить точный результат.
  2. Количества единиц выборочной совокупности. Как уже упоминалось ранее, чем меньше единиц составит выборка, тем больше будет ошибка репрезентативности, и наоборот.
  3. Однородность исследуемой совокупности. Чем более разнородной является совокупность, тем больше будет погрешность репрезентативности. Возможность совокупности быть репрезентативной зависит от однородности всех ее составляющих единиц.
  4. Способ отбора единиц в выборочную совокупность.

В конкретно заданных исследованиях процент погрешности среднего значения обычно задается самим исследователем на основании программы наблюдения и согласно данным ранее проведенных исследований. Как правило, считается допустимой предельная ошибка выборки (ошибка репрезентативности) в пределах 3-5 %.


Больше – не всегда лучше

Также стоит помнить, что главное при организации выборочного наблюдения - это доведение его объема до допустимого минимума. При этом не следует стремиться к чрезмерному уменьшению границ погрешности выборки, так как это может привести к неоправданному увеличению объема данных выборки и, следовательно, к повышению расходов на проведение выборочного наблюдения.

В то же время нельзя и чрезмерно увеличивать размер погрешности репрезентативности. Ведь в этом случае, хотя и произойдет уменьшение объема выборочной совокупности, это приведет к ухудшению достоверности полученных результатов.

Какие вопросы обычно ставится перед исследователем

Любое исследование если и проводится, то для какой-то цели и для получения каких-то результатов. При проведении выборочного исследования, как правило, ставятся начальные вопросы:

  1. Определение необходимого количества единиц выборочной совокупности, то есть то, сколько единиц будет исследоваться. К тому же, для точного исследования совокупность должна быть репрезентативной.
  2. Расчет погрешности репрезентативности с установленным уровнем вероятности. Сразу стоит отметить, что выборочных исследований не бывает с уровнем вероятности 100 %. Если та инстанция, которая проводила изучение определенного сегмента, утверждает, что их результаты точны с вероятностью 100 %, то это ложь. Многолетняя практика уже установила процент вероятности правильно проведенного выборочного исследования. Этот показатель равняется 95,4 %.

Способы отбора единиц исследования в выборку

Не каждая выборка является репрезентативной. Иногда один и тот же признак по-разному выражен в целом и в ее части. Для достижения требований репрезентативности целесообразным является использование различных приемов создания выборки. Причем использование того или иного способа зависит от конкретных обстоятельств. Среди таких приемов создания выборки выделяют:

  • случайный отбор;
  • механический отбор;
  • типичный отбор;
  • серийный (гнездовой) отбор.

Случайный отбор представляет собой систему мероприятий, направленных на случайный отбор единиц совокупности, когда вероятность попасть в выборку является равной для всех единиц генеральной совокупности. Этот прием целесообразно применять только в случае однородности и небольшого количества присущих ей признаков. В противном случае некоторые характерные черты рискуют быть не отраженным в выборке. Признаки случайного отбора лежат в основе всех других способов построения выборки.

При механическом отбор единиц проводится через определенный интервал. Если необходимо сформировать выборку конкретных преступлений, можно изымать из всех карточек статистического учета зарегистрированных преступлений каждую 5-ю, 10-ю или 15-ю карточку в зависимости от их общего количества и имеющихся размеров выборки. Недостатком этого способа является то, что перед отбором необходимо иметь полный учет единиц совокупности, затем нужно провести ранжирование и только после этого можно проводить выборку с определенным интервалом. Этот метод занимает много времени, поэтому он и не часто используется.


Типичный (районированный) отбор – вид выборки, при котором генеральную совокупность разделяют на однородные группы по определенному признаку. Иногда исследователи употребляют вместо «групп» другие термины: «районы» и «зоны». Затем из каждой группы в случайном порядке отбирается определенное количество единиц пропорционально удельному весу группы в общей совокупности. Типичный отбор часто осуществляется в несколько этапов.

Серийный отбор - это такой метод, при котором отбор единиц проводится группами (сериями) и обследованию подлежат все единицы отобранной группы (серии). Преимуществом этого способа является то, что иногда отобрать отдельные единицы сложнее, чем серии, например, при изучении личности, которая отбывает наказание. В рамках отобранных районов, зон применяется изучение всех единиц без исключения, например, изучение всех лиц, отбывающих наказание в каком-то определенном учреждении.