logo
Учебн

6. Статистические и вероятностные методы исследований

    1. Статистическая совокупность

Явления жизни, как и вообще все явления материального мира, имеют две неразрывно связанные стороны: качественную, воспринимаемую непосредственно органами чувств, и количественную, выражаемую числами при помощи счета и меры.

При исследовании различных явлений природы применяют одновременно и качественные и количественные показатели. Несомненно, что только в единстве качественной и количественной сторон наиболее полно раскрывается сущность изучаемых явлений. Однако в действительности приходится пользоваться либо теми, либо другими показателями.

Несомненно, что количественные методы как более объективные и точные имеют преимущество перед качественной характеристикой предметов.

Сами по себе результаты измерений, хотя и имеют известное значение, еще недостаточны для того, чтобы сделать из них необходимые выводы. Цифровые данные, собранные в процессе массовых испытаний – это всего лишь сырой фактический материал, который нуждается в соответствующей математической обработке. Без обработки – упорядочения и систематизации цифровых данных не удается извлечь заключенную в них информацию, оценить надежность отдельных суммарных показателей, убедиться в достоверности наблюдаемых между ними различий. Эта работа требует от специалистов определенных знаний, умения правильно обобщать и анализировать собранные в опыте данные. Система этих знаний и составляет содержание статистики – науки, занимающейся главным образом вопросами анализа результатов исследований в теоретической и прикладной областях науки.

Следует иметь ввиду, что математическая статистика и теория вероятностей являются науками сугубо теоретическими, абстрактными; они изучают статистические совокупности безотносительно к специфике входящих в их состав элементов. Методы математической статистики и лежащей в ее основе теории вероятностей приложимы к самым различным областям знания, включая и гуманитарные науки.

Изучение явлений проводятся не по отдельным наблюдениям, которые могут оказаться случайными, нетипичными, неполно выражающими сущность данного явления, а на множестве однородных наблюдений, что дает более полную информацию об изучаемом объекте. Некоторое множество относительно однородных предметов, объединяемых по тому или иному признаку для совместного изучения, называют статистической

совокупностью. Совокупность объединяет какое-то число однородных наблюдений или регистраций.

Элементы, входящие в состав совокупности, называются ее членами, или вариантами. Варианты – это отдельные наблюдения или числовые значения признака. Так, если обозначить признак через Х (большое), то его значения или варианты будут обозначаться через х (малое), т.е. х1, х2, и т.д.

Общее число вариантов, входящих в состав данной совокупности называется ее объемом и обозначается буквой n (малое).

Когда обследованию подвергается вся совокупность однородных объектов в целом, ее называют общей, генеральной, совокупностью Примером такого рода сплошного описания совокупности могут служить общегосударственные переписи населения, поголовный статистический учет животных в стране. Разумеется, полное обследование генеральной совокупности дает наиболее полноценную информацию о ее состоянии и свойствах. Поэтому естественно стремление исследователей к тому, чтобы в в совокупность объединялось как можно большее число наблюдений.

Однако в действительности редко приходится прибегать к обследованию всех членов генеральной совокупности. Во-первых, потому, что эта работа требует большой затраты времени и труда, а во-вторых, она не всегда осуществима по целому ряду причин и различных обстоятельств. Так что вместо сплошного обследования генеральной совокупности изучению подвергается обычно какая-то ее часть, получившая название выборочной совокупности, или выборки. Она представляет собой тот образец, по которому судят о всей генеральной совокупности в целом. Например, чтобы узнать средний рост призывного населения некоторой области или района, вовсе не обязательно измерять всех призывников, проживающих в данной местности, а достаточно измерить какую-то часть их.

1. Выборка должна быть вполне представительной, или типичной, т.е. чтобы в ее состав входили преимущественно те варианты, которые наиболее полно отражают генеральную совокупность. Поэтому, чтобы приступить к обработке выборочных данных, их внимательно просматривают и удаляют явно нетипичные варианты. Например, при анализе стоимости продукции, выпускаемой предприятием, должна быть исключена стоимость в те периоды, когда предприятие не было в полной мере обеспечено комплектующими или сырьем.

2. Выборка должна быть объективной. При образовании выборки нельзя поступать по произволу, включать в ее состав только те варианты, которые кажутся типичными, а все остальные браковать. Доброкачественная выборка производится без предвзятых мнений, по методу жеребьевки или лотерии, когда ни один из вариантов генеральной совокупности не имеет никаких преимуществ перед остальными – попасть или не попасть в состав выборочной совокупности. Иными словами, выборка должна производиться по принципу случайного отбора, без влияний на ее состав.

3. Выборка должна быть качественно однородной. Нельзя включать в состав одной и той же выборки данные, полученные в разных условиях, например, стоимость изделий, полученных при разной численности работников.

6.2. Группировка результатов наблюдений

Обычно результаты опытов и наблюдений заносятся в виде цифр в учетные карточки или журнал, а иногда просто на листы бумаги – получается ведомость или реестр. Такие первоначальные документы, как правило содержат сведения не об одном, а о нескольких признаках, по которым проводились наблюдения. Эти документы служат основным источником образования выборочной совокупности. Делается это обычно так: на отдельный лист бумаги из первичного документа, т.е. картотеки, журнала или ведомости, выписываются числовые значения того признака, по которому образуется совокупность. Варианты в такой совокупности представлены обычно в виде беспорядочной массы цифр. Поэтому первым шагом на пути обработки такого материала является упорядочение, систематизация его – группировка вариант в статистические таблицы или ряды.

Одной из наиболее распространенных форм группировок выборочных данных служат статистические таблицы. Они имеют иллюстративное значение, показывая какие-то общие итоги, положение отдельных элементов в общей серии наблюдений.

К другой форме первичной группировки выборочных данных относится способ ранжирования, т.е. расположение вариант в определенном порядке – по возрастающими или убывающим значениям признака. В результате получается так называемый ранжированный ряд, который показывает в каких пределах и каким образом варьирует данный признак. Например, имеется выборка следующего состава:

5,2,1,5,7,9,3,5,4,10,4,5,7,3,5, 9,4,12,7,7

. Видно, что признак изменяется от 1 до 12 каких-то единиц. Располагаем варианты в возрастающем порядке:

1,2,3,3,4,4,4,5,5,5,5,7,7,7,7,9,9,10,12.,

В результате получился ранжированный ряд значений варьирующего признака.

Совершенно очевидно, что способ ранжирования в том виде, как он здесь показан, применим лишь к выборкам малого объема. При большом числе наблюдений ранжирование затрудняется, т.к. ряд получается настолько длинным, что теряет свое значение.

При большом числе наблюдений ранжировать выборочную совокупность принято в виде двойного ряда, т.е. с указанием частоты или повторяемости отдельных вариант ранжированного ряда. Такой двойной ряд ранжированных значений признака называется вариационным рядом или рядом распределения. Простейшим примером вариационного ряда могут служить ранжированные выше данные, если их расположить следующим образом:

Значения признака

(варианты) 1 2 3 4 5 7 9 10 12

повторяемость

(вариант) частоты 1 1 2 3 5 4 2 1 1

Вариационный ряд показывает, с какой частотой отдельные варианты встречаются в данной совокупности, как они распределяются, что имеет большое значение, позволяя судить о закономерности варьирования и диапазоне вариации количественных признаков. Построение вариационных рядов облегчает вычисление суммарных показателей – средней арифметической и дисперсии или рассеивания вариант около их среднего значения – показателей, которыми характеризуется любая статистическая совокупность.

Вариационные ряды бывают двух видов: прерывистые и непрерывные. Прерывистый вариационный ряд получается при распределении дискретных величин, к которым относятся счетные признаки. Если же признак варьирует непрерывно, т.е. может принимать любые значения в пределах от минимальной до максимальной вариант совокупности, то последняя распределяется в непрерывный вариационный ряд.

Для построения вариационного ряда дискретно варьирующего признака достаточно всю совокупность наблюдений расположить в виде ранжированного ряда, указав частоты отдельных вариантов. В качестве примера приводим данные, показывающие распределение по размеру 267 деталей (табл.5.4)

Таблица 6.1. Распределение деталей по размеру.

Варианты х (размер деталей, мм)

111

112

113

114

115

116

117

118

119

Частота у (число деталей, шт)

3

9

31

71

82

46

19

5

1

Чтобы построить вариационный ряд непрерывно варьирующих признаков, нужно всю вариацию от минимального до максимального варианта разбить на отдельные группы или промежутки (от-до), называемые классами, а затем распределить все варианты совокупности по этим классам. В результате получится двойной вариационный ряд, в котором частоты относятся уже не к отдельным конкретным вариантам, а ко всему интервалу, т.е. оказываются частотами не вариант, а классов.

Разбивка общей вариации на классы производится в масштабе классового интервала, который должен быть одинаковым для всех классов вариационного ряда. Величина классового интервала обозначается через i (от слова intervalum – промежуток, расстояние); она определяется по следующей формуле

, (6.1)

где: i – классовый интервал, который берется целым числом;

- максимальная и минимальная варианты выборки;

lg.n – логарифм числа классов, на которые разбивается выборочная совокупность.

Число классов устанавливается произвольно, но с учетом того обстоятельства, что число классов находится в некоторой зависимости от объема выборки: чем больший объем имеет выборочная совокупность, тем больше должно быть классов, и наоборот – при меньших объемах выборки следует брать и меньшее число классов. Опыт показал, что и на малых выборках, когда приходится группировать варианты в виде вариационного ряда, не следует устанавливать меньше 5-6 классов. При наличии же 100-150 вариант число классов можно довести до 12-15. Если же совокупность состоит из 200-300 вариант, то ее разбивают на 15-18 классов и т.д. Разумеется, эти рекомендации весьма условны и их нельзя принимать как установленное правило.

При разбивке на классы в каждом конкретном случаев приходится считаться с целым рядом различных обстоятельств, добиваясь того, чтобы обработка статистического материала давала наиболее точные результаты.

После того, как установлен классовый интервал и выборочная совокупность разбита на классы, производится разноска вариант по классам и определяются число вариаций (частоты) каждого класса. В результате получается вариационный ряд, в котором частоты относятся не к отдельным вариантам, а к определенным классам. Сумма всех частот вариационного ряда должна равняться объему выборки, то есть

(6.2)

где: -знак суммирования;

р – частота.

n – объем выборки.

Если такого равенства не оказалось, значит при разноске вариант по классам допущена ошибка, которую необходимо устранить.

Обычно для разноски вариант по классам составляется вспомогательная таблица, в которой имеются четыре графы: 1) классы по данному признаку ( от – до); 2) – среднее значение классов, 3) разноски вариант по классам, 4) частоты классов (см. табл. 6.2.)

Разноска вариант по классам требует большого внимания. Нельзя допускать, чтобы одна и та же варианта была отмечена дважды или одинаковые варианты попадали в разные классы. Чтобы избежать ошибок при распределении вариант по классам, рекомендуется не искать одинаковые варианты и в совокупности, а разносить их по классам, что не одно и то же. Игнорирование этого правила, что бывает в работе неопытных исследователей, отнимает много времени при разноске вариант, а главное, приводит к ошибкам.

Таблица 6.2. Разноска вариант по классам

Границы классов

Средние значения классов (х)

Частоты классов (р), %

абсолютные

относительные

8-10

9

4

1

10-12

11

8

2

12-14

13

12

3

14-16

15

28

7

16-18

17

40

10

18-20

19

64

16

20-22

21

64

16

22-24

23

68

17

24-26

25

48

12

26-28

27

28

7

28-30

29

20

5

30-32

31

12

3

32-34

33

4

1

ИТОГО

400

100



.Закончив разноску вариант и подсчитав их число для каждого класса, получаем непрерывный вариационный ряд. Его надо превратить в прерывистый вариационный ряд. Для этого, как уже отмечалось, берем полусуммы крайних значений классов. Так, например, срединное значение первого класса, равное 8,8 получено следующим образом:

(8,6+9,0):2=8,8.

Второе значение (9,3) этой графы вычислено аналогичным способом:

(9,01+9,59):2=9,3 и т.д.

В результате получается прерывистый вариационный ряд, показывающий распределение по изучаемому признаку (табл.6.3.)

Таблица 6.3. Вариационный ряд

Среднее значение клас сов (х)

8

9,3

9,8

10,3

10,8

11,3

11,8

Частоты классов

1

2

3

7

10

16

16

Группировка выборочных данных в виде вариационного ряда имеет двоякое назначение: во-первых, как вспомогательная операция она необходима при вычислении суммарных показателей, а во-вторых, ряды распределения показывают закономерность варьирования признаков, что очень важно. Чтобы выразить эту закономерность более наглядно, принято изображать вариационные ряды графически в виде гистрограммы (рис.6.1.)

Рис.6.1.Распределение предприятий по числу работников

Гистограмма изображает распределение вариант при непрерывном варьировании признака. Прямоугольники соответствуют классам, а их высота – количеству вариант, заключенных в каждом классе. Если из срединных точек вершин прямоугольников гистограммы опустить перпендикуляры на ось абцисс, а затем эти точки соединить между собой, получится график непрерывного варьирования, называемый полигоном или плотностью распределения.