Способы группировки первичных данных.
Зафиксированные в документах учета сведения об изучаемом объекте (или объектах) представляют тот фактический материал, который нуждается в соответствующей обработке. Обработка начинается с упорядочения или систематизации собранных данных. Процесс систематизации результатов массовых наблюдений, объединения их в относительно однородные группы по некоторому признаку называется группировкой.
Группировка - это не просто технический прием, позволяющий представить первичные данные в комплексном виде, но и осмысленное действие, направленное на выявление связи между явлениями. Один и тот же материал дает совершенно противоположные выводы при разных приемах группировки. Нельзя группировать в одну и ту же совокупность неоднородные по составу данные, необдуманно выбирать способ группировки. Группировка должна отвечать требованию задачи и соответствовать содержанию изучаемого явления.
Таблицы. Наиболее распространенной формой группировки являются статистические таблицы; они бывают простыми и сложными. К простым относятся, например, четырехпольные таблица, применяемые при альтернативной группировке, когда одна группа переменных противопоставляется другой; например, здоровые - больным, высокие - низким и т.д.
Школьные классы | Детей |
| Всего |
| Здоровых | Больных |
|
Третьи и четвертые | 63 | 92 | 155 |
Пятые и шестые | 71 | 39 | 110 |
Всего | 134 | 131 | 265 |
К сложным относятся многопольные таблицы, применяемые при изучении корреляционной зависимости и при выяснении причинно-следственных отношений между варьирующими признаками. Примером корреляционной таблицы служат данные, показывающие наличие положительной зависимости между ростом родителей и ростом их детей.
В качестве примера группировки, применяемых при выяснении причинно-следственных отношений между признаками, можно привести следующую зависимость:
Биотопы | 1993 | 1994 | 1995 | Среднее |
лес | 10 | 15 | 12 | 12 |
поле | 100 | 200 | 150 | 150 |
дом | 35 | 35 | 35 | 35 |
Из примеров видно, что статистические таблицы имеют не только иллюстративное, но и аналитическое значение, позволяющее обнаруживать связи между варьирующими признаками.
Статистические ряды. Особую форму группировки представляют так называемые статистические ряды. Статистическим называется ряд числовых значений признака расположенных в определенном порядке. В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики и регрессии, а также ряды ранжированнных значений признаков и ряды накопленных частот, являющихся производными вариационных рядов. Примером атрибутивного ряда могут служить данные, показывающие зависимость между содержанием гемоглобина в крови и высотой организации позвоночных животных.
Класс животных | Рыбы | Амфибии | Рептилии | Птицы | Млекопитающие |
Кол-во Hb (г/кг массы) | 1.6 | 2.9 | 3.8 | 11.2 | 11.7 |
Среди группировок видное место занимают вариационные ряды. На их описании следует остановиться более подробно. Ряды регрессии, динамики и другие мы разберем на следующих лекциях.
Вариационным рядом или рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности. Например, из урожая картофеля, собранного на огороде, случайным образом отобрано 10 клубней, в которых подсчитывали число глазков. Результаты подсчета оказались следующие: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11. Чтобы разобраться в этих данных, расположим их в ряд (в порядке регистрации результатов наблюдений) с учетом повторяемости вариант в совокупности.
Варианты (х) | 6 | 9 | 5 | 7 | 10 | 8 | 11 |
Число вариант (f) | 1 | 2 | 1 | 1 | 2 | 2 | 1 |
Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности называются частотами или весами вариант и обозначаются строчной буквой латинского алфавита f. Общая сумма частот вариационного ряда равна объему данной совокупности.
Частоты (веса) выражают не только абсолютными, но и относительными числами - в долях единицы или в процентах от общей численности вариант, составляющих данную совокупность. В таких случаях веса называют относительными частотами или частостями.
Распределение исходных данных в вариационный ряд преследует определенные цели. Одна из них ускорение работы при вычислении по вариационному ряду обобщающих числовых характеристик - средней величины и показателей вариации. Другая сводится к выявлению закономерности варьирования учитываемого признака. Приведенный ряд удовлетворяет первой, но не удовлетворяет достижению второй цели. Чтобы ряд распределения полностью удовлетворял предъявляемым к нему требованиям, его нужно строить по ранжированным значениям признака.
Под ранжированием понимают расположение членов ряда в возрастающем (или убывающем) порядке. Так, в данном случае результаты наблюдений следует расположить так:
Варианты (х) | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
Число вариант (f) | 1 | 1 | 1 | 2 | 2 | 2 | 1 |
В зависимости от того, как варьирует признак - дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда, во втором - подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам (от - до), на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки могут быть равными и не равными по ширине. Отсюда различают равно- и неравноинтервальные вариационные ряды. Примером неравноинтервального ряда могут служить данные показывающие зависимость между числом стай каких-то птиц и количеством особей в стае в гнездовой и послегнездовой период.
В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Поэтому в качестве числовых характеристик таких рядов используют особые показатели.
Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило данные располагаются в равноинтервальные ряды, что позволяет не только выявить закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.
Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьирования и ведет к снижению точности числовых характеристик. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.
Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:
l=(хmax-хmin)/k,
где l - величина классового интервала;
k - число классов, на которые следует разбить вариацию признака.
Число классов можно приблизительно наметить, пользуясь таблицей:
Число наблюдений | Число классов |
25-40 | 5-6 |
40-60 | 6-8 |
60-100 | 7-10 |
100-200 | 8-12 |
>200 | 10-15 |
Более точно величину К можно определить по формуле Стерджеса: К=1+3.32*lg n. При наличии в совокупности большого числа членов (больше 100) можно использовать формулу К=5*lg n.
- Введение
- Раздел I. Введение в теорию вероятностей
- Понятие о случайном событии
- Классическое определение вероятности
- Относительная частота. Статистическое определение вероятности.
- Геометрическая вероятность
- Свойства вероятностей Сложение вероятностей несовместимых событий
- Умножение вероятностей
- Сложение вероятностей совместимых событий
- Формула полной вероятности
- Основные формулы комбинаторики
- Дискретные и непрерывные случайные величины. Понятие «случайные величины»
- Закон распределения случайной величины
- Теоретические распределения вероятностей
- Биномиальное распределение
- Распределение Пуассона
- Числовые характеристики дискретных случайных величин
- Нормальное распределение
- Вопросы для самопроверки:
- Раздел II. Основные понятия и термины биологической статистики Генеральная совокупность и выборка
- Непреднамеренный отбор. Метод последовательных номеров. Случайный и механический методы отбора
- Признаки и показатели
- Правила ранжирования
- Способы группировки первичных данных.
- Схемы (модели) научного исследования
- Однофакторная и многофакторная модель Контрольные и экспериментальные группы
- Метод автоконтроля
- Метод дублирования
- Метод последовательного пополнения групп
- Численность контрольных и экспериментальных групп
- Научные гипотезы
- Направленные гипотезы
- Статистические критерии
- Параметрические критерии
- Непараметрические критерии
- Уровни статистической значимости
- 1 Рода.
- Вопросы для самопроверки
- Раздел III. Статистические методы обработки экспериментальных данных
- Проверка гипотезы о законе распределения
- Χ2 Пирсона
- Описательные статистики Концепция сжатия экспериментальных данных
- Показатели центральной тенденции. Средние.
- Медиана
- Персентили
- Показатели изменчивости
- Стандартизованные данные
- Показатели асимметрии и эксцесса
- Эксцесс
- Работа с качественными переменными Количественная оценка результатов эксперимента.
- Вопросы для самопроверки:
- Сравнение двух независимых групп т критерий Стьюдента
- Критерии согласия для дисперсий
- U критерий Маана-Уитни
- Сравнение качественных признаков Критерий χ2
- Сравнение долей
- Точный тест Фишера
- Сравнение более двух независимых групп Однофакторный дисперсионный анализ Фишера
- Критерий Краскела-Уоллиса
- Сравнение двух зависимых групп Парный т критерий Стьюдента
- Парный критерий т – Вилкоксона
- Критерий x2r Фридмана
- Тест Мак-Немара
- Корреляционный анализ
- Вычисление и интерпретация параметров парной линейной корреляции
- Условия применения и ограничения корреляционно анализа
- Вычисление и интерпретация параметров парной линейной корреляции
- Измерение связи количественных признаков
- Измерение связи порядковых признаков
- Измерение связи номинальных признаков
- Относительный риск. Отношение шансов
- Статистическая оценка надежности параметров парной корреляции
- Частная корреляция
- Факторный анализ
- Вопросы для самопроверки:
- Регрессионный анализ
- Метод наименьших квадратов
- Выбор формы функциональной зависимости
- Применение парного линейного уравнения регрессии
- Корреляционно-регрессионные модели (крм) и их применение в анализе и прогнозе.
- Логистическая регрессия
- Анализ динамических изменений Применение метода наименьших квадратов при исследовании тенденции развития
- Анализ циклических изменений
- Метод обычных средних
- Метод корригирования средних
- Метод отношения фактических данных
- Ошибки, допускаемые при количественной характеристике сезонных колебаний
- Кластерный анализ
- Иерархическое дерево
- Меры расстояния
- Правила объединения или связи
- Метод k средних
- Выбор между параметрическими и непараметрическими тестами: легкая ситуация.
- Выбор между параметрическими и непараметрическими тестами: сложные случаи.
- Выбор между параметрическим и непараметрическим тестом: насколько это на самом деле влияет на результат?
- Одно или двухсторонняя p-оценка?
- Парный или непарный тест?
- Тест Фишера или хи-квадрат?
- Регрессия или корреляция?
- Вопросы для самопроверки:
- Раздел IV. Работа с программой easystatistics Общие сведения о программе EasyStatistics
- Создание новой базы данных
- Работа с файлами
- Копирование и вставка данных
- Работа с фильтрами
- Работа с переменными и строками
- Статистические методы Описательные статистики
- Частотный анализ
- Сравнение независимых выборок
- Сравнение связанных выборок
- Дисперсионный анализ
- Корреляционный анализ
- Множественная регрессия
- Проверка типа распределения эмпирических данных
- Вероятностный калькулятор
- Задания для самостоятельной работы с программой
- Список рекомендуемой литературы
- Граничные (критические) значения 2-критерия, соответствующие разным вероятностям допустимой ошибки и разным степеням свободы
- Критические значения коэффициентов корреляции для различных степеней свободы (n - 2) и разных вероятностей допустимых ошибок