logo search
Математические методы в биологии

Персентили

Персентили - это показатели типа средних по расположению в ряду. Если данные не сгруппированы, они определяются по месту нахождения после того, как все данные будут расположены по восходящей градации по величине изучаемого признака (пятидесятый персентиль известен под именем медианы, в предыдущем примере было показано как он вычисляется). Если данные сгруппированы в равномерно отстоящие друг от друга интервалы, то для получения соответствующих персентилей используется формула:

Pi=LPi+(c/f)*e,

где Lpi - нижняя граница интервала, в котором находится соответствующий персентиль;

с - число случаев, которое требуется прибавить к кумулятивному ряду случаев доперсентильных интервалов, чтобы получить порядковое число персентильного случая;

f - число случаев персентильного интервала;

е - величина персентильного интервала.

В практике обычно пользуются только некоторыми из персентилей: P3, P10, P25, P50, P75, P90, P97. Считается, что если индивидуально наблюдаемый признак находится в границах от Р25 до Р75, то величина его соответствует норме (следовательно, в норму входят 50% всех случаев), если он находится в границах от Р10 до Р25 и от Р75 до Р90, то оценка его соответственно выше или ниже средней (по 15%). Если величина рассматриваемого признака находится в границах от Р3 до Р10 и Р90 до Р97, оценка будет соответственно низкой или высокой (по 7%). В остальных случаях - очень низкая или очень высокая.

Если распределение изучаемого признака отличается от нормального, то при выработке нормативов следует предпочесть метод персентилей.

Имеются следующие данные о истолическом давлении крови у мужчин в возрасте 25-29лет. Необходимо найти персентили P3, P10, P25, P50, P75, P90, P97 и определить интервалы, в границах которых находятся отдельные нормативные группы .

Чтобы выполнить заданную задачу, первоначально находят так называемый начетный ряд (кумулятивные итоги - третий столбец таблицы). Он получается следующим образом, к числу случаев первого интервала прибавляют число случаев второго, к полученному итогу прибавляют число случаев третьего интервала и т.д.

RR в мм. рт. сб.

Число случаев

Куммулятивные суммы

70-90

10

10

90-110

100

110

110-130

400

510

130-150

200

710

150-170

100

810

170-190

70

880

190-210

60

940

210-230

30

970

230-250

20

990

250-270

10

1000

Затем находим номера соответствующих персентилей по формуле:

/100*Pi, где - сумма всех случаев (в нашем примере 1000), Pi - соответствующий персентиль. По этой формуле номер третьего персентиля будет равен 30=(1000/100)*3, десятого персентиля -100, остальных персентилей соответственно 250, 500, 750, 900, 970.

По куммулятивным суммам определяют, в каком интервале находится каждый из требующихся персентилей. Например, персентиль №30 находится во втором интервале 90-100, №100 - в том же интервале, №250 - в интервале 110-130 и т.д. Затем при помощи формулы 1 находят величины искомых персентилей. В нашем случае: Р3=90+(20/100)*20=94 мм;

Р10=90+(90/100)*20=108 мм; Р25=110+(140/400)*20=117 мм;

Р50=110+(390/400)*20=129.5 мм; Р75=150+(40/100)*20=158 мм;

Р90=190+(20/60)*20=186.67 мм;

Р97=210+(30/30)*20=230 мм;

Следовательно, интервалы нормативов будут следующие:

Персентиль

Р3

Р10

Р25

Р50

Р75

Р90

Р97

Давление

94

108

117

130

158

187

230

Очень низкое. Сильно выраженная гипотония

Низкое. Гипото-ния.

Ниже среднего. Слабо выраженная гипотония.

Средние. Нормальные случаи.

Выше среднего. Слабо выраженная гипертония.

Высокие. Гипертония.

Очень высокие. Сильно выраженная гипертония.

Следует учитывать, что вырабатывать нормативы следует на большом количестве случаев (100-200 и более). Только тогда имеет смысл вычислять персентили.

Мода

Мода (Mo) представляет собой наиболее часто встречающееся в распределении численностей значение. Если к данным таблицы распределения численностей подобрать теоретическую кривую распределения, то мода равна абсциссе точки, имеющей максимальную для этой кривой ординату.

Например, в следующей выборке: {2, 3, 5, 1, 4, 5, 6, 5, 2} модой будет являться значение 5 (обозначатся следующим образом: Мо = 5). Если массив содержит 2 моды, то распределение называется бимодальным. Таким примером может служить выборка {3, 3, 5, 1, 4, 5, 6, 5, 3}. Здесь Мо1 = 5, а Мо2 = 3.

Бимодальное или полимодальное распределение могут рассматриваться как признак неоднородности выборки. Например, школьный класс образован в результате механического слияния двух разных классов, и показатели мод интеллекта были изначально различны. После слияния в объединенной выборке профиль интеллекта будет иметь 2 моды.

Существует несколько приближенных способов оценки моды. Один из них состоит в том, что гистограмма тем или иным способом аппроксимируется непрерывной кривой, и затем находится абсцисса, соответствующая максимальной ординате. Она и будет приближенно равна моде.

В симметричных распределениях х, Mo, Md совпадают, в умеренно асимметричных распределениях Md находится между х и Мо на расстоянии от х, равном примерно одной третьей расстояния от х до Мо. На этом и построено приведенное ниже эмпирическое соотношение:

Mo = x-3*(x-Md).