logo
Мат_моделир_2015_заоч_ЭП_ФИН / Мат_мод_лекции

3.2. Проверка данных статистического наблюдения на наличие выбросов

Точность и достоверность исходного статистического материала – важнейшая задача статистического наблюдения. Даже при хорошей организации наблюдений или проведения эксперимента по тем или иным причинам могут оказаться неточности, погрешности, называемые ошибками регистрации. Ошибки регистрации могут быть преднамеренными и непреднамеренными. Непреднамеренные ошибки бывают случайными и систематическими.

Непреднамеренные случайные ошибки регистрации представляют собой описки или арифметические ошибки в расчетах. Эти ошибки выявляются при арифметическом или логическом контроле данных. Логический контроль состоит в сопоставлении показателей различных признаков. Например, явной непреднамеренной случайной ошибкой является запись в графе «год выпуска» – 2001, а в графе «год ввода в эксплуатацию» – 1998.

Непреднамеренные систематические ошибки регистрации обычно возникают из-за неправильного понимания вопросов документов отчетности. Предотвратить появление таких ошибок можно четкой формулировкой вопросов, их подробным разъяснением в инструкциях по заполнению, инструктажем регистраторов и др.

Преднамеренные ошибки возникают в тех случаях, когда опрашиваемое лицо или регистратор информации, зная фактическое состояние дела, преднамеренно сообщают неверные данные. Например, при сборе информации о результатах финансово-хозяйственной деятельности предприятия руководство иногда умышленно занижают темпы роста валового дохода и завышает темпы роста затрат на производство в сравнении с достигнутыми результатами в прошлом. В этом случае необходимо повторное и неоднократное обсуждение этого вопроса с руководством с целью установления обоснованности исходной информации.

Прежде чем проводить корреляционно-регрессионный анализ данных статистических наблюдений, необходимо проверить выборку на наличие выбросов (слишком большие и слишком малые значения признаков в ряде умеренно различающихся измерений).

Процедура проверки экстремальных значений на предмет их исключения из выборки как выбросов приведена в работе [10].

Пример 3.1. Среди 15-ти значений признака (прибыль банка) встречается отрицательное значение. Проверить предположение, что оно является выбросом.

Так как объем выборки мал , то используемMкритерий, расчетное значение которого определяется по формуле

где соответственно первый, третий и 13-й элементы упорядоченного массива Результаты расчета в ЭТ приведены в таблице 3.1, гдеXupозначает упорядоченный в порядке возрастания массив Х.

Таблица 3.1. Результаты расчета

X

Xup

x1

x3

x13

4,7

-0,8

-0,8

1

6,2

0,9

0,9

Mpac

M

2,1

1

0,257143

0,525

8,6

1,2

2,9

1,4

1,2

2,1

5,7

2,2

1,4

2,7

-0,8

2,9

6,2

4,7

6

5,7

2,7

6

7

6,2

1

7

2,2

8,6

Критическое значение критерия для объема выборки при уровне значимости =0,05 равно 0,525 (таблица 1 [10]). Следовательно, расчетное значение критерия меньше критического и экстремальное значение не является выбросом. При объеме выборки экстремальные значения могут быть проверены по критерию где - выборочное среднее и - стандартное отклонение, определенные для всей выборки; - предполагаемый выброс. Критическое значение критерия определяется по таблице 2 [10].

Если то экстремальное значение не является выбросом. При из многомерной выборки исключается строчка, содержащая это экстремальное значение.

Пример 3.2. Проверим значение 526,6 результативного признака (индекс снижения себестоимости продукции), который приведен в приложении 1 [10].

Выборочное среднее =113,1945; стандартное отклонение =116,937. Расчетное значение критерия равно 3,5353. Критическое значение критерия для объема выборки при уровне значимости =0,05. Следовательно, значение 526,6 является выбросом и из многомерной выборки следует исключить строчку с информацией 39-го предприятия.