3.2. Проверка данных статистического наблюдения на наличие выбросов
Точность и достоверность исходного статистического материала – важнейшая задача статистического наблюдения. Даже при хорошей организации наблюдений или проведения эксперимента по тем или иным причинам могут оказаться неточности, погрешности, называемые ошибками регистрации. Ошибки регистрации могут быть преднамеренными и непреднамеренными. Непреднамеренные ошибки бывают случайными и систематическими.
Непреднамеренные случайные ошибки регистрации представляют собой описки или арифметические ошибки в расчетах. Эти ошибки выявляются при арифметическом или логическом контроле данных. Логический контроль состоит в сопоставлении показателей различных признаков. Например, явной непреднамеренной случайной ошибкой является запись в графе «год выпуска» – 2001, а в графе «год ввода в эксплуатацию» – 1998.
Непреднамеренные систематические ошибки регистрации обычно возникают из-за неправильного понимания вопросов документов отчетности. Предотвратить появление таких ошибок можно четкой формулировкой вопросов, их подробным разъяснением в инструкциях по заполнению, инструктажем регистраторов и др.
Преднамеренные ошибки возникают в тех случаях, когда опрашиваемое лицо или регистратор информации, зная фактическое состояние дела, преднамеренно сообщают неверные данные. Например, при сборе информации о результатах финансово-хозяйственной деятельности предприятия руководство иногда умышленно занижают темпы роста валового дохода и завышает темпы роста затрат на производство в сравнении с достигнутыми результатами в прошлом. В этом случае необходимо повторное и неоднократное обсуждение этого вопроса с руководством с целью установления обоснованности исходной информации.
Прежде чем проводить корреляционно-регрессионный анализ данных статистических наблюдений, необходимо проверить выборку на наличие выбросов (слишком большие и слишком малые значения признаков в ряде умеренно различающихся измерений).
Процедура проверки экстремальных значений на предмет их исключения из выборки как выбросов приведена в работе [10].
Пример 3.1. Среди 15-ти значений признака (прибыль банка) встречается отрицательное значение. Проверить предположение, что оно является выбросом.
Так как объем выборки мал , то используемMкритерий, расчетное значение которого определяется по формуле
где соответственно первый, третий и 13-й элементы упорядоченного массива Результаты расчета в ЭТ приведены в таблице 3.1, гдеXupозначает упорядоченный в порядке возрастания массив Х.
Таблица 3.1. Результаты расчета
X | Xup | x1 | x3 | x13 |
4,7 | -0,8 | -0,8 | 1 | 6,2 |
0,9 | 0,9 | Mpac | M |
|
2,1 | 1 | 0,257143 | 0,525 |
|
8,6 | 1,2 |
|
|
|
2,9 | 1,4 |
|
|
|
1,2 | 2,1 |
|
|
|
5,7 | 2,2 |
|
|
|
1,4 | 2,7 |
|
|
|
-0,8 | 2,9 |
|
|
|
6,2 | 4,7 |
|
|
|
6 | 5,7 |
|
|
|
2,7 | 6 |
|
|
|
7 | 6,2 |
|
|
|
1 | 7 |
|
|
|
2,2 | 8,6 |
|
|
|
Критическое значение критерия для объема выборки при уровне значимости =0,05 равно 0,525 (таблица 1 [10]). Следовательно, расчетное значение критерия меньше критического и экстремальное значение не является выбросом. При объеме выборки экстремальные значения могут быть проверены по критерию где - выборочное среднее и - стандартное отклонение, определенные для всей выборки; - предполагаемый выброс. Критическое значение критерия определяется по таблице 2 [10].
Если то экстремальное значение не является выбросом. При из многомерной выборки исключается строчка, содержащая это экстремальное значение.
Пример 3.2. Проверим значение 526,6 результативного признака (индекс снижения себестоимости продукции), который приведен в приложении 1 [10].
Выборочное среднее =113,1945; стандартное отклонение =116,937. Расчетное значение критерия равно 3,5353. Критическое значение критерия для объема выборки при уровне значимости =0,05. Следовательно, значение 526,6 является выбросом и из многомерной выборки следует исключить строчку с информацией 39-го предприятия.
- Министерство образования и науки украины
- Третий модуль Тема 3. Корреляционно-регрессионный анализ данных наблюдений
- Последовательность проведения корреляционно-регрессионного анализа
- Введение в тему
- Последовательность проведения корреляционно-регрессионного анализа
- 3.2. Проверка данных статистического наблюдения на наличие выбросов
- 3.3. Общие сведения из корреляционно-регрессионного анализа
- 3.4. Форма корреляционной связи
- 3.5. Теснота корреляционной связи
- Проверка на тесноту связи
- 3.6. Сила корреляционной связи
- 3.7. Методикаполученияуравнений линейной регрессии в случае малых выборок Последовательность проведения регрессионного анализа
- Технологияопределения в среде эт коэффициентовлинейнойрегрессии в случае малых выборок
- Прогнозирование на основе полученной модели регрессии
- 3.8. Понятие о многомерном корреляционном анализе
- Определение Для расчета используем ту же матрицу третьего порядка. Расчет ведем по формуле:
- Коэффициент множественной корреляции
- 3.9. Создание математических моделей регрессии
- Парный нелинейный регрессионный анализ
- Экономический смысл коэффициентов регрессии
- Многомерный нелинейный регрессионный анализ
- 3.10. Методика получения уравнений парной линейной регрессии при большом объеме выборки
- 3.11. Понятие о мультиколлинеарности
- Тесты для самоконтроля
- Характеристика тестов темы 3:
- Контрольные задания