logo
Основы математической обработки информации / Пособие для фф

Часть 4. Задания для самостоятельной работы

Задания для самостоятельной работы №1

  1. Даны множества А – «множество различных букв слова ФИЛОЛОГИЯ» и В – «множество гласных букв русского алфавита».

а) запишите множества А и В с помощью перечисления элементов;

б) найдите объединение, пересечение, разность, симметрическую разность множеств А и В.

2) Найдите булеан множества Е – «множество согласных букв в слове АЛФАВИТ»

3) Найдите декартовое произведение множеств Е (из 2) и К={0,1}; декартовый квадрат множества Е.

4) Выполните над множествами С иD операции

  1. Докажите с помощью кругов Эйлера

  2. Задайте тремя способами на множестве букв {А, Д, Е, Л, М} отношение R=«занимать более высокую строчку в русском алфавите».

  3. Перечислите свойства бинарных отношений и укажите их тип: R1={ быть равным} на множестве действительных чисел;

R2={быть не больше} на множестве действительных чисел;

R3={ быть подмножеством} на множестве множеств;

R4={ быть параллельным} на множестве прямых;

R5={ находиться на одинаковом расстоянии от данной точки} на множестве точек координатной плоскости;

R6={ быть прямым потомком} на множестве людей;

R7={ быть знакомым} на множестве людей.

  1. Найдите множество , если

Задания для самостоятельной работы №2:

  1. Сколько 3-х буквенных серий для автомобильных номеров можно составить из 30 букв русского алфавита (исключая ь, ъ, й), если…а) буквы в серии различны, б) буквы в серии могут повторяться?

  2. Каким числом способов можно выбрать 2 гласные буквы русского языка, если эти буквы…

а) различны; б) могут быть одинаковыми?

  1. Сколько перестановок с повторениями можно составить из букв слова АНАГРАММА?

  2. Сколькими способами можно рассадить персонажей басни И.А. Крылова «Квартет»?

  3. Сколько 4-буквенных «слов» можно составить из букв слова «СЛОВАРЬ», если на первом месте в полученном «слове» должна стоять буква «С», а на последнем – «Ь», и все буквы в «слове» различны.

  4. В шахматном турнире было сыграно 120 игр. Сколько было участников, если каждые 2 участника встречались между собой только 1 раз?

  5. Сколько анаграмм (литературный приём, состоящий в перестановке букв или звуков определённого слова (или словосочетания), что в результате даёт другое слово или словосочетание) можно получить из букв слов «ГАГАГА», «ЯЗЫК», «МАТЕМАТИКА»?

  6. *Сколько палиндромов (число, буквосочетание, слово или текст одинаково читающееся в обоих направлениях) можно получить из букв слов «ГАГАГА», «ЯЗЫК», «МАТЕМАТИКА»?

  7. В высказывании Карла Вейерштрасса «Нельзя быть настоящим математиком, не будучи немного поэтом» 8 слов.

а) Автомат случайным образом выбирает одно из слов высказывания. Найдите вероятность событий:

А=« выбрана частица НЕ»; В= «выбран глагол»; С=«выбрано имя существительное»; К= «выбран предлог»; М= «выбрано любое из 8 слов данного высказывания».

б) Автомат случайным образом выбирает два слова данного высказывания. Найдите вероятность событий:

D= «Оба выбранных слова начинаются с буквы Н»

Е=«Одно слово – глагол, а другое – имя существительное».

Задания для самостоятельной работы№3:

  1. Вероятность появления однородных членов в произведениях И.А. Гончарова равна 0,22, а в произведениях А.Н. Толстого – 0,12. Из сборников произведений И.А. Гончарова и А.Н. Толстого выбирается произвольно по предложению. Найти вероятность того, что… а) оба выбранных предложения будут содержать однородные члены; б) ни одно не будет содержать однородные члены; в) хотя бы одно из предложений будет содержать однородные члены.

  2. Студент нашёл нужную информацию в одной из 7 книг, но забыл, в какой из них. Определить вероятность, что для повторного использования той же информации, ему придётся пересмотреть три книги.

  3. В авторской художественной речи прозы К. Федина вероятность появления имён существительных равна 0,392, а прилагательных – 0,134. Выбираются два слова из произведения К. Федина. Какова вероятность событий: а) «оба слова относятся к одной части речи»; б) «выбранные слова относятся к разным частям речи».

  4. Статистическая вероятность появления глагольных форм в молдавском публицистическом тексте равна 0,156. Найти вероятность того, что среди 5 наугад выбранных словоупотреблений из молдавского текста, глагольная форма встретится а) 2 раза; б) более 3 раз.

  5. С целью обеспечения надежности корреспондент передает сообщение в редакцию двумя способами, каждый из которых может привести как к успеху, так и закончиться неудачно. Вероятность успешной передачи сообщения первым способом равна 0.9, при использовании второго – 0.80. В результате проведенных мероприятий редакция получила сообщение. Определить вероятность того, что передача редакции сообщения состоялось благодаря первому способу.

Задания для самостоятельной работы№4:

1) Найдите математическое ожидание М(Х), дисперсию D(Х) и среднее квадратическое отклонение σ(Х) случайной величины Х, если закон её распределения задан таблицей.

Х

-1

0

1

2

Р

0,1

0,2

0,3

0,25


  1. Вероятность появления буквы К в русских литературных текстах равна 0,128. Произвольно выбирают 3 буквы. Необходимо :

а) составить закон распределения случайной величины X – «число появлений буквы К»;

б) найти математическое ожидание М(Х) и дисперсию D(Х) этой случайной величины;

в) найти функцию распределения F(x) и построить её график.

  1. Известно, что доля наречий в авторском повествовании и описании в художественной прозе равна 0,07. Найти вероятность того, что в фрагменте текста, длиной 250 словоформ: а) будет 2 наречия; б) менее двух наречий; в) не менее двух наречий.

Найти М(Х) и D(Х) случайной величины X - «число наречий в данном отрывке текста».

4) Случайная величина Х задана дифференциальной функцией распределения

а) По какому закону распределена случайная величина Х?

б) Определите М(Х), D(Х), σ(Х).

в) Постройте график , определив координаты не менее трёх точек графика.

г) Найдите вероятность попадания случайной величины X в интервалы (0; ∞ ) и (-4; 3).

5) Независимые дискретные случайные величины Х и Y заданы своими законами распределения:

Х

0

1

Р

0,1

0,9

Y

0

1

Р

0,7

0,3



Найдите закон распределения СВ Z=X+2Y.

Задания для самостоятельной работы№5:

В ходе исследования средних частот частей речи у русских писателей XIX-XX вв. (было взято 20 однородных фрагментов длиной 500 знаменательных слов из текстов каждого из 14 известных писателей), получены следующие данные о среднем числе наречий:

29;29;43;45;38;45;56;38;45;42;43;44;31;42.

1) Произведите первичную обработку данных:

а) представьте выборку в виде вариационного ряда;

б) определите моду, медиану и размах вариаций выборки;

в) постройте статистический ряд частот и относительных частот;

г) постройте полигон относительных частот;

д) найдите числовые характеристики статистического распределения: среднее выборочное, выборочную дисперсию, исправленную выборочную дисперсию, исправленное среднее квадратическое отклонение;

е) найдите эмпирическую функцию распределения Fn(x) и постройте её график.

2) Предполагая, что частота употребления наречий во всех литературных произведениях распределена по нормальному закону, найдите по выборке 95% доверительный интервал для среднего числа употребления наречий (математического ожидания генеральной совокупности).

3) Сколько фрагментов текста необходимо обработать, чтобы относительная ошибка измерения среднего числа глаголов не превышала 5% с доверительной вероятностью 90%?

Лабораторные работы

Задание для студентов.

До начала лабораторных работ выполнить следующую внеаудиторную подготовительную работу.

Из произведения вашего любимого автора выбрать 50 фрагментов по 100 словоупотреблений и подсчитать количество глагольных форм, количество имён существительных и количество местоимений.

Выборки должны быть однородными, т.е. выбраны из художественного повествования автора, не должны включать диалогов персонажей и других стилевых отклонений.

Полученные 3 выборки объёмом 50 единиц каждая случайных величин Х-«Число глаголов в фрагменте из текста (автор) длиной 100 слов», Y-«Число имён существительных в фрагменте из текста (автор) длиной 100 слов», Z - «Число местоимений в фрагменте из текста (автор) длиной 100 слов», набрать в таблице Excel и сохранить в виде файла с Вашей фамилией.

Лабораторная работа №1 (2часа)

Первичная обработка лингвистической информации. Описательные статистики.

Цель: Научиться приёмам первичной обработки выборки и получения её числовых характеристик «вручную» и с помощью программы SPSS на компьютере.

Задание. Проведите первичную обработку полученных данных. Получите числовые характеристики (описательные статистики) полученного распределения (на занятии обрабатываются данные по количеству глаголов в указанных фрагментах, а данные по количеству местоимений и существительных обрабатываются самостоятельно).

1. Постройте интервальный статистический ряд :

xi

[x0;x1)

[x1;x2)

[xk-1;xk)

ni

n1

n2

nk

ni -частота попадания значений выборки в i-тый интервал;

- относительная частота попадания в i-тый интервал.

Ширина каждого интервала разбиения равна h: .

Начало первого интервала:

2. Постройте гистограмму относительных частот (частостей).

Высота прямоугольников гистограммы вычисляется по формуле

Проведите кривую через середины вершин прямоугольников гистограммы (аналог графика функции f(x) плотности распределения- сравнивается с графиком f(x) для нормального распределения).

3. Найдите середины интервалов и постройте соответствующий дискретный статистический ряд.

4. Для получившегося дискретного ряда определите:

а) среднее выборочное

б) выборочную дисперсию;

в) исправленную выборочную дисперсию;

г) исправленное среднее квадратическое отклонение ;

д) асимметрию, стандартное отклонение асимметрии (вычислить только в программе SPSS);

е) эксцесс, стандартное отклонение эксцесса (вычислить только в программе SPSS).

Произведите вычисление всех описательных статистик на компьютере в программе SPSS.

Для решения приведённой задачи с использованием программы SPSS- необходимо выполнить следующие действия:

Открыть программу SPSS. Кнопки «Пуск», «Все программы», «SPSS statistics»

  1. В меню File (Файл) выбрать Open (Открыть) > Data (Данные).

  2. В открывшемся окне установить тип файла Excel (`*.xls;`*xlsx;`*xlsm) и выбрать файл с вашими данными.

  3. Выбрать Analyze (Анализ) > Descriptive statistics (Описательные статистики) > Frequencies (частоты)…

  4. В открывшемся диалоговом окне переместить Х в раздел ”Variable(s)”(переменные).

  5. Открыть вкладку `Statistics ` «статистики».

Ставим флажок в квадратиках `Mean`(среднее),`Wariance`(дисперсия), `Std. deviation` (стандартное отклонение), Range (размах), `Kurtosis` (Асимметрия) и `Skewness` (Эксцесс), нажимаем `Continue` (продолжить).

  1. Открыть вкладку Chats (диаграммы). Ставим флажок в квадратиках Histograms (гистограммы) и With normal curve (с нормальной кривой), нажимаем `Continue` (продолжить).

  2. Снять флажок в квадратике Display frequency tables (выводить частотные таблицы), т.к. данные таблицы неинформативны.

  3. Нажимаем OK

В полученном окне вывода получаем нужные описательные статистики, а также гистограмму частот с кривой нормального распределения.

Сравните статистики, полученные «вручную» и с помощью программы SPSS.

Сделайте вывод о приближённом соответствии распределения числа глаголов (существительных, местоимений) нормальному распределению.

Лабораторная работа №2 (2часа)

Проверка гипотезы о нормальности распределения глагольных форм (существительных, местоимений) в литературных текстах.

Цель: Приобрести навык формулирования статистических гипотез о виде распределения и их проверки с помощью одного из критериев согласия «вручную» и с помощью программы SPSS.

Задание. Используя полученные при обработке текстов статистические данные о количестве глагольных форм (о количестве существительных, местоимений) и результаты выполнения Л.Р.№1, проверьте гипотезу о том, что рассматриваемая выборка произведена из нормально распределённой генеральной совокупности.