Доверительный интервал
Пусть случайая величина Х генеральной совокупности распределена нормально, учитывая, что дисперсия и среднее квадратическое отклонение s этого распределения известны. Требуется оценить неизвестное математическое ожидание по выборочной средней. В данном случае задача сводится к нахождению доверительного интервала для математического ожидания с надёжностью b. Если задаться значением доверительной вероятности (надёжности) b, то можно найти вероятность попадания в интервал для неизвестного математического ожидания, используя формулу (6.9а):
где Ф(t ) – функция Лапласа (5.17а).
В результате можно сформулировать алгоритм отыскания границ доверительного интервала для математического ожидания, если известна дисперсия D = s 2:
- Задать значение надёжности – b .
- Из (6.14) выразить Ф(t) = 0,5× b. Выбрать значение t из таблицы для функции Лапласа по значению Ф(t) (см. Приложение 1).
- Вычислить отклонение e по формуле (6.10).
- Записать доверительный интервал по формуле (6.12) такой, что с вероятностью b выполняется неравенство:
. |
Пример 5 .
Случайная величина Х имеет нормальное распределение. Найти доверительные интервалы для оценки с надежностью b = 0,96 неизвестного математического ожидания а, если даны:
1) генеральное среднее квадратическое отклонение s = 5;
2) выборочная средняя ;
3) объём выборки n = 49.
В формуле (6.15) интервальной оценки математического ожидания а с надёжностью b все величины, кроме t, известны. Значение t можно найти, используя (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.
По таблице Приложения 1 для функции Лапласа Ф(t) = 0,48 находят соответствующее значение t = 2,06. Следовательно, . Подставив в формулу (6.12) вычисленное значение e, можно получить доверительный интервал: 30-1,47 < a < 30+1,47.
Искомый доверительный интервал для оценки с надёжностью b = 0,96 неизвестного математического ожидания равен: 28,53 < a < 31,47.
Пусть случайная величина (можно говорить о генеральной совокупности) распределена по нормальному закону, для которого известна дисперсия D = 2 (> 0). Из генеральной совокупности (на множестве объектов которой определена случайная величина) делается выборка объема n. Выборка x 1 , x 2 ,..., x n рассматривается как совокупность n независимых случайных величин, распределенных так же как (подход, которому дано объяснение выше по тексту).
Ранее также обсуждались и доказаны следующие равенства:
Mx 1 = Mx 2 = ... = Mx n = M;
Dx 1 = Dx 2 = ... = Dx n = D;
Достаточно просто доказать (мы доказательство опускаем), что случайная величина в данном случае также распределена по нормальному закону.
Обозначим неизвестную величину M через a и подберем по заданной надежности число d > 0 так, чтобы выполнялось условие:
P(- a < d) = (1)
Так как случайная величина распределена по нормальному закону с математическим ожиданием M = M = a и дисперсией D = D /n = 2 /n, получаем:
P(- a < d) =P(a - d < < a + d) =
Осталось подобрать d таким, чтобы выполнялось равенство
Для любого можно по таблице найти такое число t, что(t)= / 2. Это число t иногда называют квантилем .
Теперь из равенства
определим значение d:
Окончательный результат получим, представив формулу (1) в виде:
Смысл последней формулы состоит в следующем: с надежностью доверительный интервал
покрывает неизвестный параметр a = M генеральной совокупности. Можно сказать иначе: точечная оценка определяет значение параметра M с точностью d= t / и надежностью.
Задача. Пусть имеется генеральная совокупность с некоторой характеристикой, распределенной по нормальному закону с дисперсией, равной 6,25. Произведена выборка объема n = 27 и получено средневыборочное значение характеристики = 12. Найти доверительный интервал, покрывающий неизвестное математическое ожидание исследуемой характеристики генеральной совокупности с надежностью =0,99.
Решение. Сначала по таблице для функции Лапласа найдем значение t из равенства (t) = / 2 = 0,495. По полученному значению t = 2,58 определим точность оценки (или половину длины доверительного интервала) d: d = 2,52,58 / 1,24. Отсюда получаем искомый доверительный интервал: (10,76; 13,24).
статистический гипотеза генеральный вариационный
Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии
Пусть - случайная величина, распределенная по нормальному закону с неизвестным математическим ожиданием M, которое обозначим буквой a . Произведем выборку объема n. Определим среднюю выборочную и исправленную выборочную дисперсию s 2 по известным формулам.
Случайная величина
распределена по закону Стьюдента с n - 1 степенями свободы.
Задача заключается в том, чтобы по заданной надежности и по числу степеней свободы n - 1 найти такое число t , чтобы выполнялось равенство
или эквивалентное равенство
Здесь в скобках написано условие того, что значение неизвестного параметра a принадлежит некоторому промежутку, который и является доверительным интервалом. Его границы зависят от надежности, а также от параметров выборки и s.
Чтобы определить значение t по величине, равенство (2) преобразуем к виду:
Теперь по таблице для случайной величины t, распределенной по закону Стьюдента, по вероятности 1 - и числу степеней свободы n - 1 находим t. Формула (3) дает ответ поставленной задачи.
Задача. На контрольных испытаниях 20-ти электроламп средняя продолжительность их работы оказалась равной 2000 часов при среднем квадратическом отклонении (рассчитанном как корень квадратный из исправленной выборочной дисперсии), равном 11-ти часам. Известно, что продолжительность работы лампы является нормально распределенной случайной величиной. Определить с надежностью 0,95 доверительный интервал для математического ожидания этой случайной величины.
Решение. Величина 1 - в данном случае равна 0,05. По таблице распределения Стьюдента, при числе степеней свободы, равном 19, находим: t = 2,093. Вычислим теперь точность оценки: 2,093121/ = 56,6. Отсюда получаем искомый доверительный интервал: (1943,4; 2056,6).
Пусть произведена выборка из генеральной совокупности, подчиненной закону нормального распределения X N(m ; ). Это основное предположение математической статистики основано на центральной предельной теореме. Пусть известно генеральное среднее квадратическое отклонение , но неизвестно математическое ожидание теоретического распределения m (среднее значение ).
В
таком случае среднее выборочное
,
полученное в ходе эксперимента (п.3.4.2),
также будет являться случайной величинойm
;
).
Тогда «нормализованное» отклонение
N(0;1)
– является стандартной нормальной
случайной величиной.
Задача состоит в поиске интервальной оценки для m . Построим двусторонний доверительный интервал для m так, чтобы истинное математическое ожидание принадлежало ему с заданной вероятностью (надежностью) .
Установить
такой интервал для величины
– это значит найти максимальное значение
этой величины
и минимальное
,
которые являются границам критической
области:
.
Т.к.
такая вероятность равна
,
то корень этого уравнения
можно найти с помощью таблиц функции
Лапласа (Таблица 3, приложение 1).
Тогда
с вероятностью
можно утверждать, что случайная величина
,
то есть искомое генеральное среднее
принадлежит интервалу
.
(3.13)
Величину
(3.14)
называют точностью оценки.
Число
– квантиль
нормального распределения – можно
найти как аргумент функции Лапласа
(Таблица 3, приложение 1), учитывая
соотношение 2Ф(u
)=
, т.е. Ф(u
)=
.
Обратно,
по заданному значению отклонения
можно найти, с какой вероятностью,
неизвестное генеральное среднее
принадлежит интервалу
.
Для этого нужно вычислить
. (3.15)
Пусть
из генеральной совокупности извлечена
случайная выборка методом повторного
отбора. Из уравнения
можно найти минимальный
объем
повторной выборки n
,
необходимый для того, чтобы доверительный
интервал с заданной надежностью
не превышал наперед заданного значения
.
Оценку требуемого объема выборки
производят по формуле:
. (3.16)
Исследуем
точность
оценки
:
1) При возрастании объема выборки n величина уменьшается , и значит, точность оценки увеличивается .
2) С увеличением надежности оценки увеличивается значение аргументаu (т.к. Ф (u ) монотонно возрастает) и значит увеличивается . В таком случае увеличение надежности уменьшает точность ее оценки .
Оценку
(3.17)
называют классической (где t - некий параметр, зависящий от и n ), т.к. она характеризует наиболее часто встречающиеся законы распределения.
3.5.3 Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении
Пусть известно, что генеральная совокупность подчинена закону нормального распределения X N(m ; ), где величина среднего квадратического отклонения неизвестна.
Для
построения доверительного интервала
оценки генерального среднего в этом
случае используется статистика
,
имеющая распределение Стъюдента с k
=
n
–1
степенями свободы. Это следует из того,
что
N(0;1)
(см. п.3.5.2), а
(см. п.3.5.3) и из определения распределения
Стъюдента (ч.1.п.2.11.2).
Найдем
точность классической оценки распределения
Стъюдента: т.е. найдем t
из формулы (3.17). Пусть вероятность
выполнения неравенства
задана надежностью
:
. (3.18)
Поскольку
T
St(n
-1),
очевидно, что t
зависит от
и n
,
поэтому обычно пишут
.
(3.19)
где
– функция распределения Стъюдента сn
-1
степенями свободы.
Решая
это уравнение относительно m
,
получим интервал
который с надежностью
покрывает неизвестный параметр m
.
Величина t , n -1 , служащая для определения доверительного интервала случайной величины T (n -1), распределенной по Стъюденту с n -1 степенями свободы, называется коэффициентом Стъюдента . Его следует находить по заданным значениям n и из таблиц «Критические точки распределения Стьюдента». (Таблица 6, приложение 1), которые и представляют собой решения уравнения (3.19).
В итоге получаем следующее выражение точности доверительного интервала для оценки математического ожидания (генерального среднего), если неизвестна дисперсия:
(3.20)
Т.о., существует общая формула построения доверительных интервалов для математического ожидания генеральной совокупности:
где точность доверительного интервала в зависимости от известной или неизвестной дисперсии находится по формулам соответственно 3.16. и 3.20.
Задача 10. Проведены некоторые испытания, результаты которых занесены в таблицу:
x i |
Известно,
что они подчиняются закону нормального
распределения с
.
Найти оценкуm
*
для математического ожидания m
,
построить для него 90% доверительный
интервал.
Решение:
Итак, m (2.53;5.47).
Задача 11. Глубина моря измеряется прибором, систематическая ошибка которого равна 0, а случайные ошибки распределяются по нормальному закону, со средним квадратическим отклонением =15м. Сколько надо сделать независимых измерений, чтобы определить глубину с ошибками не более 5м при доверительной вероятности 90%?
Решение:
По условию задачи имеем X N(m ; ), где =15м, =5м, =0.9. Найдем объем n .
1) С заданной надежностью = 0.9 найдем по таблицам 3 (Приложение 1) аргумент функции Лапласа u = 1.65.
2)
Зная заданную точность оценки
=u
=5,
найдем
.
Имеем
. Поэтому число испытаний n 25.
Задача 12. Выборка температуры t за первые 6 дней января представлена в таблице:
Найти
доверительный интервал для математического
ожидания m
генеральной совокупности с доверительной
вероятностью
и оценить
генеральное стандартное отклонение s
.
Решение:
и
.
2)
Несмещённую оценку
найдем по формуле
:
=-175 |
|||||||
=234.84 |
;
;
=-192 |
|||||||
=116 |
.
3) Поскольку генеральная дисперсия неизвестна, но известна ее оценка, то для оценки математического ожидания m используем распределение Стъюдента (Таблица 6, приложение 1) и формулу (3.20).
Т.к.
n
1 =n
2 =6,
то
,
,
s
1 =6.85
имеем:
,
отсюда -29.2-4.1<m
1 <
-29.2+4.1.
Поэтому -33.3<m 1 <-25.1.
Аналогично
имеем,
,
s
2 =
4.8,
,
поэтому
–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33.3;-25.1) и m 2 (-34.9;-29.1).
В прикладных науках, например, в строительных дисциплинах, для оценки точности объектов используются таблицы доверительных интервалов, которые приведены в соответствующей справочной литературе.
Пусть CB X образуют генеральную совокупность и в — неизвестный параметр CB X. Если статистическая оценка в * является состоятельной, то чем больше объем выборки, тем точнее получаем значение в. Однако на практике мы имеем выборки не очень большого объема, поэтому не можем гарантировать большую точность.
Пусть в* — статистическая оценка для в. Величина |в* - в| называется точностью оценки. Ясно, что точность является CB, т. к. в* — случайная величина. Зададим малое положительное число 8 и потребуем, чтобы точность оценки |в* - в| была меньше 8, т. е. | в* - в | < 8.
Надежностью g или доверительной вероятностью оценки в по в * называется вероятность g, с которой осуществляется неравенство |в * - в| < 8, т. е.
Обычно надежность g задают наперед, причем, за g берут число, близкое к 1 (0,9; 0,95; 0,99; ...).
Так как неравенство |в * - в| < S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:
Интервал (в * - 8, в* + 5) называется доверительным интервалом, т. е. доверительный интервал покрывает неизвестный параметр в с вероятностью у. Заметим, что концы доверительного интервала являются случайными и изменяются от выборки к выборке, поэтому точнее говорить, что интервал (в * - 8, в * + 8) покрывает неизвестный параметр в, а не в принадлежит этому интервалу.
Пусть генеральная совокупность задана случайной величиной X, распределенной по нормальному закону, причем, среднее квадратическое отклонение а известно. Неизвестным является математическое ожидание а = М (X). Требуется найти доверительный интервал для а при заданной надежности у.
Выборочная средняя
является статистической оценкой для хг = а.
Теорема. Случайная величина хВ имеет нормальное распределение, если X имеет нормальное распределение, и М (ХВ) = а,
А (XВ) = а, где а = у/Б (X), а = М (X). л/и
Доверительный интервал для а имеет вид:
Находим 8.
Пользуясь соотношением
где Ф(г) — функция Лапласа, имеем:
Р { | XВ - а | <8} = 2Ф
таблице значений функции Лапласа находим значение t.
Обозначив
T, получим F(t) = g Так как g задана, то по
Из равенстваНаходим— точность оценки.
Значит, доверительный интервал для а имеет вид:
Если задана выборка из генеральной совокупности X
нГ | к" | X2 | Xm |
n. | n1 | n2 | nm |
n = U1 + ... + nm, то доверительный интервал будет:
Пример 6.35. Найти доверительный интервал для оценки математического ожидания а нормального распределения с надежностью 0,95, зная выборочную среднюю Xb = 10,43, объем выборки n = 100 и среднее квадратическое отклонение s = 5.
Воспользуемся формулой
Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .
Точечная и интервальная оценки среднего значения
Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .
Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:
,
α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.
На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:
.
Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если
- известно стандартное отклонение генеральной совокупности;
- или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.
Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.
Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.
Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:
сумма значений в наблюдениях ,
сумма квадратов отклонения значений от среднего .
Вычислить доверительный интервал 95 % для математического ожидания.
вычислим стандартное отклонение:
,
вычислим среднее значение:
.
Подставляем значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Получаем:
Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.
Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?
Подставляем данные значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .
Получаем:
.
Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.
Вновь подставляем данные значения в выражение для доверительного интервала:
где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .
Получаем:
.
Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.
Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.
Точечная и интервальная оценки удельного веса
Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :
.
Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .