Міністерство освіти і науки України
Дніпропетровський національний університет ім. О. Гончара
Дипломна бакалаврська робота
Систематичний відбір
Виконавець:
студентка групи
МС-06-1 Бабічева Д.С.
Дніпропетровськ 2010
РЕФЕРАТ
Випускна бакалаврська робота: 67 сторінок, 5 джерел, 9 таблиць, 15 рисунків.
Перелік ключових слів: популяція, вибірка, відбір, дисперсія, середнє, точність, тренд, одиниці, оцінка.
Обє’кт дослідження: систематичні вибірки
Мета роботи: в роботі ставиться задача порівняння точності систематичного відбору, простого випадкового відбору та стратифікованого відбору на прикладі вибіркового обстеження домогосподарств гіпотетичного міста StatVillage.
ЗМІСТ
ВСТУП
РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР
1.1 Оцінювання середнього та сумарного значення популяції
1.2 Порівняння систематичного відбору зі стратифікованим випадковим відбором
1.3 Популяції з «випадковим» порядком розміщення одиниць
1.4 Популяції з лінійним трендом
1.5 Популяції з періодичною варіацією
1.6 Автокорельовані популяції
1.7 Реальні популяції
1.8 Оцінювання дисперсії за окремою вибіркою
1.9 Стратифікований систематичний відбір
1.10 Двовимірний систематичний відбір
1.11 Приклади розв’язування задач
РОЗДІЛ ІІ. ПОРІВНЯННЯ СИСТЕМАТИЧНОГО ВІДБОРУ, ПРОСТОГО ВИПАДКОВОГО ВІДБОРУ ТА СТРАТИФІКРВАНОГО ВІДБОРІВ
2.1 Місто StatVillage
2.2 Порівняння відборів
ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
ВСТУП
Вибіркове обстеження з систематичним відбором являє собою комплекс процедур, які мають деякі практичні переваги за інших методів, зокрема у відносній простоті застосування. Іноді систематичний відбір розглядають як деяке наближення простого випадкового відбору, коли не існує повного переліку або списку всієї популяції, або коли цей список не є впорядкованим за якоюсь ознакою, тобто коли елементи записано в довільному випадковому порядку. Розглянемо загальну процедуру побудови систематичної вибірки при проведенні випадкового обстеження. Нехай маємо скінчену популяцію, одиниці якої перенумеровані від 1 до . Для отримання вибірки обсягу спочатку навмання вибираємо будь-яку одиницю з перших одиниць популяції (це можна зробити, використовуючи датчик випадкових чисел або таблицю випадкових чисел). Після вибору першої одиниці вибираємо кожну -ту одиницю популяції. Таку вибірку будемо називати систематичною вибіркою кожної -ї одиниці. Наприклад, якщо =15 і першу одиницю виберемо 13, тоді наступні одиниці будуть мати номери 28, 43, 58, 73... Отже, перша вибрана одиниця повністю визначає вибірку. У систематичного відбору є деякі очевидні переваги в порівнянні з простим випадковим відбором.
1. Вибірку легше добувати і частіше легше дотримуватись правил відбору. Це особливо важливо, коли відбір відбувається безпосередньо протягом обстеження. Іноді можна значно зекономити час, навіть коли вибірка добувається до початку обстеження. Наприклад, коли данні про всі одиниці занесені на картки однакового розміру, що знаходяться у ящиках стандартної картотеки. Тоді можна добувати картки з ящика через кожний сантиметр, відміряючи відстань лінійкою. Цю операцію, на відміну від простого випадкового відбору, можна виконати дуже швидко. Звичайно, такий метод трохи відрізняється від відбору строго кожної -тої картки.
2. Інтуїтивно систематичний відбір здається більш точним, ніж простий випадковий відбір. По суті, при відборі відбувається стратифікування популяції на n страт, що складаються з перших одиниць, з других одиниць і т.д. Отже, ми могли б очікувати, що систематична вибірка має приблизну ту саму точність, що і відповідна стратифікована вибірка з однією одиницею в кожній страті. Відмінність між ними полягає в тому, що при систематичному відборі одиниця в кожній страті стоїть на одному і тому самому місці відносно інших одиниць, у той час як, при стратифікованому випадковому відборі її місце в страті визначається навмання окремо для кожної страти (див. рис.1). Систематична вибірка розподілена в популяції більш рівномірно і саме це робить іноді систематичний відбір більш точним, ніж стратифікований випадковий відбір.
$IMAGE10$
Рис.1. Систематичний відбір та стратифіксований випадковий відбір: $IMAGE11$ - систематична вибірка, $IMAGE12$- стратифікована вибірка
В одному з варіантів систематичного відбору кожна одиниця відбирається в центрі страти або біля нього, тобто замість того, щоб починати послідовність номерів деяким випадковим чином від 1 до , ми приймаємо номер першої одиниці рівним $IMAGE14$, якщо – непарне, та $IMAGE16$ або $IMAGE17$, якщо – парне число. Такий прийом доводить ідею систематичного відбору до її логічного завершення. У тому випадку, коли $IMAGE19$ можна розглядати як значення неперервної функції від неперервного аргумента $IMAGE20$, є підстави очікувати, що вибірка, яка розташована центрально, буде більш точною, ніж випадково розташована. Проте ефективність центрально розташованих вибірок для типів популяцій, що зазвичай зустрічаються при вибіркових обстеженнях, вивчена недостатньо, тому обмежимося випадково розташованими вибірками.
Оскільки, взагалі кажучи, не є цілим кратним числа , обсяги різних систематичних вибірок з однієї і тієї ж популяції можуть на одиницю відрізнятись один від одного. Так, наприклад, для = 23, = 5 в таблиці 1 вказані номери одиниць для п’яти систематичних вибірок. Перші три вибірки мають обсяг = 5, а дві останні – обсяг = 4. Ці обставини вносять деякі ускладнення в теорію систематичного відбору. Якщо обсяг перевищує 50, то цим ускладненням можна знехтувати. Навіть при малих обсягах зміни будуть незначні. Але якщо за оцінку середнього значення популяції вибрати середнє арифметичне такої систематичної вибірки, то ця оцінка буде зміщеною.
Таблиця 1 Можливі систематичні вибірки при = 23, = 5
Номер систематичної вибірки |
перша | друга | третя | четверта | п’ята |
1 6 11 16 21 | 2 7 12 17 22 | 3 8 13 18 23 | 4 9 14 19 | 5 10 15 20 |
Для того, щоб уникнути цього, можна скористатися таким методом. Вибираємо як найбільше ціле, що лежить поряд $IMAGE32$. Далі навмання вибираємо будь-яку одиницю від 1 до , потім беремо кожну -у одиницю, рухаючись по колу, поки не виберемо одиниць. Наприклад, = 21, = 5, тоді = 4. Нехай вибрано одиницю з номером 13. Тоді систематична вибірка 4-го порядку буде містити одиниці з номерами: 13, 17, 21, 4, 8. Якщо першу одиницю вибрано з номером 19, то вибірка містить одиниці з номерами: 19, 2, 6, 10, 14.
В роботі ставиться задача порівняння точності систематичного відбору, простого випадкового відбору та стратифікованого відбору на прикладі вибіркового обстеження домогосподарств гіпотетичного міста StatVillage.
РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР
1.1 Оцінювання середнього та сумарного значення популяції
Введемо поняття кластеру. Кластер – це група одиниць популяції, яка розглядається як вихідна одиниця вибірки. Нехай $IMAGE39$. Популяцію можна розбити на кластерів, у кожному з яких знаходиться n одиниць. Тоді процедура випадкового відбору систематичної вибірки $IMAGE41$го порядку така ж сама, як і процедура вибору одного із кластерів (див. табл. 1.1.1).
Таблиця 1.1.1 Можливі систематичні вибірки $IMAGE41$го порядку
Страти | Кластер | Середнє страти |
1 | 2 | … | i | … | k |
1 | $IMAGE44$ | $IMAGE45$ | … | $IMAGE46$ | … | $IMAGE47$ | $IMAGE48$ |
2 | $IMAGE49$ | $IMAGE50$ | … | $IMAGE51$ | … | $IMAGE52$ | $IMAGE53$ |
… | … | … | … | … | … | … | … |
| $IMAGE55$ | $IMAGE56$ | … | $IMAGE57$ | … | $IMAGE58$ | $IMAGE59$ |
Середнє систематичної вибірки | $IMAGE60$ | $IMAGE61$ | … | $IMAGE62$ | … | $IMAGE63$ | |
Нехай випадкова величина $IMAGE64$ – середнє значення систематичної вибірки, тобто $IMAGE64$ з імовірністю $IMAGE66$ дорівнює значенню $IMAGE62$, $IMAGE68$.
Розподіл $IMAGE64$ має вигляд
$IMAGE64$~ $IMAGE71$.
Теорема 1.1.1. Середнє значення $IMAGE64$ систематичної вибірки є незміщеною оцінкою для середнього значення популяції $IMAGE73$.
Доведення.
$IMAGE74$,
де $IMAGE75$-ий член $IMAGE20$-тої систематичної вибірки, $IMAGE77$, $IMAGE68$,
зокрема, дисперсія $IMAGE64$ дорівнює
$IMAGE80$.
Теорема доведена.
Теорема 1.1.2. Дисперсія середнього значення систематичної вибірки визначається формулою
$IMAGE81$ (1.1.1)
Де
$IMAGE82$
є дисперсією одиниць, які належать одній систематичній вибірці (wsy − від англ. within − всередині та systematic − систематичний).
Доведення.
Дисперсія популяції з одиниць визначається формулою
$IMAGE84$.
Розглянемо тотожність
$IMAGE85$.
Піднесемо обидві частини рівності до квадрату
$IMAGE86$.
Підсумуємо праву та ліву частини рівності за $IMAGE20$ та $IMAGE88$:
$IMAGE89$ $IMAGE90$
Покажемо, що $IMAGE91$:
$IMAGE92$
$IMAGE93$
Отже, маємо
$IMAGE94$,
$IMAGE95$.
Дисперсія $IMAGE64$ дорівнює
$IMAGE80$
(обчислена за таблицею розподілу $IMAGE64$). Тоді
$IMAGE99$.
Звідси
$IMAGE100$,
або, що теж саме,
$IMAGE101$.
Теорема доведена.
Наслідок. Середнє значення для систематичної вибірки більш точне, ніж середнє для простої випадкової вибірки, тобто
$IMAGE102$
тоді і тільки тоді, коли
$IMAGE103$. (1.1.2)
Доведення.
Дисперсія середнього значення простої випадкової вибірки дорівнює
$IMAGE104$.
Тоді з (1.1.1) випливає, що $IMAGE102$ тоді і тільки тоді, коли
$IMAGE106$.
Звідси маємо
$IMAGE107$.
Домножимо обидві частини нерівності на $IMAGE108$ та праворуч винесемо $IMAGE109$:
$IMAGE110$.
Враховуючи, що $IMAGE39$маємо
$IMAGE112$,
або,
$IMAGE113$.
Отже , $IMAGE114$.
Наслідок доведено.
Таким чином, систематичний відбір точніший, ніж простий випадковий відбір, якщо дисперсія $IMAGE115$ одиниць систематичних вибірок більша дисперсії $IMAGE109$ всієї популяції. Систематичний відбір точний, коли одиниці всередині однієї й тієї ж вибірки неоднорідні, та неточний, коли вони однорідн