Генеральна сукупність і вибірка, рішення задач з математики.

Нехай є велика сукупність однотипних об'єктів (зерен в купі зерна, дерев в лісі, жителів в країні, предметів масового виробництва, і т. Д.), Що підлягає вивченню. При цьому предметом вивчення є якісь якісні або кількісні параметри об'єктів, що складають дану сукупність (скажімо, придатність об'єктів до використання, їх вага, сорт, розмір, і т. Д.), Закони розподілу цих параметрів і багато іншого (про це конкретніше буде сказано пізніше).

Вихідна сукупність об'єктів називається Генеральною сукупністю. а число N об'єктів цієї сукупності (зазвичай дуже велике і точно не відоме) називається Обсягом генеральної сукупності.

Провести суцільне обстеження (обстеження всіх об'єктів) генеральної сукупності, в силу її величезного обсягу, не представляється можливим. А якщо це обстеження пов'язано з псуванням або навіть знищенням обстежуваних об'єктів (скажімо, нас цікавить сила, при дії якої об'єкт ламається), то воно і безглуздо (досліджувати всі об'єкти генеральної сукупності - це значить все їх переламати). Тому вивчають тільки невелику, випадково відібрану, частина цієї сукупності (жменю зерен з купи, невелику частину дерев лісу, випадково відібраних жителів країни, невелику партію предметів масового виробництва, і т. Д.).

Відібрана сукупність об'єктів називається Вибірковою сукупністю або, коротше, Вибіркою. Кількість N Об'єктів, що потрапили у вибірку, називається Обсягом вибірки. Як правило, обсяг N Вибірки багато менше обсягу N генеральної сукупності (N «N). Об'єкти вибірки піддаються суцільного обстеження, а потім, за результатами цього обстеження, робляться певні висновки і про всю генеральної сукупності.

Природно, що обстеження об'єктів вибірки не дасть повної і точної інформації про всієї генеральної сукупності (адже обстежується лише частина об'єктів цієї сукупності). Тому будь-які висновки, що стосуються генеральної сукупності, до яких ми прийдемо на підставі дослідження вибірки, чреваті неточностями і навіть помилками. Але ці помилки, природно, будуть тим менш імовірні і тим менше за величиною, чим більше буде N - Обсяг вибірки. Як саме від обсягу вибірки залежить точність і надійність одержуваних висновків про генеральну сукупність - ці питання теж розглядаються в математичній статистиці.

Крім великого обсягу, для отримання достатньо надійних і достовірних висновків про генеральну сукупність вибірка повинна ще адекватно представляти собою генеральну сукупність. Або, як ще кажуть, вона повинна бути Репрезентативною. Це означає, що не можна відбирати переважно кращі або, навпаки, гірші об'єкти. Правильним (репрезентативним) буде такий відбір, при якому шанси бути відібраними у всіх об'єктів генеральної сукупності будуть однаковими. А це матиме місце лише в тому випадку, коли вибірку об'єктів з генеральної сукупності здійснюють Випадково.

Наприклад, щоб відбір гості зерна з купи зерна був проведений репрезентативно, слід взяти по щіпці зерен з різних місць цієї купи (з різних країв, з поверхні, з глибини, і т. Д.). А якщо цей купу лежить давно і вже злежався (однорідність купи порушилася), то перед здійсненням вибірки купу цей добре б і ретельно перемішати.

У тих випадках, коли об'єкти генеральної сукупності пронумеровані (наприклад, це автомобілі, що випускаються автозаводом, або окремі частини цих автомобілів - мотори, кузова, і т. Д.), Для випадкового відбору якихось N об'єктів такої генеральної сукупності можна скористатися так званою таблицею випадкових чисел. Тобто номера відбираються об'єктів можна взяти з цієї таблиці, відкривши сторінку таблиці навмання. Цю таблицю отримують за допомогою ЕОМ, і вона міститься в багатьох довідниках з математичної статистики. До речі, числа, що містяться в таблиці випадкових чисел - це просто набори цифр дробової частини випадкової величини X. рівномірно розподіленим на відрізку [0; 1].

Будемо поки вважати, що у об'єктів генеральної сукупності досліджується лише одна ознака Х, і ця ознака - Кількісний (тобто його можна виразити деяким числом). Це може бути вага, сорт, розмір, і т. Д. До речі, при необхідності і якісної ознаки об'єктів (наприклад, їх придатність до свого призначення) можна зробити кількісним, якщо вважати, що ця ознака Х = 1, якщо об'єкт придатний, і вважати Х = 0, якщо об'єкт не придатний.

Отже, нехай з досліджуваної генеральної сукупності зроблена випадкова вибірка обсягом N. І нехай виявилося, що у N1 об'єктів, що потрапили у вибірку, значення досліджуваної ознаки Х дорівнювала Х1. у N2 Об'єктів - значення Х2. ..., у Nm об'єктів - значення Хm. тоді таблиця

Графічно статистичний розподіл вибірки виду (1.3) зображується вже не полігоном, а так званої Гістограмою частот (рис.3.2.):

Відзначимо, що часто на осі ординат полігонів і гістограм фільм Не частоти, а Відносні частоти

Перейдемо тепер до основних числовим характеристикам статистичного розподілу вибірки. Ними є:

1. Середнє значення ознаки Х у вибірці. позначається і зване Вибірковою середньої.

2. Величина, яка характеризує Середнє значення квадратів відхилень варіант від вибіркової середньої. Вона називається Вибірковою дисперсією.

3. Величина, яка характеризує Середнє значення відхилення варіант від вибіркової середньої без урахування знака цього відхилення. Вона називається Вибірковим середнім квадратичним відхиленням.

4. Величина, звана Вибірковим коефіцієнтом варіації. Цей коефіцієнт характеризує Частку в процентах, яку становить середнє відхилення від середнього по відношенню до самого середнього.

Всі названі основні числові характеристики вибірки визначаються за формулами:

Ці формули можна використовувати, якщо статистичний розподіл вибірки має вигляд (1.1), тобто є дискретним. А якщо воно має вигляд (1.3), тобто є безперервним (інтервальним), то його попередньо перетворять в дискретне, в якому середини інтервалів приймаються за його нові дискретні варіанти.

Зауважимо, що введені вище числові характеристики вибірки введені з тією ж метою і мають в принципі той же сенс, що і числові характеристики випадкових величин - математичне очікування (середнє значення), дисперсія, середньоквадратичне відхилення, коефіцієнт варіації, про які йшла мова в курсі теорії ймовірностей. І назви цих характеристик багато в чому збігаються.

До речі, формулу для підрахунку вибіркової дисперсії можна спростити, якщо розкрити в ній квадрат різниці, суму розбити на три суми і привести потім подібні. В результаті отримаємо наступну спрощеного формулу для вибіркової дисперсії (викладки виконайте самостійно):

Тобто отримуємо: Вибіркова дисперсія дорівнює середній з квадратів варіант вибірки мінус вибіркова середня в квадраті. тут

Приклад 1. Дано статистичний розподіл вибірки

Рішення. Використовуючи наведені вище формули, одержимо:

Числові характеристики вибірки (,,,), якщо вони знайдені, служать для оцінки відповідних числових характеристик (,,,) генеральної сукупності.

Відзначимо, що числові характеристики генеральної сукупності - Фіксовані, хоча і невідомі, числа. А числові характеристики вибірки очевидним чином залежать від того, які об'єкти генеральної сукупності потрапили у вибірку. Від вибірки до вибірки ці об'єкти змінюються. А так як вибірка об'єктів проводиться випадково, то і числові характеристики вибірки - Випадкові величини. А значить, виникають природні запитання про закони розподілу цих випадкових величин, їх числових характеристиках і т. Д. Про все це піде мова в наступному параграфі.

1. У чому переваги і хиби дослідження всієї генеральної сукупності і дослідження вибірки з неї?

2. Нехай Х - місячна зарплата на відрядній роботі одного робочого на деякому підприємстві. Вона досліджувалася за бухгалтерськими відомостями вибірково. Який сенс в цьому випадку будуть мати величини (,,,)? І який сенс матимуть (,,,)?

3. Статистичний розподіл вибірки має такий вигляд: