Критерій Колмогорова-Смирнова
Автор: jdg1 • Апрель 21, 2019 • Реферат • 2,438 Слов (10 Страниц) • 659 Просмотры
Вступ
Лінгвісти протягом багатьох років вивчають мовні явища. Проте, вивчаючи і аналізуючи мовні системи, стало зрозуміло, що мові притаманно й багато кількісних характеристик. Саме тому з’явилася й наука, яка має назву «Квантитативна лінгвістика».
Квантитативною лінгвістикою називається наука, яка встановлює та описує кількісні характеристики та закономірності мови та мовлення. Вона є складником більш широкої дисципліни – математичної лінгвістики.
Математична лінгвістика - ряд галузей теоретичного і прикладного мовознавства, в яких використовуються поняття і методи математики (теорії імовірностей, математичної статистики, теорії інформації, математичної логіки, теорії алгоритмів тощо).
Математична лінгвістика включає в себе багато методів, у тому числі й непараметричних. Вони мають таку назву, оскільки отримані будь-яким способом сукупності представляють собою множину, яка не залежить від законів розподілу, тобто не пов’язані з будь-якими законами розподілення (середня арифметична, варіанса і тому подібними). Одним із непараметричних методів також є критерій Колмогорова – Смирнова.
Мета застосування критерію Колмогорова - Смирнова
У лінгвістичному дослідженні може виникнути така ситуація, коли необхідно порівняти два емпіричних розподіли з відносно невеликою кількістю варіант, причому значеннями варіант можуть бути не частоти, а будь-які абсолютно метричні величини (наприклад середня довжина речення / середня довжина слова і її різниця, наприклад, у двох різних письменників). Для цього зазвичай застосовують серійний критерій.
Проте в деяких випадках серійний критерій не дає чіткої відповіді на питання про те, відрізняються дві сукупності одна від одної чи ні.
В статистиці присутні більш потужні критерії, які рекомендується використовувати, якщо серійний критерій не дозволяє вирішити поставлену задачу. Таким критерієм є тест, який отримав назву «Критерій Колмогорова - Смирнова».
Сутність критерію Колмогорова – Смирнова
У статистиці критерій узгодженості Колмогорова (також відомий, як критерій узгодженості Колмогорова — Смирнова) використовується для того, щоб визначити, чи підпорядковуються два емпіричних розподіли одному закону, або визначити, чи підпорядковується емпіричний розподіл певній моделі.
Цей критерій може використовуватися у двох варіантах:
- порівнювані сукупності мають однакову кількість варіант;
- порівнювані сукупності мають різну кількість ознак.
Застосування критерію Колмогорова – Смирнова засновано на використанні максимальної різниці між накопленими частотами і накопленими частостями.
Частоти - це абсолютні числа, що показують скільки раз в сукупності зустрічається значення ознаки, яку позначають.
Для отримання накоплених частот для кожної сукупності необхідно к кожній попередній частоті сукупності додавати кожну наступну. Для отримання накоплених частостей необхідно накоплену частоту на кількість варіант в даній сукупності.
Для розрахунку метричної величини та порівняння її між двома сукупностями, необхідно виконати такі розрахунки:
- Визначаємо кількість варіант у кожній з двох сукупностей(сукупність х і сукупність у). Їх може бути як однакова кількість (наприклад 6 і 6), так і різна (наприклад 6 і 8);
- Якщо ми хочемо дізнатися, наприклад, чи відрізняється середня довжина слова у двох різних авторів, необхідно підрахувати середню довжину слова у кожній з варіант обох сукупностей (сукупність х і сукупність у).
- Знаходимо частоти варіант (ni) у сукупності х і сукупності у. Тобто, визначаємо чи вживається слово з такою кількістю літер у цих сукупностях (ni (y), ni (y)). Якщо вживається – 1, якщо ні – 0.
- Визначаємо накоплені частоти (Si) варіант у обох сукупностях (Si (x), Si (у)). Для отримання накоплених частот, додаємо до попередньої частоти наступну.
- Розраховуємо накоплену частість (zi). Для цього необхідно поділити накоплену частоту (Si) на кількість варіантів у кожній сукупності (якщо вони різні). Наприклад в одній сукупності 6 варіант, а в іншій - 8, тоді zх = Sх:6, zу = Sу:8. Якщо ж кількість варіант однакова, то розраховувати накоплену частість не потрібно.
- Для сукупності з різною кількістю варіантів рахуємо максимальну різницю між накопленими частостями (Di): zi (x) - zi (y).
- Якщо кількість варіант у сукупностях однакова – достатньо знайти максимальну різницю (d) між накопленими частотами. Тобто, де Si (x) - Si (x) має найбільший результат.
Заключний етап співставлення сукупностей (з однаковою кількістю варіант) зводиться до находження величини, яка позначається λ2 за формулою:
λ2 = d2 : 2n,
де n – обсяг сукупності, тобто кількість варіант у одній сукупності.
Якщо порівнювані сукупності мають різну кількість варіант, то використовується максимальна різниця між частостями (D). У цьому разі λ2 знаходиться за формулою:
λ2 = D2,[pic 1]
...