Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Критерій Колмогорова-Смирнова

Автор:   •  Апрель 21, 2019  •  Реферат  •  2,438 Слов (10 Страниц)  •  602 Просмотры

Страница 1 из 10

Вступ

Лінгвісти протягом багатьох років вивчають мовні явища. Проте, вивчаючи і аналізуючи мовні системи, стало зрозуміло, що мові притаманно й багато кількісних характеристик. Саме тому з’явилася й наука, яка має назву «Квантитативна лінгвістика».

Квантитативною лінгвістикою називається наука, яка встановлює та описує кількісні характеристики та закономірності мови та мовлення. Вона є складником більш широкої дисципліни – математичної лінгвістики.

Математична лінгвістика - ряд галузей теоретичного і прикладного мовознавства, в яких використовуються поняття і методи математики (теорії імовірностей, математичної статистики, теорії інформації, математичної логіки, теорії алгоритмів тощо).

Математична лінгвістика включає в себе багато методів, у тому числі й непараметричних. Вони мають таку назву, оскільки отримані будь-яким способом сукупності представляють собою множину, яка не залежить від законів розподілу, тобто не пов’язані  з будь-якими законами розподілення (середня арифметична, варіанса і тому подібними). Одним із непараметричних методів також є критерій Колмогорова – Смирнова.

Мета застосування критерію Колмогорова - Смирнова

У лінгвістичному дослідженні може виникнути така ситуація, коли необхідно порівняти два емпіричних розподіли з відносно невеликою кількістю варіант, причому значеннями варіант можуть бути не частоти, а будь-які абсолютно метричні величини (наприклад середня довжина речення / середня довжина слова і її різниця, наприклад, у двох різних письменників). Для цього зазвичай застосовують серійний критерій.

Проте в деяких випадках серійний критерій не дає чіткої відповіді на питання про те, відрізняються дві сукупності одна від одної чи ні.

В статистиці присутні більш потужні критерії, які рекомендується використовувати, якщо серійний критерій не дозволяє вирішити поставлену задачу. Таким критерієм є тест, який отримав назву «Критерій Колмогорова - Смирнова».

Сутність критерію Колмогорова – Смирнова

У статистиці критерій узгодженості Колмогорова (також відомий, як критерій узгодженості Колмогорова — Смирнова) використовується для того, щоб визначити, чи підпорядковуються два емпіричних розподіли одному закону, або визначити, чи підпорядковується емпіричний розподіл певній моделі.

Цей критерій може використовуватися у двох варіантах:

  • порівнювані сукупності мають однакову кількість варіант;
  • порівнювані сукупності мають різну кількість ознак.

Застосування критерію Колмогорова – Смирнова засновано на використанні максимальної різниці між накопленими частотами і накопленими частостями.

Частоти - це абсолютні числа, що показують скільки раз в сукупності зустрічається значення ознаки, яку позначають.

Для отримання накоплених частот  для кожної сукупності необхідно к кожній попередній частоті сукупності додавати кожну наступну. Для отримання накоплених частостей необхідно накоплену частоту на кількість варіант в даній сукупності.

Для розрахунку метричної величини та порівняння її між двома сукупностями, необхідно виконати такі розрахунки:

  1. Визначаємо кількість варіант у кожній з двох сукупностей(сукупність х і сукупність у). Їх може бути як однакова кількість (наприклад 6 і 6), так і різна (наприклад 6 і 8);
  2. Якщо ми хочемо дізнатися, наприклад, чи відрізняється середня довжина слова у двох різних авторів, необхідно підрахувати середню довжину слова у кожній з варіант обох сукупностей (сукупність х і сукупність у).
  3. Знаходимо частоти варіант (ni) у сукупності х і сукупності у. Тобто, визначаємо чи вживається слово з такою кількістю літер у цих сукупностях (ni (y), ni (y)). Якщо вживається – 1, якщо ні – 0.
  4. Визначаємо накоплені частоти (Si) варіант у обох сукупностях (Si (x), Si (у)).  Для отримання накоплених частот, додаємо до попередньої частоти наступну.
  5. Розраховуємо накоплену частість (zi). Для цього необхідно поділити накоплену частоту (Si) на кількість варіантів у кожній сукупності (якщо вони різні). Наприклад в одній сукупності 6 варіант, а в іншій - 8, тоді     zх = Sх:6, zу = Sу:8. Якщо ж кількість варіант однакова, то розраховувати накоплену частість не потрібно.
  6. Для сукупності з різною кількістю варіантів рахуємо максимальну різницю між накопленими частостями (Di): zi (x) - zi (y).
  7. Якщо кількість варіант у сукупностях однакова – достатньо знайти максимальну різницю (d) між накопленими частотами. Тобто, де Si (x) - Si (x) має найбільший результат.

Заключний етап співставлення сукупностей (з однаковою кількістю варіант) зводиться до находження величини, яка позначається λ2 за формулою:

λ2 =  d2 : 2n,

де  n – обсяг сукупності, тобто кількість варіант у одній сукупності.

Якщо порівнювані сукупності мають різну кількість варіант, то використовується максимальна різниця між частостями (D). У цьому разі λ2 знаходиться за формулою:

λ2 = D2,[pic 1]

...

Скачать:   txt (30.9 Kb)   pdf (175.4 Kb)   docx (564.3 Kb)  
Продолжить читать еще 9 страниц(ы) »
Доступно только на Essays.club