Методика кластерного анализа результатов голосования в ООН
Автор: davu • Май 28, 2018 • Реферат • 982 Слов (4 Страниц) • 594 Просмотры
Методика кластерного анализа результатов голосования в ООН
Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. Иногда вместо термина «кластерный анализ» используют термин «таксономия».
Разработано несколько методов кластерного анализа, каждый из которых применяются для определенного класса задач. Меры различия накладывают жесткие ограничения на применяемые методы:
· метод средней связи Кинга можно применять для признаков любых типов
( количественных, порядковых, номинальных и смешанных признаков);
· методы Уорда и k-средних Мак-Куина можно применять только для количественных признаков.
Применяя формально метод, не соответствующий типу данных, пользователь рискует получить результаты, лишенные смысла.
- Постановка задачи
В используемом аппарате кластерного анализа роль факторов играют вопросы, поставленные на голосование, а роль наблюдений – государства.
Ставится цель выявить группировки государств (кластеры), состоящие из стран, голосующих сходным образом. Предполагается, что страны из разных группировок голосуют существенно по-разному.
Пусть группировки А и B проголосовали по всем резолюциям со следующими результатами:
{Ai, i=1, …..,n} и {Bi, i=1, …..,n} , где n – общее число рассматриваемых резолюций.
В качестве меры близости группировок выбирается эвклидова мера
[pic 1]
Для кластеризации используется метод «k-средних Мак-Куина», в основе которого лежит итеративный процесс стабилизирования центроидов (центров “тяжести”) кластеров.
Центроид – это вектор, элементами которого являются средние арифметические значения факторов внутри каждого кластера. Для нашей задачи центроиды представляют собой усредненные результаты голосования для каждой из n резолюций.
Принцип кластеризации с помощью этого метода сводится к следующим элементарным шагам:
1. Некоторое, возможно случайное, исходное разбиение множества объектов на заданное число кластеров.
2. Первоначальный расчет «центров тяжести» кластеров.
3. Отнесение остальных объектов к ближайшим кластерам таким образом, чтобы мера близости кластера и центроида, рассчитываемая по формуле (1), была минимальна.
4. Пересчет новых «центров тяжести» кластеров.
5. Переход к шагу 3, пока новые «центры тяжести» кластеров не перестанут отличаться от старых.
6. Получено оптимальное разбиение.
Особенностью этого метода является то, что выделенные в результате расчетов кластеры не будут пересекаться – гарантируется, что каждый классифицированный объект будет отнесен только к одному кластеру. Среди недостатков этого метода выделяют то, что при добавлении новых объектов требуется выполнить все расчеты заново в полном объеме на новом наборе данных.
- Подготовка исходных данных для анализа
1). Выходим на сайт ООН по адресу http://www.un.org/ru/ , и в разделе «Ресурсы и услуги» нажимаем мышью на подраздел «библиотека», затем в разделе «Каталог ЮНБИСНЕТ» щелкаем мышью по ссылке «Отчеты о голосовании» и переходим в систему ЮНБИСНЕТ, в которой имеются отчеты о голосовании по всем резолюциям, принятым Генеральной Ассамблеей (без голосования, поименным голосованием и голосованием, заносимым в отчеты заседаний), начиная с тридцать второй сессии (1977 год) и Советом Безопасности, начиная с первого года его работы (1946 год).
...