Применение методов машинного обучения для определения спама в социальных сетях
Автор: vohoanghuyloc • Апрель 18, 2018 • Дипломная работа • 8,369 Слов (34 Страниц) • 857 Просмотры
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ
(государственный университет)
ФАКУЛЬТЕТ РАДИОТЕХНИКИ И КИБЕРНЕТИКИ
КАФЕДРА «ЦЕНТР ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СИСТЕМ ОРГАНОВ ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ»
Применение методов машинного обучения для определения спама в социальных сетях
510900 - Прикладная математика и физика
Магистерская диссертация
студента 616 группы
Северенкова Евгения Григорьевича
Научный руководитель
доктор технических наук, профессор
Галушкин Александр Иванович
Москва
2012
Содержание
1. Введение 3
1.1. Определение спама и способы его распространения 3
1.2. Социальная сеть Twitter 6
2. Постановка задачи и описание ключевых научных работ 10
2.1. Задача определения спама в социальных сетях. Математическая постановка задачи. 10
2.2. Обзор ключевых работ по обнаружению спама в социальных сетях 14
3. Предлагаемое решение 17
3.1. Общий подход к обнаружению спама в Twitter 17
3.2. Синтез признаков для машинного обучения 20
3.2.1. Признаки сообщений 21
3.2.2. Признаки пользователя 21
3.3. Алгоритмы машинного обучения 22
3.3.1. SVM (Support Vector Machine) 22
3.3.2. Логистическая регрессия 24
3.3.3. «Наивный» байесовский классификатор 26
4. Вычислительный эксперимент 29
4.1. Краулинг данных из социальной сети Twitter и их разметка 29
4.2. Анализ веса признаков 31
4.3. Метрики для определения эффективности работы алгоритмов 32
4.4. Результаты эксперимента 34
5. Заключение 36
6. Литература 37
Введение
С появлением первых информационных систем, будь то средства коммуникации между пользователями, форумы или web-сайты, появились большое количество злоумышленников, которые стали использовать электронные средства связи для сообщения пользователям нежелательной информации или нанесения вреда посредством использования персональных данных в противозаконных действиях. В Большинстве случаев информация носит рекламных характер.
Определение спама и способы его распространения
Прежде чем приступить к рассмотрению методов для определения спама, мы должны дать формальное определение, что такое спам. Под спамом мы понимаем сообщения, которые массово рассылаются людям, не дававшим согласие на их получение. Также формой спама является сообщения, которые показываются пользователям на сайтах, социальных сетях, блогах и в выдаче поисковых систем под видом обычный полезных материалов или ссылок с описанием, но носящий рекламный характер и ведущие на рекламные сайты. Примером спама является:
- Сообщения, доставляемые по электронной почте или средствам мгновенного обмена сообщениями пользователям, которые не давали своего согласия на получения таких сообщений и, носящий, как правило, рекламный характер.
- Сообщения на форумах, блогах, сайтах, социальных сетях (как личные, так и общедоступные) которые ведут на рекламные сайты. При этом описание ссылок не соответствуют содержанию сайтов, на которые они ведут.
- Поисковый спам – страницы и web-сайты, созданные с цель манипулирования результатами выдачи поисковых систем. Тем самым качество поисковых систем уменьшается. Определение спама для поисковых систем является высокоприоритетной задачей, так как имеет ряд негативных последствий.
Спам, как правило, является анонимным и массовым. Так анонимные рассылки происходят со скрытым или фальсифицированным обратным адресом. А такое свойство спама как массовость обусловлено его низкой эффективность на небольших объемах. Только массовые рассылки являются настоящим бизнесом для спаммеров и большой проблемой для пользователей.
Инициаторы нежелательных сообщений могут преследовать разные цели. Основная цель – это генерирование входного трафика на сайт (как реклама законной, так и незаконной продукции). Но существуют и другие. Примером может являться фишинг, цель которого получить конфиденциальную информацию (персональные данные, номер кредитной карты, телефон, пароли). Данные, полученные после фишинга, злоумышленники могут использовать по-разному. Могут рассылать письма от имени обычного пользователя, или осуществлять финансовые операции с помощью кредитной карты.
...