Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих
Автор: Владимир Спирин • Апрель 17, 2023 • Контрольная работа • 1,413 Слов (6 Страниц) • 123 Просмотры
Оглавление
Задача 1. Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих. 1
Задача 2. Оценка стоимости домов в Калифорнии. 3
Задача 3. Классификация мобильных телефонов. 7
Задача 1. Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих.
Задачей отдела селекции (скаутингового отдела) является поиск игрока, подходящего клубу взамен уже ушедшего игрока, либо качественное усиление позиции. При этом на первоначальном этапе отбора потенциальных кандидатов вряд ли можно определить четкие критерии, позволяющие это делать. Вместо этого предлагается упростить данный этап с помощью кластеризации данных. Это позволяет использовать данные об одном игроке, чтобы найти ему подобных, исходя из статистики за сезон.
Чтобы наиболее точно определить кластеры (группы) похожих друг на друга футболистов, необходимо найти атрибуты, определяющие, как стиль, так и уровень футболиста.
Перечислим все самые важные критерии для выбора нападающего:
- Роль – футболист основы или же выходящий на замену.
- Частота ударов за матч
- Насколько часто нападающий забивает
- Реализует ли нападающий свои моменты во время матча.
Для обучения используется набор Top Football Leagues Scorers с сайта Kaggle. В нём хранятся данные по голам нападающих из лучших лиг с сайта InfoGoal за 2016-2020. Оценка качества футболиста должны быть актуальной, поэтому были выбраны данные только за 2020 год, как самый последний. Cписок используемых атрибутов из данного датасета представлен ниже:
- Matches_played – количество игр за сезон
- Substitution - количество выходов на замену
- Mins – число сыгранных минут за сезон
- Goals – голы за сезон
- xG – ожидаемые голы
- Shots Per Avg Match – ударов в среднем за матч
Для решения задачи кластеризации были созданы переменные, характеризующие нападающего по вышеописанным критериям, а именно:
- Diff_goals_XG. Разница голов с xG = . Показатель отображает реализацию нападающего. Если показатель положителен, то нападающей забивает больше ожидаемого, что говорит о его уровне реализации моментов.[pic 1]
- coef_sub. Процент игр в основе = . Показатель, близкий к 1, говорит о частом выходе на замену, близкий к 0 – о частом выходе в старте[pic 2]
- min_per_goal. Соотношение минуты к голам = . Данный параметр показывает насколько эффективно нападающий действует в отведенное ему время.[pic 3]
Таким образом, кластеризация будет производиться по следующим атрибутам: Diff_goals_XG, coef_sub, min_per_goal, Shots Per Avg Match.
Проведя нормализацию данных, необходимо понять, возможна ли их кластеризация. Для этого используется статистики Хопкинса: если её значение будет близко к 1, то это будет свидетельствовать о возможности группировки данных. Для данного набора данных она равна 0.8609, что
распределение, поэтому используется метод Affinity propagation. После обучения метода требуется оценить качество кластеризации. Весь набор был разбит на 18 кластеров. Приведена таблица средних для каждого ключевого параметра, отсортированного по coef_sub, чтобы увидеть различия в группах.
similar_forwards | coef_sub | Diff_goals_XG | Shots Per Avg Match | min_per_goal |
9 | 0.009 | 0.314 | 3.853 | 137.63 |
6 | 0.012 | 1.784 | 2.102 | 209.393 |
3 | 0.014 | 0.291 | 2.288 | 139.068 |
7 | 0.016 | 1.983 | 3.107 | 139.88 |
13 | 0.026 | 5.568 | 3.157 | 137.327 |
15 | 0.037 | 0.813 | 1.87 | 267.237 |
12 | 0.053 | -2.598 | 2.85 | 287.144 |
8 | 0.089 | 2.633 | 5.066 | 65.481 |
10 | 0.101 | -0.728 | 3.222 | 198.698 |
0 | 0.129 | 3.943 | 2.354 | 181.852 |
5 | 0.159 | 1.528 | 3.592 | 110.366 |
11 | 0.174 | 0.919 | 1.705 | 171.592 |
1 | 0.33 | 1.692 | 3.051 | 134.291 |
2 | 0.413 | 0.978 | 2.09 | 192.461 |
4 | 0.571 | 1.22 | 7.2 | 66.0 |
14 | 0.667 | 2.015 | 2.945 | 114.736 |
...