Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих

Автор: Владимир Спирин • Апрель 17, 2023 • Контрольная работа • 1,413 Слов (6 Страниц) • 257 Просмотры

Страница 1 из 6

Оглавление

Задача 1. Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих. 1

Задача 2. Оценка стоимости домов в Калифорнии. 3

Задача 3. Классификация мобильных телефонов. 7

Задача 1. Помощь скаутинговому отделу футбольному клуба в поиске похожих нападающих.

Задачей отдела селекции (скаутингового отдела) является поиск игрока, подходящего клубу взамен уже ушедшего игрока, либо качественное усиление позиции. При этом на первоначальном этапе отбора потенциальных кандидатов вряд ли можно определить четкие критерии, позволяющие это делать. Вместо этого предлагается упростить данный этап с помощью кластеризации данных. Это позволяет использовать данные об одном игроке, чтобы найти ему подобных, исходя из статистики за сезон.

Чтобы наиболее точно определить кластеры (группы) похожих друг на друга футболистов, необходимо найти атрибуты, определяющие, как стиль, так и уровень футболиста.

Перечислим все самые важные критерии для выбора нападающего:

Роль – футболист основы или же выходящий на замену.
Частота ударов за матч
Насколько часто нападающий забивает
Реализует ли нападающий свои моменты во время матча.

Для обучения используется набор Top Football Leagues Scorers с сайта Kaggle. В нём хранятся данные по голам нападающих из лучших лиг с сайта InfoGoal за 2016-2020. Оценка качества футболиста должны быть актуальной, поэтому были выбраны данные только за 2020 год, как самый последний. Cписок используемых атрибутов из данного датасета представлен ниже:

Matches_played – количество игр за сезон
Substitution - количество выходов на замену
Mins – число сыгранных минут за сезон
Goals – голы за сезон
xG – ожидаемые голы
Shots Per Avg Match – ударов в среднем за матч

Для решения задачи кластеризации были созданы переменные, характеризующие нападающего по вышеописанным критериям, а именно:

Diff_goals_XG. Разница голов с xG = . Показатель отображает реализацию нападающего. Если показатель положителен, то нападающей забивает больше ожидаемого, что говорит о его уровне реализации моментов.[pic 1]
coef_sub. Процент игр в основе = . Показатель, близкий к 1, говорит о частом выходе на замену, близкий к 0 – о частом выходе в старте[pic 2]
min_per_goal. Соотношение минуты к голам = . Данный параметр показывает насколько эффективно нападающий действует в отведенное ему время.[pic 3]

Таким образом, кластеризация будет производиться по следующим атрибутам: Diff_goals_XG, coef_sub, min_per_goal, Shots Per Avg Match.

Проведя нормализацию данных, необходимо понять, возможна ли их кластеризация. Для этого используется статистики Хопкинса: если её значение будет близко к 1, то это будет свидетельствовать о возможности группировки данных. Для данного набора данных она равна 0.8609, что

распределение, поэтому используется метод Affinity propagation. После обучения метода требуется оценить качество кластеризации. Весь набор был разбит на 18 кластеров. Приведена таблица средних для каждого ключевого параметра, отсортированного по coef_sub, чтобы увидеть различия в группах.

similar_forwards	coef_sub	Diff_goals_XG	Shots Per Avg Match	min_per_goal
9	0.009	0.314	3.853	137.63
6	0.012	1.784	2.102	209.393
3	0.014	0.291	2.288	139.068
7	0.016	1.983	3.107	139.88
13	0.026	5.568	3.157	137.327
15	0.037	0.813	1.87	267.237
12	0.053	-2.598	2.85	287.144
8	0.089	2.633	5.066	65.481
10	0.101	-0.728	3.222	198.698
0	0.129	3.943	2.354	181.852
5	0.159	1.528	3.592	110.366
11	0.174	0.919	1.705	171.592
1	0.33	1.692	3.051	134.291
2	0.413	0.978	2.09	192.461
4	0.571	1.22	7.2	66.0
14	0.667	2.015	2.945	114.736

...

Скачать: txt (19.4 Kb) pdf (808.1 Kb) docx (1.3 Mb)

Продолжить читать еще 5 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club