Dieser Beitrag ist der erste Beitrag einer Serie von drei Beiträgen, in denen wir eine Analyse von Fußballdaten vorstellen. In dieser Serie analysieren wir die von Stats Bomb bereitgestellten Daten, die Methoden sind jedoch leicht auf andere Datensätze übertragbar. Diese Arbeit ist das Ergebnis des Praktikums von Joseph Horgan bei pmOne, einem Daten- und KI-Unternehmen mit Sitz in Deutschland. Er wurde in Zusammenarbeit mit Sascha Henzgen, Pascal Schulz und Stefan Balke verfasst.
In diesem ersten Beitrag führen wir den Leser in das Thema Sportanalytik ein und geben einen ersten Einblick in die Daten und erklären die zugrunde liegende Struktur. Im zweiten Beitrag bauen wir ein unternehmenstaugliches Dashboard in Power BI auf und erweitern die Analyse in diesem interaktiven Tool. Im dritten Beitrag stellen wir ein erstes "Scoring"-Modell vor, d.h. wie wahrscheinlich es ist, dass die aktuellen Spielerpositionen zu einem Tor führen. Beginnen wir ohne Umschweife mit dem ersten Beitrag:
Wenn man Sportanalytik sagt, denken wir alle an "Moneyball", die Geschichte, wie der Manager der Oakland Athletics, Billy Beane, das Gesicht des professionellen Baseballs für immer veränderte (Lewis, 2003).
Billy Beane war der Meinung, dass die Art und Weise, in der professionelle Baseballteams Spieler bewerteten und ihnen einen Wert beimaßen, im Laufe des letzten Jahrhunderts veraltet war. Er erkannte, dass diese Methode von Natur aus fehlerhaft war und sich stark auf die subjektiven Meinungen von Scouts und Trainern stützte. Die Oakland Athletics ließen stattdessen die Leistungskennzahlen der Spieler, wie z. B. den Schlagdurchschnitt und den On-Base-Prozentsatz, als Entscheidungsgrundlage für die Auswahl eines Teams zu. Mit diesem neuen Ansatz konnten die Oakland Athletics leistungsstarke, aber unterbewertete Spieler finden, die es ihnen ermöglichten, mit Teams aus größeren Märkten zu konkurrieren und eine rekordverdächtige Siegesserie von 20 Spielen in Folge zu erreichen.
Dieser Trend wurde schnell von anderen großen amerikanischen Sportligen (NBA, NHL und NFL) übernommen. Die Datenanalytik hat das Basketballspiel revolutioniert, da die Spieler nun darauf trainiert werden, mit geringerer Wahrscheinlichkeit 3-Punkt-Würfe statt der sichereren 2-Punkt-Würfe zu treffen. Und warum? Trotz der geringeren Trefferwahrscheinlichkeit ist der erwartete Punktertrag pro Schuss (prozentuale Trefferwahrscheinlichkeit multipliziert mit dem Ergebniswert) deutlich höher (Goldsberry, 2019). In der nachstehenden Abbildung sehen wir deutlich den Rückgangder Schüsse innerhalb der 3-Punkte-Linie und den Anstieg der Schüsse außerhalb (Soares, 2020).
Widerstand gegen die Analytik
Während andere Sportarten eine Datenrevolution erlebten, waren Fußballmannschaften skeptisch und nahmen diese Analysemethode nur langsam an. Dafür gibt es mehrere Gründe.
- Erstens können wir die Unterschiede zwischen Fußball und den anderen amerikanischen Sportarten betrachten. Basketball und American Football sind eher diskontinuierliche Sportarten, d. h. sie werden nach dem Prinzip "Stop-Start" gespielt, so dass sich die Spielphasen leicht kategorisieren und analysieren lassen. Fußball hingegen wird kontinuierlich gespielt, und diese fließende Spielweise macht es schwierig, das Spiel in leicht zu analysierende Abschnitte zu unterteilen.
- Zweitens: Fußball ist ein Spiel mit wenigen Toren. Die durchschnittliche Anzahl der in einem Spiel der Premier League erzielten Tore liegt bei 2,66. Das macht den Sport sehr anfällig dafür, dass ein Ereignis mit geringer Wahrscheinlichkeit das Ergebnis eines Spiels komplett verändert, z. B. wenn ein Torwart von der Linie abweicht, den Ball an einen wartenden Gegner verliert und ein Tor erzielt (siehe Neuer...) oder wenn ein Schiedsrichter eine fragwürdige Elfmeterentscheidung trifft (Stevenson, 2020).
- Drittens können wir einen Blick auf die früheren Methoden der Datenerfassung werfen. Vor dem Aufkommen von tragbaren GPS-Geräten und Hightech-Feldkameras konnten Analysten nur mit sehr begrenzten Daten arbeiten, die oft von Hand und häufig nur für den Spieler in Ballbesitz gesammelt wurden. In einem 90-minütigen Fußballspiel hat der durchschnittliche Spieler nur etwa 3 Minuten lang Ballbesitz. Das bedeutet, dass Analysten nur einen winzigen Prozentsatz der Positionsdaten eines Spielers während eines Spiels zur Verfügung hatten (Evaldt, 2019).
- Und nicht zuletzt die Menge der Daten, die in einer Saison gesammelt werden können. Ein Team der Premier League bestreitet etwa 38 Spiele pro Saison, verglichen mit den 82 Spielen eines NBA-Teams und den 162 Spielen eines MLB-Teams. Der Fußball ist also bei der Anzahl der Datenpunkte, die in einer Saison gesammelt werden können, im Nachteil.
Ein Mentalitätswandel
Die Einführung neuer Technologien, die in der Lage sind, kontinuierlich Daten für jeden Spieler auf dem Spielfeld aufzuzeichnen, hat sowohl die Menge als auch die Qualität der verfügbaren Daten erheblich gesteigert. Die Anwendung der Fortschritte in der Computer Vision hat es Datenanbietern wie OPTA und StatsBomb ermöglicht, anhand von Spielaufzeichnungen detaillierte Datensätze für jedes Ereignis und jeden Spielerstandort zu sammeln. Die Entwicklung kleiner, tragbarer GPS-Geräte, wie die von KINEXON, hat es außerdem ermöglicht, den Standort der Spieler zu verfolgen, wenn die Kameras ausgeschaltet sind. Die Verbreitung hochwertiger Daten hat zu einem deutlichen Wandel in der Einstellung der Teams zur Analyse geführt. Viele Teams beschäftigen nun Vollzeit-Datenwissenschaftler und Analyseabteilungen, um sich einen Wettbewerbsvorteil zu verschaffen (Harper, 2021).
Fußball-Analytik im akademischen Bereich
Mit der Zunahme der verfügbaren Daten hat die Popularität des Fußballs als Forschungsthema natürlich zugenommen, insbesondere bei Bachelor- und Masterarbeiten.
Berühmte Modelle zur Vorhersage von Spielergebnissen stammen von Dixon und Coles aus dem Jahr 1997 (Mark Dixon, 1997). Mit Hilfe eines Poisson-Regressionsmodells sagten sie die erzielten Tore und damit den Spielausgang voraus. Ihr Modell wurde dann mit dem Wettmarkt des jeweiligen Tages verglichen und lieferte positive Ergebnisse, wenn es als Wettstrategie eingesetzt wurde. Das Modell ging davon aus, dass die Offensiv- und Defensivqualitäten der einzelnen Mannschaften während der gesamten Saison konstant bleiben. Dies wurde später aufgegriffen und im Jahr 2002 dynamisiert (Crowder, Dixon, Ledford, & Robinson, 2002).
Die von Forschern entwickelten Bewertungsmaßstäbe sind auch für Analysten und Fernsehjournalisten immer wichtiger geworden. Der Begriff Expected Goals (im Folgenden xG) wurde erstmals 1993 von V. Barnet et al. geprägt, als sie die Auswirkungen von Kunstrasenplätzen auf die Leistung untersuchten (Barnett & Hilditch, 1993). Seine moderne Verwendung als Wahrscheinlichkeitswert, dass ein Schuss zu einem Tor führt, wurde 2004 von Ensum et al. eingeführt (Ensum, Pollard, & Taylor, 2004). Sie untersuchten mit Hilfe einer logistischen Regression, welche Faktoren die Wahrscheinlichkeit erhöhen, dass ein Schuss ein Tor erzielt.
Mit den Fortschritten bei der Rechenleistung und der Einführung von Forumsveranstaltungen wie der MIT Sloan Sports Analytics Conference entwickelt sich der Einfluss der Analytik auf die Art und Weise, wie Fußball gespielt und verstanden wird, ständig weiter.
Von der Analyse und Visualisierung nach dem Spiel bis hin zur Implementierung von ML-Modellen zur Vorhersage von Siegern und Verlierern eines Spiels und von Algorithmen zum Clustering von Spielern, um aufstrebende Stars zu finden, beginnen Daten endlich, dem schönen Fußball ihren Stempel aufzudrücken. Wenn man all diese neuen und aufregenden Entwicklungen nur am Rande mitbekommt, stellt sich die Frage. Was kann der Datenenthusiast tun?
Open-Source Stats Bomb Daten
Entdecke StatsBomb. Mit der rasanten Zunahme der gesammelten Spieldaten haben Fußball- und Datenenthusiasten jetzt Zugang zu mehreren Open-Source-Datensätzen, um ihre eigenen Untersuchungen und Analysen durchzuführen. Einer dieser Datensätze stammt von Stats Bomb, einem britischen Unternehmen, das sich auf die Analyse von Fußballdaten spezialisiert hat.
Daten-Screening
In diesem Abschnitt wird der Prozess der Datenerfassung, -untersuchung, -modellierung und -visualisierung beschrieben. Der Code für jeden Teil dieses Prozesses kann in diesem GitHub-Repository gefunden werden.
Sammeln von Daten
Eine detaillierte Anleitung zur Datenerfassung über die Stats Bomb API oder die geklonten Open-Source-Daten auf GitHub finden Sie auf der MPL Soccer-Webseite. Die Python-Bibliothek MPL Soccer ist ein fantastisches Werkzeug für die Fußballanalyse und wird uns bei unserer Analyse eine große Hilfe sein. Für diese Analyse haben wir unsere Daten aus dem GitHub-Repository übernommen.
Nach dem Klonen der offenen Daten aus Git, dem Extrahieren der JSON-Dateien und dem anschließenden Konvertieren und Speichern als Parkettdateiformat (Parkettdateien können die Komprimierung nutzen und die großen Ereignisdatentabellen schnell laden) bleiben acht Datenrahmen übrig. Wettbewerb, Saison, Spiel, Aufstellung, Ereignis, Einfrieren, Verwandte und Taktik.
Erkunden der Datenrahmen
Da die Daten nun zur Verfügung stehen, können wir damit beginnen, die Datenrahmen zu untersuchen.
Die Datenrahmen Wettbewerb und Saison geben uns Informationen über die verschiedenen Ligen in unserem Datensatz sowie das Saisonjahr für jeden Wettbewerb.
Wir verfügen über Spieldaten von sieben verschiedenen Wettbewerben aus 20 Jahren Wettbewerb, von 1999/2000 bis 2019/20.
Der Match Data Frame enthält Daten auf Makroebene zu allen 879 Spielen. Wir erhalten Daten zu den Endergebnissen, Heim- und Auswärtsteams sowie Manager-, Schiedsrichter- und Stadiondaten.
Die Antwort ist ja. Barcelona spielt in mehr als 55 % unserer Spiele, was verdächtig nahe an den 55 % der Spiele liegt, die in La Liga ausgetragen werden. Bei näherer Betrachtung zeigt sich, dass Barcelona in 100 % der La Liga-Spiele mitspielt, d. h. mehr als die Hälfte des Datensatzes folgt Barcelona durch seine Saisons in La Liga.
Der Datenrahmen "Aufstellung" enthält Informationen über die 11 Spieler, die für jede Mannschaft in der Anfangsformation stehen, sowie über alle Auswechslungen, die in diesem Spiel vorgenommen wurden.
Der Ereignisdatenrahmen ist mit über 3 Millionen Zeilen der größte in unseren Open-Source-Daten und liefert detaillierte Informationen zu jedem Ereignis in einem Spiel.
Spielen wir ein wenig herum und versuchen wir, die häufigsten Ereignistypen in einem Spiel zu visualisieren.
Der Datenrahmen "Related" setzt die eindeutige Kennung eines Ereignisses aus der Ereignis-DF mit einer anderen eindeutigen Ereignis-Kennung in Beziehung, wenn die beiden miteinander in Verbindung stehen. Ein Beispiel: Die Ereignis-ID für den Pass von Spieler 1 zu Spieler 2 wäre mit der Ereignis-ID für die Ballannahme von Spieler 2 durch Spieler 1 verbunden.
Mit den obigen Tabellen können wir schnell die eindeutigen Identifikationsschlüssel aus jedem unserer Datenrahmen verwenden und ein relationales Schema ähnlich einem Sternschema erstellen. Im zweiten Blogbeitrag dieser Reihe verwenden wir dieses Schema, um uns dabei zu helfen, Daten in Microsoft Power BI zu visualisieren.
Datenvisualisierung
Mit der Verwendung von Python und der MPL Soccer Library können wir nun mit der Visualisierung der Daten beginnen und sehen, welche Erkenntnisse aus relativ einfachen Visualisierungen gewonnen werden können.
Ereignisdaten
Am aufregendsten zu visualisieren sind vielleicht die Eventdaten, insbesondere die Spielerstandorte bei bestimmten Events. Diese Diagramme könnten für ein Trainerteam, das versucht, ein bestimmtes wiederkehrendes Ereignis zu analysieren, eine große Hilfe sein.
Wenn wir klein anfangen, können wir das MPL Soccer-Paket importieren und verwenden, um ein visuelles Spielfeld zu erstellen und darüber hinaus Standortdaten zu plotten. Das Pitch-Visual wird unter Berücksichtigung des Statistikbomben-Datensatzes erstellt, sodass die Achse zu unserem Datensatz passt. Es gibt keine standardisierte Größe für ein professionelles Fußballfeld (schockierend), aber Stats Bomb wandelt alle ihre Koordinaten so um, dass sie auf ein 120 mal 80 Meter großes Feld passen.
Wenn wir match_id 70220 zwischen Barcelona und Osasuna nehmen (warum? Weil es viele Schussereignisse enthielt und daher interessanter als andere zu visualisieren ist), können wir den Ort jedes Schusses aufzeichnen.
Als Nächstes wollen wir uns die Schuss- und Torpositionen von Barcelona für unseren gesamten Datensatz ansehen und prüfen, ob sie unsere obige Hypothese bestätigen.
Wenn wir die obigen Datenrahmen mit einer Seaborn-Heatmap aufzeichnen, erhalten wir
Voronoi-Diagramme
Ein Voronoi-Diagramm ist eine Unterteilung einer Ebene in Regionen, die einem Element einer bestimmten Menge am nächsten liegen. In unserem Fall können wir die Standortdaten der Spieler aus der Freeze-Tabelle und die Team-ID verwenden, um das Spielfeld in "Kontrollzonen" zu unterteilen. Auf diese Weise lässt sich feststellen, welche Mannschaft während eines Ereignisses bestimmte Teile des Spielfelds "kontrolliert" hat. Verwenden wir dies, um das erste Tor von match_id 70220 darzustellen.
Hier können wir sehen, wie der Schütze (rot mit schwarzem Punkt) das defensive Team geschlagen hat und nur noch am Torwart vorbei schießen muss, um ein Tor zu erzielen. Diese Art von Diagramm könnte für einen Defensivtrainer nützlich sein, um nach dem Spiel zu beurteilen, ob seine Mannschaft in der Lage war, den vom Gegner kontrollierten Raum zu minimieren oder nicht.
Konvexe Rümpfe
Eine konvexe Hülle zeichnet die Grenzen der Punkte in einer Streuung ein. Auf diese Weise können wir die Bereiche erkennen, in denen ein Spieler für eine bestimmte Untergruppe von Ereignissen aktiv war. Schauen wir uns die konvexe Hülle an, die durch Messis Schüsse im Spiel 70220 entsteht
Als Nächstes wollen wir zwei Spieler, Messi und Alves, anhand aller Ereignisse des Spiels 70220 vergleichen.
Messi (Rot) and Alves (Blau)
Da Alves eine traditionellere Rolle spielt als Messi, vergleichen wir dieses Diagramm mit dem eines anderen Spiels, in dem Barcelona verloren hat. Wir verwenden die Spiel-ID 266467, in der Barcelona mit 1:4 gegen Celta Vigo verloren hat.
Bacelons Vs Celta Vigo (links) and Vs Osasuna (rechts)
Hier sehen wir in der rechten Grafik (gegen Celta Vigo), dass Alves gezwungen war, viel defensiver zu spielen und seine Aktionen hauptsächlich in der eigenen Spielfeldhälfte zu machen.
Pass-Visualisierungen
Als Nächstes wollen wir uns ansehen, was wir in Bezug auf die Pässe der Spieler visualisieren können. Zunächst können wir einfach eine Linie einzeichnen, um die Anfangs- und Endposition eines Passes zu visualisieren, obwohl diese Darstellung ziemlich unübersichtlich werden könnte und es schwierig sein könnte, daraus Erkenntnisse zu ziehen. Zweitens können wir dem Beispielcode von @DymondFormation folgen und eine "Passnetzwerk"-Visualisierung erstellen, um die Pässe zwischen Spielern in einer bestimmten Formation darzustellen.
Zunächst werden alle Pässe aus dem Spiel 70220 nach Spielhälften aufgeschlüsselt und farblich kodiert, wobei erfolgreiche Pässe schwarz und erfolglose Pässe rot gekennzeichnet sind.
Hier ist es schwierig, andere Erkenntnisse zu gewinnen als die, dass in der zweiten Spielhälfte weniger Pässe gespielt wurden und diese eher erfolglos waren.
Hier können wir schnell sehen, von welcher Position aus die Spieler durchschnittlich passen, zu wem sie passen und wie häufig. In diesem Spiel und in dieser Formation sehen wir, dass Barcelonas Spieler auf dem rechten Flügel das Passspiel dominieren, wobei der rechte Außenverteidiger (Dani Alves) und der rechte Mittelstürmer (Messi) sich eine beträchtliche Anzahl von Pässen teilen.
Pizza-Plots
Für unseren letzten Python Plot können wir den MPL Soccer Pizza Plot verwenden, um einen Spieler in bestimmten Aspekten des Spiels zu bewerten. Für ein Player Clustering Projekt, das im dritten Beitrag untersucht wird, wurde ein Datenrahmen mit Spielermerkmalen erstellt. Diese Merkmale geben den Spielern eine Punktzahl von 0-100, je nachdem, in welchem Quantil der Spieler für das jeweilige Merkmal rangiert. Auf diese Weise können wir die Leistungsattribute von Messi und Alves in einem Pizzadiagramm visualisieren
Fazit
In diesem Beitrag haben wir uns mit den bisherigen Auswirkungen der Analytik im Sport befasst, mit der Frage, warum Fußball anfangs eine härtere Nuss war als andere Sportarten, und mit einigen aktuellen Veränderungen, die der Fußballanalytik Fortschritte ermöglicht haben. Mit den Open-Source-Daten von Stats Bomb haben wir untersucht, wie jeder mit grundlegenden Programmierkenntnissen beginnen kann, Fußballdaten zu untersuchen und mit Hilfe von Bibliotheken wie MPL Soccer aufschlussreiche Visualisierungen dieser Daten zu erstellen.
Aber was ist der nächste Schritt, um Fußballanalysen für alle zugänglich zu machen? Der Ansatz, den wir verfolgen werden, ist die Erstellung eines Soccer Analytics Dashboards mit Microsoft Power BI. Mit einem Power BI-Dashboard können auch Personen ohne Programmierkenntnisse auf eine Plattform zugreifen, mit der sie KPIs verfolgen und Visualisierungen für ihren Verein und ihre Spieler erstellen können. Im nächsten Beitrag werden wir uns das Dashboard ansehen, das für diesen Zweck erstellt wurde.
Quellen
Barnett, V., & Hilditch, S. (1993). The Effect of an Artificial Pitch Surface on Home Team Performance in Football (Soccer). Journal of the Royal Statistical Society. Series A.
Crowder, M., Dixon, M., Ledford, A., & Robinson, M. (2002). Dynamic modelling and prediction of English Football League matches for betting. Journal of the Royal Statistical Society Series D.
Ensum, J., Pollard, R., & Taylor, S. (2004). Applications of logistic regression to shots at goal in association football: calculation of shot probabilities, quantification of factors and player/team. Journal of Sports Sciences.
Evaldt, M. (2019). somazerofc. Retrieved from https://www.somazerofc.com/en/post/average-possession-time-by-player/
Goldsberry, K. (2019). How Mapping Shots In The NBA Changed It Forever . Retrieved from fivethirtyeight: https://fivethirtyeight.com/features/how-mapping-shots-in-the-nba-changed-it-forever/
Harper, J. (2021, March 5). BBC News. Retrieved from https://www.bbc.com/news/business-56164159
Lewis, M. (2003). Moneyball: The Art of Winning an Unfair Game.
Mark Dixon, S. C. (1997). Modelling Association Football Scores an Inefficiencies in the Football Betting Market . Applied Statistics, Royal Statistical Society .
Soares, R. (2020). Public Tableau. Retrieved from https://public.tableau.com/app/profile/ryansoares/viz/MostFrequentNBAShotLocations/Dashboard1
Stevenson, T. (2020). Duke University. Retrieved from https://sites.duke.edu/wcwp/2020/03/01/the-difficulty-of-statistically-analyzing-match-performance/