KI Prognosen

Laptop mit stilisiertem neuronalen Netz neben einem Fußball auf einem Schreibtisch

Wenn von künstlicher Intelligenz im Fußball die Rede ist, schwingt immer ein Versprechen mit: Der Algorithmus sieht, was Menschen übersehen. Er verarbeitet tausende Datenpunkte in Sekunden, erkennt Muster in historischen Ergebnissen und berechnet Wahrscheinlichkeiten mit einer Präzision, die kein menschliches Gehirn erreicht. So weit die Theorie.

Die Praxis ist weniger glamourös. KI-basierte Fußballprognosen sind weder unfehlbar noch mysteriös. Sie basieren auf konkreten mathematischen Modellen, die mit konkreten Daten gefüttert werden und konkrete — und messbare — Ergebnisse liefern. Manche dieser Ergebnisse sind beeindruckend. Andere sind ernüchternd. Und genau diese Differenz ist es, die jeder verstehen sollte, bevor er einer KI-Prognose vertraut.

Dieser Artikel zeigt, welche Modelltypen im Fußball zum Einsatz kommen, wie ihre Genauigkeit gemessen wird und wo selbst die besten Algorithmen an ihre Grenzen stoßen.

Modelle im Überblick: Random Forest, Bayes, neuronale Netze

Hinter dem Sammelbegriff «KI-Prognose» verbergen sich sehr unterschiedliche Ansätze. Die drei wichtigsten für den Fußball: Ensemble-Methoden wie Random Forest, bayesianische Modelle und neuronale Netze. Jeder Ansatz hat eigene Stärken — und eigene Schwachstellen.

Random Forest ist ein Ensemble-Verfahren, das Hunderte von Entscheidungsbäumen parallel trainiert und deren Ergebnisse aggregiert. Jeder Baum sieht nur einen zufälligen Ausschnitt der Daten, was Überanpassung reduziert. Für Fußballprognosen heißt das: Das Modell lernt aus historischen Spielen, welche Kombinationen von Faktoren — Heimvorteil, Formkurve, xG-Differenz, Kaderstärke — mit welchen Ergebnissen korrelieren. Die Stärke liegt in der Robustheit. Random-Forest-Modelle kommen gut mit verrauschten Daten zurecht und liefern selbst bei begrenzten Trainingsmengen brauchbare Ergebnisse.

Bayesianische Modelle funktionieren anders. Sie starten mit einer Vorannahme — einer sogenannten Prior-Verteilung — und aktualisieren diese mit jedem neuen Datenpunkt. Im Fußballkontext: Ein Bayes-Modell beginnt beispielsweise mit der historischen Torverteilung einer Liga und passt diese Schätzung Spiel für Spiel an. Der Vorteil: Bayes-Modelle quantifizieren ihre eigene Unsicherheit. Sie sagen nicht nur «Team A gewinnt mit 58 Prozent», sondern auch «und unsere Konfidenz in diese Schätzung beträgt so und so viel». Für jemanden, der auf Basis dieser Wahrscheinlichkeiten Entscheidungen treffen will, ist das ein erheblicher Mehrwert.

Neuronale Netze sind die komplexeste Variante. Sie bestehen aus verschalteten Schichten künstlicher Neuronen und können nichtlineare Zusammenhänge modellieren, die für die anderen Ansätze unsichtbar bleiben. In der Theorie sind sie den einfacheren Modellen überlegen. In der Praxis hängt das stark von der Datenmenge ab. Fußball produziert pro Saison und Liga nur rund 300 bis 400 Spiele — für tiefe neuronale Netze ist das wenig. Die Gefahr der Überanpassung ist real: Das Modell «lernt» Muster, die nur im Trainingsdatensatz existieren, aber in neuen Spielen nicht auftreten.

Die Wahl des Modells ist also keine rein technische Entscheidung. Sie hängt von der Datenlage ab, von der Fragestellung und von den Ressourcen. In der akademischen Forschung dominieren derzeit Random-Forest- und Bayes-Ansätze, weil sie mit den vergleichsweise kleinen Fußball-Datensätzen besser umgehen als datenintensive Deep-Learning-Architekturen. Für den Praxiseinsatz bei Prognosen ist das ein wichtiger Hinweis: Komplexer bedeutet nicht automatisch besser.

Genauigkeit messen: AUC, R², Accuracy — was zählt?

Ein Modell ist nur so gut wie seine messbare Leistung. Aber welche Metrik ist die richtige? Im Fußball konkurrieren drei Maßstäbe um Aufmerksamkeit: Accuracy, R² und AUC-ROC. Sie messen unterschiedliche Dinge, und wer sie verwechselt, zieht falsche Schlüsse.

Accuracy — die einfachste Metrik — gibt den Anteil korrekt vorhergesagter Ergebnisse an. Ein Modell, das in 65 von 100 Spielen den richtigen Ausgang tippt, hat eine Accuracy von 65 Prozent. Das klingt überschaubar, ist aber im Fußball ein ordentlicher Wert. Bei drei möglichen Ausgängen (Sieg, Remis, Niederlage) liegt die Zufallsgrenze bei etwa 33 Prozent. Die besseren Modelle erreichen Werte zwischen 50 und 68 Prozent, je nach Liga und Datengrundlage.

R² (Bestimmtheitsmaß) misst, wie gut ein Modell die Varianz in den Daten erklärt. Ein R² von 0,90 bedeutet: 90 Prozent der Streuung im Zielwert werden durch das Modell erklärt. Im xG-Kontext: Wie präzise sagt das Modell die tatsächlichen Tore vorher? Eine Studie in Applied Sciences (MDPI, 2024) zeigte, dass xG-Modelle mit fortgeschrittenem Feature Engineering R²-Werte zwischen 83 und 95 Prozent erreichen können — ein deutlicher Sprung gegenüber Basismodellen, die nur Schussentfernung und -winkel berücksichtigen.

AUC-ROC schließlich misst die Trennschärfe eines Klassifikators: Wie gut unterscheidet das Modell zwischen den Klassen (Tor vs. kein Tor, Sieg vs. kein Sieg)? Ein AUC-Wert von 0,5 entspricht Zufall, 1,0 wäre perfekte Trennung. Ein bayesianisches xG-Modell, das in einer Studie in Frontiers in Sports and Active Living mit nur sieben Variablen arbeitete, erreichte einen AUC-Wert von 0,781. Das liegt nahe an proprietären Industriemodellen wie StatsBomb (AUC 0,801) — und zeigt, dass bereits relativ einfache Modelle konkurrenzfähige Ergebnisse liefern.

Welche Metrik die relevanteste ist, hängt vom Einsatzzweck ab. Wer Spielausgänge vorhersagen will, schaut auf Accuracy. Wer xG-Werte für Torerwartungen nutzt, braucht R². Wer einzelne Torchancen bewerten will, braucht AUC. Die Metrik muss zur Frage passen — sonst vergleicht man Äpfel mit Birnen.

Grenzen der KI: wo der Algorithmus versagt

Die Zahlen klingen vielversprechend. Aber sie erzählen nur die halbe Geschichte. Denn jedes Modell operiert innerhalb von Annahmen, und wenn diese Annahmen nicht mehr gelten, bricht die Vorhersagekraft zusammen.

Das offensichtlichste Problem: unvorhersehbare Ereignisse. Rote Karten in der Anfangsphase, Verletzungen von Schlüsselspielern während des Spiels, extreme Wetterbedingungen — nichts davon steckt im Modell. Ein Algorithmus, der auf Pre-Match-Daten trainiert wurde, kann nicht wissen, dass der gegnerische Torwart in der zwölften Minute vom Platz fliegt. Solche Ereignisse sind selten, aber wenn sie eintreten, entwerten sie die gesamte Prognose.

Subtiler, aber ebenso gravierend: Kontextfaktoren, die sich nicht quantifizieren lassen. Ein Trainerwechsel verändert die Spielphilosophie, manchmal innerhalb einer Woche. Ein Transferfenster bringt neue Spieler, deren Wechselwirkungen mit dem bestehenden Kader kein Modell vorhersehen kann. Saisonale Motivationsunterschiede — der Unterschied zwischen einem Abstiegskampf und einem bedeutungslosen letzten Spieltag — tauchen in keinem Feature-Set auf.

Dazu kommt ein strukturelles Problem: Fußball hat eine niedrige Stichprobengröße. In einer Bundesliga-Saison finden 306 Spiele statt. Das reicht für statistisch belastbare Trends, aber nicht für die feingranulare Differenzierung, die tiefe Lernmodelle brauchen. Wer mit neuronalen Netzen auf Bundesliga-Daten trainiert, riskiert, dass das Modell die Eigenheiten einer bestimmten Saison lernt statt allgemeingültige Muster.

Und schließlich: Kein Modell kennt die Zukunft. Es extrapoliert aus der Vergangenheit. Solange sich die Bedingungen nicht grundlegend ändern, funktioniert das meistens gut genug. Aber Fußball ist ein Spiel, das sich ständig weiterentwickelt — taktisch, physisch, regulatorisch. Ein Modell, das vor drei Jahren optimiert wurde, kann heute bereits veraltet sein.

Fazit

KI-Prognosen im Fußball sind weder Magie noch Schwindel. Sie sind Werkzeuge — leistungsfähig, messbar, aber begrenzt. Random Forest, bayesianische Modelle und neuronale Netze bringen jeweils eigene Stärken mit, und die besten Ergebnisse entstehen dort, wo Modelltyp, Datenlage und Fragestellung zusammenpassen.

Wer KI-Prognosen nutzen will, sollte zwei Dinge tun: Erstens verstehen, was das Modell tatsächlich misst und welche Metrik es optimiert. Zweitens akzeptieren, dass kein Algorithmus die Komplexität eines Fußballspiels vollständig abbilden kann. Die klügste Nutzung von KI im Fußball ist nicht die blinde Übernahme einer Zahl, sondern die Kombination aus algorithmischer Wahrscheinlichkeit und menschlichem Kontextwissen.