Elo: Der Klassiker
Ein Wert. Eine Rangliste. Jeder versteht es. Aber: Elo unterscheidet nicht zwischen einem Kämpfer mit 3 Fights und einem mit 30. Beide könnten 1250 haben — aber wie sicher sind wir bei dem Wert?
Glicko: Rating + Unsicherheit
Mark Glickman (Harvard) erweiterte Elo um eine zweite Dimension: die Rating Deviation (RD).
- Neuer Kämpfer: Rating 1200, RD 350 — Große Unsicherheit
- Aktiver Kämpfer: Rating 1300, RD 50 — Stabile Bewertung
- Inaktiv seit 2 Jahren: Rating 1280, RD 200 — Wachsende Unsicherheit
RD sinkt mit jedem Kampf (mehr Daten = mehr Sicherheit) und steigt bei Inaktivität. Glicko-2 fügt noch Volatilität (σ) hinzu — wie unberechenbar ein Kämpfer ist.
TrueSkill: Microsofts Bayesianer
Von Microsoft Research für Xbox Live entwickelt. Nutzt Bayessche Inferenz und kann Team-Spiele bewerten. Für 1v1 wie MMA ist es äquivalent zu Glicko — aber rechenaufwändiger.
| Elo | Glicko / TrueSkill |
|---|---|
| 1 Wert pro Fighter | 2–3 Werte pro Fighter |
| Einfach zu erklären | Komplex, braucht Statistik-Wissen |
| Keine Unsicherheit | Konfidenzintervalle möglich |
| Schnell berechenbar | Aufwändiger (Bayesian Inference) |
| Gut bei regelmäßigen Fights | Besser bei Inaktivität |
Warum Borzsport auf Elo setzt
Ein gutes Rating-System ist nicht das mathematisch perfekteste, sondern das, das seine Nutzer verstehen und dem sie vertrauen.
Drei Gründe:
- Transparenz: “1350 ist besser als 1200” versteht jeder.
- Datenqualität: Tapology-Daten haben lückenhafte Dates — Glickos Zeitkomponente wäre problematisch.
- Peer-Comparison: Statt komplexes Rating nutzen wir Percentile innerhalb der Gewichtsklasse für Kontext.
Ausprobieren: ELO-Kalkulator
Teste das Elo-System direkt — berechne Siegwahrscheinlichkeiten auf Basis von zwei Ratings:
ELO-Kalkulator
Siegwahrscheinlichkeit
1200 ELO
8002000
1200 ELO
8002000
Kämpfer A — 50%50% — Kämpfer B
Kämpfer A gewinnt mit 50% Wahrscheinlichkeit