Eliteserien 2019 - hvordan blir tabellen til slutt?

Noen enkle eksplorerende analyser av ekspertmeninger for en konkurranse om å gjette plasseringer i eliteserien 2019.

Eivind Hageberg https://suppe-og-analyse.netlify.app
2019-03-31

Hvert år arrangerer noen på kontoret en Eliteserie-tippeligakonkurranse. Jeg veit lite om fotball-lagene, og har aldri tippet noe særlig - men pleier å gjøre det greit, basert på andres harde arbeid: eksperter og odds.

Her bruker jeg tidyverse, knitr og here-pakka, og en egenprodusert tabell over ulike tips til tabellplasseringer. Her har jeg også lagt på et superenkelt gjennomsnitt av lagene, for å ha noe å sortere dem etter.

Lag Nettavisen Oddschecker Dagsavisen Dagbladet Aftenposten Resultat gjennomsnitt
Molde 2 2 1 1 1.2 1 1.44
Rosenborg 1 1 2 3 1.8 3 1.76
Brann 3 3 5 2 3.2 9 3.24
Sarpsborg 08 4 4 3 5 6.2 12 4.44
Vålerenga 5 5 4 4 8.0 10 5.20
Kristiansund BK 6 9 7 9 8.0 6 7.80
Haugesund 7 7 10 8 8.0 7 8.00
Odd 8 10 9 6 8.0 4 8.20
Lillestrøm 10 11 6 7 8.0 14 8.40
Strømsgodset 9 6 15 12 9.4 11 10.28
Bodø/Glimt 15 12 8 10 8.0 2 10.60
Tromsø 11 8 13 15 9.4 15 11.28
Stabæk 13 14 11 14 11.8 8 12.76
Ranheim 12 15 16 11 11.4 16 13.08
Viking 14 13 12 16 14.4 5 13.88
Mjøndalen 16 16 14 13 13.6 13 14.52

Kilder: NordicBet - Nettavisen - Tidens Krav - Oddschecker - Dagsavisen - Dagbladet - Aftenposten.

Aftenposten-plasseringa er litt annerledes enn de øvrige, ettersom de har spurt fem eksperter om topp tre og bunn tre. Jeg har bare tatt gjennomsnittene av dette.

I en ideell verden skulle jeg også gjerne hatt med lagenes budsjetter. Det har jeg imidlertid ikke klart å skrape sammen, så det får være en god ide til seinere.

En måte å vise plasseringene på, er med en fargelagt tabell. Her ser vi enklere enn med de rene tallene at det er nokenlunde stor enighet om de øverste fire-fem lagene, og de fire-fem nederste. Hvilke lag som blir plassert hvor blant de seks i midten varierer imidlertid mer.

#eksperiment med en heatmap-table
temp = gather(df,kilde,plassering,Nettavisen:gjennomsnitt)

ggplot(data = temp, aes(x=as.factor(kilde), y = fct_reorder(as.factor(Lag), plassering, .fun = mean, .desc = TRUE)))+
  geom_tile(aes(fill = plassering))+
  labs(x = "Kilde", y = "Lag", title = "Molde og Rosenborg i topp, Mjøndalen og Viking i bunn")+
  scale_fill_gradient2(low = "steelblue", mid = "grey", high = "orange", midpoint = 8)

Her har jeg altså 16 lag med fem tips per lag. Varmekartet gir et raskt overblikk, menen ganske diffus oversikt over de faktiske spredningene for de enkelte lagene.

ggplot(data = filter(temp, kilde != "gjennomsnitt"), aes(x = fct_reorder(as.factor(Lag), plassering, .fun = mean, .desc = TRUE), y = plassering)) + 
  #her bruker vi et boksplot for å vise variasjonen i plasseringer for hvert enkelt lag, men gjør det gjennomsiktig
  geom_boxplot(alpha=0) +
  #det er heller ikke flere punkter for hvert enkelt lag enn at en kan vise alle.
  geom_jitter(color="steelblue",alpha=0.3) +
  labs(x = "Lag", y = "Plassering", title = "Stor variasjon i tips for lag midt på tabellen", subtitle = "Større enighet om topp og bunn") + 
  coord_flip()

Her ser vi tydeligere at konsensusen er størst om de øverste lagene. De lavere lagene på den nedre halvdelen av tabellen har større spredning i tabellposisjoner. Det ser en av spredningen på punktene, og størrelsen på boksene. Særlig Strømsgodset splitter folk.

Boksplottene viser medianen som midtpunkt. Her får en fram at Ranheim havner på kvalifiseringsplass om en legger gjennomsnitt til grunn, fordi en av ekspertene har svært lave forventninger til laget. Medianen legger dem imidlertid på fjerde siste plass, og lar Stabøk gå ned i stedet. Er det mer fornuftig å la ekstre stemmer telle likt, eller skal en heller legge vekt på konsensuspunktet?

Jeg har ikke den fjerneste anelse. Da velger jeg det enkleste, og går for gjennomsnittet som mitt innspill til årets tippekonkurranse.