Suppe og analyse: Eliteserien 2019 - hvordan blir tabellen til slutt?

Hvert år arrangerer noen på kontoret en Eliteserie-tippeligakonkurranse. Jeg veit lite om fotball-lagene, og har aldri tippet noe særlig - men pleier å gjøre det greit, basert på andres harde arbeid: eksperter og odds.

Her bruker jeg tidyverse, knitr og here-pakka, og en egenprodusert tabell over ulike tips til tabellplasseringer. Her har jeg også lagt på et superenkelt gjennomsnitt av lagene, for å ha noe å sortere dem etter.

Lag	Nettavisen	Oddschecker	Dagsavisen	Dagbladet	Aftenposten	Resultat	gjennomsnitt
Molde	2	2	1	1	1.2	1	1.44
Rosenborg	1	1	2	3	1.8	3	1.76
Brann	3	3	5	2	3.2	9	3.24
Sarpsborg 08	4	4	3	5	6.2	12	4.44
Vålerenga	5	5	4	4	8.0	10	5.20
Kristiansund BK	6	9	7	9	8.0	6	7.80
Haugesund	7	7	10	8	8.0	7	8.00
Odd	8	10	9	6	8.0	4	8.20
Lillestrøm	10	11	6	7	8.0	14	8.40
Strømsgodset	9	6	15	12	9.4	11	10.28
Bodø/Glimt	15	12	8	10	8.0	2	10.60
Tromsø	11	8	13	15	9.4	15	11.28
Stabæk	13	14	11	14	11.8	8	12.76
Ranheim	12	15	16	11	11.4	16	13.08
Viking	14	13	12	16	14.4	5	13.88
Mjøndalen	16	16	14	13	13.6	13	14.52

Kilder: NordicBet - Nettavisen - Tidens Krav - Oddschecker - Dagsavisen - Dagbladet - Aftenposten.

Aftenposten-plasseringa er litt annerledes enn de øvrige, ettersom de har spurt fem eksperter om topp tre og bunn tre. Jeg har bare tatt gjennomsnittene av dette.

I en ideell verden skulle jeg også gjerne hatt med lagenes budsjetter. Det har jeg imidlertid ikke klart å skrape sammen, så det får være en god ide til seinere.

En måte å vise plasseringene på, er med en fargelagt tabell. Her ser vi enklere enn med de rene tallene at det er nokenlunde stor enighet om de øverste fire-fem lagene, og de fire-fem nederste. Hvilke lag som blir plassert hvor blant de seks i midten varierer imidlertid mer.

#eksperiment med en heatmap-table
temp = gather(df,kilde,plassering,Nettavisen:gjennomsnitt)

ggplot(data = temp, aes(x=as.factor(kilde), y = fct_reorder(as.factor(Lag), plassering, .fun = mean, .desc = TRUE)))+
  geom_tile(aes(fill = plassering))+
  labs(x = "Kilde", y = "Lag", title = "Molde og Rosenborg i topp, Mjøndalen og Viking i bunn")+
  scale_fill_gradient2(low = "steelblue", mid = "grey", high = "orange", midpoint = 8)

Her har jeg altså 16 lag med fem tips per lag. Varmekartet gir et raskt overblikk, menen ganske diffus oversikt over de faktiske spredningene for de enkelte lagene.

ggplot(data = filter(temp, kilde != "gjennomsnitt"), aes(x = fct_reorder(as.factor(Lag), plassering, .fun = mean, .desc = TRUE), y = plassering)) + 
  #her bruker vi et boksplot for å vise variasjonen i plasseringer for hvert enkelt lag, men gjør det gjennomsiktig
  geom_boxplot(alpha=0) +
  #det er heller ikke flere punkter for hvert enkelt lag enn at en kan vise alle.
  geom_jitter(color="steelblue",alpha=0.3) +
  labs(x = "Lag", y = "Plassering", title = "Stor variasjon i tips for lag midt på tabellen", subtitle = "Større enighet om topp og bunn") + 
  coord_flip()

Her ser vi tydeligere at konsensusen er størst om de øverste lagene. De lavere lagene på den nedre halvdelen av tabellen har større spredning i tabellposisjoner. Det ser en av spredningen på punktene, og størrelsen på boksene. Særlig Strømsgodset splitter folk.

Boksplottene viser medianen som midtpunkt. Her får en fram at Ranheim havner på kvalifiseringsplass om en legger gjennomsnitt til grunn, fordi en av ekspertene har svært lave forventninger til laget. Medianen legger dem imidlertid på fjerde siste plass, og lar Stabøk gå ned i stedet. Er det mer fornuftig å la ekstre stemmer telle likt, eller skal en heller legge vekt på konsensuspunktet?

…

Jeg har ikke den fjerneste anelse. Da velger jeg det enkleste, og går for gjennomsnittet som mitt innspill til årets tippekonkurranse.