Instructor Notes

This is a placeholder file. Please add content here.

Det indhold der med fordel kan placeres her, er noter om hvorfor kurset eksisterer, hvad dets formål er og den slags.

Reproducible Data Analysis

Instructor Note

We will not always get the same result, applying the same functions on the same data - some statistical techniques relies on randomness.

An example is k-means, that clusters data based on randomly selected initial centroids.

Reading data from fileCountryNamePhonenumber

Instructor Note

The most important point is that there is a very high probability that at least one package exists that is designed to read a specific weird data format.

Descriptive Statistics

Instructor Note

Det kan være en udfordring hvis deltagene ikke ved hvad et gennemsnit er.

En af de overordnede pointer vi gerne vil frem til her, er percentilerne og det kumulative densitetsplot - der danner grundlag for forståelsen af normalfordelingens sammenhæng med statistiske tests.

Instructor Note

This illustrates for the learners that we can calculate more than one summary statistics in one summarise function.

Hvorfor ikke bare bruge reframe generelt? Kognitivt load. Summarise angiver hvad det er vi gør. Vi summariser noget data. Reframe angiver hvordan vi omdanner et output til en dataframe. Resultatet bliver det samme, men vi taler ikke længere om hvad det egentlig er vi er ude efter i operationen.

Instructor Note

Why not just averaging the absolute values? Using the square rather than the absolute difference, weighs the deviations so larger deviations have relatively larger influence on the variance. Squaring results in a continous and differentiable function, which helps in situations where we have to do an optimisation. Also the normal distribution is defined by the variance as defined here, and we would really like to get a connection between what we observe here, and the normal distribution.

Instructor Note

Et godt spørgsmål vil være - hvorfor dividerer vi med N-1 i stedet for N?

Det kaldes for en “Bessel korrektion”. Den ene årsag til at vi gør det er, at godt nok er gennemsnittet i stikprøven et godt estimat for gennemsnittet i populationen. Men det er ikke præcis det samme. Når vi dividerer med et mindre tal, får vi en større værdi for variancen - og dermed et mere konservativt, eller forsigtigt, estimat på variansen.

Den anden årsag handler om frihedsgrader. Hvis vi har tre værdier og et gennemsnit, kan vi vælge hvad de to af værdierne er, og hvad gennemsnittet er. Helt frit. Men den tredie værdi er givet. Den kan vi ikke vælge frit.

Instructor Note

probs because if we select a random penguin, we have a 25% chance of selecting a penguin that weighs less than 3550 gram. This ties in to percentiles and qq-plots.

Instructor Note

den skal vi nok have beskrevet lidt mere.

Men pointen er, at vi for enhver værdi kan aflæse ting. Hvor stor en andel af pingvinerne vejer mindre end 3000 g? Vi kan finde 3000 på x-aksen, og aflæse den matchende værdi på y-aksen.

Det svarer også til - hvis vi tager en tilfældig pingvin, hvad er så sandsynligheden for at den vejer mindre end 3000 gram? Eller for at den vejer mere end 5000 gram?

Instructor Note

Nej, det er ikke på nogen måde intuitivt. Vi må nok finde ud af hvorfor konventionen er som den er.

Histograms

Table One

Instructor Note

Primarily of use if there are medical students on the course

Table One - gt

Instructor Note

Primarily of use if there are medical students on the course

Tidy Data

The normal distribution

Instructor Note

Inline instructor notes can help inform instructors of timing challenges associated with the lessons. They appear in the “Instructor View”

Testing for normality

Instructor Note

These tests can be difficult for learners that have not encountered hypothesis-testing before.

How is the data distributed?

Instructor Note

Det er nødvendigt at specificere at vi bruger dplyr::select da den maskeres af MASS-pakken

Instructor Note

Og her er det vi holder dem fast på at det faktisk er dem selv der er de bedst kvalificerede til at afgøre det. For det er dem der forstår domænet og data.

Instructor Note

“Real numbers”, på dansk reelle tal. Hvis du ved hvad imaginære tal er, ved du også hvad reelle tal er. Hvis ikke - så er reelle tal alle de tal du vil tænke på som tal.

Linear regression

Instructor Note

Bremselængden er faktisk ikke en lineær funktion af hastigheden. Bilen har kinetisk (bevægelses) energi så længe den bevæger sig. Den skal vi have ned på 0. Og eftersom den kinetiske energi er givet ved \(E_{kin} = \frac{1}{2}mv^2\) hvor m er bilens masse og v er hastigheden, vil dist afhænge af speed i anden.

Multiple Linear Regression

LASSO regularisation

Logistic regression

Central Limit Theorem

Nicer barcharts

Instructor Note

Men det er egentlig ikke vigtigt her - fokus er på hvordan man får et barchart til at se pænere ud.

Instructor Note

Ja, det er let nok ellers, men nu er det ekstremt let.

Power Calculations

k-means

ANOVA

Cohens Kappa

R on UCloud

Instructor Note

To do: hyperlink to the parallelization page for more on cores and parallellization:

For your code to make use of the fact that you have multiple cores, and get the speed benefits, you need to set it up do so. This is called parallellization. It is sometimes worthwhile, but not always. You can read our short guide on parallellization here.

Samtlige eksempler bør omlægges til noget der bruger datasæt enten fra denne side selv, eller fra https://vincentarelbundock.github.io/Rdatasets/

skal indsættes: