All videos:
(254) StatsLearning Lecture 1 - part1 - YouTube

Book:

!ISLP_websit__ISLP_website__e 1.pdf

![[ISLP_website (1).pdf]]

Statistical Learning

Overview of Statistical Learning

Overview

Statistical Learning umfasst Werkzeuge zur Datenanalyse. Es gibt zwei Haupttypen: supervised und unsupervised learning.

Supervised Learning

Was ist der Unterschied zwischen Regression und Classification?
?

Supervised

Supervised Learning baut Modelle zur Vorhersage von Outputs (Y) aus Inputs (X):

Regression: Vorhersage eines quantitativen Outputs.

Classification: Vorhersage eines qualitativen Outputs.

Unsupervised Learning

Unsupervised

Unsupervised Learning bestimmt Beziehungen aus Inputs (X), ohne supervisierte Outputs:

Clustering: Gruppierung basierend auf Ähnlichkeiten.

Association: Identifizierung von Regeln in Daten.

Lineare Regression

Was sind die Fehler Komponenten der STL
?

Lineare

Das Hauptproblem ist, dass wir (Y) und (X) kennen, jedoch nicht die wahre Funktion (f):

Y=f(X)+ϵ

(\epsilon) ist dabei das Rauschen bzw. der Messfehler.

Wir wollen eigentlich die Approximation herausfinden:

Y^=f^(X)

Warum schreibt man hier (X) und (Y) groß (Y=f(X)+ϵ)? :: Weil (Y) und (X) Zufallsvariablen aus der Stochastik sind.

  • Welcher ist der reduzierbare Fehler? :: ([f(X)f^(X)]2)
  • Welcher Fehler ist der irreduzible Fehler? :: (Var(ϵ))

Was ist die Bias Varianz Zerlegung
?

Bias-varianz-zerlegung

Die Bias-Varianz-Zerlegung hilft dabei, den erwarteten quadratischen Fehler einer Vorhersage zu verstehen. Sie teilt den Fehler in reduzierbare und irreduzierbare Komponenten auf. Der reduzierbare Fehler kann durch Verbesserung des Modells verringert werden, während der irreduzierbare Fehler durch Zufallsrauschen verursacht wird und nicht eliminiert werden kann.

E(YY^)2=E[f(X)+ϵf^(X)]2=[f(X)f^(X)]2Reducible+Var(ϵ)Irreducible
  • E ist der Erwartungswert
  • Y ist die tatsächliche Zielvariable
  • Y^ ist die vorhergesagte Zielvariable
  • f(X) ist die wahre Funktion
  • f^(X) ist die vorhergesagte Funktion
  • ϵ ist der irreduzible Fehler (Rauschen)
  • Var(ϵ) ist die Varianz des irreduziblen Fehlers

Hier ist die Notiz zur Bias-Varianz-Zerlegung der mittleren quadratischen Fehlers:

Bias-varianz-zerlegung

Die Bias-Varianz-Zerlegung ist ein Konzept in der Statistik, das die erwartete quadratische Abweichung eines Schätzers (\hat{f}(x_0)) von einem tatsächlichen Wert (y_0) in drei Komponenten zerlegt:

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ϵ)
  • (E(y0f^(x0))2: Erwartete quadratische Abweichung
  • Var(f^(x0)): Varianz des Schätzers
  • [Bias(f^(x0))]2: Quadrat des Bias des Schätzers
  • Var(ϵ): Varianz des irreduziblen Fehlers

Es gibt 2 Ansätze für die Regression welche?
?

  1. Parametrische Methode (eg. Lineare Regression) -> Hat eine starke induktive Bias, ist aber sehr effizient mit nur ein paar Parameter
  2. nicht Parametrische Modelle (e.g KNN -> Gesetzt der Kontinuität, ) -> Flexibler, Können sich viel besser an Daten anpassen, kann aber schnell overfitten

Wie sehen die Tradoffs von Modellen?
?
Pasted image 20240624205502.png

Was ist der Bias :: zu viel BIAS ist undefitting

Was ist der Variance :: zu viel Variance is overfitting

Was ist der Bias Variance Trade off
?

Bias-varianz-zerlegung

Die Bias-Varianz-Zerlegung beschreibt, wie die Erwartung des quadratischen Fehlers einer Vorhersage durch die Varianz der Vorhersage, den Bias der Vorhersage und die Varianz des irreduziblen Fehlers beeinflusst wird. Diese Zerlegung hilft, die Fehlerquellen eines Modells zu analysieren und zu verstehen.

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ϵ)
  • y0 ist der tatsächliche Wert
  • f^(x0) ist der vorhergesagte Wert
  • Var(f^(x0)) ist die Varianz der Modellvorhersage
  • Bias(f^(x0)) ist der Bias der Modellvorhersage
  • Var(ϵ) ist die Varianz des irreduziblen Fehlers

Was ist der Bayes Classifier
?

Bayes-klassifikator

Der Bayes-Klassifikator im maschinellen Lernen nutzt die bedingte Wahrscheinlichkeit, um die Wahrscheinlichkeit eines bestimmten Klassenergebnisses Y=j gegeben die Beobachtung X=x0 zu bestimmen. Diese Methode basiert auf dem Bayes-Theorem und ist besonders nützlich bei der Klassifizierung und Entscheidungsfindung.

Pr(Y=jX=x0)
  • Y ist die Zielvariable oder Klasse
  • j ist ein spezifischer Wert oder eine Klasse, die Y annehmen kann
  • X ist die Merkmalsvariable
  • x0 ist ein spezifischer Wert oder Beobachtung, die X annimmt

KNN
?

K-nearest

Der k-Nearest Neighbors (k-NN) Klassifikator ist eine einfache, nicht-parametrische Methode, die verwendet wird, um die Wahrscheinlichkeit zu berechnen, dass ein Punkt x0 zu einer Klasse j gehört, basierend auf den Klassen der K nächsten Nachbarn von x0.

Pr(Y=jX=x0)=1KiN0I(yi=j)
  • Y ist die Zielvariable oder Klasse
  • j ist eine spezifische Klasse, die Y annehmen kann
  • X ist die Merkmalsvariable
  • x0 ist der spezifische Wert der Merkmalsvariable
  • K ist die Anzahl der nächsten Nachbarn
  • N0 ist die Menge der K nächsten Nachbarn von x0
  • I(yi=j) ist eine Indikatorfunktion, die 1 ist, wenn yi=j, und 0 sonst

Standardfehler in der linearen Regression

wie sieht der standard fehler aus in der regression?
?

Standardfehler

Die Formeln für die Standardfehler der Koeffizienten (\beta_0) und (\beta_1) in der linearen Regression lauten:

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]SE(β^1)2=σ2i=1n(xix¯)2
  • (\sigma^2): Varianz der Fehlerterme
  • (n): Anzahl der Beobachtungen
  • (\bar{x}): Mittelwert der Prädiktorwerte
  • (x_i): Einzelne Prädiktorwerte

Annahmen:

  • Unabhängige Stichproben
  • Normalverteilung der Fehler
  • Konstante Varianz der Fehler (Homoskedastizität)

Was ist das RSS
?

Residual

Die Residual Sum of Squares (RSS) ist eine Metrik, die verwendet wird, um die Abweichung der vorhergesagten Werte von den tatsächlichen Werten in einem linearen Regressionsmodell zu messen. Sie summiert die quadrierten Residuen, die die Differenzen zwischen den beobachteten und den vorhergesagten Werten darstellen.

RSS=e12+e22++en2

oder äquivalent

RSS=(y1β^0β^1x1)2+(y2β^0β^1x2)2++(ynβ^0β^1xn)2
  • y^i=β^0+β^1xi ist die Vorhersage für Y basierend auf dem i-ten Wert von X
  • ei=yiy^i ist das i-te Residuum
  • RSS ist die Residual Sum of Squares
  • yi ist der beobachtete Wert
  • β^0 ist der geschätzte Achsenabschnitt
  • β^1 ist der geschätzte Koeffizient für X
  • xi ist der i-te Wert von X

Warum quadratische Fehler Therme bei der Linearen Regression
?

Lineare

Die lineare Regression ist ein statistisches Verfahren, das verwendet wird, um die Beziehung zwischen einer abhängigen Variablen Y und einer oder mehreren unabhängigen Variablen X zu modellieren. Die grundlegenden Annahmen und Modelle der linearen Regression sind wie folgt:

Y=β0+β1X+ϵ
  • Y ist die abhängige Variable
  • β0 ist der Achsenabschnitt (Intercept) des Modells
  • β1 ist der Koeffizient für die unabhängige Variable X
  • X ist die unabhängige Variable
  • ϵ ist der Fehlerterm, der die Residuen darstellt

Die Fehlerterme ϵ werden als normalverteilt angenommen:

ϵN(0,σ2)
  • ϵN(0,σ2) bedeutet, dass die Fehler normalverteilt sind mit einem Mittelwert von 0 und einer Varianz von σ2

Die Residuen ei werden als die Differenz zwischen den beobachteten Werten yi und den vorhergesagten Werten y^i berechnet:

ei=yiy^iϵiN(0,σ2)
  • ei ist das Residuum für die i-te Beobachtung
  • yi ist der beobachtete Wert für die i-te Beobachtung
  • y^i ist der vorhergesagte Wert für die i-te Beobachtung

Welche Annahmen macht die Lineare Regression
?

Annahmen

Die lineare Regression basiert auf mehreren grundlegenden Annahmen, die sicherstellen, dass die Schätzungen der Regressionskoeffizienten unverzerrt und effizient sind, und dass die Inferenzstatistik gültig ist.

  1. Linearität:

    • Die Beziehung zwischen der unabhängigen Variable (X) und der abhängigen Variable (Y) ist linear. Das bedeutet, dass (Y) als eine lineare Funktion von (X) beschrieben werden kann.
    Y=β0+β1X+ϵ
  2. Unabhängigkeit der Fehler:

    • Die Fehlerterme (\epsilon) sind voneinander unabhängig. Das bedeutet, dass der Fehlerterm einer Beobachtung keine Informationen über den Fehlerterm einer anderen Beobachtung liefert.
  3. Homoskedastizität:

    • Die Varianz der Fehlerterme (\epsilon) ist konstant über alle Werte von (X). Das bedeutet, dass die Streuung der Fehler über den Bereich der unabhängigen Variablen gleich bleibt.
  4. Normalverteilung der Fehler:

    • Die Fehlerterme (\epsilon) sind normalverteilt mit einem Mittelwert von 0 und einer Varianz von (\sigma^2).
    ϵN(0,σ2)
  5. Keine perfekte Multikollinearität (für multiple lineare Regression):

    • Keine der unabhängigen Variablen ist eine perfekte lineare Funktion einer anderen. Dies stellt sicher, dass die Koeffizienten der Regression eindeutig bestimmt werden können.
  6. Exogenität:

    • Die unabhängigen Variablen sind nicht korreliert mit den Fehlertermen. Das bedeutet, dass die erklärenden Variablen nicht systematisch mit den Störgrößen zusammenhängen.

Was ist die Maximum Likelihood Schaetzung bei der Linearen Regression? (Herleitung Least Squares)
?

Maximum-likelihood-sch

Die Maximum-Likelihood-Schätzung (MLE) ist eine Methode zur Schätzung der Parameter eines statistischen Modells. In der linearen Regression wird MLE verwendet, um die Koeffizienten zu finden, die die Wahrscheinlichkeit der beobachteten Daten maximieren.

Die Wahrscheinlichkeit der Beobachtungen gegeben die Parameter β0 und β1 wird wie folgt ausgedrückt:

P(YX,β0,β1)=i=1n12πσ2e(yi(β0+β1xi))22σ2

Dies kann vereinfacht werden zu:

P(YX,β0,β1)=(12πσ2)nei=1n(yi(β0+β1xi))22σ2

Um die MLE zu berechnen, maximieren wir das Log-Likelihood:

logP(YX,β0,β1)=log(12πσ2)ni=1n(yi(β0+β1xi))22σ2

Da der erste Term eine Konstante ist, können wir ihn ignorieren:

β^0,β^1=argminβ0,β1i=1n(yi(β0+β1xi))2
  • Y ist die abhängige Variable
  • X ist die unabhängige Variable
  • β0 ist der Achsenabschnitt (Intercept) des Modells
  • β1 ist der Koeffizient für die unabhängige Variable X
  • yi ist der beobachtete Wert für die i-te Beobachtung
  • y^i ist der vorhergesagte Wert für die i-te Beobachtung
  • ϵ ist der Fehlerterm, der die Residuen darstellt
  • σ2 ist die Varianz des Fehlerterms

Warum funktioniert die Herleitung der Least Squares?
?
Weil man die Normalverteilung annimmt und somit die Maximum Likelihood wie bereits daargelegt. Die Logitische Regression laesst sich auch einfach als Maximum likelihood Problem formulieren und loesen.

Standard Error of the Coefficient Estimates

Wie wird das Konfidenzintervall aufgestellt?
?

Standardfehler

Standardfehler der Koeffizientenschätzungen:
Der Standardfehler gibt an, wie die Schätzung bei wiederholter Stichprobenziehung variiert.

SE(β^1)2=σ2i=1n(xix¯)2SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]

wobei σ2=Var(ϵ) ist.

Konfidenzintervalle:
Ein 95%-Konfidenzintervall für β^1 lautet:

[β^12SE(β^1),β^1+2SE(β^1)]

Dieses Intervall enthält den wahren Wert von β1 mit einer Wahrscheinlichkeit von 95% unter wiederholter Stichprobenziehung.

  • σ2: Varianz der Fehlerterme
  • n: Anzahl der Beobachtungen
  • x¯: Mittelwert der Prädiktorwerte
  • xi: Einzelne Prädiktorwerte
  • SE: Standardfehler
  • β0: Interzept des Modells
  • β1: Koeffizient für den Prädiktor

Hypothesen Tests in Linearer Regression
?

Hypothesentests

In der linearen Regression wird häufig ein Hypothesentest verwendet, um zu überprüfen, ob eine Beziehung zwischen der unabhängigen Variable X und der abhängigen Variable Y besteht.

Die Nullhypothese (H0) und die Alternativhypothese (Ha) lauten wie folgt:

H0:Es besteht keine Beziehung zwischen X und Y

versus die Alternativhypothese

Ha:Es besteht eine Beziehung zwischen X und Y

Mathematisch entspricht dies dem Testen der folgenden Hypothesen:

H0:β1=0

versus

Ha:β10
  • H0 ist die Nullhypothese, die besagt, dass der Koeffizient β1 gleich null ist, was bedeutet, dass keine lineare Beziehung zwischen X und Y besteht.
  • Ha ist die Alternativhypothese, die besagt, dass der Koeffizient β1 ungleich null ist, was bedeutet, dass eine lineare Beziehung zwischen X und Y besteht.

Wenn β1=0, dann reduziert sich das Modell auf:

Y=β0+ϵ

Dies würde bedeuten, dass X keinen Einfluss auf Y hat und Y nur durch den Mittelwert (β0) und den Fehlerterm (ϵ) bestimmt wird.

Um die Hypothese zu testen, verwenden wir den t-Test, der wie folgt definiert ist:

t=β^10SE(β^1)

Hierbei ist:

  • β^1 der geschätzte Koeffizient für die unabhängige Variable X
  • SE(β^1) der Standardfehler von β^1

Der t-Wert gibt an, wie viele Standardabweichungen der geschätzte Koeffizient von der Nullhypothese abweicht. Ein großer absoluter Wert von t deutet darauf hin, dass β^1 signifikant von null verschieden ist, was die Nullhypothese widerlegt.

Z-Score im Vergleich zum t-Score:

  • Der t-Score wird verwendet, wenn die Stichprobengröße klein ist (normalerweise n<30) und/oder die Populationsvarianz unbekannt ist. Er folgt der t-Verteilung.
  • Der Z-Score wird verwendet, wenn die Stichprobengröße groß ist (normalerweise n30) und die Populationsvarianz bekannt ist. Er folgt der Standardnormalverteilung (Normalverteilung mit Mittelwert 0 und Varianz 1).

Wie ist der RSE?
?

Residual

Der Residual Standard Error (RSE) ist ein Schätzwert für die Standardabweichung des Fehlerterms ϵ im linearen Regressionsmodell. Er gibt grob gesagt an, um wie viel die Antwortvariable im Durchschnitt von der wahren Regressionslinie abweicht.

Der RSE wird mit der folgenden Formel berechnet:

RSE=1n2RSS=1n2i=1n(yiy^i)2

wobei:

  • n die Anzahl der Beobachtungen ist
  • RSS die Residual Sum of Squares ist
  • yi der beobachtete Wert der i-ten Beobachtung ist
  • y^i der vorhergesagte Wert der i-ten Beobachtung ist

Die RSS (Residual Sum of Squares) ist definiert als:

RSS=i=1n(yiy^i)2

Der RSE schätzt die durchschnittliche Abweichung der beobachteten Werte von den vorhergesagten Werten, wenn das Modell die wahre Beziehung zwischen den Variablen perfekt beschreiben würde.

  • n ist die Anzahl der Beobachtungen
  • RSS ist die Residual Sum of Squares
  • yi ist der beobachtete Wert der i-ten Beobachtung
  • y^i ist der vorhergesagte Wert der i-ten Beobachtung

Hypothesentest in der linearen Regression

Wie sieht der t test aus?
?

Hypothesentest

Um die Nullhypothese zu testen, berechnen wir die t-Statistik:

t=β^10SE(β^1)

Diese folgt einer t-Verteilung mit ( n - 2 ) Freiheitsgraden, unter der Annahme, dass ( \beta_1 = 0 ) ist.

Mit statistischer Software lässt sich die Wahrscheinlichkeit berechnen, einen Wert gleich oder größer als (|t|) zu beobachten. Diese Wahrscheinlichkeit nennt man den p-Wert.

  • β^1: Geschätzter Koeffizient
  • SE(β^1): Standardfehler des geschätzten Koeffizienten
  • n: Anzahl der Beobachtungen
  • t: t-Statistik

Welche Verteilung braucht welches Modell der Regression?
?
GLM
Pasted image 20240707173420.png

Warum ist der R2 kein guter Wert für die Güte eines Modelles?
?
Weil mit mehr Variblen, Parameter desto besser wird der R2

Was ist die F-Statistic?
?

F-statistik

In der multiplen linearen Regression wird die F-Statistik verwendet, um zu überprüfen, ob alle Regressionskoeffizienten gleich null sind, also ob das Modell signifikant zur Erklärung der Varianz der abhängigen Variablen beiträgt.

Die Nullhypothese (H0) und die Alternativhypothese (Ha) lauten wie folgt:

H0:β1=β2==βp=0

versus

Ha:Mindestens ein βj ist ungleich null
  • H0 ist die Nullhypothese, die besagt, dass alle Regressionskoeffizienten gleich null sind, was bedeutet, dass die unabhängigen Variablen keinen Einfluss auf die abhängige Variable haben.
  • Ha ist die Alternativhypothese, die besagt, dass mindestens ein Regressionskoeffizient ungleich null ist, was bedeutet, dass mindestens eine unabhängige Variable einen Einfluss auf die abhängige Variable hat.

Dieser Hypothesentest wird durch Berechnung der F-Statistik durchgeführt:

F=(TSSRSS)/pRSS/(np1)

wobei:

  • TSS (Total Sum of Squares) die totale Quadratsumme ist und berechnet wird als:
TSS=(yiy¯)2
  • RSS (Residual Sum of Squares) die Residualquadratsumme ist und berechnet wird als:
RSS=(yiy^i)2
  • p die Anzahl der Prädiktoren ist
  • n die Anzahl der Beobachtungen ist

Die F-Statistik vergleicht das Modell mit allen Prädiktoren gegen ein Modell ohne Prädiktoren. Ein hoher F-Wert deutet darauf hin, dass das Modell einen signifikanten Teil der Varianz der abhängigen Variablen erklärt.

Wie werden Categoriale Variablen umcodiert?
?

Interpretation

In diesem Beispiel verwenden wir eine binäre Variable als Prädiktor in der Regressionsgleichung. Das resultierende Modell ist:

yi=β0+β1xi+ϵi={β0+β1+ϵiwenn xi=1β0+ϵiwenn xi=0
  • β0 kann als der durchschnittliche Wert von y interpretiert werden, wenn xi=0.
  • β0+β1 kann als der durchschnittliche Wert von y interpretiert werden, wenn xi=1.
  • β1 ist der durchschnittliche Unterschied im Wert von y zwischen den Gruppen xi=1 und xi=0.

Die Schätzungen der Koeffizienten und andere Informationen, die mit dem Modell verbunden sind, liefern wichtige Einblicke in die Beziehung zwischen der binären Prädiktorvariablen und der Zielvariablen y.

Beispielhafte Interpretationen könnten sein:

  • Der durchschnittliche Wert von y für die Gruppe mit xi=0.
  • Der durchschnittliche Wert von y für die Gruppe mit xi=1.
  • Der Unterschied im durchschnittlichen Wert von y zwischen den beiden Gruppen.

Was stellt eine Interaktion dar in der Regression zwischen Dummy Variablen?
?

Interaktion

In der linearen Regression können Dummy-Variablen verwendet werden, um kategoriale Prädiktoren darzustellen. Wenn Interaktionen zwischen Dummy-Variablen einbezogen werden, ermöglicht dies die Untersuchung der kombinierten Effekte dieser Variablen auf die Zielvariable Y.

Betrachten wir folgendes Modell:

Y=β0+β1X1+β2X2+β3X1X2+ϵ

Hierbei sind X1 und X2 Dummy-Variablen. Die Terme in diesem Modell bedeuten:

  • β0: Der durchschnittliche Wert von Y, wenn X1=0 und X2=0.
  • β1: Die Veränderung des durchschnittlichen Werts von Y, wenn X1 von 0 auf 1 wechselt, während X2 konstant bleibt.
  • β2: Die Veränderung des durchschnittlichen Werts von Y, wenn X2 von 0 auf 1 wechselt, während X1 konstant bleibt.
  • β3: Der Interaktionseffekt zwischen X1 und X2. Dies ist die zusätzliche Veränderung im durchschnittlichen Wert von Y, wenn sowohl X1 als auch X2 von 0 auf 1 wechseln, im Vergleich zur Summe der einzelnen Effekte von X1 und X2.

Das Modell kann die folgenden Szenarien erklären:

  1. Beide Dummy-Variablen sind 0 (X1=0, X2=0):

    Y=β0+ϵ

    Dies ist der Grundwert (Referenzkategorie).

  2. Nur X1 ist 1 (X1=1, X2=0):

    Y=β0+β1+ϵ

    Der Effekt von X1 alleine.

  3. Nur X2 ist 1 (X1=0, X2=1):

    Y=β0+β2+ϵ

    Der Effekt von X2 alleine.

  4. Beide Dummy-Variablen sind 1 (X1=1, X2=1):

    Y=β0+β1+β2+β3+ϵ

    Der kombinierte Effekt von X1 und X2 sowie deren Interaktion.

Die Interaktionsterm β3 zeigt, ob der Effekt der gleichzeitigen Anwesenheit von X1 und X2 größer (oder kleiner) ist als die Summe ihrer individuellen Effekte.

Pasted image 20240624200406.png

Wie veraendert sich der Plot mit Interaction in der Regression?
?
Pasted image 20240708225828.png

Was kann passieren wenn man nun zuviele Dummy Variablen hat?
?

Interaktion

Betrachten wir das folgende lineare Regressionsmodell mit Dummy-Variablen:

yi=β0+β1x1+β2x2+ϵi={β0+β1+ϵiwenn die i-te Person aus dem Süden kommtβ0+β2+ϵiwenn die i-te Person aus dem Westen kommtβ0+ϵiwenn die i-te Person aus dem Osten kommt

In diesem Modell:

  • x1=1, wenn die Person aus dem Süden kommt, und 0 sonst.
  • x2=1, wenn die Person aus dem Westen kommt, und 0 sonst.
  • Die Referenzkategorie (Osten) ist durch das Fehlen beider Dummy-Variablen (x1=0 und x2=0) dargestellt.

Problem der linearen Abhängigkeit:

Wenn wir eine weitere Dummy-Variable β3x3 hinzufügen würden, um Personen aus dem Norden zu repräsentieren, würde dies zu einer linearen Abhängigkeit in der Design-Matrix führen. Die Dummy-Variable x3 wäre definiert als:

  • x3=1, wenn die Person aus dem Norden kommt, und 0 sonst.

Dies würde das Modell folgendermaßen ändern:

yi=β0+β1x1+β2x2+β3x3+ϵi

Da jede Person aus dem Süden, Westen, Osten oder Norden kommen muss, würden die Dummy-Variablen x1, x2, und x3 eine lineare Kombination ergeben, die die Konstante 1 ergibt:

x0+x1+x2+x3=1

Hierbei ist x0=1 für alle Beobachtungen, um die Interzept-Variable darzustellen.

Diese lineare Abhängigkeit führt zu Multikollinearität, was bedeutet, dass die Design-Matrix nicht mehr invertierbar ist und die Regressionskoeffizienten β0,β1,β2,β3 nicht eindeutig geschätzt werden können. Dies wird als das Dummy-Variablen-Falle bezeichnet.

Um dieses Problem zu vermeiden, sollte man nur k1 Dummy-Variablen für k Kategorien verwenden. In diesem Fall sind x1 und x2 ausreichend, um die drei Kategorien (Süden, Westen, Osten) darzustellen, wobei die vierte Kategorie (Norden) die Referenzkategorie ist.

Sprich was muss man bei Dummy Variablen machen, um Multikolineraitaet zu vermeiden?
?
Ein Bi weniger als es Auspraegungen gibt, also eine Dummy Variable weniger wie Auspraegungen

Was nennt man eine Interaction?
?
Man Multipliziert die Dummies gegenseitig miteinander X1 und X2
Pasted image 20240624200115.pngbeispiel: The model equation would be:
Sales=6.7502+0.0191TV+0.0289radio+0.0011(TV×radio)

Welche Probleme gibt es bei der Regression?
?
Pasted image 20240624201453.png

Wie kann man nicht linearitaet mit einem Linearen Model modelieren?
?

Nichtlineare

Nichtlineare Beziehungen zwischen Variablen können in einem linearen Regressionsmodell dargestellt werden, indem nichtlineare Terme der unabhängigen Variablen hinzugefügt werden. Ein Beispiel ist die Hinzufügung eines quadratischen Terms:

Betrachten wir das folgende Modell:

mpg=β0+β1×horsepower+β2×horsepower2+ϵ

Hierbei:

  • β0 ist der Achsenabschnitt (Intercept) des Modells.
  • β1 ist der Koeffizient für den linearen Term der unabhängigen Variable "horsepower".
  • β2 ist der Koeffizient für den quadratischen Term der unabhängigen Variable "horsepower".
  • ϵ ist der Fehlerterm.

Obwohl das Modell einen quadratischen Term enthält, bleibt es ein lineares Modell, weil die Koeffizienten (β0, β1, β2) linear in der Gleichung auftreten. Die Lineareität bezieht sich auf die Parameter des Modells, nicht auf die Variablen selbst.

Vorteile der Hinzufügung quadratischer Merkmale:

  • Erfassen von Nichtlinearitäten: Das Modell kann die nichtlineare Beziehung zwischen "horsepower" und "mpg" besser erfassen, da es den Effekt von "horsepower" sowohl linear als auch quadratisch berücksichtigt.

  • Flexibilität: Durch das Hinzufügen von Polynomtermen (z.B. quadratische, kubische) kann das Modell flexibler gestaltet werden, um komplexere Beziehungen zu modellieren.

Beispielhafte Interpretation:

  • Der Koeffizient β1 beschreibt die Änderung in "mpg" für eine Einheit Änderung in "horsepower", wenn alle anderen Terme konstant gehalten werden.
  • Der Koeffizient β2 beschreibt den zusätzlichen Effekt, der auftritt, wenn "horsepower" quadratisch zunimmt.

Zusammengefasst: Durch das Hinzufügen von nichtlinearen Termen wie horsepower2 bleibt das Modell linear in Bezug auf die Koeffizienten, während es in der Lage ist, nichtlineare Beziehungen zwischen den Variablen zu modellieren. Dies ermöglicht es, die Komplexität der Daten besser zu erfassen, ohne die grundlegende Struktur und die Interpretierbarkeit eines linearen Modells zu verlieren.

Lineares Modell:
Pasted image 20240707015419.png

Quadratisches Modell mit quadratischem Term:
Pasted image 20240707015504.png

Was ist nicht linearität
?
Pasted image 20240624201543.png
Hier sieht man, dass der erste Plot einen Trendaufweist, dies sollte nicht sein, eventuell transformieren mit wurzel quadrat oder log. Dies sieht man am besten mit Residuen Plots.

Was ist das Problem mit der Korrelation der Fehler Thermen
?
todo

Was ist heterogestatisch?
?
Der Begriff "heteroskedastisch" bezieht sich auf eine Situation in der Regressionsanalyse, bei der die Varianz der Fehlerterme ((\epsilon)) nicht konstant ist über die Beobachtungen hinweg. Dies steht im Gegensatz zur Annahme der Homoskedastizität, bei der die Varianz der Fehler konstant bleibt.

Heteroskedastizität

Heteroskedastizit

Definition: Heteroskedastizität liegt vor, wenn die Varianz der Störgrößen ((\epsilon)) in einem Regressionsmodell nicht konstant ist, sondern von den Werten der unabhängigen Variablen abhängt.

Formel: Es gibt keine spezifische Formel für Heteroskedastizität, aber es betrifft die Varianz der Fehlerterme:

Var(ϵi)=σi2
  • (\epsilon_i): Fehlerterm für die (i)-te Beobachtung
  • (\sigma_i^2): Varianz des Fehlerterms, die von (i) abhängt
    Konsequenzen: Heteroskedastizität kann zu ineffizienten und verzerrten Schätzungen der Regressionskoeffizienten führen, da die Annahme der konstanten Varianz verletzt wird.
    Erkennung: Heteroskedastizität kann durch visuelle Inspektion von Residuenplots oder statistische Tests wie den Breusch-Pagan-Test oder den White-Test identifiziert werden.
    Behandlung: Es gibt mehrere Methoden, um Heteroskedastizität zu behandeln, einschließlich der Verwendung von robusten Standardfehlern, Transformation der Daten (z.B. Log-Transformation), oder gewichtete kleinste Quadrate (WLS).

Was ist Homoskedastizität ::

Was machst du hier: Pasted image 20240624202629.png?
Logartymus

\

Was ist ein Aussreiser
?
Art1 (Ist in der Verteilung von X drin) sprich nicht so gut aber auch nicht so schlimm --> schadet der Evaluiereung : Pasted image 20240624202830.pngArt2 (high Leverage Outliers) --> Schadet dem Model und der Evaluierung: Pasted image 20240624203012.png

Wie kann man high Leverage Points erkennen?
?
Pasted image 20240624203211.png

Was ist koolinerität?
?
todo

Was ist multikoolinerität
?
todo

Wie bemerkt man multikolinerität?
?
Pasted image 20240624203725.png je grösser der VIF desto eher hat man eine Kolinerität.

Maßnahmen bei Multikollinearität

Massnahmen bei Multikolinerität
?

Ma

Multikollinearität tritt auf, wenn zwei oder mehr Prädiktoren in einem Regressionsmodell stark korreliert sind, was zu instabilen Schätzungen der Regressionskoeffizienten führt. Hier sind einige Maßnahmen, um Multikollinearität zu adressieren:

1. Prädiktoren entfernen:

  • Entfernen hoch korrelierter Prädiktoren, um die Modellstabilität zu verbessern.

2. Hauptkomponentenanalyse (PCA):

  • Reduziert die Dimensionen der Daten, indem sie die Daten auf unkorrelierte Hauptkomponenten projiziert.

3. Regularisierungsmethoden:

  • Ridge Regression und Lasso Regression können verwendet werden, um die Auswirkungen von Multikollinearität zu verringern.

4. Datenzentrierung und -skalierung:

  • Zentrieren und skalieren der Prädiktoren, um die Multikollinearität zu reduzieren.

(R^2) und Restquadratsumme

wie berechnet man r2?
?

Restquadratsumme (RSS):

RSS=i=1n(yiy^i)2

Totalquadratsumme (TSS):

TSS=i=1n(yiy¯)2

Bestimmtheitsmaß ((R^2)):

R2=1RSSTSS

(R^2) misst den Anteil der Gesamtvarianz, der durch das Modell erklärt wird.

  • (\text{RSS}): Restquadratsumme
  • (\text{TSS}): Totalquadratsumme
  • (y_i): Beobachteter Wert
  • (\hat{y}_i): Vorhergesagter Wert
  • (\bar{y}): Mittelwert der beobachteten Werte
  • (n): Anzahl der Beobachtungen

Classification

Warum benutzt man Logistic Regression und nicht Linreg?
?

Pasted image 20240708230931.png

Was ist das Discison boundrie?
?

Decision

Eine Decision Boundary ist eine Grenze im Merkmalsraum, die verschiedene Klassen in einem Klassifikationsproblem voneinander trennt. Sie wird durch ein Klassifikationsmodell definiert und trennt Regionen, in denen verschiedene Klassen dominieren.

  • In linearen Modellen (z.B. Logistic Regression) ist die Decision Boundary eine lineare Trennlinie.
  • In nichtlinearen Modellen (z.B. Support Vector Machines mit Kerneln) kann die Decision Boundary komplexe Formen annehmen.

Eine Decision Boundary kann durch visuelle Darstellung der Klassen im Merkmalsraum veranschaulicht werden.
Was ist der Threshhold in Logistic Regression ::

Formel für die Logistische Regression
?
Pasted image 20240704124342.pngoutput: Zahl zwischen 0 und 1 muss nicht die Wahrscheinlichkeit sein.

Formel Logistische Regression Odss umstellung
?
Pasted image 20240704124522.png
output: Odds

Formel Odds mit Logartymuss
?
Pasted image 20240704124650.png

Maximum Likelihood

Wie sieht die Maximum likelihood aus von der logistischen Regression?
?

Maximum

Maximum-Likelihood-Schätzung wird verwendet, um die Parameter zu schätzen. Die Likelihood-Funktion für die logistische Regression lautet:

(β0,β)=i:yi=1p(xi)i:yi=0(1p(xi))

Diese Likelihood gibt die Wahrscheinlichkeit der beobachteten Nullen und Einsen in den Daten an. Wir wählen β0 und β1 so, dass die Likelihood der beobachteten Daten maximiert wird.

  • β0: Interzept
  • β1: Koeffizient für die Variable
  • p(xi): Wahrscheinlichkeitsvorhersage für Beobachtung (i)
  • yi: Beobachteter Wert

In R kann das Modell mit der glm-Funktion angepasst werden.

Beispiel Logistische Regression?
?
Pasted image 20240708231802.png
Pasted image 20240708231955.png

Logistische Regression mit dummy variblen binaer
?
Pasted image 20240708232137.png

Multinominal Logistic Regression

was ist Multinominale Logistic Regression?
?
mehrere Klassen:
Pasted image 20240708232303.png

Z-Statistic
?

Z-statistic

Die Z-Statistic misst, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert entfernt ist. Sie wird verwendet, um Hypothesentests durchzuführen und zu bestimmen, ob ein Datenpunkt signifikant von einem erwarteten Wert abweicht.

Z=Xμσ
  • ( X ): Beobachteter Wert
  • ( \mu ): Erwartungswert
  • ( \sigma ): Standardabweichung

Bernoulli-Verteilung

Wie ist die Bernoulli Verteilung?
?

Bernoulli-verteilung

Die Bernoulli-Verteilung modelliert einen binären Ausgang (Erfolg oder Misserfolg) mit einer Wahrscheinlichkeit ( p ) für Erfolg und ( 1-p ) für Misserfolg.

Varianz der Bernoulli-Verteilung:

Die Varianz kann berechnet werden, da sie die Streuung der binären Ausgänge um den Mittelwert ( p ) misst:

Var(X)=p(1p)
  • ( p ): Wahrscheinlichkeit für Erfolg
  • ( 1-p ): Wahrscheinlichkeit für Misserfolg

Diese Berechnung ist möglich, weil die Varianz der Bernoulli-Verteilung die Wahrscheinlichkeit berücksichtigt, dass ein Ausgang von der Erwartung ( p ) abweicht.

T-Statistic in Linearer Regression

T-statistic

Der T-Statistic wird in der linearen Regression verwendet, um die Signifikanz eines einzelnen Regressionskoeffizienten zu testen. Da die Varianz des Fehlerterms (\sigma^2) unbekannt ist, muss sie aus den Daten geschätzt werden.
Die Formel für die T-Statistic lautet:

t=β^jSE(β^j)
  • β^j: Geschätzter Koeffizient für den (j)-ten Prädiktor
  • SE(β^j): Standardfehler des geschätzten Koeffizienten
  • Diese Teststatistik folgt unter der Nullhypothese einer t-Verteilung mit (n - p - 1) Freiheitsgraden, wobei (n) die Anzahl der Beobachtungen und (p) die Anzahl der Prädiktoren ist.

Modelle können nur Korrelation erklären was jedoch nicht :: Kausalzusammenhänge --> Confounding

Was ist die Multinominale Logitische Regression :: Regression mit mehrern Klassen

Wie sieht die Formel für die Multinominale Regression aus?
?
Sprich Softmax --> Alle Summieren sich auf 1
Pasted image 20240704130401.png
Formel für Odds mit mit baseline comparative
?
Pasted image 20240704130549.png

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Wie sieht die Formel der Logistischen Regression aus
?

Logistic

Logistic Regression modelt die Wahrscheinlichkeit, dass die Antwortvariable ( Y ) einer bestimmten Kategorie angehört. Das Modell wird wie folgt ausgedrückt:

Pr(Y=1|X)=eβ0+β1X1+eβ0+β1X

Dies kann in die Logit-Funktion umgeschrieben werden:

log(Pr(Y=1|X)1Pr(Y=1|X))=β0+β1X
  • β0: Interzept
  • β1: Koeffizient für den Prädiktor ( X )

Was ist die Maximum Liklihood verfahren?
?

Maximum

Die Koeffizienten werden durch das Maximum-Likelihood-Verfahren geschätzt, das versucht, β0 und β1 so zu finden, dass die Wahrscheinlichkeit der beobachteten Daten maximiert wird.

Hypothesis

Um zu überprüfen, ob ein Zusammenhang zwischen der Wahrscheinlichkeit einer Klasse und einem Prädiktor besteht, wird ein Hypothesentest durchgeführt:

H0:β1=0Ha:β10
  • ( z )-statistic misst die Anzahl der Standardabweichungen, die ( \beta_1 ) von 0 entfernt ist.

Wie sieht die Mulltiple Lineare Regression aus?
?

Multiple

Wenn mehrere Prädiktoren vorhanden sind, wird das Modell wie folgt erweitert:

Pr(Y=1|X1,X2,X3)=eβ0+β1X1+β2X2+β3X31+eβ0+β1X1+β2X2+β3X3
  • Die Interpretation der Koeffizienten bleibt ähnlich, wobei die Werte der anderen Prädiktoren konstant gehalten werden.
Linear

LDA modelliert die Verteilungen der Prädiktoren in jeder Antwortklasse und verwendet den Satz von Bayes, um diese in Schätzungen zu überführen:

Pr(Y=k|X=x)=πkfk(x)l=1Kπlfl(x)
  • ( πk ): A-priori-Wahrscheinlichkeit für Klasse ( k )
  • ( fk(x) ): Dichtefunktion der Prädiktoren für Klasse ( k )

Logistic Regression vs. LDA

wann lda wann logistische regression?

Logistic

Für ein Zwei-Klassen-Problem kann gezeigt werden, dass für LDA:

log(p1(x)1p1(x))=log(p1(x)p2(x))=c0+c1x1++cpxp

Dies hat die gleiche Form wie die logistische Regression. Der Unterschied liegt in der Schätzung der Parameter.

Logistische Regression:

  • Nutzt die bedingte Likelihood basierend auf Pr(Y|X) (bekannt als diskriminatives Lernen).

LDA:

  • Nutzt die vollständige Likelihood basierend auf textPr(X,Y) (bekannt als generatives Lernen).

Trotz dieser Unterschiede sind die Ergebnisse in der Praxis oft sehr ähnlich.

  • p1(x): Wahrscheinlichkeit, dass die Beobachtung (x) zu Klasse 1 gehört
  • p2(x): Wahrscheinlichkeit, dass die Beobachtung (x) zu Klasse 2 gehört
  • c0,c1,,cp: Koeffizienten der linearen Kombination der Prädiktoren
  • x1,,xp: Prädiktoren

Bayes-Theorem für Klassifikation

Was ist die LDA Linear Discriminant analysis?
?

Bayes-theorem

Thomas Bayes war ein Mathematiker, dessen Theorem ein bedeutender Teilbereich der Statistik und probabilistischen Modellierung ist. Das Bayes-Theorem wird für die Klassifikation wie folgt verwendet:

Pr(Y=k|X=x)=Pr(X=x|Y=k)Pr(Y=k)Pr(X=x)

Für die Diskriminanzanalyse wird es leicht abgewandelt:

Pr(Y=k|X=x)=πkfk(x)l=1Kπlfl(x)
  • Y: Zufallsvariable der Klasse
  • k: Spezifische Klasse
  • X: Eingabevektor
  • x: Spezifische Beobachtung von X
  • K: Gesamtzahl der Klassen
  • πk: A-priori-Wahrscheinlichkeit für Klasse k
  • fk(x): Dichtefunktion für X in Klasse k
  • Pr(Y=k|X=x): Posteriori-Wahrscheinlichkeit für Klasse k gegeben X=x
  • Pr(X=x|Y=k): Likelihood von X=x gegeben Klasse k
  • Pr(Y=k): A-priori-Wahrscheinlichkeit für Klasse k
  • Pr(X=x): Gesamtwahrscheinlichkeit von X=x

was macht LDA genau?
?
LDA macht eine Dimensions Reduzierung aehnlich zu PCA. Es projeziert jedoch nicht die Punkte, sondern macht einen neuen Space und Projeziert dann die Punkte auf diesen Space. LDA erstellt eine neue Axe die die Distanz der durchschnittlichen distance zwischen zwei categorien minizmiert.
Pasted image 20240708233905.png

Quadratic

QDA lockert die Annahme einer gemeinsamen Kovarianzmatrix und erlaubt jede Klasse ihre eigene Kovarianzmatrix zu haben, was es flexibler macht, aber auch zu höherer Varianz führt.

K-nearest

KNN klassifiziert Beobachtungen basierend auf den ( K ) nächsten Nachbarn:

Pr(Y=j|X=x0)=1KiN0I(yi=j)
  • Die Wahl von ( K ) beeinflusst die Flexibilität und Bias-Varianz-Abwägung des Modells.

Wann LDA und wann QDA verwenden

Wann soll man LDA verwenden anstatt Log reg?
?

Wann

LDA (Linear Discriminant Analysis):

  • Verwenden, wenn die Kovarianzmatrizen der Klassen ungefähr gleich sind.
  • Geeignet für große Datensätze mit vielen Beobachtungen pro Klasse.
  • Stabiler bei kleineren Datensätzen.

QDA (Quadratic Discriminant Analysis):

  • Verwenden, wenn die Kovarianzmatrizen der Klassen unterschiedlich sind.
  • Nützlich für komplexere Modelle mit größeren Unterschieden zwischen den Klassen.
  • Erfordert größere Datensätze, da es mehr Parameter schätzt.

Logistische Regression:

  • Verwenden, wenn eine lineare Entscheidungsgrenze erwartet wird.
  • Flexibler als LDA bei kleineren Datensätzen und weniger Annahmen über die Verteilung der Prädiktoren.
  • Wird nicht verwendet, wenn die Daten nicht gut durch eine lineare Entscheidungsgrenze getrennt werden können.

Generative Models for Classification

Wie sehen Gernerative Modelle aus?
?
Pasted image 20240704131017.pngPasted image 20240704131210.png

LDA (verwenden bei weniger Daten)

Linear Discriminant Analysis (LDA)

wie sieht LDA aus?
?

Linear

LDA ist eine Methode zur Klassifizierung, die die Varianz zwischen den Klassen maximiert und die Varianz innerhalb der Klassen minimiert. Die Entscheidungsregel basiert auf der größten diskriminanten Funktion ( \delta_k(x) ):

δk(x)=xTΣ1μk12μkTΣ1μk+log(πk)
  • x: Eingabevektor
  • Sigma: Gemeinsame Kovarianzmatrix
  • muk: Mittelwert der Klasse ( k )
  • pik: A-priori-Wahrscheinlichkeit der Klasse ( k )

Quadratic Discriminant Analysis (QDA)

Wie sieht QDA aus?
?

Quadratic

QDA ist eine Erweiterung von LDA, bei der jede Klasse ihre eigene Kovarianzmatrix hat. Die Entscheidungsregel basiert auf der größten diskriminanten Funktion ( \delta_k(x) ):

δk(x)=12log|Σk|12(xμk)TΣk1(xμk)+log(πk)
  • ( x ): Eingabevektor
  • ( \Sigma_k ): Kovarianzmatrix der Klasse ( k )
  • ( \mu_k ): Mittelwert der Klasse ( k )
  • ( \pi_k ): A-priori-Wahrscheinlichkeit der Klasse ( k )

Pasted image 20240704133835.png

Was ist LDA und wie ist die Formel
?
Pasted image 20240704134153.png

Univariater Fall:
Pasted image 20240704134348.png

Multivariater Fall:
Pasted image 20240704134436.png

QDA (verwenden bei vielen Daten)

Pasted image 20240704134059.png

Naive bayes NB (multivariat)

Pasted image 20240704134928.png

Wie werden die Optimalen Betas in Logistischer Regression berechnen? :: Maximum Likelihood

Wie werden die Optimalen Betas in LDA berechnet? :: Wir passen eine Normalverteilung an unsere Daten an.

Performance Messung bei Binärklassifikation

Confusion Matrix:

Accuracy

Wie ist die Formel fuer die Accuracy?
?

Accuracy

Accuracy ist der Anteil der korrekten Vorhersagen:

Accuracy=TP+TNTP+TN+FP+FN

Sensitivity / Recall

Was ist Sensitity / Recall?
?

Sensitivity

Sensitivity (auch Recall genannt) ist ein Maß dafür, wie gut ein Modell tatsächlich positive Fälle korrekt identifiziert. Es ist der Anteil der tatsächlich positiven Fälle, die vom Modell korrekt als positiv klassifiziert wurden.

Die Formel für Sensitivity / Recall lautet:

Sensitivity=Recall=TPTP+FN
  • ( TP ): True Positives (Anzahl der korrekt als positiv klassifizierten positiven Fälle)
  • ( FN ): False Negatives (Anzahl der tatsächlich positiven, aber als negativ klassifizierten Fälle)

Ein hoher Recall-Wert bedeutet, dass das Modell nur wenige tatsächliche positive Fälle übersieht.

Precision

Was ist die Precison?
?

Precision

Precision ist ein Maß dafür, wie viele der als positiv klassifizierten Fälle tatsächlich positiv sind. Es ist der Anteil der korrekt vorhergesagten positiven Fälle an allen vorhergesagten positiven Fällen.

Die Formel für Precision lautet:

Precision=TPTP+FP
  • ( TP ): True Positives (Anzahl der korrekt als positiv klassifizierten positiven Fälle)
  • ( FP ): False Positives (Anzahl der fälschlicherweise als positiv klassifizierten negativen Fälle)

Ein hoher Precision-Wert bedeutet, dass das Modell nur wenige negative Fälle fälschlicherweise als positiv klassifiziert. dass das Modell nur wenige tatsächliche positive Fälle übersieht.

Specificity

Was sagt die Specifity aus?
?

Specificity

Specificity misst, wie gut ein Modell tatsächlich negative Fälle korrekt identifiziert. Es ist der Anteil der tatsächlich negativen Fälle, die vom Modell korrekt als negativ klassifiziert wurden.

Die Formel für Specificity lautet:

Specificity=TNTN+FP
  • ( TN ): True Negatives (Anzahl der korrekt als negativ klassifizierten negativen Fälle)
  • ( FP ): False Positives (Anzahl der fälschlicherweise als positiv klassifizierten negativen Fälle)

Ein hoher Specificity-Wert bedeutet, dass das Modell nur wenige tatsächliche negative Fälle fälschlicherweise als positiv klassifiziert.

Trade-off zwischen Specificity, Recall und Precision

Erklaere den Trade off zwischen Specifity recall und Precision?
?

Trade-off

Specificity, Recall und Precision sind wichtige Maße für die Leistungsfähigkeit eines Klassifikationsmodells. Änderungen in einem Maß können oft zu Kompromissen in den anderen führen:

  • Recall vs. Precision: Ein hohes Recall führt oft zu einem niedrigeren Precision, da mehr positive Vorhersagen gemacht werden, was auch die False Positives erhöht. Umgekehrt führt ein hohes Precision oft zu einem niedrigeren Recall.
  • Recall vs. Specificity: Ein hohes Recall bedeutet, dass mehr tatsächliche Positive erkannt werden, was die Anzahl der False Negatives verringert, aber die Anzahl der False Positives erhöhen kann, was die Specificity verringert.
  • Specificity vs. Precision: Ein hohes Specificity bedeutet, dass viele tatsächliche Negative korrekt erkannt werden, was die Anzahl der False Positives verringert und somit Precision erhöht.

Decision Threshold

Erklaere den Descision Threshold
?

Decision

Der Decision Threshold ist der Schwellenwert, ab dem eine Beobachtung als positiv klassifiziert wird. Durch Anpassen des Decision Threshold kann man den Trade-off zwischen Recall, Precision und Specificity steuern:

  • Niedriger Threshold: Erhöht Recall, verringert Specificity und Precision.
  • Hoher Threshold: Erhöht Specificity und Precision, verringert Recall.
  • Die Wahl des geeigneten Decision Threshold hängt von den spezifischen Anforderungen und Prioritäten der Anwendung ab.
    Pasted image 20240704140802.png

ROC Curve
?
Pasted image 20240704140929.png

Poisson Verteilung / Poisson Regression

Wie sieht die Poisson Verteilung aus?
?
Pasted image 20240704141217.png

Poisson Regression

Was ist die Poisson Regression?
?

Poisson

Poisson Regression wird verwendet, um die Anzahl der Ereignisse in einem festen Intervall zu modellieren. Es ist geeignet für Zähldaten, die die Poisson-Verteilung befolgen.

Die Modellgleichung lautet:

log(λ)=β0+β1X1+β2X2++βpXp

wobei:

  • λ die erwartete Anzahl der Ereignisse ist.
  • X1,X2,,Xp die Prädiktoren sind.
  • β0,β1,,βp die Regressionskoeffizienten sind.

Die linke Seite der Gleichung ist der Logarithmus der Rate, und die rechte Seite ist eine lineare Funktion der Prädiktoren.

Was macht die Poissonverteilung für eine Starke Annahme? :: Varianz = Erwartungswert

Pasted image 20240704141659.png

Durch das Umschreiben von den Theremen, kann man schön die rechte Seite immer eine Linreg machen
?
All diese Regressionen hängen zusammen, ungefähr die gleiche Struktur in einer Theorie. Meistens reicht eine Funktion ein eine GLM funktion. --> Linkfunction
Pasted image 20240704142819.pngPasted image 20240704142838.png

Generalized Linear Models (GLMs)

Was sind die GLM?
?

Generalized

Übersicht: In diesem Kurs wurden drei GLMs behandelt: Gaussian, Binomial und Poisson.

Link-Funktion: Transformation des Mittelwerts durch eine lineare Funktion:

η(E(Y|X1,X2,,Xp))=β0+β1X1++βpXp
  • Linear: η(μ)=μ
  • Logistisch: η(μ)=log(μ/(1μ))
  • Poisson: η(μ)=log(μ)

Varianzfunktionen: Jede GLM hat charakteristische Varianzfunktionen.

Modellanpassung: Die Modelle werden mittels Maximum-Likelihood angepasst. Zusammenfassungen werden in R mit der Funktion glm() erzeugt.

Weitere GLMs: Gamma, Negative-binomial, Inverse Gaussian und mehr.

Resampling Methods

Was ist eine Cross Validation?
?

Cross-validation

Cross-Validation ist eine Methode zur Schätzung des Testfehlers eines Modells, indem das verfügbare Trainingsdaten in mehrere Teilmengen aufgeteilt wird.

Validation Set Approach

Was ist der Validation Set Approche?
?

Validation

  • Das Trainingsdatensatz wird zufällig in Trainings- und Testmengen aufgeteilt.
  • Modell wird auf das Trainingsset angepasst und auf das Testset angewendet.
  • Der Fehler im Testset dient als Schätzung für den Testfehler.

Nachteile:

  1. Hohe Variabilität, abhängig von der zufälligen Aufteilung.
  2. Das Modell wird auf weniger Daten trainiert, was den Fehler überschätzen kann.

Leave-One-Out Cross-Validation (LOOCV)

Was ist LOOCV oder auch Leave one Out Cross Validation?
?

Leave-one-out

  • Jede Beobachtung wird einmal als Testset verwendet, während der Rest als Trainingsset dient.
  • Modell wird ( n ) Mal angepasst und der Durchschnittsfehler wird berechnet.

Vorteile:

  1. Weniger variabel, da alle Datenpunkte verwendet werden.
  2. Weniger Bias, da fast das gesamte Datenset verwendet wird.

Nachteil:

  1. Kann rechnerisch aufwendig sein.

K-Fold Cross-Validation

Was ist KFold Cross Validation?
?

K-fold

  • Daten werden in ( K ) gleichgroße Gruppen aufgeteilt.
  • Jede Gruppe wird einmal als Testset und der Rest als Trainingsset verwendet.
  • Durchschnittsfehler wird berechnet.

Vorteile:

  1. Weniger rechnerisch aufwendig als LOOCV.
  2. Besseres Bias-Varianz-Verhältnis.

Typischerweise wird ( K = 5 ) oder ( K = 10 ) gewählt.

Was ist Bootstrapping?
?

Bootstrap

Der Bootstrap ist eine Methode zur Schätzung der Unsicherheit eines Modells oder Parameters durch wiederholtes Ziehen von Stichproben mit Zurücklegen aus dem Originaldatensatz.

  • Beispiel: Schätzung des Risikos einer Investition durch Bootstrapping von Renditen.
  • Ein Datensatz wird mehrfach mit Zurücklegen gezogen, um viele Bootstrapped-Datensätze zu erzeugen.
  • Diese werden verwendet, um Schätzungen und deren Variabilität zu berechnen.

Cross_validation:

Bootrap --> Used in Random Forest see Bagging:
Pasted image 20240704213617.png

Linear Model Selection & Regularization

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Best Subset Selection

Was ist Subset Selection?
?

Best

Best Subset Selection passt separate Modelle für jede mögliche Kombination der Prädiktoren an:

y=β0+β1X1+β2X2++βpXp+ϵ

Das beste Modell wird basierend auf Kriterien wie (R^2) oder Kreuzvalidierungsfehler ausgewählt.

Stepwise Selection

Was ist Stepwise Selection?
?

Stepwise

Stepwise Selection ist eine Methode zur Auswahl der besten Prädiktoren für ein Modell, indem Variablen iterativ hinzugefügt oder entfernt werden. Es gibt drei Hauptarten: dabei wird das p-value verwendet welcher der hoecchste hat entfernt oder tiefsteter hinzugefuegt.

Forward Selection:

  • Beginnt mit keinem Prädiktor und fügt schrittweise den Prädiktor hinzu, der die Modellanpassung am meisten verbessert.

Backward Selection:

  • Beginnt mit allen Prädiktoren und entfernt schrittweise den Prädiktor, der die Modellanpassung am wenigsten verschlechtert.

Stepwise Selection:

  • Kombiniert Forward und Backward Selection, indem es Prädiktoren hinzufügt und entfernt, um das beste Modell zu finden.

Optimal Model Selection

Was ist die Optimale Model Section?
?

Optimal

Die Auswahl des besten Modells erfolgt durch Schätzung des Testfehlers mittels Kreuzvalidierung oder Anpassung des Trainingsfehlers (z.B. (C_p), (AIC), (BIC), adjusted-(R^2)).

Shrinkage Methods

Was macht eine Shrinkage Method?
?

Shrinkage

Shrinkage-Methoden passen ein Modell mit allen Prädiktoren an und schrumpfen die Koeffizienten in Richtung Null.

Ridge Regression

Wie sieht die Ridge Regression aus?
?

Ridge

Minimiert die Funktion:

RSS+λj=1pβj2

Dies reduziert die Varianz auf Kosten eines kleinen Bias.

Lasso Regression

Wie sieht die Lasso Regression aus?
?

Lasso

Minimiert die Funktion:

RSS+λj=1p|βj|

Lasso schrumpft einige Koeffizienten auf genau Null, was eine Variablenselektion ermöglicht.

Dimension Reduction Methods

Was ist eine Dimensions Reduction?
?

Dimension

Reduzieren die Dimensionen des Datensatzes durch Projektion auf ein (M)-dimensionales Teilraum.

Principal Components Analysis (PCA)

Fuer was verwendet man PCA?
?

Principal

Identifiziert die Hauptrichtungen der Variabilität in den Daten und projiziert die Prädiktoren auf diese Komponenten.

Partial Least Squares (PLS)

Was ist Partial Least Squares?
?

Partial

Partial Least Squares (PLS) ist eine Technik zur Dimensionenreduktion, die sowohl die Prädiktoren als auch die Antwortvariablen berücksichtigt. PLS projiziert die Prädiktoren auf neue latente Variablen (Komponenten), die maximale Kovarianz mit der Antwortvariablen haben.

Algorithmus:

  1. Berechnung der Gewichtungsvektoren, die die Prädiktoren und die Antwortvariablen maximieren.
  2. Projektion der Prädiktoren und der Antwortvariablen auf diese Gewichtungsvektoren.
  3. Anpassen eines linearen Modells an die projizierten Daten.

PLS ist besonders nützlich, wenn die Anzahl der Prädiktoren groß ist und Multikollinearität vorliegt. Weitere Details finden Sie auf ISLR Chapter 6 - Linear Model Selection & Regularization.

Considerations in High Dimensions

Was sollte man in hohen Dimensionen beachten?
?

Considerations

Bei vielen Prädiktoren sollte man Methoden wie Subset Selection, Ridge Regression, Lasso oder PCA verwenden. Traditionelle Maßzahlen wie (R^2) sind ungeeignet; stattdessen sollte man Kreuzvalidierungsfehler berichten.

Weitere Details und ausführliche Erklärungen finden Sie auf der Webseite ISLR Chapter 6 - Linear Model Selection & Regularization.

AIC (Akaike Information Criterion)

AIC Akaike Information Criterion
?

Akaike

AIC ist ein Maß zur Modellbewertung, das sowohl die Anpassungsgüte als auch die Komplexität des Modells berücksichtigt:

AIC=2k2log(L)
  • ( k ): Anzahl der geschätzten Parameter
  • ( L ): Maximierter Wert der Likelihood-Funktion des Modells

BIC (Bayesian Information Criterion)

BIC Bayesian Information Criterion
?

Bayesian

BIC ist ähnlich wie AIC, bestraft jedoch komplexere Modelle stärker:

BIC=log(n)k2log(L)
  • ( n ): Anzahl der Datenpunkte

Mean Squared Error (MSE)

MEAN Square Error
?

Mean

MSE misst den durchschnittlichen quadratischen Fehler zwischen den beobachteten und vorhergesagten Werten:

MSE=1ni=1n(yiy^i)2
  • ( y_i ): Beobachteter Wert
  • ( \hat{y}_i ): Vorhergesagter Wert

Adjusted ( R^2 )

Adjusted R2?
?

Adjusted

Adjusted ( R^2 ) ist eine Anpassung des ( R^2 )-Werts, die die Anzahl der Prädiktoren im Modell berücksichtigt:

Adjusted R2=1(1R2)(n1)nk1
  • ( R^2 ): Bestimmtheitsmaß
  • ( n ): Anzahl der Beobachtungen
  • ( k ): Anzahl der Prädiktoren

Die Probleme von Regularisierung / Shrinkage
?

XRn×p,rank(X)=nXTXRp×p,rank(XTX)=np(XTX)1 Y^i=β0+β1x+β2x2+β mit großem i werden sehr groß

Regularisierung
?

Regularisierung:L=i=1n(yiy^i)2+λi=1p|βi|qRSSRegularisierungstermPenaltyλR,λ>0q=1oderq=2

Moving Boyond Linearity

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Polynomial Regression

Wie sieht die Polynominale Regresion aus?
?

Polynomial

Polynomial regression erweitert die lineare Regression durch Hinzufügen zusätzlicher Prädiktoren, die Potenzen der ursprünglichen Prädiktoren sind:

Y=β0+β1X+β2X2+β3X3++βdXd+ϵ

Dies ermöglicht das Modellieren nichtlinearer Beziehungen zwischen Prädiktoren und Antwortvariablen.

Pasted image 20240708171743.png

Step Functions

Was ist eine Step Function?
?

Step

Step Functions unterteilen den Bereich von (X) in Intervalle und passen innerhalb jedes Intervalls eine Konstante an:

Ck(X)=I(ck1X<ck)Y=β0+β1C1(X)+β2C2(X)++βKCK(X)+ϵ

Dies ermöglicht unterschiedliche konstante Werte für verschiedene Bereiche von (X).

Pasted image 20240708172311.png
I ist eine Idicator funktion die binary zurueck gibt.

Was sind gute Eigenschaften von Stepfunctions?
?
Pasted image 20240708172552.png

Basis Functions

Wie sind Basis Function definiert?
?

Basis

Basis Functions wenden eine Familie von Funktionen auf einen Prädiktor an:

Y=β0+β1b1(X)+β2b2(X)++βKbK(X)+ϵ

Beispiele sind Polynomiale und Stückweise Konstante.

Piecewise Polynomial Regression

Was ist die Piecewise Polynominal Regression?
?

Piecewise

Piecewise Polynomial Regression unterteilt den Prädiktorraum in Intervalle und passt in jedem Intervall ein separates Polynom an. Dadurch können komplexe, nichtlineare Beziehungen modelliert werden.

Stückweise Lineare Regression:

Y={β0,1+β1,1Xfür aX<bβ0,2+β1,2Xfür bX<cβ0,k+β1,kXfür zX<w

Stückweise Polynomiale höheren Grades:

Y={j=0dβj,1Xjfür aX<bj=0dβj,2Xjfür bX<cj=0dβj,kXjfür zX<w
  • ( \beta_{j,i} ): Koeffizienten der Polynomiale im (i)-ten Intervall
  • ( d ): Grad des Polynoms
  • ( a, b, c, z, w ): Grenzwerte der Intervalle

Pasted image 20240708173056.png
Piecewise Polynomial Regression bietet Flexibilität und Genauigkeit, indem sie die Modellkomplexität auf die Daten anpasst.

Lineare Splines

Was sind Lineare Splines?

Lineare

Ein linearer Spline mit Knoten bei ξk, k=1, ,K ist ein stückweise lineares Polynom, das an jedem Knoten kontinuierlich ist.

Wir können dieses Modell darstellen als:

yi=β0+β1b1(xi)+β2b2(xi)++βK+1bK+1(xi)+ϵi

wobei die (b_k) Basisfunktionen sind:

b1(xi)=xibk+1(xi)=(xiξk)+,k=1,,K

Hier bedeutet (()_+) den positiven Teil, d.h.

(xiξk)+={xiξkwenn xi>ξk0sonst
  • yi: Beobachteter Wert für die i-te Beobachtung
  • β0,β1,,βK+1: Regressionskoeffizienten
  • bk(xi): Basisfunktionen
  • xi: Prädiktorwert für die i-te Beobachtung
  • ξk: Knotenpunkte
  • ϵi: Fehlerterm

Kubische Splines

Was sind cubicsplines?
?

Kubische

Ein kubischer Spline mit Knoten bei ξk, k=1,,K, ist ein stückweise kubisches Polynom mit stetigen Ableitungen bis zur Ordnung 2 an jedem Knoten.

Wir können dieses Modell mit abgeschnittenen Potenz-Basisfunktionen darstellen:

yi=β0+β1b1(xi)+β2b2(xi)++βK+3bK+3(xi)+ϵi

wobei:

  • b1(xi)=xi
  • b2(xi)=xi2
  • b3(xi)=xi3
  • bk+3(xi)=(xiξk)+3,k=1,,K

Hier bedeutet ()+ den positiven Teil:

(xiξk)+3={(xiξk)3wenn xi>ξk0sonst
  • yi: Beobachteter Wert für die i-te Beobachtung
  • β0,β1,,βK+3: Regressionskoeffizienten
  • bk(xi): Basisfunktionen
  • xi: Prädiktorwert für die i-te Beobachtung
  • ξk: Knotenpunkte
  • ϵi: Fehlerterm

Natürliche kubische Splines

Was ist ein natuerlicher kubischer spline?
?

Nat

Ein natürlicher kubischer Spline extrapoliert linear über die Randknoten hinaus. Dies fügt 4 (2 × 2) zusätzliche Einschränkungen hinzu und ermöglicht es uns, mehr interne Knoten für die gleichen Freiheitsgrade wie ein regulärer kubischer Spline zu setzen.

  • Randknoten: Stellen sicher, dass der Spline an den Rändern linear wird.
  • Freiheitsgrade: Anzahl der Parameter, die zur Anpassung des Splines verwendet werden.

Die Grafik zeigt den Unterschied zwischen einem natürlichen kubischen Spline (rote Linie) und einem regulären kubischen Spline (blaue Linie).
Pasted image 20240709015135.png

Warum sind Polynomial Regressions schlechter als Splines?
?
Pasted image 20240708174005.png

Regression Splines

Was sind Regression splines und wie Berechnet man sie?
?

Regression

Regression Splines erweitern die Polynom- und Stückweise-Konstante-Regression:

Y=β0k+β1kX+β2kX2++βdkXd+ϵfür X in jedem Intervall

Splines sind glatt und kontinuierlich an den Knotenpunkten.

Smoothing Splines

Was sind Smoothing Splines und wie berechnet man sie?
?

Smoothing

Das gute an Smoothing Splines ist, dass man splines fitten kann ohne, dass man die Knots placen muss.

Smoothing Splines minimieren die Summe der quadrierten Fehler und eine Glattheitsstrafe:

i=1n(yig(xi))2+λ(g(t))2dt

Dies führt zu glatten Funktionen, die gut zu den Daten passen.
Pasted image 20240709015426.png

Local Regression

Was ist Local Regression und wie sieht die Formel aus?
?

Local

Local Regression passt lokale lineare Modelle an Punkte nahe einem Zielpunkt an:

i=1nKi0(yiβ0β1Xi)2

Dies ermöglicht flexible, nichtlineare Anpassungen.

Pasted image 20240709015543.png

Generalized Additive Models (GAMs)

was sind General additive model?
?

Generalized

GAMs ermöglichen nichtlineare Funktionen jedes Prädiktors, während sie Additivität beibehalten:

Y=β0+j=1pfj(Xj)+ϵ

GAMs kombinieren Flexibilität und Interpretierbarkeit.

Generalized Additive Models (GAMs)

Wie kann die formel von Gams ohne summe daargestellt werden?
?

Generalized

GAMs erlauben flexible Nichtlinearitäten in mehreren Variablen, behalten aber die additive Struktur linearer Modelle bei.

yi=β0+f1(xi1)+f2(xi2)++fp(xip)+ϵi
  • yi: Beobachteter Wert für die i-te Beobachtung
  • β0: Interzept
  • fj(xij): Glättungsfunktionen der Prädiktoren xij
  • xij: Prädiktorwert für die i-te Beobachtung und den j-ten Prädiktor
  • ϵi: Fehlerterm

Die Diagramme zeigen, wie die Funktionen fj die Beziehung zwischen den Prädiktoren (Jahr, Alter, Bildung) und der Antwortvariablen modellieren.

Generalized Additive Models (GAMs)

Koennen in Gams auch wechselwirkungen einbezogen werden?
?

Generalized

GAMs sind additiv, obwohl Wechselwirkungen niedriger Ordnung auf natürliche Weise durch bivariate Glätter oder Wechselwirkungen der Form ns(age,df=5):ns(year,df=5) einbezogen werden können.

  • Additive Modelle: Jede Komponente wird separat angepasst und addiert.
  • Bivariate Glätter: Glättungsmethoden für zwei Variablen gleichzeitig.
  • Wechselwirkungen: Interaktionen zwischen Variablen, die im Modell berücksichtigt werden.

GAMs bieten Flexibilität bei der Modellierung nichtlinearer Beziehungen und Wechselwirkungen in den Daten.

GAMs für Klassifikation

Wie verwendet man Gams fuer Klassification?
?

Gams

Generalized Additive Models (GAMs) können auch für Klassifikationsprobleme verwendet werden. Die logistische Regression wird als additive Modelle erweitert:

log(p(X)1p(X))=β0+f1(X1)+f2(X2)++fp(Xp)
  • p(X): Wahrscheinlichkeit des Ereignisses
  • β0: Interzept
  • fj(Xj): Glättungsfunktionen der Prädiktoren Xj

In R kann dies mit der gam() Funktion durchgeführt werden, wie im Beispiel:

gam(I(wage>250)year+s(age,df=5)+education,family=binomial)
  • year: Jahr
  • age: Alter
  • education: Bildung

Polynominal Regression (Linear Regression)
?

yi=β0+β1xi+β2xi2+β3xi3++βdxid+ϵi

Polynominal Regression (Logitic Regression)
?

Pr(yi>250xi)=exp(β0+β1xi+β2xi2++βdxid)1+exp(β0+β1xi+β2xi2++βdxid)

Was sind Step Functions
?
Pasted image 20240705091719.png

Step Function
?

yi=β0+β1C1(xi)+β2C2(xi)++βKCK(xi)+ϵi

Pasted image 20240705092245.png

Step Function als Generalisiertes Modell Beispiel Logitische Regression
?
Pasted image 20240705092419.png

Regression splines
?
Pasted image 20240705092837.png

Local regression
?
Pasted image 20240705102032.png

Generalized additive models
?

Generalized Additive Models (GAMs)

Was sind GAMS?
?

Generalized

Generalized Additive Models (GAMs) ermöglichen es, die Beziehung zwischen der Antwortvariablen und mehreren Prädiktoren durch additive nichtlineare Funktionen darzustellen.

Das Modell wird wie folgt formuliert:

Y=β0+f1(X1)+f2(X2)++fp(Xp)+ϵ
  • Y ist die Antwortvariable.
  • β0 ist der Interzept.
  • fj(Xj) sind nichtlineare Glättungsfunktionen der Prädiktoren Xj.
  • ϵ ist der Fehlerterm.

GAMs kombinieren Flexibilität und Interpretierbarkeit, da jede nichtlineare Funktion einzeln geschätzt und interpretiert werden kann.

Pasted image 20240709020308.png

was bringt ein spline was ein piecewise polynom nicht hat?
?
kontinuitaet sprich die linie hat keine sprungstelle, sommit kann stetigkeit die derivative berechnet werden.

basis function
?
todo

Kontinuitaet
?
Pasted image 20240705093938.png
allgemein: K+d+1 freie Parameter

Pasted image 20240705094212.png

Was sind natruerliche Splines ?
?
Pasted image 20240705094251.png

Nachteil Polynominal Regression
?
Pasted image 20240705094430.png

Kolmogorov-arnod Networks
?
todo

Treebased Models

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Basics of Decision Trees

Basics

Decision Trees segmentieren den Prädiktorraum in einfache Regionen. Jede Beobachtung wird einer Region zugeordnet, und die Vorhersage erfolgt durch den Mittelwert oder Modus der Trainingsbeobachtungen in dieser Region.

Regression Trees:

j=1JiRj(yiy^Rj)2

Pruning:

m=1|T|xiRm(yiy^Rm)2+α|T|

Classification Trees

Classification

Klassifikationsbäume sagen qualitative Antworten voraus. Die Vorhersage erfolgt durch die am häufigsten vorkommende Klasse im Endknoten.

Gini Index:

G=k=1Kp^mk(1p^mk)

Cross-Entropy:

D=k=1Kp^mklog(p^mk)

Bagging

Bagging

Bagging reduziert die Varianz durch das Erstellen vieler Bootstrapped-Trainingsdatensätze, das Bauen mehrerer Bäume und das Mittelwerten der Vorhersagen.

Out-of-Bag (OOB) Error:
OOB-Beobachtungen werden verwendet, um den Testfehler des Modells zu schätzen.

Random Forests

Random

Random Forests verbessern Bagging durch Dekorrelieren der Bäume. Bei jeder Aufteilung wird eine zufällige Stichprobe von (m) Prädiktoren als Aufteilungskandidaten gewählt.

Wichtigkeit der Prädiktoren:

Wichtige Prädiktoren werden durch die Verringerung des Gini-Index oder der RSS bei Aufteilungen bestimmt.

Boosting

Boosting

Boosting baut viele Bäume sequentiell auf, wobei jeder Baum Informationen aus dem vorhergehenden Baum verwendet.

Boosting Algorithmus:

f^new=f^prev+λf^bri(new)=ri(prev)λf^b(xi)

Weitere Details und ausführliche Erklärungen finden Sie auf der Webseite ISLR Chapter 8 - Tree-Based Methods.

Support Vektor Machines

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Maximal Margin Classifier

Maximal

Der Maximal Margin Classifier trennt Klassen durch einen Hyperplane mit maximalem Abstand zu den nächsten Datenpunkten beider Klassen.

Maximiere M

Betreffend:

j=1pβj2=1yi(β0+j=1pβjxij)M

M ist der Abstand vom Hyperplane.

Support Vector Classifier

Support

Der Support Vector Classifier erlaubt einige Fehler und verbessert Robustheit.

Maximiere M

Betreffend:

j=1pβj2=1yi(β0+j=1pβjxij)M(1ϵi)ϵi0i=1nϵiC

Support Vector Machines

Support

Support Vector Machines erweitern Support Vector Classifier durch Kernel, die nichtlineare Entscheidungsgrenzen ermöglichen.

Kernels:

K(xi,xi)=j=1pxijxij

Polynom-Kernel:

K(xi,xi)=(1+j=1pxijxij)d

Radial Kernel:

K(xi,xi)=exp(γj=1p(xijxij)2)

SVMs with More than Two Classes

Svms

One-Versus-One:
Entwickelt mehrere SVMs, die jeweils zwei Klassen vergleichen.

One-Versus-All:
Entwickelt mehrere SVMs, die jede Klasse gegen alle anderen vergleichen.

Die Testbeobachtung wird der Klasse zugeordnet, für die der Ausdruck:

β0k+β1kx1++βpkxp

am größten ist.

SVMs vs Logistic Regression

Svms

SVMs und Logistische Regression haben ähnliche Verlustfunktionen und geben oft ähnliche Ergebnisse. Bei gut getrennten Klassen performen SVMs besser, während Logistische Regression bei mehr Überlappung besser abschneidet.

Weitere Details und ausführliche Erklärungen finden Sie auf der Webseite ISLR Chapter 9 - Support Vector Machines.

Unsuppervised Learning

Hier sind die wichtigsten Konzepte und Formeln von der angegebenen Webseite im Stil der bisherigen Erklärungen:

Principal Components Analysis (PCA)

Principal

PCA reduziert die Dimensionen eines Datensatzes, indem es neue, unkorrelierte Variablen, die Principal Components, berechnet.

Erster Principal Component:

Z1=ϕ11X1+ϕ21X2++ϕp1Xp

Die ϕ-Werte sind die Ladefaktoren, welche die Richtung der maximalen Varianz definieren.

K-Means Clustering

K-means

K-Means Clustering teilt den Datensatz in (K) Cluster auf, sodass die Summe der quadratischen Abweichungen innerhalb der Cluster minimiert wird.

Algorithmus:

  1. Zufällige Zuweisung von Beobachtungen zu Clustern.
  2. Berechnung der Cluster-Zentroiden.
  3. Neuzuordnung der Beobachtungen basierend auf der Nähe zu den Zentroiden.
  4. Wiederholung bis zur Konvergenz.

Hierarchical Clustering

Hierarchical

Hierarchical Clustering erzeugt eine hierarchische Darstellung der Daten in Form eines Dendrogramms.

Algorithmus:

  1. Berechnung der Distanzen zwischen allen Beobachtungen.
  2. Fusion der ähnlichsten Cluster.
  3. Wiederholung bis alle Beobachtungen in einem Cluster sind.

Linkage-Methoden:

  • Complete Linkage: Maximale Distanz zwischen den Beobachtungen in zwei Clustern.
  • Single Linkage: Minimale Distanz.
  • Average Linkage: Durchschnittliche Distanz.
  • Centroid Linkage: Distanz zwischen den Zentroiden der Cluster.

Practical Issues in Clustering

Practical

Entscheidungen wie die Standardisierung von Variablen und die Wahl der Distanz- und Linkage-Methode beeinflussen die Ergebnisse.

Validierung ist schwierig, und die Ergebnisse sollten als Ausgangspunkt für Hypothesen und weitere Untersuchungen betrachtet werden.

Weitere Details und ausführliche Erklärungen finden Sie auf der Webseite ISLR Chapter 10 - Unsupervised Learning.

Week 13 (S. 301-307)

Smoothing Splines
?

i=1n(yig(xi))2+λ(g(t))2dt

Pasted image 20240705095306.png

Loss function von Smoothing Splines
?
todo

Freiheitsgrade von Smoothing Splines
?
todo

Unterschied von Regression Splines und Smoothing Splines
?
todo

Was ist das Setting der Linearen Regression?
?
Pasted image 20240705100128.png]]

Freiheitsgrade Splines
?
Pasted image 20240705101536.png

Week 14 (S. 307-311)

Question Answering

LE 1: Theoretische Grundlagen des STL

1. Was wird im Statistical Learning untersucht?

Statistical Learning untersucht Methoden zur Analyse und Interpretation komplexer Daten. Es umfasst Werkzeuge zur Modellierung der Beziehung zwischen Variablen, sowohl in überwachten (Vorhersage von Outputs basierend auf Inputs) als auch in unüberwachten (Strukturierung und Mustererkennung in Daten ohne explizite Outputs) Kontexten.

2. Fasse deine Erkenntnisse aus diesem Kompetenzmodul auf einer A4-Seite zusammen.

Das Kompetenzmodul vermittelt die Grundlagen des Statistical Learning, einschließlich der Definitionen von überwachten und unüberwachten Lernmethoden, des Bias-Variance-Tradeoffs, und der Unterscheidung zwischen parametrischen und nicht-parametrischen Modellen. Es behandelt wichtige Konzepte wie den reduzierbaren und nicht-reduzierbaren Fehleranteil und stellt verschiedene Modellierungsansätze vor, darunter lineare und nicht-lineare Modelle, sowie Methoden zur Modellbewertung und -auswahl.

3. Was steckt im Fehler ϵ in Y=f(X)+ϵ?

Der Fehler ϵ repräsentiert den irreduziblen Fehler, der durch zufällige Variabilität oder unbekannte Faktoren in den Daten verursacht wird. Er umfasst alle Einflüsse, die nicht durch die Funktion f(X) erklärt werden können.

4. Charakterisiere den reduzierbaren und den nicht-reduzierbaren Anteil von ϵ.

5. Was ist der Unterschied zwischen einem parametrischen und einem nicht-parametrischen Modell? Gib Beispiele.

6. Liste die in diesem Kompetenzmodul untersuchten Modelle auf. In welche Untergruppen können sie aufgeteilt werden?

Untersuchte Modelle:

Untergruppen:

7. Welche der eingeführten Modelle können mit qualitativen Prädiktoren umgehen?

Modelle wie die logistische Regression und Entscheidungsbäume können mit qualitativen Prädiktoren umgehen, indem sie diese in Dummy-Variablen umwandeln oder Kategorien direkt in die Analyse einbeziehen.

8. Welche Masse existieren, um die Qualität eines Fits zu bestimmen? Was sind ihre Vor- und Nachteile?

9. Erkläre den Bias-Variance Trade-Off an einem Training und Validierungsset.

Ein Modell mit hoher Kapazität (Komplexität) hat niedrigen Bias, aber hohe Varianz, was zu Overfitting führen kann. Ein einfaches Modell hat hohen Bias, aber niedrige Varianz, was zu Underfitting führt. Die richtige Modellkapazität minimiert den Gesamtfehler und berücksichtigt sowohl Bias als auch Varianz.

10. Was ist der Bayes Classifier? Warum ist KNN eine Annäherung des Bayes Classifiers?

Der Bayes Classifier weist jeder Beobachtung die Klasse mit der höchsten posterioren Wahrscheinlichkeit zu. KNN approximiert dies, indem es die Mehrheit der Klassen in den K nächsten Nachbarn verwendet.

11. Erkläre den Bias-Variance-Tradeoff am Beispiel von KNN oder eines Regression Splines.

12. Erkläre, wie die Natur der Daten die Kurven im Bias-Variance-Tradeoff beeinflusst.

Wenn Daten komplex und variabel sind, benötigen Modelle mit höherer Kapazität, um Muster zu erfassen, was die Varianz erhöht. Einfache Daten können durch Modelle mit niedriger Kapazität gut beschrieben werden, was den Bias reduziert.

13. Was ist das ‘No free lunch’-Theorem des Statistical Learning?

Das 'No free lunch'-Theorem besagt, dass kein Modell in allen Situationen überlegen ist. Die Modellleistung hängt von der Datenstruktur und dem spezifischen Anwendungsfall ab.

14. Welche Modelle kennst du, die keine Regressionsmodelle sind?

15. Was ist ein memory-basiertes Modell? Nenne Beispiele.

Memory-basierte Modelle speichern Trainingsdaten und verwenden sie zur Vorhersage neuer Daten. Beispiele sind KNN und Kernel-SVMs.

16. Was ist der Accuracy vs. Interpretability-Tradeoff? Warum ist Interpretierbarkeit wichtig, bzw. oft wichtiger als eine hohe Vorhersagegenauigkeit?

Ein hochgenaues Modell kann komplex und schwer interpretierbar sein, während ein einfaches Modell leichter zu verstehen ist. Interpretierbarkeit ist wichtig, um Modelle in praktischen Anwendungen zu erklären und Vertrauen zu schaffen.

LE 2: Lineare Regression

1. Was sind Residuen und welcher Verteilungsannahme müssen sie im Setting der linearen Regression folgen?

Residuen sind die Differenzen zwischen den beobachteten Werten und den durch das Modell vorhergesagten Werten. Im Setting der linearen Regression wird angenommen, dass die Residuen normalverteilt sind mit einem Mittelwert von null und konstanter Varianz (Homoskedastizität).

2. Warum sind der Residual Standard Error (RSE) und der Root-Mean-Squared Error (RMSE) im asymptotischen Limit der Anzahl Beobachtungen gleich groß?

Im asymptotischen Limit, wenn die Anzahl der Beobachtungen groß ist, konvergiert der RSE gegen den RMSE, da beide Maßzahlen im Wesentlichen die durchschnittliche Größe der Residuen messen. Der Unterschied besteht in der Freiheitsgrade-Korrektur beim RSE, die bei großer Stichprobe vernachlässigbar wird.

3. Was ist der Wertebereich der ( R^2 )-Statistik? Was ist passiert, wenn die ( R^2 )-Statistik negativ ist?

Der Wertebereich der ( R^2 )-Statistik liegt zwischen 0 und 1. Eine negative ( R^2 )-Statistik deutet darauf hin, dass das Modell schlechter abschneidet als ein einfaches Mittelwertsmodell, was bei schlecht angepassten Modellen auftreten kann.

4. Was sind die Vor- und Nachteile von linearer Regression gegenüber KNN?

5. Für die lineare Regression lassen sich Standardabweichungen auf die geschätzten Koeffizienten bestimmen. Wie könntest du diese Standardabweichungen auch ohne Formel schätzen?

Die Standardabweichungen der geschätzten Koeffizienten können durch Bootstrap-Methoden geschätzt werden, bei denen wiederholt Stichproben mit Zurücklegen aus dem Datensatz gezogen und die Modellparameter neu geschätzt werden.

6. Was ist der t-Test und welche Rolle spielt er in der linearen Regression? Wo führt er zu Problemen?

Der t-Test wird verwendet, um zu testen, ob ein Regressionskoeffizient signifikant von null verschieden ist. Er prüft die Nullhypothese, dass der Koeffizient keinen Einfluss hat. Probleme treten auf, wenn die Annahmen der Normalverteilung und Homoskedastizität der Residuen verletzt sind.

7. Schreibe das Setting der Multiplen Linearen Regression in Vektor- und Matrixform auf.

In Vektor- und Matrixform wird die multiple lineare Regression wie folgt dargestellt:

Y=Xβ+ϵ

wobei Y der Vektor der abhängigen Variablen, X die Designmatrix der unabhängigen Variablen, β der Vektor der Koeffizienten und ϵ der Fehlerterm ist.

8. Was ist die Motivation, für das Fitten der Regressionsparameter Least Squares zu benutzen? Warum nicht zum Beispiel einen Mean Absolute Error (MAE, L1-Distanz zwischen Vorhersage und tatsächlichen Werten)?

Least Squares (Kleinste Quadrate) minimiert die Summe der quadrierten Residuen und führt zu einfacheren mathematischen Lösungen und Optimierung. Mean Absolute Error (MAE) hat den Vorteil, robust gegenüber Ausreißern zu sein, aber es führt zu komplexeren Optimierungsproblemen, da es nicht differenzierbar ist.

9. Wie ist die F-Statistik im Setting der Multiplen Linearen Regression zu interpretieren?

Die F-Statistik testet die Nullhypothese, dass alle Regressionskoeffizienten außer dem Interzept gleich null sind. Eine signifikant hohe F-Statistik deutet darauf hin, dass das Modell mit den Prädiktoren besser ist als ein Modell ohne Prädiktoren.

10. Wie können im linearen Regressionssetting qualitative Variablen berücksichtigt werden? Wie sind die Modellparameter zu interpretieren?

Qualitative Variablen können durch Dummy-Variablen kodiert werden. Modellparameter repräsentieren dann die Veränderung der abhängigen Variablen im Vergleich zur Referenzkategorie.

11. Was ist Multikollinearität? Warum ist sie in der linearen Regression ein Problem? Wie kannst du herausfinden, ob drei oder mehr Variablen eine multikollineare Beziehung haben?

Multikollinearität tritt auf, wenn zwei oder mehr Prädiktoren stark korreliert sind, was die Schätzung der Koeffizienten ungenau macht. Sie kann durch Variance Inflation Factor (VIF) und Korrelationsmatrizen untersucht werden.

12. Was ist ein additives Modell? Warum ist die einfache lineare Regression additiv? Was sind die Einschränkungen eines additiven Modells? Wie kannst du diese zum Teil umgehen? Was ist das hierarchische Prinzip zum Umgang mit Interaktionsvariablen? Was sind Haupteffekte? Warum ist polynomiale Regression immer noch ein lineares Modell?

Additive Modelle kombinieren die Effekte der Prädiktoren additiv. Lineare Regression ist additiv, da sie die Summe der Prädiktor-Effekte modelliert. Einschränkungen bestehen in der Unfähigkeit, komplexe Interaktionen zu modellieren, die durch Interaktionsterme und hierarchisches Modellieren teilweise umgangen werden können. Haupteffekte sind die Einzelwirkungen der Prädiktoren. Polynomiale Regression ist linear in den Koeffizienten, daher ein lineares Modell.

13. Was ist Heteroskedastizität? Wie steht sie zu den Modellannahmen der linearen Regression? Mit welchen Methoden kannst du wieder in ein homoskedastisches Setting zurückkommen?

Heteroskedastizität bedeutet, dass die Varianz der Residuen nicht konstant ist. Dies verletzt die Annahmen der linearen Regression. Methoden wie logarithmische Transformationen oder gewichtete Regression können helfen, Homoskedastizität zu erreichen.

14. Welche Arten von Ausreißern gibt es? Welche Art von Ausreißern beeinflusst ein lineares Regressionsmodell besonders? Mit welchem Mass kannst Ausreisser dieser Art finden?

Es gibt Ausreißer in den Prädiktoren und in den abhängigen Variablen. Leverage-Punkte (Ausreißer in den Prädiktoren) beeinflussen das Modell besonders stark. Cook’s Distance misst den Einfluss einzelner Beobachtungen auf das Modell.

15. Was ist die Maximum-Likelihood-Methode und wie kann sie im Fall der linearen und logistischen Regression benutzt werden, um das optimale Modell zu finden? Warum ist Least Squares eine Konsequenz daraus?

Die Maximum-Likelihood-Methode schätzt Parameter, die die beobachteten Daten am wahrscheinlichsten machen. In der linearen Regression führt dies zu den gleichen Ergebnissen wie Least Squares, da die Normalverteilungsannahmen der Fehler konsistent sind. In der logistischen Regression wird die Wahrscheinlichkeit der Klassenzugehörigkeit maximiert.

LE 3: Klassifikationsprobleme

1. Welche Grössen zur Beurteilung der Performance eines Klassifikationsmodells kennst du? Wie können sie auf ein Setting mit mehr als nur zwei Klassen erweitert werden? Wie beeinflusst Class Imbalance diese Grössen? Erkläre die ROC-Kurve und warum sie benutzt wird.

Performance-Messgrößen:

Class Imbalance:

Multiclass Settings:

2. Was ist die Rolle der Sigmoid-Funktion in der logistischen Regression? Warum kann für diskrete Zielgrössen nicht einfach ein lineares Regressionsmodell verwendet werden?

Die Sigmoid-Funktion transformiert den linearen Output in einen Wert zwischen 0 und 1, der als Wahrscheinlichkeit interpretiert werden kann:

σ(z)=11+ez

Ein lineares Regressionsmodell ist nicht geeignet für diskrete Zielgrößen, da es keine Wahrscheinlichkeiten ausgibt und die Fehlerverteilung nicht normal ist.

3. Wie sind die gefundenen Koeffizienten der logistischen Regression zu interpretieren?

Die Koeffizienten der logistischen Regression ((\beta)) geben an, wie sich die Log-Odds des Zielereignisses ändern, wenn sich der Prädiktor um eine Einheit ändert. Die Exponentialfunktion der Koeffizienten ((e^{\beta})) gibt das Odds Ratio an.

4. Was ist der Unterschied zwischen Multipler und Multinomialer Regression? Erkläre beide Settings mit Formeln. Können sie kombiniert werden?

Kombination: Ja, sie können kombiniert werden, um kategoriale Vorhersagen mit multiplen Prädiktoren zu treffen.

5. Was ist ein generatives Modell? Warum sind LDA, QDA und Naive Bayes generative Modelle? Was ist der Vorteil eines generativen Modells im Vergleich zu KNN oder logistischer Regression? Was sind Nachteile?

Generative Modelle modellieren die gemeinsame Verteilung der Prädiktoren und der Antwortvariable (P(X, Y)). LDA, QDA und Naive Bayes sind generative Modelle, weil sie die Verteilung (P(X|Y)) und (P(Y)) modellieren und dann Bayes' Theorem anwenden.

Vorteile:

Nachteile:

6. Was sind die Modellannahmen von LDA? Wie werden Klassifikationsentscheidungen getroffen? Woher kommt der Name 'Diskriminantenanalyse'? In welchem Punkt unterscheidet sich QDA zu LDA bezüglich Modellannahmen? In welchem Punkt Naive Bayes? Welches Modell ist das beste?

Das beste Modell hängt vom Datensatz und den Annahmen ab. LDA ist effizient bei großen, gut getrennten Klassen, während KNN flexibel ist, aber viel Rechenaufwand erfordert.

7. LDA und Logistische Regression sind beides lineare Modelle. Warum klassifizieren sie gleiche Datensätze trotzdem mit unterschiedlichen Hyperebenen?

LDA maximiert die Trennung zwischen Klassen basierend auf den Klassenverteilungen, während logistische Regression die Wahrscheinlichkeiten für die Klassen direkt modelliert. Dies führt zu unterschiedlichen Klassifikationsgrenzen.

8. Warum ist ein Naive Bayes-Modell mit allgemeiner grundlegender Verteilung flexibler als ein QDA-Modell? Warum ist ein Naive Bayes-Modell mit Normalverteilung weniger flexibel als ein LDA-Modell?

9. Welches ist das beste Klassifikationsmodell? Warum kann keine einfache Aussage diesbezüglich gemacht werden? In welchem Setting ist LDA das beste Klassifikationsmodell? In welchem KNN? Welche anderen Kriterien für die Brauchbarkeit eines Modells außer dessen Vorhersagbarkeit kennst du noch?

Es gibt kein bestes Modell für alle Situationen. Die Wahl hängt von der Datenstruktur, der Anzahl der Beobachtungen und der Verteilungsannahmen ab.

Andere Kriterien:

10. Warum konvergiert logistische Regression nur schlecht, wenn die Daten perfekt separiert sind?

Bei perfekter Trennung streben die Koeffizienten gegen Unendlichkeit, da das Modell versucht, die Trennung zu maximieren. Dies führt zu Problemen in der Konvergenz der Optimierung.

11. Warum ist die logistische Regression von starken Korrelationen betroffen, warum LDA und QDA nicht? Wie sieht es mit Naive Bayes und KNN aus?

Logistische Regression kann bei stark korrelierten Prädiktoren instabile Koeffizienten haben. LDA und QDA berücksichtigen die gemeinsame Verteilung und Kovarianzmatrix, was sie stabiler macht. Naive Bayes geht von unabhängigen Prädiktoren aus, daher problematisch bei Korrelationen. KNN ist weniger betroffen, da es auf Distanzen basiert.

12. Warum funktioniert die Accuracy nur schlecht als Performance-Mass, wenn eine große Imbalance in der Klassenverteilung vorliegt?

Accuracy kann irreführend sein, wenn eine Klasse stark dominiert. In diesem Fall kann ein Modell hohe Accuracy erzielen, indem es die dominierende Klasse bevorzugt, während die Leistung auf der Minderheitsklasse schlecht ist. Bessere Metriken sind Precision, Recall und der F1-Score.

LE 4: Generalisierte Lineare Modelle

1. Punkto welcher Tatsache generalisieren GLMs eigentlich? Was sind die Annahmen der linearen Regression, die möglicherweise nicht immer erfüllt sind?

GLMs generalisieren die lineare Regression, indem sie den linearen Zusammenhang zwischen den Prädiktoren und dem Erwartungswert der Antwortvariable beibehalten, aber eine breitere Palette von Verteilungen für die Antwortvariable zulassen. Annahmen der linearen Regression, die nicht immer erfüllt sind:

Ein GLM hat die Form:

g(E(Y|X))=β0+β1X1++βpXp

Die Link-Funktion ( g ) stellt eine Beziehung zwischen dem Erwartungswert ( \mathbb{E}(Y|X) ) und der linearen Kombination der Prädiktoren her.

Beispiele für GLMs und ihre Link-Funktionen:

Beispiele für poissonverteilte Zielgrößen sind die Anzahl der Anrufe in einem Callcenter pro Stunde oder die Anzahl der Unfälle an einem bestimmten Ort pro Jahr. Die Koeffizienten einer Poisson-Regression werden als die Änderung der Log-Zählrate pro Einheit Änderung des Prädiktors interpretiert. Die Log-Link-Funktion wird verwendet, weil sie sicherstellt, dass die vorhergesagte Anzahl nicht negativ ist und die Poisson-Verteilung angemessen modelliert wird.

LE 5: Resampling

1. Erkläre den Zweck des einfachen Train-Validation-Split, eines k-fold CV-Ansatzes und LOOCV und platziere sie im Bias-Variance-Tradeoff. Welchen Wert für k würdest du im Allgemeinen für eine k-fold CV benutzen?

Empfohlener Wert für (k): 10.

2. Warum überschätzt k-fold CV den Fehler auf dem Validierungsset im Allgemeinen?

k-fold CV überschätzt den Validierungsfehler, weil das Modell auf nur (k-1) Teilen des Datensatzes trainiert wird und nicht auf dem gesamten Datensatz. Dies führt zu konservativeren Schätzungen des Fehlers.

3. Was ist der Bootstrap und wofür kann er eingesetzt werden? Kennst du ein Anwendungsbeispiel? Kannst du erklären, warum der Bootstrap funktioniert?

Der Bootstrap ist eine Methode zur Schätzung der Verteilung einer Statistik durch wiederholtes Ziehen von Stichproben mit Zurücklegen aus dem Originaldatensatz. Anwendungsbeispiel: Schätzung der Standardabweichung eines Parameters. Der Bootstrap funktioniert, weil jede Bootstrapped-Stichprobe eine repräsentative Unterstichprobe des Originaldatensatzes darstellt, wodurch die Variabilität der Statistik abgeschätzt werden kann.

4. Warum overfittest du umso stärker auf das Validierungsset, je mehr Hyperparameter-Tuning du machst?

Je mehr Hyperparameter-Tuning durchgeführt wird, desto spezifischer wird das Modell an das Validierungsset angepasst, was zu Overfitting führt. Das Modell lernt spezifische Muster und Rauschen im Validierungsset, anstatt generalisierbare Muster zu erkennen.

LE 6: Model Selection

1. Welche Methoden kennst du um eine Auswahl aus einer Menge von Prädiktoren zu treffen, die in ein Modell eingehen sollen? Welche Techniken helfen dir dabei, diese Auswahl zu treffen und so das Modell zu finden, das vermutlich am besten auf ein Testsetting generalisiert?

Methoden zur Auswahl von Prädiktoren:

Techniken zur Auswahl des besten Modells:

2. Was sind die Vor- und Nachteile von Best Subset Selection und Forward- und Backward Stepwise Selection? In welchem Setting würdest du welchen Ansatz anwenden?

3. Welche Anzahl von Modellen schauen Best Subset Selection und Forward- und Backward Stepwise Selection ungefähr an, wenn eine Menge von (p) Prädiktoren vorliegt?

4. Was schätzen AIC und BIC ab? Was schätzt adjusted (R^2) ab? Welche Überlegung geht in die Berechnung von adjusted (R^2) ein?

5. In welcher Situation kann es mehr Sinn machen, statt einem CV-Ansatz die Größen AIC, BIC oder adjusted (R^2) zu benutzen?

In Situationen mit großen Datensätzen oder bei Modellen mit vielen Prädiktoren, wo CV-Ansätze rechnerisch aufwendig sind. Auch wenn schnelle Modellvergleiche nötig sind oder bei Zeitdruck, können AIC, BIC und adjusted (R^2) nützlich sein.

6. Was ist ANOVA? Wie wird sie zur Selektion von Modellen eingesetzt?

ANOVA (Analysis of Variance) testet die Unterschiede zwischen Gruppenmittelwerten. In der Modellselektion wird ANOVA verwendet, um zu prüfen, ob das Hinzufügen zusätzlicher Prädiktoren zu einer signifikanten Verbesserung des Modells führt.

7. Was ist die One-Standard-Error-Rule? Erkläre mit einer Grafik. Warum macht sie Sinn?

Die One-Standard-Error-Rule wählt das einfachste Modell, dessen Fehler innerhalb eines Standardfehlers des minimalen Fehlerwerts liegt. Dies reduziert die Varianz und vermeidet Overfitting.

Grafik:

  Fehler
    ^
    |          *
    |         ***
    |        *****
    |       *******
    |      *********
    |  ******************
    |***********************************
    --------------------------------------------> Modellkomplexität
                         ^
             Einfache Modelle innerhalb eines Standardfehlers des minimalen Fehlers

Sinn:
Die Regel sorgt für Robustheit und vermeidet Overfitting, indem sie ein einfacheres Modell bevorzugt, das fast so gut ist wie das komplexeste Modell.

LE 7: Nicht-lineare Regression

1. Welche Ansätze zur nicht-linearen Regression kennst du? Welcher ist der beste?

Es gibt keinen "besten" Ansatz; die Wahl hängt vom spezifischen Anwendungsfall und den Daten ab.

2. Ordne die verschiedenen Ansätze zur nicht-linearen Regression im Bias-Variance-Tradeoff ein - welcher ist der flexibelste?

3. Was sind Unterschiede zwischen einem polynomialen Regressionsmodell und einem Regression Spline?

4. Worin unterscheiden sich natürliche Splines zu Regression Splines?

5. Was ist eine Basisfunktion und wie wird sie in Regression Spline-Modellen angewendet?

Eine Basisfunktion ist eine grundlegende Funktion, die verwendet wird, um komplexere Funktionen zu konstruieren. In Regression Spline-Modellen werden Basisfunktionen verwendet, um die Polynomstücke in jedem Intervall darzustellen und zu kombinieren.

6. Mit welchem Parameter wird die Position eines Smoothing-Splines im Bias-Variance-Tradeoff eingestellt? Was reguliert er? Wie könntest du einen optimalen Wert für diesen Parameter bestimmen?

7. Wie ist der Begriff ‘Freiheitsgrad’ (Degree of freedom) für Spline-Modelle zu verstehen? Was ist insbesondere der Zusammenhang der effektiven Anzahl Freiheitsgrade eines Regressionsmodells zur Spur der Projektionsmatrix, die die tatsächlichen y-Werte auf die Regressionskurve projiziert?

8. Was ist die Truncated Power Basis und warum ist sie eine gute Basis für Regression Splines?

Die Truncated Power Basis besteht aus Basisfunktionen, die an den Knotenpunkten "abgeschnitten" werden. Sie ist eine gute Basis für Regression Splines, weil sie einfach zu konstruieren ist und gute numerische Eigenschaften aufweist.

9. Welche Ordnung der Basispolynome eines Regression-Splines würdest du standardmäßig benutzen? Bis zu welcher Ableitung muss er die Randbedingungen in den Knotenpunkten erfüllen?

Standardmäßig wird oft ein kubisches Polynom verwendet, das bis zur zweiten Ableitung stetig ist.

10. Wie funktioniert Lokale Regression? Mit welchem Parameter wird ihre Position im Bias-Variance-Tradeoff, also ihre Flexibilität eingestellt? Warum ist sie memory-basiert?

11. Was wird in einem GAM an der linearen Regression verallgemeinert, was nicht? Wie könntest du diese verbleibende Schwäche dennoch ein wenig mildern?

12. Wie werden GAMs trainiert?

GAMs werden durch iteratives Glätten und Optimieren der nichtlinearen Funktionen jedes Prädiktors trainiert, häufig unter Verwendung von Backfitting.

13. Kombiniere die für GAMs und GLMs gemachten Verallgemeinerungen und schreibe die Formeln für dieses ‘GLAM’ auf.

Ein GLAM (Generalized Linear Additive Model) kombiniert die additiven nichtlinearen Funktionen von GAMs mit den flexiblen Verteilungsannahmen und Link-Funktionen von GLMs:

g(E(Y|X))=β0+f1(X1)+f2(X2)++fp(Xp)

wobei ( g ) die Link-Funktion ist und ( f_i ) nichtlineare Funktionen der Prädiktoren sind.

Mathematische Räume im Statistischen Lernen

Was sind mathematische raueme und wie kann man sie verwenden bei machine learning?
?

Mathematische

Feature Raum:

  • Definition: Der Feature-Raum ist der Raum, der von den Merkmalen oder Prädiktoren einer Analyse aufgespannt wird.
  • Beispiel: Ein p-dimensionaler Raum X=(X1,X2,,Xp), in dem jede Dimension ein Merkmal darstellt.
  • Verwendete Modelle: Alle Machine Learning Modelle (z.B. lineare Regression, Entscheidungsbäume)

Metrischer Raum:

  • Definition: Ein Raum mit einer Distanzfunktion, die den Abstand zwischen zwei Punkten misst.
  • Eigenschaften:
    • Nichtnegativität: d(x,y)0
    • Identität: d(x,y)=0 wenn x=y
    • Symmetrie: d(x,y)=d(y,x)
    • Dreiecksungleichung: d(x,z)d(x,y)+d(y,z)
  • Verwendete Modelle: K-Nearest Neighbors, k-Means, hierarchisches Clustering

Vektorraum:

  • Definition: Ein Raum, in dem Vektoren addiert und skaliert werden können.
  • Eigenschaften:
    • Abgeschlossenheit unter Addition und Skalierung
    • Existenz eines Nullvektors und eines inversen Elements für jede Operation
    • Assoziativität und Kommutativität der Addition
    • Distributivität der Skalierung über Vektoraddition und Skalaren
  • Verwendete Modelle: Lineare Regression, Hauptkomponentenanalyse (PCA)

Hilbertraum:

  • Definition: Ein vollständiger innerer Produkt-Raum, wichtig für Methoden wie Kernel-Methoden und Support Vector Machines.
  • Eigenschaften:
    • Inneres Produkt: x,y definiert
    • Norm: x=x,x
    • Vollständigkeit: Jede Cauchy-Folge konvergiert
  • Verwendete Modelle: Support Vector Machines, Kernel PCA

Mannigfaltigkeit:

  • Definition: Räume, die lokal wie ein euklidischer Raum aussehen, nützlich für nichtlineare Methoden wie t-SNE oder Isomap.
  • Eigenschaften:
    • Lokale Ähnlichkeit zum Rn
    • Glatte Übergangsfunktionen
    • Topologische Struktur
  • Verwendete Modelle: t-SNE, Isomap, LLE (Locally Linear Embedding)

Wahrscheinlichkeitsraum:

  • Definition: Ein Raum, in dem Zufallsvariablen definiert sind, grundlegend für probabilistische Modelle und maschinelles Lernen.
  • Eigenschaften:
    • Ereignismenge F
    • Wahrscheinlichkeitsmaß P
    • Ergebnisraum Ω
  • Verwendete Modelle: Naive Bayes, Hidden Markov Models (HMMs), Bayesian Networks

Normalisierung und Standardisierung im Machine Learning

Wo muss man Normalisieren und Standardiseren?
?

Normalisierung

Normalisierung:

  • Definition: Skalierung der Daten auf einen Bereich von 0 bis 1.
  • Verwendete Modelle:
    • K-Nearest Neighbors (KNN)
    • k-Means
    • Neural Networks
  • Begründung: Diese Modelle verwenden Distanzmetriken im metrischen Raum, und unterschiedliche Skalen der Features können die Distanzen verzerren.

Standardisierung:

  • Definition: Skalierung der Daten, so dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.
  • Verwendete Modelle:
    • Lineare Regression
    • Logistic Regression
    • Support Vector Machines (SVM)
    • Principal Component Analysis (PCA)
    • Lineare Diskriminanzanalyse (LDA)
    • Quadratische Diskriminanzanalyse (QDA)
  • Begründung: Diese Modelle setzen voraus, dass die Features normalverteilt sind und ähnliche Skalen haben, um die Koeffizienten korrekt zu interpretieren und numerische Stabilität zu gewährleisten.

Modelle, bei denen Normalisierung oder Standardisierung nicht notwendig ist:

  • Verwendete Modelle:
    • Entscheidungsbäume
    • Random Forests
    • Gradient Boosting Trees
  • Begründung: Diese Modelle sind baumbasiert und teilen die Daten an Schnittpunkten, die nicht von der Skalierung der Features beeinflusst werden.

Pasted image 20240709153955.png

todo learn:

Wichtige Basisfunktionen in der Regressionsanalyse

Wichtige

1. Polynomieller Basis:

1,x,x2,x3,,xn
  • x: Prädiktor
  • n: Grad des Polynoms

2. Stückweise Lineare Basisfunktionen (Piecewise Linear):

1,x,(xξ1)+,(xξ2)+,,(xξm)+
  • x: Prädiktor
  • ξk: Knotenpunkt

3. Stückweise Kubische Splines:

1,x,x2,x3,(xξ1)+3,(xξ2)+3,,(xξm)+3
  • x: Prädiktor
  • ξk: Knotenpunkt

4. B-Splines:

Bi,3(x)füri=1,2,,m+2
  • x: Prädiktor
  • Bi,3(x): Kubische B-Spline-Basisfunktion

5. Fourier-Basis:

1,sin(x),cos(x),sin(2x),cos(2x),,sin(nx),cos(nx)
  • x: Prädiktor
  • n: Maximaler Frequenzindex

6. Radial Basisfunktionen (RBF):

ϕi(x)=exp((xci)22σ2)füri=1,2,,m
  • x: Prädiktor
  • ci: Zentrum der RBF
  • σ: Breitenparameter

7. Indicator-Basisfunktionen für Kategorische Variablen:

I(x=Kategorie1),I(x=Kategorie2),,I(x=Kategoriek)
  • x: Kategorischer Prädiktor
  • k: Anzahl der Kategorien

Zusammenfassung:

  • Polynomiell: Einfach und gut für glatte, nichtlineare Beziehungen.
  • Stückweise linear/kubisch: Flexibel, gut für Daten mit diskontinuierlichen oder nicht-glatten Strukturen.
  • B-Splines: Kompakte Unterstützung, flexibel und effizient.
  • Fourier-Basis: Gut für periodische Daten.
  • Radial Basisfunktionen: Gut für multidimensionale, nichtlineare Beziehungen.
  • Indikatorfunktionen: Für kategorische Daten.

Vergleich von Regression Splines, Smoothing Splines, GAM, GLM und Piecewise

Vergleich

Regression Splines:

yi=β0+β1xi+β2xi2++βkxik+j=1mγj(xiξj)+k+ϵi
  • yi: Beobachteter Wert
  • β0,β1,,βk: Regressionskoeffizienten
  • xi: Prädiktorwert
  • γj: Spline-Koeffizienten
  • ξj: Knotenpunkte
  • ϵi: Fehlerterm

Smoothing Splines:

min{i=1n(yig(xi))2+λ(g(t))2dt}
  • yi: Beobachteter Wert
  • g(xi): Glättungsfunktion
  • λ: Glätteparameter
  • t: Integervariable

Generalized Additive Models (GAM):

yi=β0+j=1pfj(xij)+ϵi
  • yi: Beobachteter Wert
  • β0: Interzept
  • fj(xij): Glättungsfunktionen
  • xij: Prädiktorwert
  • ϵi: Fehlerterm

Generalized Linear Models (GLM):

g(E(Y))=β0+β1x1++βpxp
  • Y: Antwortvariable
  • g: Linkfunktion
  • β0,β1,,βp: Regressionskoeffizienten
  • x1,,xp: Prädiktorwerte

Piecewise Regression:

yi={β0,1+β1,1xifür axi<bβ0,2+β1,2xifür bxi<cβ0,k+β1,kxifür zxi<w
  • yi: Beobachteter Wert
  • β0,1,β1,1,,β0,k,β1,k: Segment-Koeffizienten
  • xi: Prädiktorwert
  • a,b,c,z,w: Segmentgrenzen

Unterschiede und Verwendung:

  • Regression Splines: Flexible, segmentierte Polynomiale für nicht-glatte Strukturen.
  • Smoothing Splines: Glatte Funktionen für kontinuierliche Daten; Balancierung durch λ.
  • GAM: Additive Modelle für nichtlineare Beziehungen; interpretiert einzelne Effekte.
  • GLM: Verallgemeinerung linearer Modelle; für lineare und nichtlineare, aber parametrische Beziehungen.
  • Piecewise Regression: Unterschiedliche lineare Modelle in verschiedenen Bereichen; einfach und interpretierbar für verschiedene Datenbereiche.

Vergleich von Regression Splines, Smoothing Splines, GAM, GLM, Piecewise, Local Regression und Step Function Regression

Vergleich

Regression Splines:

yi=β0+β1xi+β2xi2++βkxik+j=1mγj(xiξj)+k+ϵi
  • yi: Beobachteter Wert
  • β0,β1,,βk: Regressionskoeffizienten
  • xi: Prädiktorwert
  • γj: Spline-Koeffizienten
  • ξj: Knotenpunkte
  • ϵi: Fehlerterm

Smoothing Splines:

min{i=1n(yig(xi))2+λ(g(t))2dt}
  • yi: Beobachteter Wert
  • g(xi): Glättungsfunktion
  • λ: Glätteparameter
  • t: Integervariable

Generalized Additive Models (GAM):

yi=β0+j=1pfj(xij)+ϵi
  • yi: Beobachteter Wert
  • β0: Interzept
  • fj(xij): Glättungsfunktionen
  • xij: Prädiktorwert
  • ϵi: Fehlerterm

Generalized Linear Models (GLM):

g(E(Y))=β0+β1x1++βpxp
  • Y: Antwortvariable
  • g: Linkfunktion
  • β0,β1,,βp: Regressionskoeffizienten
  • x1,,xp: Prädiktorwerte
  • ϵ: Fehlerterm

Piecewise Regression:

yi={β0,1+β1,1xifür axi<bβ0,2+β1,2xifür bxi<cβ0,k+β1,kxifür zxi<w
  • yi: Beobachteter Wert
  • β0,1,β1,1,,β0,k,β1,k: Segment-Koeffizienten
  • xi: Prädiktorwert
  • a,b,c,z,w: Segmentgrenzen

Local Regression (LOESS/LOWESS):

y^i=j=1nwj(xi)yj
  • yi: Beobachteter Wert
  • y^i: Vorhergesagter Wert
  • wj(xi): Gewichtungsfunktion, die nahegelegene Beobachtungen stärker gewichtet
  • Annahmen: Keine spezielle funktionale Form; lokal gewichtete Regression.
  • Verwendung: Flexible Anpassung an lokale Strukturen in den Daten.

Step Function Regression:

yi=β0+j=1kβjI(xiIj)+ϵi
  • yi: Beobachteter Wert
  • β0: Interzept
  • βj: Koeffizienten für die Intervalle
  • I(xiIj): Indikatorfunktion, die 1 ist, wenn xi im Intervall Ij liegt, und 0 sonst
  • ϵi: Fehlerterm
  • Annahmen: Daten in diskrete Intervalle unterteilt.
  • Verwendung: Für Daten mit sprunghaften Änderungen.

Unterschiede und Verwendung:

Parametrische Modelle im Statistischen Lernen

Parametrische

Lineare Regression:

yi=β0+β1xi+ϵi
  • Einfachstes Modell, für lineare Beziehungen.

Logistische Regression:

log(p1p)=β0+β1x
  • Für binäre Klassifikationsprobleme.

Poisson-Regression:

log(λ)=β0+β1x
  • Für Zähldaten.

LDA (Lineare Diskriminanzanalyse):

δk(x)=xTΣ1μk12μkTΣ1μk+log(πk)
  • Für Klassifikationsprobleme.

QDA (Quadratische Diskriminanzanalyse):

δk(x)=12log|Σk|12(xμk)TΣk1(xμk)+log(πk)
  • Für Klassifikationsprobleme mit unterschiedlichen Kovarianzmatrizen.

Ridge Regression:

min{i=1n(yiβ0β1xi)2+λj=1pβj2}
  • Regularisiert die lineare Regression, um Overfitting zu verhindern.

Lasso Regression:

min{i=1n(yiβ0β1xi)2+λj=1p|βj|}
  • Setzt einige Koeffizienten auf null, was zu sparsamen Modellen führt.

Elastic Net:

min{i=1n(yiβ0β1xi)2+λ1j=1p|βj|+λ2j=1pβj2}
  • Kombination von Ridge und Lasso Regression.

Zusammenfassung:

  • Lineare Modelle: Einfach und interpretierbar, für lineare Beziehungen.
  • Logistische Modelle: Für Klassifikationsprobleme, log-lineare Beziehungen.
  • Regularisierte Modelle (Ridge, Lasso, Elastic Net): Verhindern Overfitting, für lineare und nichtlineare Beziehungen.
  • Diskriminanzanalyse (LDA, QDA): Für Klassifikationsprobleme, nutzt unterschiedliche Kovarianzmatrizen.

Weitere Parametrische Modelle im Statistischen Lernen

Weitere

Bayesian Regression:

p(β|y)p(y|β)p(β)
  • Schätzt Parameterverteilungen statt Punktwerte.

Probit Regression:

Φ1(p)=β0+β1x
  • Für binäre Klassifikationsprobleme, ähnlich wie logistische Regression.

Multinomial Logistische Regression:

log(pkp0)=β0k+β1kx1++βpkxp
  • Für mehrklassige Klassifikationsprobleme.

Negative Binomial Regression:

log(λ)=β0+β1x
  • Für überdisperse Zähldaten.

Ordinal Logistische Regression:

log(p(Yj)p(Y>j))=β0+β1x
  • Für geordnete kategoriale Daten.

Survival Analysis (Cox Proportional Hazards Model):

h(t|x)=h0(t)exp(β1x1++βpxp)
  • Für Zeit-zu-Ereignis Daten.

Zusammenfassung:

  • Bayesian Regression: Schätzt Verteilungen, integriert Vorwissen.
  • Probit/Logit/Multinomial: Für Klassifikationsprobleme mit verschiedenen Verteilungen.
  • Negative Binomial: Handhabt überdisperse Zähldaten.
  • Ordinal Logistische Regression: Für geordnete Kategorien.
  • Survival Analysis: Modelliert Zeit-zu-Ereignis Daten.

Annahmen der Modellsdcge im Statistischen Lernen

Annahmen

Regression Splines:

  • Annahmen:
    • Knotenauswahl: Die Positionen der Knoten müssen festgelegt werden.
    • Stetige Ableitungen bis zur Ordnung k an den Knoten.
    • Funktionale Form innerhalb der Segmente ist polynomiell.

Smoothing Splines:

  • Annahmen:
    • Glätteparameter λ: Balanciert Glätte und Anpassung.
    • Der Glättungsgrad wird durch Minimierung einer Penalisierungsfunktion bestimmt.

Generalized Additive Models (GAM):

  • Annahmen:
    • Additivität: Die Gesamtfunktion ist die Summe von Glättungsfunktionen der einzelnen Prädiktoren.
    • Die Glättungsfunktionen sind flexibel und können nichtlineare Beziehungen modellieren.

Generalized Linear Models (GLM):

  • Annahmen:
    • Lineare Form auf transformiertem Mittelwert durch eine Linkfunktion g.
    • Verteilung der Antwortvariable gehört zu einer Exponentialfamilie (z.B. Normalverteilung, Binomialverteilung).
    • Unabhängigkeit der Beobachtungen.

Piecewise Regression:

  • Annahmen:
    • Diskontinuierliche Segmente: Jedes Segment hat ein eigenes lineares Modell.
    • Verschiedene lineare Modelle in den Segmenten.

Bayesian Regression:

  • Annahmen:
    • Vorverteilungen (Priors) für die Parameter β müssen spezifiziert werden.
    • Posterior-Verteilung wird durch Bayes-Theorem geschätzt.

Probit Regression:

  • Annahmen:
    • Die latente Variable, die die binäre Antwortvariable bestimmt, ist normalverteilt.

Multinomial Logistische Regression:

  • Annahmen:
    • Für mehrklassige Klassifikationsprobleme.
    • Unabhängigkeit der irrelevanten Alternativen (IIA).

Negative Binomial Regression:

  • Annahmen:
    • Verwendet für überdisperse Zähldaten.
    • Varianz ist größer als der Mittelwert (Overdispersion).

Ordinal Logistische Regression:

  • Annahmen:
    • Für geordnete kategoriale Daten.
    • Proportional Odds Annahme: Die Verhältniswahrscheinlichkeiten sind für alle Kategorien gleich.

Survival Analysis (Cox Proportional Hazards Model):

  • Annahmen:
    • Proportional Hazards Annahme: Die Hazard-Raten der Gruppen sind proportional.
    • Keine Zeitabhängigkeit der Hazard-Raten.

Zusammenfassung:

  • Regression Splines: Knotenauswahl, stetige Ableitungen.
  • Smoothing Splines: Glätteparameter, Minimierung einer Penalisierungsfunktion.
  • GAM: Additivität, flexible Glättungsfunktionen.
  • GLM: Lineare Form durch Linkfunktion, Verteilung aus Exponentialfamilie, Unabhängigkeit der Beobachtungen.
  • Piecewise Regression: Diskontinuierliche Segmente, verschiedene lineare Modelle.
  • Bayesian Regression: Spezifikation von Priors, Bayes-Theorem zur Schätzung.
  • Probit Regression: Normalverteilung der latenten Variable.
  • Multinomial Logistische Regression: Unabhängigkeit der irrelevanten Alternativen.
  • Negative Binomial Regression: Überdispersion der Zähldaten.
  • Ordinal Logistische Regression: Proportional Odds Annahme.
  • Survival Analysis: Proportional Hazards Annahme, keine Zeitabhängigkeit.

Heteroskedastizität in der Linearen Regression

Heteroskedastizit

Definition:
Heteroskedastizität liegt vor, wenn die Varianz der Fehlerterme ((\epsilon_i)) in einem Regressionsmodell nicht konstant ist, sondern von den Werten der unabhängigen Variablen abhängt.
Modellannahmen der linearen Regression:
Ein zentrales Modellannahme in der linearen Regression ist die Homoskedastizität, das bedeutet, dass die Varianz der Fehlerterme konstant ist:

Var(ϵi)=σ2

Folgen von Heteroskedastizität:

Literatur und weitere Informationen:

Cheat sheet to learn:

Modelle im Statistischen Lernen

Modelle

1. Linear Regression

  • Simple Linear Regression:

    • Formel: Y=β0+β1X+ϵ
    • Eigenschaften: Modelliert die lineare Beziehung zwischen zwei Variablen.
    • Annahmen: Lineare Beziehung, Unabhängigkeit der Fehler, Normalverteilung der Fehler, Homoskedastizität.
    • Degree of Freedom (DF): n2
    • Verteilung: Normalverteilung der Fehler ϵN(0,σ2)
    • Größen:
      • Y: Antwortvariable
      • β0: Interzept
      • β1: Steigung
      • X: Prädiktor
      • ϵ: Fehlerterm
  • Multiple Linear Regression:

    • Formel: Y=β0+β1X1+β2X2++βpXp+ϵ
    • Eigenschaften: Erweiterung der einfachen linearen Regression auf mehrere Prädiktoren.
    • Annahmen: Gleiche wie bei einfacher linearer Regression.
    • Degree of Freedom (DF): np1
    • Verteilung: Normalverteilung der Fehler ϵN(0,σ2)
    • Größen:
      • Y: Antwortvariable
      • β0,β1,,βp: Regressionskoeffizienten
      • X1,X2,,Xp: Prädiktoren
      • ϵ: Fehlerterm

2. Classification

  • Logistic Regression:

    • Formel: log(p1p)=β0+β1X1+β2X2++βpXp
    • Eigenschaften: Modelliert die Wahrscheinlichkeit eines binären Outcomes.
    • Annahmen: Logit-Funktion ist linear in den Prädiktoren.
    • Degree of Freedom (DF): np1
    • Verteilung: Binomialverteilung der Antwortvariable
    • Größen:
      • p: Wahrscheinlichkeit des Ereignisses
      • β0,β1,,βp: Regressionskoeffizienten
      • X1,X2,,Xp: Prädiktoren
  • Linear Discriminant Analysis (LDA):

    • Formel: δk(x)=xTΣ1μk12μkTΣ1μk+logπk
    • Eigenschaften: Findet lineare Kombinationen der Prädiktoren, die die Klassen am besten trennen.
    • Annahmen: Multivariate Normalverteilung der Prädiktoren, gleiche Kovarianzmatrix für alle Klassen.
    • Degree of Freedom (DF): p(k1)
    • Verteilung: Multivariate Normalverteilung
    • Größen:
      • δk(x): Diskriminanzfunktion für Klasse k
      • x: Prädiktorvektor
      • Σ: Kovarianzmatrix
      • μk: Mittelwertvektor der Klasse k
      • πk: A-priori Wahrscheinlichkeit der Klasse k
  • Quadratic Discriminant Analysis (QDA):

    • Formel: δk(x)=12log|Σk|12(xμk)TΣk1(xμk)+logπk
    • Eigenschaften: Erweiterung von LDA, erlaubt unterschiedliche Kovarianzmatrizen für jede Klasse.
    • Annahmen: Multivariate Normalverteilung der Prädiktoren.
    • Degree of Freedom (DF): k=1K(pk+p(p+1)2)
    • Verteilung: Multivariate Normalverteilung
    • Größen:
      • δk(x): Diskriminanzfunktion für Klasse k
      • x: Prädiktorvektor
      • Σk: Kovarianzmatrix der Klasse k
      • μk: Mittelwertvektor der Klasse k
      • πk: A-priori Wahrscheinlichkeit der Klasse k
  • K-Nearest Neighbors (KNN):

    • Eigenschaften: Klassifiziert neue Datenpunkte basierend auf den k nächsten Nachbarn im Trainingsdatensatz.
    • Annahmen: Keine spezifischen Verteilungsannahmen, nicht-parametrisch.
    • Degree of Freedom (DF): Effektive Freiheitsgrade variieren je nach k
    • Verteilung: Nicht parametrisch
    • Größen:
      • k: Anzahl der nächsten Nachbarn
  • Naive Bayes:

    • Formel: P(Y=k|X=x)=P(X=x|Y=k)P(Y=k)P(X=x)
    • Eigenschaften: Annahme der Unabhängigkeit der Prädiktoren gegeben die Klassen.
    • Annahmen: Bedingte Unabhängigkeit der Prädiktoren.
    • Degree of Freedom (DF): Variiert je nach Anzahl der Klassen und Prädiktoren.
    • Verteilung: Unterschiedlich je nach Art des Naive Bayes Modells (z.B. Gaussian, Multinomial)
    • Größen:
      • P(Y=k|X=x): Posteriori Wahrscheinlichkeit der Klasse k
      • P(X=x|Y=k): Likelihood der Prädiktoren gegeben die Klasse k
      • P(Y=k): A-priori Wahrscheinlichkeit der Klasse k

3. Linear Model Selection and Regularization

5. Non-linear Models

6. Unsupervised Learning

todo:

Pasted image 20240710230255.pngPasted image 20240710230348.pngPasted image 20240710230549.png

Pasted image 20240710230803.png

quick learning:

Naive Bayes Klassifikator: Formel und Annahmen

Formel

Der Naive Bayes Klassifikator nutzt das Bayes-Theorem:

[ P(C|X) \propto P(C) \prod_{i=1}^{n} P(x_i|C) ]

Dabei steht ( C ) für die Klasse und ( X = (x_1, x_2, \ldots, x_n) ) für die Merkmale. Die Vorhersage erfolgt durch Maximierung:

[ \hat{C} = \arg\max_C P(C) \prod_{i=1}^{n} P(x_i|C) ]

Annahmen

  1. Bedingte Unabhängigkeit:

    • Jedes Merkmal ( x_i ) ist unabhängig von den anderen Merkmalen ( x_j ) gegeben die Klasse ( C ).
  2. Gleiche Wichtigkeit aller Merkmale:

    • Alle Merkmale tragen unabhängig voneinander zur Klassifizierung bei.

Diese Annahmen vereinfachen die Berechnungen erheblich und ermöglichen effiziente Klassifizierungsalgorithmen.

Gesetzt der Kontinuitaet

ähnliche Dinge sind näher bei einander und unähnliche Dinge sind weiter ausseinander

ETC

LR annahmen: Residuen normalverteilt, erwartungswert 0, linearitaet des fs, unabhaegigkeit der einzelnen Samples, keine Kolinearitat, konstante variance

Pasted image 20240711163458.png
Pasted image 20240711163525.png

log odds macht einen werte bereich zwischen minus unedlich und unedlich.

Softmax bringt alle auf 1
Pasted image 20240711164200.png
Pasted image 20240711164502.png
Pasted image 20240711164619.png

dieses f_k(x) muss jetzt modlliert werden.

Pasted image 20240711164838.png

Pasted image 20240711165042.png

QDA und LDA kann man dann in das bayesche theorem einsetzen:
Pasted image 20240711165133.png

Naive bayes --> naive weil nimmt eine annahme dass alle klassen unabhaegig sind.
Pasted image 20240711165617.png
Naive bayes ist wie LDA aber mit einer diagonal matrix sigma

poisson verteilung:
Pasted image 20240711171519.png

Pasted image 20240711171614.png