Lineare Regression Intuition
Lineare Regression ist ziemlich einfach. Die Idee ist, dass wenn wir irgendwelche Messwerte haben, das wir dann dadurch eine Linie durchziehen. Dadurch sind wir dann in der Lage diese Linie zu verwenden, um Beispielsweise Werte vorherzusagen.
Stell dir vor, du willst umziehen. Du bist gerade auf Wohnungssuche und weißt nicht, wie viel dich deine neue Wohnung kosten wird. Allerdings willst du nicht einfach in die Wohnung mit der geringsten Miete ziehen, sondern du hast Ansprüche – vor allem an die Wohnfläche. Mindestens 60 Quadratmeter sollten es sein. Im Internet schaust du dir einige Wohnungen samt Wohnfläche und Miete an. Dass größere Wohnungen teurer als kleinere sind, weißt du schon aus Erfahrung. Um die Aussage zu überprüfen, zeichnest du die Miete und Quadratmeterzahl jeder Wohnung auf. Dabei siehst du folgendes.

Manche der Wohnungen kosten dasselbe, aber unterscheiden sich enorm in der Wohnfläche. Du willst eine einheitliche Regel finden, mit der du genau schätzen kannst, wie viel du für eine Wohnung mit 60m² ausgeben musst. Und genau dabei hilft dir lineare Regression.
Lineare Regression ist ein statistisches Verfahren, mit dessen Hilfe eine Gerade auf die Weise durch die Daten gelegt wird, dass sie die Daten am besten repräsentiert. Und das ist genau dann der Fall, wenn die Summe der quadrierten Abstände zwischen der Geraden und den Daten am kleinsten ist. Mit diesem Schätzer erhältst du eine Funktion, mit deren Hilfe du für jeden Wert einer unabhängigen Variable (Wohnfläche) den Wert der abhängigen Variable (Miete) bestimmen kannst.

Die Gerade ist definiert durch die Gleichung ist y=a+b*x. Die Miete im Beispiel wird hier durch die Zielgröße y repräsentiert. Unser Ziel ist es, y für jede beliebige Quadratmeterzahl zu berechnen. Das tun wir mit Hilfe der unabhängigen Variable x, dem Achsenabschnitt a und dem Steigungskoeffizienten b. Der Achsenabschnitt ist der Wert von y, bei dem die Gerade die senkrechte Achse schneidet. In unserem Beispiel wäre das theoretisch die Miete, welche man für eine Wohnung mit 0 Quadratmetern zahlen müsste. Der Koeffizient b ist der Wert, mit dem die Zielgröße ansteigt, wenn man die unabhängige Variable mit 1 erhöht.
Python Dateien einlesen und Grafik zeichnen
Hier haben wir schon die Wohnungspreise Datei in Excel geöffnet.

Jetzt gehen zu Python rüber und erstellen ein neues Notbook. Hier laden wir die Pandas Bibliothek, damit wir dieses Dataframe, oder diese .csv Datei einlesen können.

Zum zeichnen der Grafik müssen wir die Achsen definieren und dafür brauchen wir das Paket matplotlib.

Python Lineare Regression
Jetzt bauen wir mit der linearen Regression ein Modell und das Tool welches wir Machine Learning in Python verwenden, heißt scikit-learn.
Dieses Tool stellt uns ganz viele verschiedene Sachen für Machine Learning zur Verfügung und das können wir importieren. Der Paketname heißt sklearn.

Mit der folgenden Funktion kann das System den Verkaufspreis von einem Apartment welches zum Beispiel 20m2 und 110m2 groß ist.

Die Werte brauchen wir, um ein Diagram zu zeichnen.

Nächste Seite