Die Jahre 1955 und 1956 prägten die Entstehung des Forschungsfelds der "Künstlichen Intelligenz" im Rahmen der Dartmouth Konferenz. Ziel der Konferenz rund um den Hauptorganisator John McCarthy war es, dass "jeder Aspekt des Lernens oder jede andere Eigenschaft der Intelligenz so genau beschrieben werden kann, dass eine Maschine gebaut werden kann, um sie zu simulieren." Diese frühen Ansätze – oft als "Good Old-Fashioned AI" bezeichnet – basierten auf fest definierten Regeln und symbolischer Logik.

Bereits in den frühen 1960er Jahren wurde die Idee formuliert, dass Computer nicht nur vorprogrammierte Anweisungen ausführen, sondern durch Erfahrung lernen können - ein bekanntes Beispiel war ELIZA von Joseph Weizenbaum als erster "Chatbot" der Geschichte.

Die Zielsetzung: Maschinen sollen eigenständig Muster in Daten erkennen zu lassen. Dieser Ansatz, insbesondere durch die Erforschung neuronaler Netze, hat die heutige KI-Entwicklung maßgeblich vorangetrieben. Zu den Meilensteinen zählen unter anderem das Perceptron, Entscheidungsbäume, Random Forests und Support Vector Machines.

Ein Machine Learning (ML) Modell ist im Kern eine mathematische Funktion – notiert als y = f(x). Hierbei ist x die Eingabe und y die Ausgabe. Ziel ist es, die Funktion f so zu trainieren, dass sie auch für unbekannte Eingaben sinnvolle Ausgaben liefert.

Ein einfaches Beispiel ist die lineare Regression, etwa zur Vorhersage von Hauspreisen basierend auf der Wohnfläche. Das Modell könnte die Form f(x) = wx + b haben. Die Parameter w (Gewicht) und b (Bias) werden im Lernprozess so angepasst, dass die Vorhersagen möglichst genau sind.

Wie lernt ein Modell? – 4 Schritte im Supervised Learning

Im überwachten Lernen folgt der Lernprozess meistens:

  • Daten sammeln: Es werden Daten benötigt, zum Beispiel Paare von (Wohnfläche, Preis)

  • Modellstruktur festlegen: Man entscheidet sich für eine Art von Funktion, zum Beispiel eine lineare Funktion

  • Verlustfunktion definieren: Diese misst, wie weit die Vorhersagen von den tatsächlichen Werten abweichen. Ein gängiges Maß ist der mittlere quadratische Fehler (Mean Squared Error), bei dem die durchschnittlichen quadrierten Abweichungen berechnet werden

  • Verlust minimieren: Die optimalen Parameter werden gesucht, die den Fehler möglichst gering halten. Bei einfachen Modellen geht das analytisch, bei komplexeren sind spezielle Optimierungsverfahren nötig

Mehrere Merkmale: Vektoren

Oft reicht ein einzelnes Merkmal für eine Vorhersage nicht aus. Beim Hauspreis spielen beispielsweise auch die Anzahl der Zimmer oder das Baujahr eine Rolle. Deshalb werden mehrere Merkmale in sogenannten Vektoren zusammengefasst.

Das lineare Modell erweitert sich dann zu y = w ⋅ x + b, wobei w ein Vektor aus Gewichten ist und das Skalarprodukt (w ⋅ x) die Vorhersage beeinflusst.

Mehr als nur Linien: Neuronale Netze

Lineare Modelle stoßen schnell an ihre Grenzen, weil sie nur einfache Zusammenhänge abbilden können. Neuronale Netze gehen darüber hinaus, indem sie Nicht-Linearitäten einbauen.

  • Aktivierungsfunktionen: Nach der linearen Berechnung wird eine nicht-lineare Funktion wie ReLU, Sigmoid und tanh angewendet, um komplexere Muster zu erkennen.

  • Schichtenstruktur: Neuronale Netze bestehen aus mehreren Schichten künstlicher Neuronen. Die Ausgabe einer Schicht dient als Eingabe für die nächste. Ein verbreitetes Modell ist das Feedforward Neural Network (FNN) oder Multilayer Perceptron (MLP)

Durch diese Kombination aus Schichten und Nicht-Linearitäten sind neuronale Netze in der Lage, sehr komplexe Muster und Zusammenhänge in Daten zu erkennen.