Teil 1 einer Reihe über einführende Algorithmen für maschinelles Lernen
Wenn Sie mit maschinellem Lernen und den grundlegenden Algorithmen vertraut sind Wenn Sie im Feld verwendet werden, haben Sie wahrscheinlich vom K-Nearest Neighbour-Algorithmus (KNN) gehört. Dieser Algorithmus ist eine der einfacheren Techniken, die beim maschinellen Lernen verwendet werden. Es ist eine Methode, die von vielen in der Branche aufgrund ihrer Benutzerfreundlichkeit und geringen Berechnungszeit bevorzugt wird.
Was ist KNN? KNN ist ein Modell, das Datenpunkte anhand der Punkte klassifiziert, die ihm am ähnlichsten sind. Es verwendet Testdaten, um eine „fundierte Vermutung“ darüber zu treffen, als was ein nicht klassifizierter Punkt klassifiziert werden sollte.
Vorteile:
- Einfach zu verwenden.
- Schnelle Berechnungszeit.
- Macht keine Annahmen über die Daten.
Nachteile:
- Die Genauigkeit hängt von der Qualität der Daten ab Daten.
- Muss einen optimalen k-Wert finden (Anzahl der nächsten Nachbarn).
- Schlechte Klassifizierung von Datenpunkten an einer Grenze, an der sie auf die eine oder andere Weise klassifiziert werden können.
KNN ist ein Algorithmus, der sowohl als nicht parametrisch als auch als Beispiel für Faulheit angesehen wird Lernen. Was bedeuten diese beiden Begriffe genau?
- Nicht parametrisch bedeutet, dass keine Annahmen getroffen werden. Das Modell besteht vollständig aus den ihm gegebenen Daten, anstatt davon auszugehen, dass seine Struktur normal ist.
- Faules Lernen bedeutet, dass der Algorithmus keine ge macht Verallgemeinerungen. Dies bedeutet, dass bei Verwendung dieser Methode nur wenig Schulung erforderlich ist. Aus diesem Grund werden alle Trainingsdaten auch beim Testen verwendet, wenn KNN verwendet wird.
Verwendungszweck von KNN
KNN wird häufig in einfachen Empfehlungssystemen verwendet, Bild Erkennungstechnologie und Entscheidungsmodelle. Es ist der Algorithmus, den Unternehmen wie Netflix oder Amazon verwenden, um verschiedene Filme zum Anschauen oder Bücher zum Kaufen zu empfehlen. Netflix hat sogar den Netflix-Preis-Wettbewerb gestartet und 1 Million US-Dollar an das Team vergeben, das den genauesten Empfehlungsalgorithmus entwickelt hat!
Sie fragen sich vielleicht: „Aber wie machen diese Unternehmen das?“ Nun, diese Unternehmen wenden KNN auf einen Datensatz an, der über die Filme, die Sie gesehen haben, oder die Bücher, die Sie auf ihrer Website gekauft haben, gesammelt wurde. Diese Unternehmen geben dann Ihre verfügbaren Kundendaten ein und vergleichen diese mit anderen Kunden, die ähnliche Filme gesehen haben oder ähnliche Bücher gekauft. Dieser Datenpunkt wird dann anhand seiner Vergangenheit mithilfe von KNN als ein bestimmtes Profil klassifiziert. Die empfohlenen Filme und Bücher hängen dann davon ab, wie der Algorithmus diesen Datenpunkt klassifiziert.
Das obige Bild zeigt, wie KNN funktioniert, wenn versucht wird, einen Datenpunkt anhand eines bestimmten Datensatzes zu klassifizieren. Er wird mit seinen nächsten Punkten verglichen und klassifiziert basierend auf den Punkten, denen es am nächsten und am ähnlichsten ist. Hier können Sie sehen, dass der Punkt Xj basierend auf seiner Entfernung von jeder Gruppe von Punkten entweder als W1 (rot) oder W3 (grün) klassifiziert wird.
Die Ma Themen hinter KNN
Wie fast alles andere funktioniert KNN aufgrund der tief verwurzelten mathematischen Theorien, die es verwendet. Bei der Implementierung von KNN besteht der erste Schritt darin, Datenpunkte in Merkmalsvektoren oder deren mathematischen Wert umzuwandeln. Der Algorithmus ermittelt dann den Abstand zwischen den mathematischen Werten dieser Punkte. Der häufigste Weg, um diesen Abstand zu ermitteln, ist der euklidische Abstand (siehe unten).
KNN führt diese Formel aus, um den Abstand zwischen jedem Datenpunkt und den Testdaten zu berechnen. Anschließend wird die Wahrscheinlichkeit ermittelt, dass diese Punkte den Testdaten ähnlich sind, und anhand der Punkte klassifiziert, die die höchsten Wahrscheinlichkeiten aufweisen.
Um diese Formel zu visualisieren, sieht sie ungefähr so aus:
Schlussfolgerung
Jetzt kennen Sie die Grundlagen eines der grundlegendsten Algorithmen für maschinelles Lernen .Es ist ein guter Anfang, wenn Sie zum ersten Mal lernen, Modelle basierend auf verschiedenen Datensätzen zu erstellen. Wenn Sie einen Datensatz mit vielen verschiedenen Punkten und genauen Informationen haben, ist dies ein großartiger Ort, um das maschinelle Lernen mit KNN zu erkunden.
Wenn Sie diesen Algorithmus verwenden möchten, beachten Sie diese drei Punkte:
- Suchen Sie zunächst einen Datensatz, mit dem Sie leicht arbeiten können, idealerweise einen mit vielen verschiedenen Punkten und beschrifteten Daten.
- Zweitens müssen Sie herausfinden, welche Sprache verwendet wird am einfachsten zur Lösung des Problems. Ich bin mit der Verwendung von KNN in R am besten vertraut, aber Python ist auch eine beliebte Sprache für Profis des maschinellen Lernens.
- Drittens, machen Sie Ihre Recherchen. Es ist wichtig, die richtigen Methoden für die Verwendung dieses Algorithmus zu erlernen, damit Sie die genauesten Ergebnisse aus Ihrem Datensatz finden.
Es wurden verschiedene Studien durchgeführt, wie dieser Algorithmus verbessert werden kann. Diese Studien zielen darauf ab, dass Sie Kategorien unterschiedlich wiegen können, um eine genauere Klassifizierung zu erhalten. Die Gewichtung dieser Kategorien hängt davon ab, wie die Entfernung berechnet wird.
Zusammenfassend ist dies ein grundlegender Algorithmus für maschinelles Lernen, der aus vielen Gründen wie Benutzerfreundlichkeit und schneller Berechnungszeit zuverlässig ist. Es ist ein guter Algorithmus, um die Welt des maschinellen Lernens zu erkunden, aber es gibt noch Raum für Verbesserungen und Modifikationen.