Haupt Andere K-Means-Clusteranalyse

K-Means-Clusteranalyse

Überblick

Software

Beschreibung

Webseiten

Lesungen

Kurse

Überblick

Die Clusteranalyse ist eine Reihe von Datenreduktionstechniken, die darauf abzielen, ähnliche Beobachtungen in einem Datensatz zu gruppieren, sodass Beobachtungen in derselben Gruppe einander so ähnlich wie möglich sind und in ähnlicher Weise Beobachtungen in verschiedenen Gruppen so unterschiedlich sind wie möglich. Im Vergleich zu anderen Datenreduktionstechniken wie der Faktoranalyse (FA) und der Hauptkomponentenanalyse (PCA), die darauf abzielen, nach Ähnlichkeiten zwischen Variablen (Spalten) eines Datensatzes zu gruppieren, zielt die Clusteranalyse darauf ab, Beobachtungen nach Ähnlichkeiten über Zeilen hinweg zu gruppieren.

Beschreibung

K-Means ist eine Methode der Clusteranalyse, die Beobachtungen gruppiert, indem die euklidischen Abstände zwischen ihnen minimiert werden. Euklidische Distanzen sind analog zur Messung der Hypotenuse eines Dreiecks, bei der die Differenzen zwischen zwei Beobachtungen an zwei Variablen (x und y) in die pythagoreische Gleichung eingesetzt werden, um die kürzeste Distanz zwischen den beiden Punkten (Länge der Hypotenuse) aufzulösen. Euklidische Distanzen können auf n-Dimensionen mit einer beliebigen Zahl n erweitert werden, und die Distanzen beziehen sich auf numerische Differenzen bei jeder gemessenen kontinuierlichen Variablen, nicht nur auf räumliche oder geometrische Distanzen. Diese Definition der euklidischen Distanz erfordert daher, dass alle Variablen, die verwendet werden, um die Clusterbildung unter Verwendung von k-Means zu bestimmen, stetig sein müssen.

Verfahren

Um k-Means-Clustering durchzuführen, weist der Algorithmus nach dem Zufallsprinzip k Anfangszentren (k vom Benutzer angegeben) zu, entweder durch zufällige Auswahl von Punkten im durch alle n Variablen definierten euklidischen Raum oder durch Abtasten von k Punkten aller verfügbaren Beobachtungen, um zu dienen als erste Zentren. Es ordnet dann jede Beobachtung iterativ dem nächstgelegenen Zentrum zu. Als nächstes berechnet es das neue Zentrum für jeden Cluster als den Schwerpunktmittelwert der Clustering-Variablen für die neuen Beobachtungen jedes Clusters. K-means wiederholt diesen Prozess und ordnet Beobachtungen dem nächstgelegenen Zentrum zu (einige Beobachtungen ändern den Cluster). Dieser Vorgang wiederholt sich, bis eine neue Iteration keine Beobachtungen mehr einem neuen Cluster zuweist. An diesem Punkt wird davon ausgegangen, dass der Algorithmus konvergiert ist, und die endgültigen Clusterzuweisungen bilden die Clusterlösung.

Es stehen mehrere k-Means-Algorithmen zur Verfügung. Der Standardalgorithmus ist der Hartigan-Wong-Algorithmus, der darauf abzielt, die euklidischen Abstände aller Punkte mit ihren nächsten Clusterzentren zu minimieren, indem die Summe der quadrierten Fehler (SSE) innerhalb des Clusters minimiert wird.

Software

K-means ist in vielen statistischen Softwareprogrammen implementiert:

Verwenden Sie in R im Cluster-Paket die Funktion: k-means(x, center, iter.max=10, nstart=1). Das Datenobjekt, für das Clustering durchgeführt werden soll, wird in x deklariert. Die Anzahl der Cluster k wird vom Benutzer in center=# angegeben. k-means() wiederholt sich mit verschiedenen Anfangsschwerpunkten (zufällig aus dem gesamten Datensatz abgetastet) nstart=# mal und wählt den besten Lauf (kleinste SSE). iter.max=# legt eine maximal zulässige Anzahl von Iterationen (Standard ist 10) pro Durchlauf fest.

Verwenden Sie in STATA den Befehl: cluster kmeans [varlist], k(#) [options]. Verwenden Sie [varlist], um die Clustering-Variablen zu deklarieren, k(#), um k zu deklarieren. Es gibt andere Möglichkeiten, Ähnlichkeitsmaße anstelle von euklidischen Abständen anzugeben.

Verwenden Sie in SAS den Befehl: PROC FASTCLUS maxclusters=k; var [varliste]. Dies erfordert die Angabe von k und den Clustering-Variablen in [varlist].

Verwenden Sie in SPSS die Funktion: Analysieren -> Klassifizieren -> K-Means-Cluster. Zusätzliche Hilfedateien sind online verfügbar.

Überlegungen

K-Means-Clustering erfordert, dass alle Variablen kontinuierlich sind. Andere Methoden, die nicht erfordern, dass alle Variablen kontinuierlich sind, einschließlich einiger hierarchischer Clustering-Methoden, haben andere Annahmen und werden in der Ressourcenliste unten erörtert. K-Means-Clustering erfordert auch eine a-priori-Spezifikation der Anzahl von Clustern, k. Obwohl dies empirisch mit den Daten durchgeführt werden kann (mithilfe eines Screeplots, um die SSE innerhalb der Gruppe gegen jede Clusterlösung darzustellen), sollte die Entscheidung theoretisch getrieben werden, und falsche Entscheidungen können zu fehlerhaften Clustern führen. Beispiele für die Auswahl von Clusterlösungen finden Sie unten im Online-R-Walkthrough-R-Skript für die K-Means-Clusteranalyse von Peeples.

Epidemiologie ist die Lehre von

Von besonderer Bedeutung ist auch die Wahl der Clustering-Variablen. Im Allgemeinen erfordern Clusteranalysemethoden die Annahme, dass die zur Bestimmung von Clustern ausgewählten Variablen eine umfassende Darstellung des zugrunde liegenden Interessenkonstrukts sind, das ähnliche Beobachtungen gruppiert. Während die Variablenauswahl nach wie vor ein umstrittenes Thema bleibt, empfiehlt der Konsens auf diesem Gebiet, so viele Variablen wie möglich zu gruppieren, solange die Menge dieser Beschreibung entspricht, und die Variablen, die nicht viel von der Varianz der euklidischen Distanzen zwischen Beobachtungen beschreiben, werden weniger beitragen contribute zur Clusterzuordnung. Sensitivitätsanalysen werden mit verschiedenen Clusterlösungen und Sätzen von Clustering-Variablen empfohlen, um die Robustheit des Clustering-Algorithmus zu bestimmen.

K-means zielt standardmäßig darauf ab, die Summe des quadratischen Fehlers innerhalb der Gruppe, gemessen durch euklidische Distanzen, zu minimieren, aber dies ist nicht immer gerechtfertigt, wenn die Datenannahmen nicht erfüllt sind. Konsultieren Sie Lehrbücher und Online-Leitfäden im Ressourcenabschnitt unten, insbesondere Robinsons R-Blog: K-Means-Clustering ist kein kostenloses Mittagessen für Beispiele für Probleme, die beim K-Means-Clustering auftreten, wenn Annahmen verletzt werden.

Schließlich ähneln Clusteranalysemethoden anderen Datenreduktionstechniken darin, dass sie größtenteils explorative Werkzeuge sind, daher sollten die Ergebnisse mit Vorsicht interpretiert werden. Es gibt viele Techniken zur Validierung von Ergebnissen aus der Clusteranalyse, einschließlich intern mit Kreuzvalidierung oder Bootstrapping, Validierung von a priori theoretisierten konzeptionellen Gruppen oder mit Expertenmeinung oder externe Validierung mit separaten Datensätzen. Eine häufige Anwendung der Clusteranalyse ist ein Werkzeug zur Vorhersage der Clustermitgliedschaft bei zukünftigen Beobachtungen unter Verwendung vorhandener Daten, beschreibt jedoch nicht, warum die Beobachtungen auf diese Weise gruppiert werden. Daher wird die Clusteranalyse häufig in Verbindung mit der Faktorenanalyse verwendet, wobei die Clusteranalyse verwendet wird, um zu beschreiben, wie ähnlich Beobachtungen sind, und die Faktorenanalyse verwendet wird, um zu beschreiben, warum Beobachtungen ähnlich sind. Letztlich sollte die Gültigkeit von Clusteranalyseergebnissen durch die Theorie und durch den Nutzen von Clusterbeschreibungen bestimmt werden.

Lesungen

Lehrbücher & Kapitel

  1. Aldenderfer MS und Blashfield RK (1984). Clusteranalyse. Sage University Paper series on Quantitative Applications in the Social Sciences, Reihe Nr. 07-044. Newbury Park, Kalifornien: Sage Publications. Das Grünbuch Clusteranalyse ist ein klassisches Nachschlagewerk zu Theorie und Methoden der Clusteranalyse sowie ein Leitfaden für die Ergebnisberichterstattung.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Clusteranalyse, 5. Aufl. Wiley-Reihe. Ausführliche und aktuelle Beschreibungen der verschiedenen Arten von Methoden der Clusteranalyse, wie sich das Feld entwickelt hat.

  3. Lorr M. (1983). Clusteranalyse für Sozialwissenschaftler. Jossey-Bass Social and Behavioral Science Series. Lorrs klassischer Text beschreibt Methoden mit Daten, die typischerweise in den Sozialwissenschaften anzutreffen sind – K-Means-Datenannahmen sind oft schwer mit Daten in den Sozialwissenschaften zu erfüllen, und es werden Alternativen diskutiert.

Methodische Artikel

  1. Hauser J. und Rybakowski J (1997). Drei Gruppen männlicher Alkoholiker. Drogenabhängigkeit; 48(3):243-50. Ein Beispiel für das Clustering von Verhaltenstypen in der Suchtforschung.

  2. BreuhlS, et al. (1999). Verwendung der Clusteranalyse zur Validierung der IHS-Diagnosekriterien für Migräne und Kopfschmerz vom Spannungstyp. Kopfschmerzen; 39(3):181-9. Eine Studie zur Validierung diagnostischer Kriterien unter Verwendung von k-Means auf Symptommuster.

  3. Guthrie E. et al. (2003). Die Clusteranalyse von Symptomen und gesundheitsorientiertem Verhalten unterscheidet Untergruppen von Patienten mit schwerem Reizdarmsyndrom. Darm; 52(11):1616-22. Pflegesuchende Verhaltensmuster werden durch Clusteranalyse differenziert.

    wie installiere ich dban auf usb

Anwendungsartikel

  1. MacQueen J. (1967). Einige Methoden zur Klassifizierung und Analyse von multivariaten Beobachtungen. Proceedings of the 5th Berkeley Symposium on Math. Statistiker. und Prob., Vol. 2, No. 1. Früheres Papier über statistische Methoden über k-means den Clustering-Algorithmus von einem der frühen Entwickler.

  2. Salim SZ und Ismail MA. (1984). K-Means-Typ-Algorithmen: Ein verallgemeinerter Konvergenzsatz und Charakterisierung der lokalen Optimalität. IEEE Trans Pattern Anal Mach Intell; 6(1):81-7. Methodische Überlegungen und Empfehlungen zum Einsatz von k-Means-Clustering.

  3. Saeed F, et al. (2012). Das Kombinieren von K-means Clusterings von chemischen Strukturen unter Verwendung eines clusterbasierten Ähnlichkeitspartitionierungsalgorithmus. Kommunikation in Informatik und Informationswissenschaft; 322:304-312. Ein kürzlich erschienener Artikel zur Verbesserung der Leistung von k-Means-Clusterlösungen durch Mehrfachiterations- und Kombinationsansätze.

Webseiten

Verschiedene exemplarische Vorgehensweisen für die Verwendung von R-Software zur Durchführung von k-Means-Clusteranalysen mit angewandten Beispielen und Beispielcode.

  1. statmethods.net: Quick-R: Clusteranalyse http://www.statmethods.net/advstats/cluster.html

  2. 2. R-Statistik-Blog: K-means Clustering http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R-Skript für die K-Means-Clusteranalyse http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R-Blogger: K-means Clustering ist kein kostenloses Mittagessen http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Technische R-Ressourcen

  1. York University – Clusteranalyse R-Befehle analysis http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. R kmeans() Hilfedatei https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Zugehörige Datenreduktionstechniken

  1. Explorative Faktorenanalyse (EFA) zur fortgeschrittenen Epidemiologie

  2. Hauptkomponentenanalyse (PCA) zur fortgeschrittenen Epidemiologie

Interessante Artikel

Tipp Der Redaktion

A TRIBUTE TO GLENN GOULD: Magdalena Baczewska spielt Bachs Goldberg-Variationen
A TRIBUTE TO GLENN GOULD: Magdalena Baczewska spielt Bachs Goldberg-Variationen
Diese Aufnahme enthält die Goldberg-Variationen von J. S. Bach und die Klaviersonate Op. 5: das erste und letzte Klavierwerk, aufgenommen vom legendären Pianisten Glenn Gould.American Record Guide: 'Eine ungewöhnlich gute Aufnahme.'Das Grammophon: Schön und innig skaliert.'Adam Rozlach, Polnischer Rundfunk: 'Baczewska ist ein sehr sensibler Pianist, perfekt komfortabel mit Bachs
David Pozen
David Pozen
David Pozen lehrt und schreibt unter anderem über Verfassungsrecht, Informationsrecht und Gemeinnützigkeitsrecht. 2019 hat das American Law Institute Pozen mit der Early Career Scholars Medal ausgezeichnet, die alle zwei Jahre an einen oder zwei herausragende Juraprofessoren verliehen wird, deren Arbeit ordnungspolitisch relevant ist und das Potenzial hat, Verbesserungen in der Recht. Richter Mariano-Florentino Cuéllar vom Obersten Gerichtshof Kaliforniens, Vorsitzender des Auswahlausschusses, beschrieb Pozens Schriften über das Staatsgeheimnis und die Verfassungstheorie als bemerkenswert und weithin einflussreich, ebenso aktuell wie gelehrt und ebenso kreativ und zum Nachdenken anregend wie nuanciert und präzise and . Pozens Werk umfasst Dutzende von Artikeln, Essays und Buchkapiteln. Er hat auch zwei Bände für die Columbia University Press herausgegeben, über Transparenz (2018) und Redefreiheit (2020), und schreibt regelmäßig für die Blogs Balkinization und Lawfare. Er war Hauptredner bei zahlreichen akademischen Konferenzen in den Vereinigten Staaten und im Ausland, und sein Stipendium wurde in Medien wie The New York Times, The New Yorker, The Washington Post, Harper's, Politico, American Scholar und NPR diskutiert. Im Jahr 2017 wurde Pozen der erste Gastwissenschaftler am Knight First Amendment Institute der Columbia University. Im Jahr 2013 zeichnete die von Studenten geführte Columbia Society of International Law Pozen mit dem Faculty Honours Award aus. Von 2010 bis 2012 war Pozen Sonderberater von Harold Hongju Koh, Rechtsberater im US-Außenministerium. Zuvor war Pozen Rechtsreferendar für Richter John Paul Stevens am Obersten Gerichtshof der USA und für Richter Merrick B. Garland am US-Berufungsgericht für den District of Columbia Circuit und Sonderassistent von Senator Edward M. Kennedy im Senat Justizausschuss.
Alexandra Carter
Alexandra Carter
Als Direktorin der Mediation Clinic der Law School bildet Alexandra Carter ’03 seit 2008 Studierende in verschiedenen Formen der alternativen Streitbeilegung aus. Unter ihrer Anleitung lernen die Studenten Verhandlungsstrategien und beraten Klienten vor Bundes-, Staats- und New Yorker Gerichten; Die Fälle reichen von Streitigkeiten in Familienunternehmen bis hin zu Beschwerden, die bei der U.S. Equal Employment Opportunity Commission eingereicht werden. Im Jahr 2016 ging Carter eine Partnerschaft mit dem Institut der Vereinten Nationen für Ausbildung und Forschung ein, und ihre Studenten sind die exklusiven Anbieter von Unterricht in alternativer Streitbeilegung für das diplomatische Korps der Vereinten Nationen in New York. Sie bildet derzeit Justiz- und Verwaltungsleiter von Gerichten im Bundesstaat New York aus, die bald erfordern, dass die meisten Zivilstreitigkeiten im Wege einer mutmaßlichen Mediation und nicht in öffentlichen Gerichten beigelegt werden. 2019 ehrte die Columbia University Carter mit dem Presidential Award for Teaching für ihre innovative Pädagogik und ihr Engagement für ihre Studierenden. Carter entwickelte ihre Leidenschaft für Mediation und Lehre als Studentin in der Mediation Clinic der Law School, die von Professor Carol Liebman geleitet wurde, die ihr Mentor und Vorbild wurde. Als Student gewann Carter den Jane Marks Murphy Prize für klinische Anwaltschaft und den Lawrence S. Greenbaum Prize für das beste mündliche Argument beim Harlan Fiske Stone Moot Court Competition 2002. Bevor sie sich an der Law School einschrieb, war Carter Private-Equity-Analystin bei Goldman Sachs und Fulbright-Stipendiatin in Taiwan, wo sie die zeitgenössische Literatur recherchierte, um die politischen Spannungen über die Taiwanstraße zu bewerten. Nachdem Carter ihren J.D. erhalten hatte, arbeitete sie am U.S. District Court for the District of Massachusetts und trat dann als Prozessanwältin bei Cravath, Swaine & Moore ein. Sie wurde von Liebman und anderen Mentoren der Columbia Law School an die Akademie zurückgezogen. Carters neue Sicht auf Verhandlungen ist das Thema ihres bevorstehenden General-Interest-Buches Ask for More: 10 Questions to Negotiate Anything, das im Mai 2020 von Simon & Schuster als Haupttitel veröffentlicht wird.
BSNL Fiber Plans Uttarakhand 2021 mit Preis & Gültigkeit
BSNL Fiber Plans Uttarakhand 2021 mit Preis & Gültigkeit
BSNL Fiber Plans Uttarakhand 2021 Preis, BSNL Fiber Plans Uttarakhand 2021 Gültigkeit, Uttarakhand bsnl ftth plans 2021 Devbhoomi
Die Boten von Hélène Crouzillat und Laetitia Tura
Die Boten von Hélène Crouzillat und Laetitia Tura
Htc u11 plus Preis, technische Daten, Erscheinungsdatum, Preis in Indien 2018, USA
Htc u11 plus Preis, technische Daten, Erscheinungsdatum, Preis in Indien 2018, USA
Htc U11 plus htc mobile Preis in Indien, USA. Htc U11 plus Htc mobile Spezifikationen, Erscheinungsdatum, Funktionen, Akku, Farben, Bildschirmgröße, Htc UI-Schnittstelle
Nokia 5.1 plus (Nokia X5) Preis, Spezifikation, Markteinführung, USA, Indien
Nokia 5.1 plus (Nokia X5) Preis, Spezifikation, Markteinführung, USA, Indien
Nokia x5 oder Nokia 5.1 plus neuestes Nokia-Telefon 2018 IPS-LCD, 5,86-Zoll-Display, Android 8.1, Dual-13 MP, 5 MP hinten, 8 MP Frontkamera, Helio P60, 3060 mAh Akku