Hvað er k-þýðir Clustering?

Gagnavinnslu með k-þýðir reiknirit

K- þýðir þyrping reiknirit er gögn námuvinnslu og vél nám tól notað til að þyrping athuganir í hópa af tengdum athugunum án þess að fyrri þekkingu á þessum samböndum. Með sýnatöku reynir reikniritin að sýna í hvaða flokki eða þyrping gögnum tilheyra, þar sem fjöldi klasa er skilgreint með gildi k.

K- þýðir reikniritin er ein einföldustu þyrpingartækni og er almennt notuð í læknisfræðilegri hugmyndafræði, líffræðileg tölfræði og tengdum sviðum. Kosturinn við k- þýðir þyrping er að það segir frá gögnum þínum (með því að nota óviðráðanlegt form) frekar en að þurfa að kenna reikniritinu um gögnin í upphafi (með því að nota undirritað form reikningsins).

Það er stundum nefnt Lloyd's Algorithm, sérstaklega í tölvunarfræði hringi vegna þess að staðall reiknirit var fyrst lagt af Stuart Lloyd árið 1957. Hugtakið "k-þýðir" var myntsláttur árið 1967 af James McQueen.

Hvernig k-þýðir reikniritaraðgerðir

K- þýðir reikniritin er þróunarreiknirit sem öðlast nafn sitt frá rekstri þess. Reikniritaklóðirnir athuganir í k hópa, þar sem k er veitt sem inntaksstærð. Það gefur síðan hverjum athugun á klasa sem byggjast á nálægð athugunarinnar við meðalþyrpinguna. Meðalþyrpingin er síðan endurreiknuð og ferlið hefst aftur. Hér er hvernig reikniritin virkar:

  1. Reikniritin velur geðþótta k punkta sem fyrstu þyrpingarmiðstöðvarnar (þýðir).
  2. Hvert punkt í gagnapakkanum er úthlutað lokuðum þyrpingunni, byggt á Euclidean fjarlægðinni milli hvern punkt og hverja þyrpingarmiðstöð.
  3. Hver þyrpingarmiðstöð er endurreiknuð sem meðaltal punkta í þyrpingunni.
  4. Skref 2 og 3 endurtaka þar til þyrparnir koma saman. Samleitni má skilgreina á annan hátt eftir framkvæmdinni, en það þýðir venjulega að hvorki neinar athuganir breyti klösum þegar skref 2 og 3 eru endurtekin eða að breytingarnar skipta ekki máli í skilgreiningu klasa.

Velja fjölda klasa

Ein helsta gallinn við k- þýðir þyrping er sá staðreynd að þú verður að tilgreina fjölda þyrpinga sem inntak í reikniritinu. Eins og ætlað er, er reikniritið ekki fær um að ákvarða viðeigandi fjölda þyrpinga og fer eftir notandanum að auðkenna þetta fyrirfram.

Til dæmis, ef þú átt hóp af fólki sem á að vera klasa á grundvelli tvíþættrar kynjamis sem karl eða kona, kallarðu k- þýðir reikniritin með því að nota inntakið k = 3 myndi þvinga fólkið í þrjá þyrpingar þegar aðeins tveir eða inntak k = 2, myndi veita náttúrulegri passa.

Á sama hátt, ef hópur einstaklinga var einfaldlega þyrping á grundvelli heima og þú kallaðir k- þýðir reikniritið með inntakinu k = 20, gæti niðurstaðan verið of almennt til að vera skilvirk.

Af þessum sökum er oft góð hugmynd að gera tilraunir með mismunandi gildum k til að bera kennsl á það gildi sem best hentar gögnunum þínum. Þú gætir líka viljað kanna notkun annarra gagnavinnsluaðlögunarreglna í leit þinni að þekkingu á vélinni.