Flokkun í gagnavinnslu

Flokkun er gögn námuvinnslu tækni sem úthlutar flokkum í gagnasöfnun til að aðstoða við nákvæmari spár og greiningu. Kölluð einnig stundum kallað ákvörðunartré , flokkun er ein af nokkrum aðferðum sem ætlað er að gera greiningu á mjög stórum gagnasöfnum árangursrík.

Hvers vegna flokkun?

Mjög stórar gagnagrunna eru að verða norm í heimi í dag af "stórum gögnum". Ímyndaðu þér gagnagrunn með mörgum gögnum um gagnasvæði-a terabyte er ein trilljón bæti af gögnum.

Facebook einn crunches 600 terabytes af nýjum gögnum á hverjum einasta degi (frá og með 2014, síðasta sinn sem greint var frá þessum upplýsingum). Aðal áskorun stórra gagna er hvernig á að skynja það.

Og hreint bindi er ekki eini vandamálið: stór gögn hafa einnig tilhneigingu til að vera fjölbreytt, óbyggð og fljótbreytt. Hugleiddu hljóð- og myndgögn, félagslegar færslur, 3D gögn eða geospatial gögn. Þessi tegund af gögnum er ekki auðvelt að flokka eða skipuleggja.

Til að takast á við þessa áskorun hefur verið þróað ýmsar sjálfvirkar aðferðir til að vinna úr gagnlegum upplýsingum, meðal þeirra flokkun .

Hvernig flokkun virkar

Við hættu á að flytja of langt í tækni-tala, við skulum ræða hvernig flokkun virkar. Markmiðið er að búa til sett af flokkunarreglum sem svara spurningu, taka ákvörðun eða spá fyrir um hegðun. Til að byrja er búið að setja upp þjálfunarupplýsingar sem innihalda ákveðna eiginleika og einnig líklega niðurstöðu.

Starf flokkunaralgnisins er að uppgötva hvernig þessi eiginleiki nær niðurstöðu sinni.

Scenario : Kannski er kreditkortafyrirtæki að reyna að ákveða hvaða horfur ætti að fá kreditkort tilboð.

Þetta gæti verið sett af þjálfunargögnum:

Þjálfunargögn
Nafn Aldur Kyn Árleg innkoma Kreditkort tilboð
John Doe 25 M $ 39.500 Nr
Jane Doe 56 F $ 125.000

"Spádómur" dálkar Aldur , kyn og árstekjur ákvarða verðmæti "spádóms eigna" kreditkorta tilboðs . Í þjálfunarbúnaði er spáð eigindið þekkt. Flokkunaralgrímið reynir síðan að ákvarða hvernig gildi forspárgildisins var náð: hvaða sambönd eru á milli spáana og ákvörðunarinnar? Það mun þróa sett af spáreglum, yfirleitt IF / THEN yfirlýsingu, til dæmis:

IF (Aldur> 18 EÐA Aldur <75) OG Árstekjur> 40.000 THAN Kredittkort Tilboð = Já

Augljóslega er þetta einfalt dæmi og reikniritin myndi þurfa miklu stærri gagnasýni en þær tvær færslur sem sýndar eru hér. Enn fremur er líklegt að spáreglurnar séu miklu flóknari, þar með talin undirreglur til að fanga eiginleikar upplýsingar.

Næst er reikniritið gefið "spáfyrirmæli" af gögnum til að greina, en þetta sett skortir spádráttarhæfileika (eða ákvörðun):

Predictor Data
Nafn Aldur Kyn Árleg innkoma Kreditkort tilboð
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Þessi spágögn hjálpa til við að meta nákvæmni spáreglna, og reglurnar eru síðan klifraðir þar til verktaki telur að spáin séu skilvirk og gagnleg.

Dagur til dags Dæmi um flokkun

Flokkun og önnur gögn námuvinnslu tækni, er á bak við mikið af daglegum reynslu okkar sem neytendur.

Veðurspár gætu nýtt sér flokkun til að tilkynna hvort dagurinn verði rigning, sólskin eða skýjaður. Læknisfræðingurinn gæti greint heilsufarsskilyrði til að spá fyrir um læknisfræðilegar niðurstöður. Tegund flokkunaraðferðar, Naive Bayesian, notar skilyrt líkur á að flokka spam tölvupósti. Frá svikum til vöru tilboðs er flokkun á bak við tjöldin á hverjum degi að greina gögn og framleiða spár.