Klassifikaasje yn Data Mining

Klassifikaasje is in data miningtechnyk dy't kategoryen oanbean oan in sammeljen fan gegevens om te helpen yn genôch foarbylden en analyzes. Untfongen wurdt soms ek wol in beslútfoarming neamd, is ien fan 'e ferskate metoaden dy't de analyze fan tige grutte datasetten effektyf meitsje.

Wêrom klassifikaasje?

In protte grutte databanken binne de norm yn 'e hjoeddeistige wrâld fan' e grutte data. Stel dan in database mei meardere terabytes fan gegevens - in terabyte is ien triljoenbytes fan gegevens.

Facebook allegear krekt 600 terabytes fan nije gegevens elke dei (sa as 2014, de lêste kear dat dizze speciaart rapportearre). De primêre útdaging fan grutte gegevens is hoe't jo it sin meitsje.

En skerp is net it ienige probleem: geweldige gegevens binne ek ferskillend, ûnstruktuer en fêst feroaring. Besjogge audio- en fideo data, sosjale media post, 3D data of geospatiale data. Dizze soarte gegevens is net maklik kategorisearre of organisearre.

Om dizze útdaging oan te foldwaan is in ramt fan automatyske metoaden foar it útfieren fan nuttige ynformaasje ûntwikkele, ûnder harren klassifikaasje .

Hoe klassifikaasje wurket

By it gefaar fan te fieren yn tech-sprek, litte wy besykje hoe't de klassifikaasje wurket. It doel is om in set fan klassifikaasje-regels te meitsjen dy't in fraach beantwurdzje, in beslút bepale, of gedrach ferwachtsje. Om te begjinnen is in set fan treningsgegevens ûntwikkele dy't befettet in bepaalde set of attributen as de wierskynlike resultaten.

De taak fan it klassifikaasje-algoritme is te ûntdekken hoe't dat set fan attributen syn konklúzje berikt.

Sesario : Miskien is in kredytkaart bedriuw besiket te bestimmen hokker perspektiven in kredytkaart oanbiede moatte krije.

Dit kin syn opset fan opliedingsgegevens:

Training Data
Namme Leeftyd Gender Jierliks ​​ynkommen Kredytekaartsje
John Doe 25 M $ 39.500 Nee
Jane Doe 56 F $ 125.000 Ja

De "predictor" kolommen Age , Gender en jierlikse ynkommens bepale de wearde fan it "predictor attribute" kredytkaart offer . Yn in treningsset is it predictor attribút bekend. De klassisearring algoritme besiket dan te bepalen hoe't de wearde fan it predictor attribút berikt is: hokker relaasjes besteane tusken de foarsizzers en de beslút? It ûntwikkelet in set fan predikaasjeregels, meastal in IF / THEN-oanfetting, bygelyks:

IF (Leeftyd> 18 ODER Age <75) en jierlikse ynkomsten> 40.000 THEN Credit Card Offer = ja

Fansels is dit in ienfâldige foarbyld, en de algoritme soe in folle gruttere data-sampling nedich wêze as de twa spesjale hier. Fierder sille de foarsjenningsregels safolle komplekere wêze, lykas subregels om attribút details te fieren.

Dêrnei wurdt it algoritme in "foarsizzing" set fan gegevens om te analysearjen, mar dit set fus it predikaasje-attribút (of beslút):

Predictor Data
Namme Leeftyd Gender Jierliks ​​ynkommen Kredytekaartsje
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Dizze predikaatgegevens helpe om de justigens fan 'e foarsjenningsregels te skatten, en de regels wurde doe tweakke oant de ûntwikkeldier de foarsjenningen effektyf en brûkber beskôget.

Tag foar dei Foarbylden fan klassifikaasje

Klassifikaasje, en oare data-miningtechniken, is efter folle fan ús hjoed-de-dei ûnderfining as konsuminten.

Wetterfoarbylden kinne gebrûk meitsje fan de klassifikaasje om te rapportearjen oft de dei reinde, sinne of wol bewolke wurde sil. De medyske berop kin soargen foar sûnens om medyske resultaten te foarsjen. In soarte fan klassifikaasjemetoade, Naive Bayesian, brûkt bedrigelike probabiliteit om spam-emails te kategorisearjen. Fan fraudefekkingen nei produktgebieten is de klassifikaasje efter de sênes efter it analysearjen fan gegevens en it produsearjen fan predikaasjes.