Wat is k-betsjutting Clustering?

Data mining mei it k-betsjinnalgoritme

De k- betsjutting Clustering algoritme is in data mining en masine learen ark dat brûkt wurdt om kloften beoardielingen yn groepen fan relatearre beoardielen sûnder foarige kennis fan dy relaasjes. Troch sampling besiket de algoritme te sjen yn hokker kategory, of kluster, de gegevens te hearren, mei it oantal klusters troch de wearde k definiearre .

It k- betsjut algoritme is ien fan 'e ienfâldige klusteringstechniken en wurdt faak brûkt yn medyske byldzjende, biometryske en relateare fjilden. It foardiel fan k- betsjut klustering is dat it fertelt oer jo gegevens (mei help fan syn ûnbeantwurde foarm), mar dan moatte jo de algoritme oer de gegevens oan 'e begjinnende ynstruksje (mei help fan' e bewarre foarm fan it algoritme).

It wurdt soms neamd as Lloyd's Algoritme, benammen yn komputerwittenskippen, om't it standert algoritme waard foar it earst útsteld troch Stuart Lloyd yn 1957. De term "k-betsjutting" waard yn 1967 troch James McQueen ynrjochte.

Hoe't it k-betsjinnet Algorithmfunksjes

It k- betsjut algoritme is in evolúsjêre algoritme dy't syn namme fan syn wurkwize behannelet. De algoritme klustert observaasjes yn k- groepen, wêrby't k as ynfierparameter is. Dêrnei jouwe elke observaasje oan klusters basearre op 'e omfang fan' e beoardieling fan 'e beoardieling fan' e kluster. De betsjutting fan 'e kluster is dan wer kompilearre en it proses begjint wer. Hjir is hoe't de algoritme wurket:

  1. It algoritme selektearret k punten as de earste kluster sintra (de middels).
  2. Elk punt yn 'e dataset wurdt taheakke oan' e sluten kluster, basearre op 'e euklidyske ôfstân tusken elke punt en elk kluster sintrum.
  3. Elk kluster sintrum is opnij kompensearre as de gemiddelde fan de punten yn dat kluster.
  4. Steppen 2 en 3 werhelje oant de klusters konvergearje. Konvergenzing kin oars ôfhannele wurde neffens de ymplemintaasje, mar it betsjuttet normaal dat of gjin beoardielen wizigingen feroarje as de stappen 2 en 3 werhelle wurde, of dat de wizigings gjin materiaal ferskil meitsje yn 'e definysje fan de klusters.

Selektearje de nûmer fan klusters

Ien fan 'e wichtichste neidielen fan' e k- betsjinnet clustering is it feit dat jo it oantal klusters as in ynfier oan 'e algoritme oanpasse moatte. As ûntwikkele is de algoritme net yn steat om it passende tal klusters te bepalen en hinget ôf fan de brûker om dit yn 'e foarkar te identifisearjen.

As jo ​​bygelyks in groep minsken hawwe dy't op grûn fan binaryske identiteit as manlike of froulik klustere wurde, neamd it k- middel algoritme mei de ynput k = 3 soe de minsken yn trije klusters twinge as twa of as in ynput fan k = 2, soe in natuerlike passe leverje.

As der in groep fan persoanen maklik klusterdearre binne basearre op hûsstatus en jo neame it k- betsjinne algoritme mei de ynfier k = 20, kinne de resultaten te allinisearre wêze om effektyf te wêzen.

Om dy reden is it faak in goed idee om te eksperimintearjen mei ferskate wearden fan k om de wearde te identifisearjen dy't jo gegevens befetsje. Jo kinne ek it brûken fan oare data-mining-algoritmen yn jo sykjen nei masine-learde kennis besjen.