Wat jo witte oer Bayesian Spam Filtering

by Heinz Tschabitscher

Besykje hoe't statistiken helpe by jo yntaksje skjin te hâlden

Bayesyske spamfilters berekkenje de kâns op in berjocht dat spam is basearre op har ynhâld. Oars as ienfâldige content-basearre filters, leart Bayesian spam filtering fan spam en fan goeie post, wêrtroch in tige robúste, oanpaske en effisjint anty-spam-oanpak is, dy't it bêste weromkomt fan alle falske positiven.

Hoe kinne jo jonk e-mail oanfreegje?

Tink oan hoe jo jo spam ûntdekke. In flugge eachopslach is faak genôch. Jo witte wat spam liket te sjen, en jo witte wat goede post soek sjocht.

De probabiliteit fan spam liket sa goed as e-post is om ... nul.

It skermjen fan ynhâld-basearre filters net oanpasse

Wolle it net geweldich as automatyske spamfilters sa goed wurke?

It skriuwen fan ynhâld-basearre spamfilters probearret krekt dat. Se sykje foar wurden en oare typen fan typyske spam. Elke karakteristike elemint wurdt in score skonken, en in spampartit foar it folsleine berjocht wurdt kompleet út de yndividuele punten. Guon toetsfilters sykje ek foar skaaimerken fan legitimearde e-mail, wêrtroch't in definitive resultaat fan in berjocht ferstiet.

De knopfilter-oanpak wurket, mar it hat ek ferskate minuten:

De list fan skaaimerken is boud fan de spam (en de goeie e-post) beskikber foar de ynternisten fan de filter. Om in goeie fermelding fan 'e typyske spam te krijen, kin eltsenien wêze, mail moat op hûnderten e-postadressen sammele wurde. Dit swakke de effektiviteit fan 'e filters, benammen om't de skaaimerken fan goede post foar elke persoan oars binne , mar dit wurdt net rekken hâlden.
De skaaimerken om te sykjen binne mear of minder yn stien set . As de spammers de ynspanning meitsje om oan te passen (en meitsje har spam sa goed as e-post nei de filters, dan moatte de filterstekenens handich makke wurde - in noch grutter ynspanning.
It wurd dat elk wurd oanbelanget is wierskynlik basearre op in goed skatting, mar it is noch altyd beweard. En lykas de list fan skaaimerken, it makket neat oan 'e feroarjende wrâld fan spam yn' t algemien noch oan in bepaalde brûkersbedriuw.

Bayesian Spam Filters Tweak Diel, Better en Better

Bayesyske spamfilters binne ek in soarte fan toetsbasisfilters. Har approach giet fuort mei de problemen fan ienfâldige skôgings fan spamfilters, hoewol, en it makket dat radiklik. Sûnt de swakke fan skriuwfilters is yn 'e manuaal boude list fan skaaimerken en har punten, wurdt dizze list útslein.

Ynstee dêrfan bouwe Bayesian-spamfilters de list sels. Ideaal, begjinne jo mei in (grutte) kaai fan e-posten dy't jo as spam beëinige hawwe, en in oar bân fan goeie post. De filters sjogge op beide en legitimearje it analysearjen as de spam om de probabiliteit fan ferskate skaaimerken te rekkenjen yn spam, en yn goeie post.

Hoe't in Bayesian Spam Filter in e-post besjogge

De skaaimerken in Bayesian-spamfilter kin sjen:

de wurden yn it lichem fan it berjocht, fansels, en
syn headers (sjoerders en berjochtpaden , bygelyks!), mar ek
oare aspekten lykas HTML / CSS-koade (lykas kleuren en oare formaat) of sels
wurd pairs, útspraak en
meta-ynformaasje (wêr't bygelyks in bepaalde fraude ferskynt).

As in wurd "Cartesian" bygelyks nea yn spam ferskynt, mar faak yn 'e legitimearje e-mail dy't jo ûntfange, is de kâns dat "Cartesian" spam oanjûn is nul nul. "Toner", oan 'e oare kant, ferskynt allinich, en faak, yn spam. "Toner" hat in hege kâns om te spamjen yn spam, net folle ûnder 1 (100%).

As in nij berjocht komt, wurdt it analysearre troch it Bayesyske spamfilter, en de probabiliteit fan it komplete berjocht dat spam wurdt berekkene mei de yndividuele skaaimerken.

Asjebleaft in berjocht befettet sawol "Cartesian" en "toner". Fan dizze wurden allinne is it noch net dúdlik oft wy spam of legitoade mail hawwe. Oare skaaimerken sille (hooplik en wierskynlik) in probabiliteit oanjaan dy't it filter liedt om it berjocht as spam of in goeie post te klassifisearjen.

Bayesian Spam Filters kinne automatysk learje

No dat wy in klassifikaasje hawwe, kin it berjocht brûkt wurde om it filter sels fierder te trenerjen. Yn dat gefal moat de kâns dat de "Cartesian" oanjûn is foar goeie post is ferfallen (as it berjocht dat "both Cartesian" en "toner" befetsje is spam) of de probabiliteit fan 'toner' oanpasse wurde moat rekomdearre wurde.

Mei dizze auto-oanpassingstechnyk kinne Bayesian filters har fan har eigen en de besluten fan 'e brûkers leare (as se in misjudgment troch de filters manuell korrigearret). De oanpassing fan Bayesian filtering makket ek dat se effektyf binne foar de yndividuele e-postbehearder. Hoewol de measte minsken spam lykwols like-like eigenskippen hawwe, is de legitimearre post karakteristysk oars foar elkenien.

Hoe kin Spammers fergese Bayesian Filters krije?

De skaaimerken fan legitimearje e-mail binne krekt sa wichtich foar it Bayesian-spamfilteringsproses as de spam. As de filters spesjaal foar elke brûkers traine wurde, sille spamers in noch hurder tiid hawwe om elkenien (of sels de measte minsken) spamfilters te wurkjen, en de filters kinne oanpasse oan hast alle spamers besykje.

Spamers sille allinich it goede trening fan Bayesian filters meitsje, as se har spam-berjochten perfekt meitsje lykas de gewoane e-post allegear kinne krije.

Spamers stjoere net meast gewoane e-postberjochten. Litte wy ús derop útstelle dat dizze e-mails wurkje net as junk email. Dus, de kâns is dat se net dwaan as normale, langere e-postberjochten de iennige manier wêze om it oer spamfilters te meitsjen.

As spamers oanslute op meast gewoane e-postberjochten, dan sille wy wer in protte spam yn ús Inboxes sjogge, en e-post kin sa frustreare wurde as it yn pre-Bayesianen dagen (of noch minder) wie. It sil ek de merk ferneatigje foar de measte soarten spam, hoewol, en sil dus net lang duorje.

Sterke yndikatoaren Kin in Bayesian Spamfilter wêze as Achilles & # 39; Heel

Ien útsûndering kin foar spamferneinen ferwachte wurde om har paad troch Bayesian filters sels mei har gewoane ynhâld te wurkjen. It is yn 'e natuer fan Bayesian statistyk dat ien wurd of karakteristyk dat hiel goed yn' e goede mail ferskynt kin sa wichtich wêze om elk berjocht te sjen as it spam te sykjen as bepaald troch de filter.

As spammers in manier fine om jo wiske fire-word-of-worden te bepalen troch HTML -berjochtgegevens te besjen om te sjen hokker berjochten dy jo iepene hawwe, kinne se ien fan har yn in net-winske post opnimme en jo sels troch in goed- trained Bayesian filter.

John Graham-Cumming hat dit besocht troch twa Bayesian filters te wurkjen tsjin elkoar, de "minne" ien oanpast oan hokker berjochten fûn wurde troch it "goeie" filter te krijen. Hy seit dat it wurket, al is it proses tiidrek en komplek. Wy tinke net dat wy in protte fan dit passe sjogge, op syn minst net yn in grut skaal, en net oanpast oan e-posten fan persoanen. Spamers kinne (probearje) inkele sykwurden foar organisaasjes (wat as "Almaden" foar inkelde minsken by IBM miskien?).

Meastentiids sil spam altyd (signifikant) ferskille fan reguliere post of sil it net spam wêze, hoewol.

De ûnderste line: Bayesian Filtering 's Strength kin syn swakheid wêze

Bayesian-spamfilters binne ynhâld-basearre filters dy't:

wurde spesifisearre trainer om de spam fan 'e yndividuele e-mail-brûker te erkennen en in goeie post te meitsjen, wêrtroch't se heech effektyf en dreech oanpasse oan oan spammers.
kin trochhinne en sûnder in protte ynspann of manuele analyze oanpasse oan 'e lêste lêste triemmen.
Nimme de goede mail yndividuele brûker yn rekken en hawwe in tige leechheid fan falske positiven .
Spitigernôch, as dit in blauwe fertrouwen yn Bayesian anti-spamfilters feroarsake, wurdt it gelokige flater noch swierder . De tsjinoerstelde effekt fan falske negativen (spam dy't krekt lykas gewoane mail sjocht sjocht) hat it potensje om brûkers te fersteurjen en te skriken.