Það sem þú þarft að vita um Bayesian ruslpóstur

by Heinz Tschabitscher

Finndu út hvernig tölfræði hjálpar til við að halda pósthólfið hreint

Bayesian spam filters reikna líkurnar á að skilaboð séu ruslpóstur byggt á innihaldi þess. Ólíkt einföldum síum sem innihalda efni, lærir Bayesian ruslpóstsía frá ruslpósti og góðan póst, sem leiðir til mjög öflugrar aðlögunar og skilvirkrar andstæðingur-spam nálgun sem best af öllu skilar ekki neinu falskum jákvæðum.

Hvernig viðurkennir þú ruslpóst?

Hugsaðu um hvernig þú finnur fyrir ruslpósti . A fljótur litið er oft nóg. Þú veist hvað spam lítur út og þú veist hvað góð póstur lítur út.

Líkurnar á að ruslpóstur lítur út eins og góð póstur er í kringum ... núll.

Mælingar á innihaldsefnum síðum Ekki aðlagast

Myndi það ekki vera frábært ef sjálfvirkar ruslpóstar virka svona líka?

Að skora á grundvelli ruslpósts sem innihalda efni, reyndu bara. Þeir leita að orðum og öðrum einkennum sem eru dæmigerðar fyrir ruslpóst. Sérhver einkennandi þáttur er úthlutað skora og ruslpóstur fyrir alla skilaboðin er reiknuð út frá einstökum stigum. Sumir sindursíur leita einnig að einkennum lögmætra pósta, lækka lokaskilaboð skilaboðanna.

The sindur filters nálgun virkar, en það hefur einnig nokkur galli:

Listinn yfir einkenni er byggður úr ruslpósti (og góða póstinum) sem er í boði fyrir verkfræðinga síu. Til að fá góðan skilning á dæmigerðu ruslpóstinum sem einhver gæti fengið, verður að safna pósti á hundruðum netföngum. Þetta dregur úr skilvirkni sínanna, sérstaklega vegna þess að einkenni góðra pósta verða mismunandi fyrir hvern einstakling , en þetta er ekki tekið tillit til.
Eiginleikar sem leita að eru meira eða minna settar í stein . Ef spammers reyna að laga sig (og láta ruslpóstinn líta út eins og góður póstur á síurnar) þarf að klífa síunareiginleika handvirkt - jafnvel stærri átak.
Skorinn sem úthlutað er í hvert orð er líklega byggt á góðu mati, en það er ennþá geðþótta. Og eins og listinn yfir einkenni, lagar hann sig hvorki til breytinga heimsins á ruslpósti almennt né við þarfir einstakra notenda.

Bayesian Spam Filters Tweak sig, verða betri og betri

Bayesian ruslpóstar eru eins og að skora efni sem byggir á síum líka. Aðferð þeirra er í burtu við vandamálin með einföldum stigum spam filters, þó, og það gerir það svo róttækan. Þar sem veikleiki sindursítra er í handvirkum lista yfir einkenni og stig þeirra er þessi listi útrýmt.

Í staðinn byggja Bayesian spam filters listann sjálfan. Helst byrjar þú með (stór) fullt af tölvupósti sem þú hefur flokkað sem ruslpóst og annað fullt af góðum pósti. Síurnar horfa bæði á og greina lögmætan póst ásamt ruslpósti til að reikna út líkurnar á ýmsum einkennum sem birtast í ruslpósti og í góðu pósti.

Hvernig Bayesian ruslpóstsía skoðar tölvupóst

Einkennin sem Bayesian spam sía getur litið á getur verið:

orðin í meginmál skilaboðanna, auðvitað og
hausarnir (sendendur og skilaboðaslóð , til dæmis!), en einnig
aðrar þættir eins og HTML / CSS kóða (eins og litir og önnur snið), eða jafnvel
orð pör, orðasambönd og
meta upplýsingar (þar sem tiltekið orðasamband birtist, til dæmis).

Ef orð, "Cartesian" til dæmis birtist aldrei í ruslpósti en oft í lögmætu tölvupósti sem þú færð, líkurnar á að "Cartesian" bendir á ruslpósti er nálægt núlli. "Tónn" birtist hins vegar eingöngu og oft í ruslpósti. "Tónn" hefur mjög mikla líkur á að vera að finna í ruslpósti, ekki mikið undir 1 (100%).

Þegar ný skilaboð koma, er greind með Bayesian ruslpóstssíunni og líkurnar á að heildarboðið sé ruslpóstur er reiknað út með einstökum einkennum.

Segjum að skilaboð innihalda bæði "Cartesian" og "toner". Frá þessum orðum einum er ekki enn ljóst hvort við höfum ruslpóst eða legit póst. Aðrir eiginleikar munu (vonandi og sennilega) gefa til kynna líkur sem gerir síuna kleift að flokka skilaboðin sem annaðhvort ruslpóst eða góðan póst.

Bayesian Spam síur geta lært sjálfkrafa

Nú þegar við höfum flokkun er hægt að nota skilaboðin til að þjálfa síuna sjálft frekar. Í þessu tilviki er annað hvort líkurnar á að "Cartesian" bendir til góðs pósts sé lækkuð (ef skilaboðin sem innihalda bæði "Cartesian" og "toner" er talin vera ruslpóstur) eða hvort líkurnar á að "toner" sem bendir á ruslpósti verði endurskoðað.

Með þessari sjálfvirka aðlögunartækni geta Bayesian síur lært af eigin ákvarðanir og ákvarðanir notandans (ef hún bregst við mistökum með síum með handvirkt). Aðlögunarhæfni Bayesian síunar tryggir einnig að þau séu skilvirkasta fyrir hvern einstakan tölvupóst notanda. Þó að ruslpóstur annarra sé svipuð, þá er lögmæt póstur einkennilega ólíkur fyrir alla.

Hvernig geta spammers fengið fortíð Bayesian síur?

Eiginleikar lögmætra pósta eru jafnmikilvægar fyrir Bayesian spam síunarferlið sem ruslpósturinn er. Ef síurnar eru þjálfaðir sérstaklega fyrir alla notendur, munu spammers hafa enn meiri tíma í að vinna að ruslpóstssíðum allra (eða jafnvel flestra) og síurnar geta lagað sig að næstum öllu sem spammers reyna.

Spammers vilja aðeins gera það framhjá vel þjálfaðir Bayesian síur ef þeir gera ruslpóst þeirra líta fullkomlega út eins og venjulegt email sem allir geta fengið.

Spammers senda venjulega ekki venjulegan tölvupóst. Gerum ráð fyrir að þetta sé vegna þess að þessi tölvupóstur virkar ekki sem ruslpóstur. Svo eru líkurnar á að þeir muni ekki gera það þegar venjulegir, leiðinlegir tölvupóstar eru eini leiðin til að gera það fyrirfram með ruslpósti.

Ef spammers skipta yfir í að mestu leyti venjulega útlit tölvupóst, munum við sjá mikið ruslpóst í pósthólfinu okkar aftur og tölvupóstur getur orðið eins pirrandi eins og það var í fyrir Bayesian daga (eða jafnvel verra). Það mun einnig hafa eyðilagt markaðinn fyrir flesta tegundir spam, þó, og því mun ekki endast lengi.

Sterkir vísbendingar geta verið Achilles 'Bayesian ruslpóstsía "#: Hæll

Einhver undantekning er hægt að skynja fyrir spammers að vinna leið sína í gegnum Bayesian síur, jafnvel með venjulegu efni þeirra. Það er í eðli Bayesian tölfræði að eitt orð eða einkenni sem mjög oft birtist í góðri pósti getur verið svo mikilvægt að snúa einhverjum skilaboðum frá að líta út eins og ruslpóstur til að vera metinn sem skinkur af síunni.

Ef spammers finna leið til að ákvarða öruggur eldur þinn góð póstur orð - með því að nota HTML afturkvittanir til að sjá hvaða skilaboð þú opnað, til dæmis - geta þeir falið í sér einn af þeim í ruslpósti og náð þér jafnvel í gegnum vel- þjálfaður Bayesian sía.

John Graham-Cumming hefur reynt þetta með því að láta tvær Bayesian síur vinna gegn hver öðrum, "slæmur" einn aðlagast hvaða skilaboð eru komin til að komast í gegnum "góða" síuna. Hann segir að það virkar, þó að ferlið sé tímafrekt og flókið. Við teljum ekki að við munum sjá mikið af þessu að gerast, að minnsta kosti ekki í stórum stíl, og ekki sniðin að einkennum einstaklingsins. Spammers mega (reyna að) reikna út nokkur leitarorð fyrir samtök (eitthvað eins og "Almaden" fyrir sumt fólk hjá IBM kannski?) Í staðinn.

Venjulega mun spam alltaf vera (verulega) öðruvísi en venjulegur póstur eða það mun ekki vera ruslpóstur.

Bottom Line: Styrkur Bayesian síunar getur verið veikleiki þess

Bayesian spam síur eru efni sem byggir á síum sem:

eru sérstaklega þjálfaðir til að viðurkenna ruslpóst og tölvupósti einstaklings tölvupósts notanda , sem gerir þeim mjög skilvirka og erfitt að laga sig að fyrir spammers.
getur stöðugt og án mikillar fyrirhafnar eða handvirkrar greiningu lagað að nýjustu bragðarefur spammersins.
Taktu eftir góða pósti einstaklings notandans og hafa mjög lágt hlutfall af fölskum jákvæðum .
Því miður, ef þetta veldur blindu trausti á Bayesian andstæðingur-spam síur, gerir það einstaka mistök enn alvarlegri . Hið gagnstæða áhrif rangra neikvæða (ruslpóst sem lítur nákvæmlega út eins og venjulegur póstur) hefur tilhneigingu til að trufla og trufla notendur.