Filtre bayésien : Technologie et avantages
| by Julia Gulevich | November 22, 2006
Pas un à long terme il y a, la plupart des produits anti-Spam a simplement employé une liste de mots-clés pour identifier le Spam. Un bon ensemble de mots-clés a pu attraper beaucoup de Spam. Cependant, un filtre anti-Spam mot--basé exige le manuel mettant à jour et peut être facilement dupé en tordant le message. Les inondateurs examinent simplement les dernières techniques anti-Spam et trouvent des moyens de les dévier. Au résultat vous êtes laissés avec un nombre élevé de positifs faux.
La nécessité dans une nouvelle technique efficace de lutter contre le Spam s'est levée. L'expérience a prouvé que cette nouvelle méthode pourrait s'adapter à la tactique des inondateurs qui changerait avec du temps.
Le filtrage bayésien est basé sur le principe que la plupart des événements sont dépendants et que la probabilité d'un événement se produisant à l'avenir peut être impliquée des occurrences de cet événement dans le passé. Cette approche est employée pour identifier le Spam. Si un certain morceau de texte se produisait la plupart du temps dans des email de Spam mais pas dans le courrier légitime, alors il serait raisonnable de supposer que cet email est probablement Spam.
Pour filtrer le courrier en utilisant la technologie bayésienne, vous devez produire d'une base de données des mots rassemblés du Spam et du courrier légitime. Alors une valeur de probabilité est assignée à chaque mot ; la probabilité est basée sur les calculs qui tiennent compte de combien de fois ce mot se produit dans le Spam par opposition au courrier légitime.
Après que les bases de données légitimes et de Spam soient créées pendant une période de première formation, les probabilités de mot peuvent être calculées et le filtre bayésien est opérationnel. Quand un nouveau courrier arrive, il est cassé dans des mots et les mots les plus significatifs sont choisis. À partir de ces mots, le filtre bayésien calcule la probabilité d'un nouveau message étant Spam ou pas. Si la probabilité est plus grande qu'un seuil de Spam, la parole 0.9, le message est classifié comme Spam.
Bout ! La G-Serrure SpamCombat vous permet assignent les touches directes aux opérations communes. Par exemple, vous pouvez assigner F8 au message de marque comme fonction de Spam et F9 au message de marque comme propre. Le moment prochain où vous formez le filtre bayésien vous peut simplement employer deux clefs sur votre clavier F8 et F9.
Il est important de noter que l'analyse du Spam et du courrier légitime est exécutée sur le courrier que l'utilisateur particulier (organisation, compagnie, etc.) reçoit, et donc le filtre bayésien est ajusté sur cette personne, compagnie, ou organisation particulière. Par exemple, une institution financière peut recevoir beaucoup d'email avec le mot de « hypothèque » et obtiendrait beaucoup de positifs faux si à l'aide d'un filtre anti-Spam périmé. Le filtre bayésien analyse le message entier avec le mot « hypothèque », et conclut si cet email est Spam ou baser légitime non seulement sur un mot-clé simple « hypothèque ». L'approche bayésienne au Spam de filtre est fortement efficace - des taux de détection de Spam de plus de 99.7% peuvent être réalisés avec un nombre très bas de positifs faux !
Récapitulons quels avantages nous obtenons à l'aide du filtre bayésien pour attraper le Spam :
1) Une approche beaucoup plus intelligente parce qu'elle examine tous les aspects d'un message, par opposition à la vérification de mot-clé qui classifie un courrier comme Spam sur la base d'un mot simple.
2) Auto-adaptable - constamment apprenant du nouveau Spam et des nouveaux courrier d'arrivée valides, le filtre bayésien évolue et s'adapte à de nouvelles techniques de Spam.
3) Sensible à l'utilisateur - il apprend les habitudes d'email de la compagnie et comprend que, par exemple, les email avec le mot de « hypothèque » ne sont pas toujours Spam.
4) Multilingue et international - être adaptatif il peut être utilisé pour n'importe quelle langue. Le filtre bayésien tient compte également de certaines déviations de langues ou de l'utilisation diverse de certains mots dans différents secteurs, même si la même langue est parlée.
5) Difficile à duper, par opposition à un filtre de mot-clé - un inondateur avançé qui veut duper le filtre bayésien peut l'une ou l'autre utilisation peu de mots qui indiquent habituellement le Spam, ou plus de mots qui indiquent généralement le courrier valide (tel qu'un nom de contact, etc. valides). Faire le dernier est impossible parce que l'inondateur devrait savoir le profil d'email de chaque destinataire - et un inondateur peut ne jamais espérer recueillir ce genre d'information de chaque destinataire prévu.
Article Source: http://www.articleset.com

You are welcome to publish or reprint this article free of charge, provided:
- you include the entire article, unchanged, including the "About The Author" box
- all hyperlinks remain active, including the bottom ArticleSet.com link (does not apply to print publications)
- you agree not to hold the authors nor ArticleSet.com liable for any loss profits, expenses, or any other damages resulting from the use or misuse of articles published on this website