Filtro Bayesian: Tecnología y ventajas

| by Julia Gulevich | November 22, 2006

No un de largo plazo hace, la mayoría de los productos contra-Spam utilizó simplemente una lista de palabras claves para identificar el Spam. Un buen sistema de palabras claves podía coger mucho Spam. Sin embargo, un filtro palabra-basado contra-Spam requiere el manual que se pone al día y puede ser engañado fácilmente pellizcando el mensaje poco. Los Spammers examinan simplemente las técnicas más últimas contra-Spam y encuentran maneras de puentearlas. En el resultado te dejan con un alto número de positivos falsos.

La necesidad en una nueva técnica eficaz de luchar contra el Spam estaba parada para arriba. La experiencia demostró que este nuevo método pudo adaptarse a las táctica de los spammers que cambiarían con tiempo.

La filtración Bayesian se basa en el principio que la mayoría de los acontecimientos son dependientes y que la probabilidad de un acontecimiento que ocurre en el futuro se puede deducir de las ocurrencias de este acontecimiento en el pasado. Este acercamiento se utiliza para identificar el Spam. Si un cierto pedazo de texto ocurriera sobre todo en email del Spam pero no en correo legítimo, entonces sería razonable suponer que este email es probablemente Spam.

Para filtrar el correo usando la tecnología Bayesian, necesitas generar una base de datos de las palabras recogidas del Spam y del correo legítimo. Entonces un valor de la probabilidad se asigna a cada palabra; la probabilidad se basa en los cálculos que consideran cuantas veces esa palabra ocurre en el Spam en comparación con correo legítimo.

Después de que las bases de datos legítimas y del Spam se creen durante un período de entrenamiento inicial, las probabilidades de la palabra pueden ser calculadas y el filtro Bayesian es pronto para usar. Cuando llega un nuevo correo, está quebrado en palabras y se seleccionan las palabras más significativas. De estas palabras, el filtro Bayesian calcula la probabilidad de un nuevo mensaje que es Spam o no. Si la probabilidad es mayor que un umbral del Spam, opinión 0.9, el mensaje se clasifica como Spam.

¡Extremidad! La G-Cerradura SpamCombat te permite asigna las llaves calientes a las operaciones comunes. Por ejemplo, puedes asignar F8 al mensaje de la marca como función del Spam y F9 al mensaje de la marca como limpio. La vez próxima cuando entrenas al filtro Bayesian tú puede utilizar simplemente dos llaves en tu teclado F8 y F9.

Es importante observar que el análisis del Spam y del correo legítimo está realizado en el correo que el usuario particular (organización, compañía, etc.) recibe, y por lo tanto el filtro Bayesian está ajustado a esta persona, compañía, u organización particular. Por ejemplo, una institución financiera puede recibir muchos de email con la palabra de la “hipoteca” y conseguiría muchos de positivos falsos si usa un filtro anticuado contra-Spam. El filtro Bayesian analiza el mensaje entero con la palabra “hipoteca”, y concluye si este email es Spam o el basar legítimo no sólo en una sola palabra clave “hipoteca”. ¡El acercamiento Bayesian al Spam del filtro es altamente eficaz - los índices de la detección del Spam de sobre 99.7% se pueden alcanzar con un número muy bajo de positivos falsos!

Resumamos qué ventajas conseguimos con el filtro Bayesian para coger el Spam:

1) Un acercamiento mucho más inteligente porque examina todos los aspectos de un mensaje, en comparación con la comprobación de la palabra clave que clasifica un correo como Spam en base de una sola palabra.

2) Autoadaptable - constantemente aprendiendo del Spam nuevo y de nuevos correos de entrada válidos, el filtro Bayesian se desarrolla y se adapta a las nuevas técnicas del Spam.

3) Sensible al usuario - aprende los hábitos del email de la compañía y entiende que, por ejemplo, los email con la palabra de la “hipoteca” no son siempre Spam.

4) Multilingüe e internacional - el ser adaptante él se puede utilizar para cualquier lengua. El filtro Bayesian también considera ciertas desviaciones de las idiomas o el uso diverso de ciertas palabras en diversas áreas, aunque la misma lengua se habla.

5) Difícil de engañar, en comparación con un filtro de la palabra clave - un spammer avanzado que desea trampear el filtro Bayesian puede cualquier uso pocas palabras que indiquen generalmente el Spam, o más palabras que indiquen generalmente el correo válido (tal como un nombre del contacto, un etc válidos). Hacer el último es imposible porque el spammer tendría que saber el perfil del email de cada recipiente - y un spammer puede nunca esperar recolectar esta clase de información de cada recipiente previsto.

Article Source: http://www.articleset.com



About the Author

Julia Gulevich is a technical expert associated with development of computer software like Advanced Administrative Tools, Advanced Email Verifier, G-Lock EasyMail, Anti-Spam Software http://www.glocksoft.com/sc/.

» Read more articles by Julia Gulevich
You are welcome to publish or reprint this article free of charge, provided: