目前主流的反垃圾邮件系统采用了许多先进的反垃圾邮件技术,如贝叶斯过滤技术、指纹识别技术等。但是关键字过滤技术因为其简单易行现在仍然在邮件系统和反垃圾邮件网关中广泛应用。关键字过滤技术也称词语过滤,如果一封垃圾邮件中含有特定的关键字,比如“Viagra”、“伟哥”,则可以将之阻断;与之对应的还有关键字白名单,如果邮件中含有特定的白关键字则邮件予以放行。
关键字技术也存在不足,例如当垃圾邮件中的词语发生变化,或垃圾邮件中特定词汇进行变化,例如Viagra改成V1agra;发票改为”发漂”,这种技术就失去效用。除非能持续的更新关键字,但事实上个人用户甚至厂商都没法做到这一点,因为垃圾邮件的变化实在太大了。例如2003-2005年许多国产的反垃圾邮件系统主要采用这种技术进行过滤,如鸿雁邮件安全网关、思维邮件安全网关等。过滤效果始终不高,这些品牌逐渐消失。
虽然如此,许多用户仍然在其邮件系统或反垃圾系统中使用这种技术,作为其他过滤技术的补充。在使用这种技术时有这样几个技巧:
1、 通过正则表达式对相近的一组关键字进行归纳,减少关键字的数量。例如“发.*票”,可命中“发”和“票”之间插入了任何干扰符号的词汇,如“发-票”等。
2、 巧设白关键字,减轻扫描负荷,避免正常邮件误判。对于白关键字的邮件,反垃圾邮件系统是不对其进行内容扫描的,这样能减少系统负荷。对于企业用户而言,发送邮件一般都会有的签名,签名中一般包括了公司的名称,例如为“梭子鱼”,当别人回复邮件时,邮件中通常会带有这个关键字,这样这封邮件就能因为白名单被放行。有时公司的总机号码等都是很好的白关键字。因为对于这家公司而言,垃圾邮件中几乎不可能出现这样的词汇的,这类词汇几乎只可能出现在正常邮件中。因此不会导致误判发生。
3 、根据统计数据调整关键字。
有时经过一段时间的运行后,用户发现在不知不觉中自己添加的关键字数量越来越大,那么如何精简这些关键字,将命中率不高的关键字予以剔除呢。在梭子鱼反垃圾邮件系统中有一个统计功能,可以统计关键字的命中次数,例如某公司某天统计前5名的数据:
# |
Top Body Filters |
Count |
1 |
Luntech(该公司名称) |
216 |
2 |
讲.*师.*介.*绍 |
48 |
3 |
实战训练 |
38 |
4 |
新劳动合同法 |
27 |
5 |
phara |
25 |
当然统计表可以设置top10或top20,根据这些统计可以删除那些命中次数很少的邮件,这样用户就能轻松的维护一封简洁有效的关键字清单了。
更多邮件系统、反垃圾邮件网关、邮件归档、负载均衡、web应用防火墙、上网行为管理等产品的介绍请登录公司产品中心了解详情。
本文由:知识园地于(2011-09-19)发表了关于垃圾邮件过滤过程中,关键字过滤技术的巧妙应用的文章 。如转载请注明出处:http://www.cdcy-mail.com如果您对此感兴趣,可以通过以下联系方式与我们联系: