版面: 电子邮件系统技术交流
2013-11-29, 15:06
|
回复: 0
查看: 2,241
图片垃圾邮件过滤 FuzzyOcr
一、FuzzyOcr简介
部分垃圾邮件采用图片或PDF的方式来发送邮件,这些垃圾邮件在图片内容加入大量的噪声数据(noisy data),以避开扫描引擎的侦测。
FuzzyOcr是利用光学字符识别(OCR)的方式,来识别图像邮件所包含的文字信息,并利用Fuzzy matching算法,辨别出里面的文字;
FuzzyOcr的功能:
1、光学字符识别使用不同的引擎和设置;
2、模糊词匹配算法应用于光学字符识别结果;
3、图像散列系统,以了解已...
|