内容导航:我们就可以使用pytesseract进行图片识别了,趣快排SEO博客的验证码输入只支持半角数字,5\. 使用JTessBoxEditor打开文件进行逐个校正,输入 x makebox
{image}
一、WebUI智能识别验证码之tesseract
本文训练数据部分参考:
只能识闷烂袭别字母与数字比较正的图片内容,不正的基本无法识别,就算训练也是一样
需要更精准的识别 ,可以使用tensorflow框架,进行模型建立及训练,但是需要学习的东西会比较多。
官网: /projects/vietocr/files/jTessBoxEditor/
注意:
官网: /tesseract/
pip install pytesseract
以古诗文网的登录页面为例 ,获取验证码数据:
结果图片:
复制ta,放到tessdata(蚂兄Tesseract安装目录的一个文件夹)文件夹下
tesseract 1 makebox
双击需要修改值的char,修改之后需要回车
例如 ,该D字符,宽度很宽,占据多个字符位置 ,可以使用分割split ,分割成多个再删除不需要的,或者修改宽度,历段再调整坐标
前面步骤全部完成 ,我们就可以使用pytesseract进行图片识别了
若未安装:tesseract,则会报错
NotFoundError: tesseract is not installed or it's not in your PATH. See README
file for more information.
二、TesseractOCR训练识别验证码有什么高效的办法吗
1.
采集图片库(一般每个出现的字符出现20次左右识别效果比较好),根据图片特点进行初步处理(二值化/灰度化/滤波/降噪等处理) ,并保存为.tif格式();
2. 使用JTessBoxEditor ,将得到的.tif图片合并为一张图片(Tool—>MergeTiff);
3. 下载安装;
4. 安装后,运行命令行到.tif格式()文件夹中,输入 x makebox;(PS:保存为 同名同文件夹下)
5. 使用JTessBoxEditor打开文件进行逐个校正;(PS:每次校正后都得保存)
6.校正后 ,命令行执行:
x nobatch ;
unicharset_ ;
7. 在目录下建立名为“font_properties”的文件,并输入内容:x 1 0 0 1 0;
8.命令行执行:
;
–F font_properties –U unicharset ;
9. 将目录下生成的文件其中几个unicharset/inttemp/normproto/pffmtable文件加上训练名前缀“x. ”;
10.命令行执行:
combine_tessdata x.
生成最终的校验学习数据a文件;对要识别的内容,自己收集样本进行训练 ,一定程度上可比默认识别库的正确率要高如果是粘连比较厉害的还是算了,这个引擎不适合网上也有免费识别服务,提供api感觉还不错 ,有兴趣可以试试
三 、我要登陆 ,为什么始终告诉我验证码不对急死我了
有时候是SINA的问题,我上次也这毛病,试了所有能找到的方法就差重装系统了 ,后来它自己好了。 。。你再等等看罢。 。。我有时也遇到这种情况,是因为我没有看清楚验证码呀,你要仔细辨认呀。由于使用趣快排SEO各种服务的用户越来越多,因此有可能会出现一些不可预知问题 。您可以尝试刷新页面,或者过一段时间再登陆、重试,问题一般都可以解决可以打开IE选项常规下删除Cookies和临时文件以及历史记录等 ,将安全、隐私选项设置为“默认,内容下清除Sll状态,确定退出后重启浏览器登陆试试。
四 、为什么我进自己的博客时系统总显示验证码不正确 ,可我明明输入对啊怎么回事现在我进不去了,要怎么办
如果以上朋友说的方法都不解决问题,你试着去看一下这里:右键点开Internet网页的属性--隐私 ,把那个滑块拉到显示“中”的位置。应当就可以了你好:这是因为系统繁忙或维护造成的暂时现象,不要着急,稍等一阵时间就好了 ,它不会对你的博客有丝毫影响 ,只是进入自己的博客有问题,或是打开不全,或是不能发表文章、评论和留言 ,或是不显示图片,而且也不是所有的博友都受影响只会是一部分,慢慢习惯就好了 ,没事的 。在我的共享资料里有博客维护时出现的8种暂时现象,供你对比参考!(欢迎交流)那是因为你的登陆名和昵称不一样。登陆GLOG一定要用注册时的登陆名而不是首页显示的昵称。有可能你输入的验证码确实没有错误,如果有提示错误 ,也许是以下三种情况之一:一、页面上的刷新问题每刷新一次页面,验证码都会跟着变换,如果提示验证码错了系统便会更换验证码,这时可能页面还是原来验证码 ,所以你可能输入了两次相同的验证码,请看到验证码更换后再重新输入新验证码就可以了 。二 、输入法的全角/半角问题输入法的全角/半角输入的数字是不一样的,即全角数字1234和半角数字1234是不同的 ,趣快排SEO博客的验证码输入只支持半角数字 ,如果输入成全角数字,虽然数字是正确的但是还是不能通过验证 。三,随着趣快排SEO博客新用户的逐渐增多,系统必须要经常的升级维护。出现一些意想不到的问题属于正常现象 ,部分用户会受到影响。希望上述说明对你有所帮助!