最近用火车头V7.6版本下载小说(上文提及,这是政治任务),一直卡在采集网址的第一步(采集网址规则),莫名其妙怎么都获取不了网站的内容。
开始以为是网站的问题,但试了好多个网站,都出现同样的问题:“第0级获取网址时出错:获取网址区域设置有误,获取的代码内容为空”以前可是很少会出现这样的问题的。
“第0级获取网址时出错” 问题产生的原因分析:
经过一翻搜索,其实这是网站都纷纷从http转成https协议造成的。
主要原因就是:火车头并不能很好支持https,才导致获取不到网站的内容(测试过后,发现大部份https加密协议的网站,火车头v7.6版本都采集不了),下面给出如何判断火车头是否正常采集网站内容的最简单办法。
利用火车头的源码查看器,得到的结果为空,说明软件没能正确采集到内容。
火车头无法采集https协议网站的解决办法
既然知道了原因,那么解决起来就好办了,想办法让火车头支持https采集就行。
解决起来也并不复杂,下面提记录利用插件解决无法采集https网站的方法。
- 1.下载个支持https的插件。
火车头https插件下载地址:
- 2.把插件放进火车头所在目录下的Plugins文件夹,这里注意版本
v7.6的位置:
HuoCheTou\Plugins\LocoySpider
v9.8的位置:
HuoCheTou\Plugins
- 3.选中“文件保存及部分高级设置”,任务C#插件 选择刚才下载的 “Gethttps”,保存。
本文完成前已经测试通过,成功采集https协议网站,所以名称直接是Gethttps。
这个dll文件名称是随意修改的,本文上传的插件名为“火车头Gethttps”。
保存后即可解决火车头无法采集https协议网站的问题。但却带来了一个新的问题:发布文章时会无法发布文章标题。
想正确的发布文章标题,要把插件关闭(变回不使用)后才能恢得正常。