首页 » 分享 » 火车头 简单网页小说采集 合并成一个TXT文件

火车头 简单网页小说采集 合并成一个TXT文件

 

最近接到朋友这么一个要求:下载 “禁欲王爷,宠上瘾!” 的TXT文件到手机中,利用UC浏览器的阅读功能看离线小说。

首先想到的当然就是到专门提代TXT文件下载的小说网查找,可惜不知是这小说太不热门还是怎的,反正就是几大TXT小说下载站都没有提供下载。即便有提供下载的,也就只有几百章,而据了解最新的章节已经是1千多章了(截止时间2018/01/07)。而提供在线阅读的网站却多如牛毛。

突然想到火车头采集入库的速度都是相当的快的,而火车头是提供一个采集后保存到txt文件的功能。就想着能不能把所有章节入库,再重新发布到一个Txt文件中,以完成所有最新章节合并到一个本地TXT文件的目的。

项目大概有这么几个要点

1、找到一个稳定的,能正常访问的小说站,当然得有“禁欲王爷,宠上瘾!” 这个小说了,本例子找到的是这个https://www.35xs.com/book/187348/36665790.html

2、一个火车头软件,本文采用的是网上流传的和谐版 LocoyPlatform7.6。

3、正常写规则采集并导出。

4、因为是版本的原因,并不支持换行符 “\r\n” 或者 “\n”,所以输出的文件还要进一步处理,把<p></p>换成”\n”,本文采用的文法是 editplus 中使用正则处理。

附上采集任务重要设置及简略解释:

集任务重要设置及简略解释

因本文例子中只采集一本书,所以直接搜索此书的所有页面url即可。

在采集中适当替换掉这些 “硬广告”

目标网站每个小说页都有很多莫名推广,为防止阅读时影响体验,需要在采集中适当替换掉这些 “硬广告”

发布方式选择方式二

发布方式选择方式二,保存为本地txt。

因为UC浏览器的识别格式是标题一空格,内容4空格,所以要修改默认模板如图:

修改默认模板

[标签:标题]
   [标签:内容]

下图是采集完后,点发布输出:

采集完后,点发布输出

以下是输出的文件格式,带html分段关键字<p></p>。这个不必在采集中过滤掉,不然不利于后面替换操作。

输出的文件格式,带html分段关键字<p></p>

用Editplus正则替换<p>与</p>为\n,即得如下格式:

用Editplus正则替换<p>与</p>为\n

最后成品如下图:

最后成品

至此任务完成,发送手机并在UC浏览器中导入即可。

纯熟无聊而突然想到火车头有这么一个功能,经测试确实好使,方便自己的同时,顺便离线小说爱好者。特做标记。

原文链接:火车头 简单网页小说采集 合并成一个TXT文件,转载请注明来源!

0