火车头简单网页小说采集合并成一个TXT文件

最近接到朋友这么一个要求：下载 “禁欲王爷，宠上瘾！” 的TXT文件到手机中，利用UC浏览器的阅读功能看离线小说。

首先想到的当然就是到专门提代TXT文件下载的小说网查找，可惜不知是这小说太不热门还是怎的，反正就是几大TXT小说下载站都没有提供下载。即便有提供下载的，也就只有几百章，而据了解最新的章节已经是1千多章了（截止时间2018/01/07)。而提供在线阅读的网站却多如牛毛。

突然想到火车头采集入库的速度都是相当的快的，而火车头是提供一个采集后保存到txt文件的功能。就想着能不能把所有章节入库，再重新发布到一个Txt文件中，以完成所有最新章节合并到一个本地TXT文件的目的。

项目大概有这么几个要点：

1、找到一个稳定的，能正常访问的小说站，当然得有“禁欲王爷，宠上瘾！” 这个小说了，本例子找到的是这个https://www.35xs.com/book/187348/36665790.html
2、一个火车头软件，本文采用的是网上流传的和谐版 LocoyPlatform7.6。
3、正常写规则采集并导出。
4、因为是版本的原因，并不支持换行符 “\r\n” 或者 “\n”，所以输出的文件还要进一步处理，把换成”\n”，本文采用的文法是 editplus 中使用正则处理。

附上采集任务重要设置及简略解释：

因本文例子中只采集一本书，所以直接搜索此书的所有页面url即可。

目标网站每个小说页都有很多莫名推广，为防止阅读时影响体验，需要在采集中适当替换掉这些 “硬广告”

发布方式选择方式二，保存为本地txt。

因为UC浏览器的识别格式是标题一空格，内容4空格，所以要修改默认模板如图：

[标签:标题]
[标签:内容]

下图是采集完后，点发布输出：

以下是输出的文件格式，带html分段关键字。这个不必在采集中过滤掉，不然不利于后面替换操作。

用Editplus正则替换与为\n，即得如下格式：

最后成品如下图：

至此任务完成，发送手机并在UC浏览器中导入即可。

纯熟无聊而突然想到火车头有这么一个功能，经测试确实好使，方便自己的同时，顺便离线小说爱好者。特做标记。

火车头 简单网页小说采集 合并成一个TXT文件

发表评论

火车头简单网页小说采集合并成一个TXT文件