这可能是最新最全最简单的关关采集规则教程 + 免费更新关关采集规则-懵比小站

这可能是最新最全最简单的关关采集规则教程 + 免费更新关关采集规则

现在网上很难找到免费的关关采集规则,一个规则10块往上,很多还不是最新的,算是坑的可以。看了我的教程,不用花冤枉钱,想要几条规则就有几条,采集还能玩出花来。

准备工作

1、目标站点。也就是我们要采集哪个站,这里以乐文小说(365xs.la)为例

2、关关采集器。版本建议在10以上,反正破解版免费,为啥不用高版本的。

3、xue微一点html知识。

了解关关采集

关关采集是杰奇小说程序的配备采集软件,关关采集只能运行在win环境里。linux系统能运行关关采集,是因为装了wine模拟器,相当于给关关采集模拟除了win环境。

再来了解一下关关采集器的目录:Log文件夹存储日志文件,软件运行情况会自动记录并保存在这里;Rules文件夹存储采集规则,接下来我们写的采集规则也要放在这里;NovelSpider.exe是关关采集软件,双击它让我们开启本次教程吧。

教程开始

复制规则

在rule文件夹内里已经存放几个规则文件,这是官方的示例规则,我们可以拿它当模板。首先复制其中任意一份规则到当前文件夹下并重命名,因为我们采集365xs.la网站,就重名此规则365xs.la.xml

编辑规则

双击打开关关采集软件,点击标签“规则”-“采集规则管理”,下拉框选择365xs.la.xml并载入,就正式开始了规则学习。(忽略截图的小瑕疵)

看到左边这一排英文字列表了吗?没错,我们都要设置一遍,一共40个……不过全都设置好了你就写完并学会了规则,是不是很简单?

RuleVersion

规则版本号。自定义,现在你是写规则的人,你想是1.0版本还是2.0版本都随便你啦。

RuleID

规则id号。也没啥用,应该是软件来区分规则用的,随便写。

GetSiteName

采集站点的名字。也是随便写,不过规范一点,我们这里就写乐文小说。

GetSiteCharset

采集站点的字符编码。编码如果不对会造成采集乱码。我们查看首页(https://365xs.la)源代码,Ctrl+F寻找“charset”,我们看到等于号后面是utf-8,这就是这个站的编码。也有的编码是gbk

GetSiteUrl

采集站点地址。这里就是https://365xs.la

NovelSearchUrl、NovelSearchData、NovelSearch_GetNovelKey

不在这里使用。平时采集其他站点也可以忽略。

NovelListUrl

站点最新列表地址。我们点击首页分类的书库,可以看到所有的小说都在这了,这就是我们要采集的列表地址。列表就是小说的列表。

NovelList_GetNovelKey

用来获取小说编号和小说名。每部小说名都在h3标签里,使用Ctrl+F查找<h3><span class="uptime">正好只有50个,这就是我们的目标,其中3915就是小说编号,逆流剑皇就是小说名。我们用通配符.+?来去掉2019-09-02,通配符外加一个小括号表示选用,用(\d*)来选用小说编号,用(.+?)来选用小说名。具体匹配方法如下:

<h3><span class="uptime">.+?</span><a href="https://www.365xs.la/book/(\d*)/" target="_blank">(.+?)</a></h3>

NovelUrl

小说信息页。在站点最新列表地址里随便点一个小说进入,例如我现在进入的地址为:https://www.365xs.la/book/39125 ,这里就是这部小说的信息页,我们能在这里知道小说的简介、小说名、作者、分类等等信息。仔细点会发现地址里的39125不就是上一个提到的小说编号吗?小说编号可以使用{NovelKey}来替代,所以这里的填写如下:

https://www.365xs.la/book/{NovelKey}

NovelName

小说名。获取小说信息页地址后,我们就要找到小说的信息了,小说名 <h1>(.+?)</h1>

NovelErr

如果这本小说没有信息页,会返回错误信息,这里返回的错误信息为:对不起,该文章不存在

NovelAuthor

小说作者。这里就多说了,都是html知识了,知道html就非常简单。

novel:author" content="(.+?)"/>

LargerSort

大分类。什么言情,武侠就是大分类。

category" content="(.+?)"/>

SmallSort

小分类。一般不这么讲究,大分类小分类一样。

category" content="(.+?)"/>

NovelIntrol

小说简介。

简介:</strong><br />(.+?)<br/>

NovelKeyword

小说主角。一般不用。

NovelDegree

小说进程。也就是小说是连载中?完结了?这个网站没找到,就不写了。

NovelCover

小说封页。

<div class='pic'><img alt=".+?" src="(.+?)" title="

NovelDefaultCoverUrl

目标站默认封面地址。遇到这个地址就不采集它的封面

NovelInfo_GetNovelPubKey

小说目录。这里小说信息页里就有小说目录,所以这里跟小说信息一样,不过这里用不了变量{NovelKey}

https://www.365xs.la/book/(\d*)

PubCookies

略过无视。

PubIndexUrl

不知道和上面的小说目录有什么区别,和小说目录一致。下面的就表示上面的小说目录。

{NovelPubKey}

PubIndexErr

公众目录页错误识别标记。

无法找到该页

PubVolumeContent

留空。

PubVolumeSplit

分割分卷。找到文章列表最前面的开头,表示这一卷开始。很多网络小说没有卷一卷二这样的划分,所以这里不太好理解。

<div class="book_list">       
      <ul>

PubVolumeName

分卷名。没啥好解释的,理解上面的分卷,就知道这里要获取的是分卷名。

<h2 class="title"><b><i class="icon-list"></i> (.+?)</b></h2>

PubChapterName

章节名。比如第一章,第二章……

<li chapter-id="\d*"><a href="/books/\d*/\d*.html">(.+?)</a></li>

PubChapter_GetChapterKey

章节标号。章节名和章节标号,可以比作是最开始的小说名和小说标号,一码事。

<li chapter-id="\d*"><a href="/books/\d*/(\d*).html">.+?</a></li>

PubContentUrl

章节的具体内容页。比如进入第一章,我们能看到第一章的小说内容,这就是内容页。

https://www.365xs.la/books/{NovelKey}/{ChapterKey}.html

PubContentErr

章节内容页错误识别标记。

无法找到该页

PubContent_GetTextKey

内容页中内容通过js传入的,就用这个获取,正常留空。

PubTextUrl

组合成真实的内容。没有js传入就留空。

PubContentText

章节内容。((.|\n)*)为获取小说正文的通用写法。

<div id="content" class="contentbox clear">((.|\n)*)<p>一秒记住

下面就不怎么用到了,除了PubContentReplace,有的小说会加载一些广告,比如突然冒出来个地址,qq号,可以过滤掉这些。

<div.+?> 这个表示过滤
<div.+?>♂<br> 这个表示替换

以上采集规则真实可用,至少现在是的,时间长了之后规则会失效,学会了教程后,技术是不会失效的。

如果你想要加入文字广告,“设置”-“文字广告”,勾选第一个:入库章节时添加文字广告,然后章节头部,章节尾部都可以写广告,比如加群信息,关注公众号信息等。广告会在正式采集时加入,测试是看不到广告的。

其他:本站将不定期更新规则,保证规则新鲜可食用。如果有你想要采集的网站,不会采集并且不想花钱购买,可以在本文下方留言,我会写好规则并供大家下载的。

规则不定时更新,移步至:https://www.mebi.me/936

本文由 懵比小站 作者:homeagain 发表,其版权均为 懵比小站 所有,文章内容系作者个人观点,不代表 懵比小站 对观点赞同或支持。如需转载,请注明文章来源。

发表评论