苹果cms火车头规则写法教程

首先下载一个火车头软件,本站有破解版火车头软件下载,可以免安装使用。打开火车头,我们在软件界面的左边能看到【任务列表树】,每一个采集在这里都当做是一个任务,同一类任务组成“组”,这是比较好理解的。我们在空白处新建一个分组,并在新建的分组上右键新建一个任务,暂时取名叫“测试”吧。双击测试任务,开始我们的教程。

火车头采集可以分为三个步骤,因为本篇讲的是规则写法,所以只涉及到前两个步骤。想要了解【第三步:发布内容】 可以看下面这篇文章

[infobox]【视频教程】苹果cms火车头入库方法教学[/infobox]

第一步:采集网址

这里以采集本站博客为例,进入首页(https://mebi.me),我们点击最下方的页码就能发现网站地址有如下规则:

https://mebi.me/page/*

上面的*代表数字,数字1就代表当前为第一页,数字2代表当前为第二页……如果我们将页码一直往下写,写到13时就无法进行下去了,说明本站一共有13页,采集这13页就能采集完本站所有文章。知道了这点,我们就可以写“采集网址规则”了。

起始网址

在起始网址出点【添加】,切换到【批量/多页】标签,在地址格式出填写:

https://mebi.me/page/(*)

并选择等差数列,首项1,公差1,项数13,之后在下方预览出能列出我们所有页的地址。点击【添加】—【完成】后退出。

苹果cms火车头规则写法教程-懵比小站

多级网址

每页地址都采集完毕后,每页上都有10篇(有兴趣可以去数一数)文章,现在我们要获取每页上的这些文章地址。通过查看源代码后,发现这些文章地址在h2标签的href属性中找到,根据唯一性的原则,代码:<h2><a target=”_blankhref=” 一共只有10个,正好对应页面上的10篇文章地址,在多级网址处点击添加,选择【手动填写链接地址规则】,填写如下形式并保存。其中“[参数]”代替的就是我们要找的地址,下面的[参数1]指的就是上面的[参数]。如果你了解正则表达式,会更好理解这些含义。

苹果cms火车头规则写法教程-懵比小站

网页登录信息

因为有的网站会禁止我们采集,我们可以借助这一功能来模拟正常浏览器浏览,欺骗网站。只需要点击【浏览器登录获取】,在跳出窗口上的地址栏处填写本博客地址:https://mebi.me,然后点击确定,软件就能自动记录cookie值和浏览器标识。

测试

最后我们来测试一下上面的采集网址的规则是否正确,点击右下角【测试网址采集】,我们能看到一共有13个页码地址,每页地址下都有10个地址,这些就是地址就是文章地址。

苹果cms火车头规则写法教程-懵比小站

第二步:采集内容规则

采集完地址后,我们就要对具体每篇文章地址下的文章做“文章”了。将标签切换到“第二步:采集内容规则”,我们以这篇文章为例:https://mebi.me/799,来获取我们想要的内容,包括:文章标题、发表时间、作者、浏览次数、文章内容、文章分类等。查看网页源代码,如果你能懂html就很好理解。我们发现文章标题:分享一款在线音乐播放器,界面漂亮 前面有这么一串代码: <h1 class=”article-title“>,正好这串代码在源代码中唯一存在,我们可以使用它来确定文章标题。规则写法如下:

苹果cms火车头规则写法教程-懵比小站
我们再来对比一下此处的源代码:

分享一款在线音乐播放器,界面漂亮

我们是在标题的前后找代码,代码确保唯一性并适用所有的标题。规则处有个“(*)”符号,这里代替的就是 https://mebi.me/799, 为什么要代替,因为它在不同的标题前面它都是不一样的。
时间的规则
苹果cms火车头规则写法教程-懵比小站
分类的规则
苹果cms火车头规则写法教程-懵比小站
正文的规则
苹果cms火车头规则写法教程-懵比小站
最后效果如下:
苹果cms火车头规则写法教程-懵比小站

喜欢()
评论 (0)
热门搜索
homeagain
分享互联网最新资讯,分布各类教程:苹果cms、vps推荐、宝塔建站知识、edu邮箱、wordpress模板下载……只有你想不到,没有出不了的教程。
243 文章
192 评论
100 喜欢
Top