站群卖站项目中网站采集怎么做?帝国CMS火车头采集规则教程

前面说过圈子里最近比较流行的卖站项目有很很高含金量的,一方面我们需要筛选出低价位中优质的老域名,另一方面还需要持续的去进行网站的维护更新,这个维护更新我们所使用的就是火车采集器一类的工具了,今天我们来详细谈一谈怎么去进行火车采集器的设置和部署。

采集一共有三方面需要确定的内容:

第一是网址采集确定,也就是我们要采集哪个网站的内容。

第二是内容采集规则,对方网站的内容我们不可能拿过来就能用,肯定要进行一些加工和过滤,例如去除其中的一些源站链接、替换采集内容中的网站品牌词为我们自己的品牌词,再比如进行一些违规词的去除。

第三就是发布规则,采集目标源寻找的时候不管我们做的是游戏类的还是小说类的,都需要尽可能避免采集到有版权的内容,最好是找小网站进行采集。

站群卖站项目中网站采集怎么做?帝国CMS火车头采集规则教程插图

(疯筹做站群项目时做的游戏采集站)

一、确定网站采集目标源

1.按照行业挖词寻找

站群卖站项目中网站采集怎么做?帝国CMS火车头采集规则教程插图1

如果我们做的是站群卖站项目,那么游戏资讯网站和小说站就是我们采集的首选,这两个类目都有无数的话题和内容可以采集。

我们可以通过资讯、游戏教程等游戏行业内玩家经常搜索的通用词来寻找。

除此之外我们还可以通过特定游戏来进行目标网站裂变,例如搜索:王者荣耀扁鹊  这个词我们可以衍生出一系列的长尾关键词,例如:王者荣耀扁鹊技能作用、王者荣耀扁鹊打法教学、王者荣耀扁鹊优化更新等等。

通过这些长尾关键词我们就可以很快找到对应的资讯文章,这些文章的背后都是由游戏资讯站来进行更新和发布的,一个网站不会只盯着王者荣耀这个游戏去更新,通常一些热门游戏资讯都会更新。

2.哪些网站可以采集?

这里疯筹给大家一个筛选标准:采集的目标源站最好是个人备案,我们可以查看网站的关于我们页面看这个网站有没有留下详细真实的联系地址和联系方式,没有联系方式的一般都是可以采集的。

3.哪些网站不能采集?

同行大型的有小编团队的网站都会是企业备案,并且有详细的联系方式,这种网站最好就不要碰了。

二、编写火车采集器网址采集规则

1.确定采集网址

网址采集规则的作用是:当我们确定了采集对象后,告诉采集器该采集哪些页面的内容,采集多少页,并通过代码让采集器更加轻松的定位采集识别范围。

通常我们会选择采集网站的一个分类目录页,根据目标网站的采集目录页数来制定采集网址规则。

2.识别采集网址格式

火车采集器网址采集规则设置

通常采集的目标源网站的分类目录页数都是有规律可言的,很少会碰到每一页不按照顺序来生成url的网站,所以我们可以打开我们要采集的分类目录页面的前几个页面,看一下网址格式是否是通用的。

例如我们采集的网址是域名/分类目录名/list_(具体页数).html

那么通常第一页也可以通过:域名/分类目录名/list_1.html来访问,这样的话我们就可以基本确定格式了。

3.制定网址采集规则

我们把这个网址规则写进去,并告诉火车采集器这个(具体页数)就是地址参数,接着填写需要采集多少页,需要从后往前采集还是从前往后采集。

这里我们一般都会设定从后往前采集,越往后的文章发布时间越早时效性越差,所以如果我们采集的事有限的数量的话,尽量往前采集,例如我们要采集1000篇文章,目标采集站每页有20篇文章,那么我们就可以优先采集第1~50页。

剩下的日常采集我们可以只采集第一页,去掉重复文章之后就可以保证每天都采集这个网站的最新内容了。

三、编写火车采集器内容采集规则

火车采集器内容采集规则的制定是拿单篇采集文章来制定整体通用规则的,包括了标题、内容修改、标签价格等文章其他字段。

火车采集器内容采集规则的编写是为了保证采集到的文章可以进行二次加工和过滤,去掉明显的采集痕迹和错误。

1.确定采集文章标题

通常采集过来的文章标题可以直接拿来用,是不需要修改的,但如果碰到那种所有标题开头或结尾带上网站名称的情况,我们就需要设定规则把品牌词全部过滤掉。

2.确定采集文章内容

这里的内容最主要的是确定我们设定的默认规则可以采集的到全部的内容,通常目标站文章结尾都会有文字提示,这些我们可以通过文章前后的采集识别代码直接得到更加精确的内容范围。

3.采集内容替换和内链去除

火车采集器内容采集规则设置

我们使用火车采集器采集到的文章内容通常是需要进行一些优化后才能发布到我们自己的网站里。

例如文章里的一些锚文本链接是必须要去除掉的,否则我们的网站可能每一篇文章都会有一个站外链接指向源站,不仅不利于用户观看,对于SEO而言更是极大的失误。

除此之外,文章内的网站品牌词我们可以直接通过内容修改规则来进行优化。

如果大家做的是站群卖站项目,那么内容质量我们其实并不需要特别严格的把控,我们的采集内容就是为了填充网站内容数量的,并不需要特别优质的内容,只需要没有明显的错误就可以了。

4.确定采集标签、价格、资源链接

文章除了标题和内容本身,还有一些其他的属性字段,例如文章的标签。

如果涉及到付费资源类型的网站采集,那么我们可以根据源站这篇资源的价格来进行采集之后这篇资源文章的价格设置,可以统一设定成免费或某一个固定价格,也可以按照原价格来进行设定,设置成原价格的50%。

另外就是资源链接,当我们采集资源站时经常会碰到使用网盘链接来发货的网站,这些对应的资源链接我们可以直接采集到自己的文章中。

如果后期想要把资源全部备份并且替换成我们自己的网盘链接,这个其实在圈子里也有对应的网盘资源批量转存替换链接的插件和软件可以使用,大家可以自定百度搜索一下。

站群卖站这个项目中不涉及到资源链接的采集,如果大家用的帝国CMS程序的话,标签也是不需要采集的,只采集文章的标题和内容就可以了。

四、编写火车采集器内容发布规则

最后就是要根据发布的网站来制定采集模块,整理发布规则。

1.帝国CMS发布模块

火车采集器内容发布规则设置

如果是帝国CMS程序,那么就直接搜索帝国CMS发布模块就可以了,在某宝都能直接买得到,那发布模块文件放在我们网站的根目录中,可以在宝塔面板中打开这个模块文件对默认的账号密码进行修改。

然后在火车采集器的内容发布规则中,选中这个模块,输入对应的账号和密码,输入后记得先抓取试试看,看能不能识别到的帝国CMS网站里的目录,如果能识别的到的话,说明模块就对接成功了。

2.设定内容采集发布规则

这里最主要的是设定一下内容采集的频率,如果我们每天更新数量不多的话,可以让火车采集器每天采集完之后每5~10分钟发布一篇,如果一次性全部采集发布掉的话搜索引擎能够识别得到大量文章的发布时间重合。

 

以上就是关于站群卖站项目中帝国CMS网站火车采集发布规则的注意事项和步骤教学,如果对于这个项目感兴趣或想要深入操作的话可以联系疯筹客服进行深度的学习。

站群卖站项目中网站采集怎么做?帝国CMS火车头采集规则教程插图5