请在Chrome、Firefox等现代浏览器浏览本站。网站域名:森林之家(www.foresthouse.cn)爱学习、爱分享、爱绿软、爱恐怖、爱音乐、爱唠叨、爱折腾、爱生活!

火车头多级网址采集-入库一键更新实例

心得笔记 forest 955℃ 已收录 0评论

前言,以下采集只供学习使用我和这个站长也没仇,只是随便找的一个站做为测试使用。下面开始,我们以这个列表为例:http://www.tupianzj.com/mingxing/xiezhen/nv/list_7091_1.html
我们想要采集女明星类别下的所有图片,通过分析可以看出来在这个大列表下面还有一个小列表,在小列表下面才是正文。

大列表
打开第一个“杨颖”看一下小列表

小列表
接着打开小列表中的第一个进入正文

正文

以上就是这我们采集的行程,下面通过火车车演示一遍:

第一步:在火车头建立一个任务命名为“明星”,在编辑任务窗口“起始网址”右边点击“添加”-“批量/多页”,地址格式输入:“http://www.tupianzj.com/mingxing/xiezhen/nv/list_7091_(*).html”,等差数列首项为1,项数为11(规定大列表网址)如下图:

火车头采集多页列表
第二步:还是这个窗口在“多级网址获取”窗口右边点击添加,在“网址获取选项”中选择“手动填写链接地址规则”,在右边“脚本规则”中填写如下代码:

<li>(*)<p><a href='[参数]'><img src=(*)</li>

在实际连接中填写“[参数1]”。(选择要采集的大列表范围)如下图:

火车头采集多页列表2

第三步:同第二步点击“添加”在“网址获取选项”中还是选择“手动填写链接地址规则”在脚本规则中填写如下代码:

<div class="item"><a target="_blank" href="[参数]" title="(*)"><img src="[标签:缩略图]"></a><p style(*)data-cmd="weixin"></A></div></div></div>

然后还在实际连接中填写“[参数1]”。(选择要采集的小列表范围并获取列表缩略图)如下图:

火车头采集多页列表3

到这里列表规则我们就写好了,在火车头第一步:采集网址规则中点击“测试网址采集”得到如下图说明列表规则正常:

列表采集正常示例

第四步:点击“第二步:采集内容规则”添加5个标签分别为“栏目ID”、时间、点击数、标题、内容;
第一个“栏目ID”点击“自定义固定格式的数据”填写想要入库的数据库栏目(这里以织梦为例对应的是织梦后台-网站栏目管理-栏目ID),比如填写1就是栏目ID为1填写11就是栏目ID为11(导入数据库中用)如下图:[/v_error]
入库对应ID
[v_error]第二个“时间”时间填写时间戳(可以用excel把一年内的月和日全部转换为时间戳,这样在前台只调取月和日,让人觉得内容并非一天内完成的达到时间随机的效果),如下图:[/v_error]
日期转换为时间戳

然后把所有的时间戳复制出来填写到“随机抽取信息中”如下图:

火车头随机时间
[v_error]第三个“点击数”点击数标签和时间标签操作一模一样只是把“随机抽取信息”换成“随机数字”,范围从“100”到“5000”看自己高了(达到点击数随机的效果),如下图:[/v_error]
点击数随机
[v_error]第四个“标题”这里就不是点击“自定义固定格式的数据”了而是点击“ 通过采集得到数据”提取数据方式选择“前后截取”,开始字符串为唉去1结束字符串为唉去2如下图:[/v_error]
截取标题
[v_error]第五个“缩略图”它是自动创建的因为在第三步中用到了缩略图的标签,双击它把“文件保存目录”“和文件保存格式”填一下,特别要注意这里所填写的文件保存目录是相对于本窗口中第四个“文件保存及部分高级设置”-“文件下载设置”-所有文件保存文件夹和文件链接地址前缀的。[/v_error]
[v_error]另外填写的名称有些字母需要在前面加一个右斜线,反正名称先自己写好看到有加粗的颜色不正常的就在这个字母的前面加一个右斜线就对了。还有一个文件下载选项中勾一勾“下载图”,另外“探测文件并下载”也勾一勾没坏处;
下面有两张图,第一张是我的“文件保存及部分高级设置”的图示;第二张是我的“第二步:采集内容规则-缩略图”中的设置相对于第一张图与火车头采集到本地的数据对比:[/v_error]
火车头文件保存及部分高级设置

火车头文件下载选项保存路径图解
[v_error]第六个“内容”这个也是关键了,它的文件下载选项中所填的方式和上一步第五个“缩略图”差不多的。点击“通过采集得到数据”点选“正则提取”在正则匹配内容中输入以下代码:[/v_error]

<div id='bigpic'>(*)<img src="[参数]"(*)</div>
[v_error]在“组合结果”中输入以下代码:[/v_error]
<img src="[参数1]"/>

[v_error]这里内容看源站是分了很多页的都是一张图片分一页我们要把“该标签在分页中匹配”勾选上所有设置如下图所示:[/v_error]
火车头采集内容标签图解
[v_error]最后点击“第二步:采集内容规则”选项卡找到“分页获取规则”点击“上下页/上n页下n页”在从后面输入以下代码:[/v_error]

<div class="pages">

在到后面输入以下代码:

</div>

[v_tips]最后随便找一个内容页输入到“典型页面”点击测试看一下效果大功告成如下图:


火车头多级网址采集成功实例

现在规则写好了可以全部采集到火车头的数据库中保存起来了,那怎么发布到网站上呢?就上面建的几个标签下一页说下火车头采集内容并导入到织梦数据库的做法。
本站文章如未注明,均为原创丨本网站采用BY-NC-SA协议进行授权,转载请注明转自:https://www.foresthouse.cn/archives/5632.html
喜欢 (0)or分享 (0)
发表我的评论(注:在您评论完以后不会立即显示,请不要重复刷新以免进入黑名单。)
取消评论
表情 代码 贴图 加粗 链接 私信 删除线 签到

Hi,请填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址