我们想要采集女明星类别下的所有图片,通过分析可以看出来在这个大列表下面还有一个小列表,在小列表下面才是正文。



以上就是这我们采集的行程,下面通过火车车演示一遍:

<li>(*)<p><a href='[参数]'><img src=(*)</li>
在实际连接中填写“[参数1]”。(选择要采集的大列表范围)如下图:
<div class="item"><a target="_blank" href="[参数]" title="(*)"><img src="[标签:缩略图]"></a><p style(*)data-cmd="weixin"></A></div></div></div>
然后还在实际连接中填写“[参数1]”。(选择要采集的小列表范围并获取列表缩略图)如下图:
到这里列表规则我们就写好了,在火车头第一步:采集网址规则中点击“测试网址采集”得到如下图说明列表规则正常:
第一个“栏目ID”点击“自定义固定格式的数据”填写想要入库的数据库栏目(这里以织梦为例对应的是织梦后台-网站栏目管理-栏目ID),比如填写1就是栏目ID为1填写11就是栏目ID为11(导入数据库中用)如下图:[/v_error]

[v_error]第二个“时间”时间填写时间戳(可以用excel把一年内的月和日全部转换为时间戳,这样在前台只调取月和日,让人觉得内容并非一天内完成的达到时间随机的效果),如下图:[/v_error]

然后把所有的时间戳复制出来填写到“随机抽取信息中”如下图:
[v_error]第三个“点击数”点击数标签和时间标签操作一模一样只是把“随机抽取信息”换成“随机数字”,范围从“100”到“5000”看自己高了(达到点击数随机的效果),如下图:[/v_error]
[v_error]第四个“标题”这里就不是点击“自定义固定格式的数据”了而是点击“ 通过采集得到数据”提取数据方式选择“前后截取”,开始字符串为唉去1结束字符串为唉去2如下图:[/v_error]
[v_error]第五个“缩略图”它是自动创建的因为在第三步中用到了缩略图的标签,双击它把“文件保存目录”“和文件保存格式”填一下,特别要注意这里所填写的文件保存目录是相对于本窗口中第四个“文件保存及部分高级设置”-“文件下载设置”-所有文件保存文件夹和文件链接地址前缀的。[/v_error]
[v_error]另外填写的名称有些字母需要在前面加一个右斜线,反正名称先自己写好看到有加粗的颜色不正常的就在这个字母的前面加一个右斜线就对了。还有一个文件下载选项中勾一勾“下载图”,另外“探测文件并下载”也勾一勾没坏处;
下面有两张图,第一张是我的“文件保存及部分高级设置”的图示;第二张是我的“第二步:采集内容规则-缩略图”中的设置相对于第一张图与火车头采集到本地的数据对比:[/v_error]
[v_error]第六个“内容”这个也是关键了,它的文件下载选项中所填的方式和上一步第五个“缩略图”差不多的。点击“通过采集得到数据”点选“正则提取”在正则匹配内容中输入以下代码:[/v_error]
<div id='bigpic'>(*)<img src="[参数]"(*)</div>[v_error]在“组合结果”中输入以下代码:[/v_error]
<img src="[参数1]"/>
[v_error]这里内容看源站是分了很多页的都是一张图片分一页我们要把“该标签在分页中匹配”勾选上所有设置如下图所示:[/v_error]
[v_error]最后点击“第二步:采集内容规则”选项卡找到“分页获取规则”点击“上下页/上n页下n页”在从后面输入以下代码:[/v_error]
<div class="pages">
在到后面输入以下代码:
</div>
[v_tips]最后随便找一个内容页输入到“典型页面”点击测试看一下效果大功告成如下图:
