采集网页html源码

2016-10-28 11:53| 发布者: ym| 查看: 25887| 评论: 0

摘要: 一、操作步骤对于学习网页设计的人来说，有时候遇到了自己很喜欢的网页，却得不到它的html代码，或者得到的代码不完整。下面用网易新闻采集作为案例，教大家采集html源码，具体操作步骤如下：二、案例规则+操作步 ...

一、操作步骤

对于学习网页设计的人来说，有时候遇到了自己很喜欢的网页，却得不到它的html代码，或者得到的代码不完整。下面用网易新闻采集作为案例，教大家采集html源码，具体操作步骤如下：

二、案例规则+操作步骤

第一步：打开网页

1.1，打开集搜客网络爬虫，输入想要采集的样本网址并ENTER，加载出网页后再点击“定义规则”；

1.2，在工作台中输入主题名，并点击“查重”看主题名是否被占用。

第二步：标注信息

2.1，双击要抓取的目标信息，输入整理箱名和标签名，并勾上关键内容。

2.2，双击字段名，给抓取内容设置高级选项，勾选“高级设置”，选择“网页片段”，保存。

第三步：存规则，抓数据

3.1，规则测试成功后，点击“存规则”；

3.2，点击“爬数据”，弹出DS打数机，开始抓数据。

Tips：想要网页的整个html源码，可以直接对html节点做映射，然后高级设置里选择网页片段，最后保存规则。操作如下图：

若有疑问可以或

上一篇：数据规则怎么看下一篇：批量修改下载图片名称

相关分类