采集网页html源码

2016-10-28 11:53| 发布者: ym| 查看: 22571| 评论: 0

摘要: 一、操作步骤 对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下: 二、案例规则+操作步 ...

一、操作步骤

对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下:


二、案例规则+操作步骤

第一步:打开网页

1.1,打开集搜客网络爬虫,输入想要采集的样本网址并ENTER,加载出网页后再点击“定义规则”;

1.2,在工作台中输入主题名,并点击“查重”看主题名是否被占用。


第二步:标注信息

2.1,双击要抓取的目标信息,输入整理箱名和标签名,并勾上关键内容。


2.2,双击字段名,给抓取内容设置高级选项,勾选“高级设置”,选择“网页片段”,保存。


第三步:存规则,抓数据

3.1,规则测试成功后,点击“存规则”;

3.2,点击“爬数据”,弹出DS打数机,开始抓数据。


Tips:想要网页的整个html源码,可以直接对html节点做映射,然后高级设置里选择网页片段,最后保存规则。操作如下图:


上篇文章:《数据规则怎么看》                                        下篇文章:《批量修改下载图片的名称》


若有疑问可以集搜客爬虫软件
2

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (3 人)

相关阅读

最新评论

GMT+8, 2024-3-28 20:18