网络爬虫生成的XML格式结果文件

2020-11-30 15:39| 发布者: Fuller| 查看: 9452| 评论: 0

摘要: 在网络爬虫采集数据过程中,数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下,一页一个XML文件,在你导出excel文件时,这些XML文件自动打包上传。 ... ... ... ... ... ... ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《查看数据结果


在《打包下载Excel格式的采集结果数据》一文,下载的数据是Excel格式的,其实,在网络爬虫采集数据过程中,数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下,一页一个XML文件,在导出excel文件时,这些XML文件自动打包上传。

如果,因为电脑或者网络的原因,数据打包上传失败了,我们可以到这个目录下,手工把这些XML文件打包压缩成ZIP格式的数据包,然后到会员中心的数据管理界面,点击导入XML按钮,完成上传,会员中心把XML转换成Excel以后,你点击导出数据,下载excel文件。


我们还可以改变XML数据的存储路径。在这里更改,点击数据管家(增强版网络爬虫软件)左侧边栏的设置按钮。


点击选择路径,改变存储路径(默认的存储路径是DataSraperWorks文件夹),让爬虫把采集到的XML文件存放到你喜欢的路径。

注意1:不要把存储路径改到桌面desktop,有些电脑没有完全开放桌面的存文件权限,就会生成不了结果文件

注意2:如果你的电脑除了系统盘以外,还有数据盘,最好把存储路径改成数据盘的文件夹,防止网络爬虫把系统盘写满。



如果想进一步了解XML文件中每个字段的含义,参看《XML文件结构


上篇文章:《打包下载Excel格式的采集结果数据》       下篇文章:《爬网址做层级采集——以京东商品爬虫为例


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-29 19:56