怎样采集人民日报图文数据库也就是人民日报的历史数据?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2022-11-6 23:03

沙发
wangyong 版主 发表于 2021-3-17 11:41:35 | 只看该作者
在集搜客快捷采集中输入链接可以直接采集到数据。
使用方法如下:
1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择访问人民日报图文数据库_列表采集
输入要采集的节点关键词搜索链接,例如搜索“大数据”后的链接:http://data.people.com.cn/rmrb/s ... o=1&pageSize=50

确认提交后数据管家会自动开始采集,采集完成后,我们可以在快捷采集后台中找到该任务下载数据
下载到列表的数据,包括关键词、标题、链接、发布时间、摘要、文章关键词。
2,要继续采集到新闻详情,需要将详情链接添加到人民日报图文数据库_详情采集,添加多条网址可以选择输入多条网址按钮

添加完成后数据管家会自动开始采集,详情任务采集完成后,打包下载就可以看到新闻数据内容了
这是采集到的数据


举报 使用道具
板凳
吴吴 新手上路 发表于 2022-1-6 11:44:21 | 只看该作者
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛
举报 使用道具
地板
小蜜蜂测试171 中级会员 发表于 2022-1-6 13:15:24 | 只看该作者
吴吴 发表于 2022-1-6 11:44
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛

采集多了的情况下需要登录账号
举报 使用道具
5#
Fuller 管理员 发表于 2022-1-6 14:51:06 | 只看该作者
吴吴 发表于 2022-1-6 11:44
为什么我的老是停止?是要登录人民日报的数据库才能采集嘛

需要登录的,你得有账号和密码才行。在运行爬虫任务之前,在爬虫浏览器中预先登录这个网站
举报 使用道具
6#
吴吴 新手上路 发表于 2022-1-6 17:28:35 | 只看该作者
Fuller 发表于 2022-1-6 14:51
需要登录的,你得有账号和密码才行。在运行爬虫任务之前,在爬虫浏览器中预先登录这个网站
...

请问这个账号怎么才能注册呀?在网上买的账号都不行
举报 使用道具
7#
Fuller 管理员 发表于 2022-1-6 17:55:42 | 只看该作者
吴吴 发表于 2022-1-6 17:28
请问这个账号怎么才能注册呀?在网上买的账号都不行

怎么注册,可能需要联系一下人民日报网站
举报 使用道具
8#
bakerwql 新手上路 发表于 2022-6-7 12:14:31 | 只看该作者
吴吴 发表于 2022-1-6 17:28
请问这个账号怎么才能注册呀?在网上买的账号都不行

Hi 请问后来有买到账号吗?

举报 使用道具
9#
azure_azure 新手上路 发表于 2022-11-5 12:55:46 | 只看该作者
你好!想麻烦问下,采集报道正文(详情)有没有不一条一条粘贴网址的办法?能否一次性采集所有正文?谢谢!
举报 使用道具
10#
gz51837844 管理员 发表于 2022-11-6 23:03:47 | 只看该作者
azure_azure 发表于 2022-11-5 12:55
你好!想麻烦问下,采集报道正文(详情)有没有不一条一条粘贴网址的办法?能否一次性采集所有正文?谢谢! ...

你是使用这个快捷采集吗:人民日报图文数据库_详情采集
如下图,可以一次性添加多条网址,然后开始采集:

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 09:46