快捷导航
52 5822

泰國網頁資訊爬取問題

Wei_AA25 于 2020-9-22 10:22 发表 [复制链接]
Wei_AA25 初级会员 发表于 2020-9-28 17:48:47 | 显示全部楼层
知网期刊 发表于 2020-9-28 17:45
这个采集的时候是不是得登录才行?

是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您

04360270@me.mcu.edu.tw
weiting1125
举报 使用道具
wangyong 版主 发表于 2020-9-28 18:49:21 | 显示全部楼层
Wei_AA25 发表于 2020-9-28 17:48
是!
不過我在採集的時候都有登入!
這裡提供帳號密碼給您

QQ截图20200928184709.png
这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采集:https://www.dataforthai.com/company/0203541001419/printview
abaaaa.png
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 09:12:00 | 显示全部楼层
wangyong 发表于 2020-9-28 18:49
这个网页可以不用做连续动作
你把tr下的onclick抓取下来,然后通过Excel可以构造出这种网址来进行层级采 ...

請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD
举报 使用道具
wangyong 版主 发表于 2020-9-29 09:42:38 | 显示全部楼层
Wei_AA25 发表于 2020-9-29 09:12
請問這個有完整的教學嗎 ?
因為我需要採集1萬多筆的資訊XDDD

就是在第一级做样例复制就能把每个交易的代码给抓取下来
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 09:59:57 | 显示全部楼层
本帖最后由 Wei_AA25 于 2020-9-29 10:02 编辑
wangyong 发表于 2020-9-29 09:42
就是在第一级做样例复制就能把每个交易的代码给抓取下来

我抓好代碼之後,要如何讓他能夠直接抓代碼內的內容 ?
举报 使用道具
wangyong 版主 发表于 2020-9-29 10:10:52 | 显示全部楼层
抓好代码之后也要做新的二级规则

https://www.dataforthai.com/company/0203541001419/printview

把代码通过Excel拼凑成新的网址后,按照这个教程:https://www.gooseeker.com/doc/thread-667-1-1.html

把网址添加到二级规则里
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-29 16:56:47 | 显示全部楼层

哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

第二規則透過另一個網址去抓詳細資料
規則名稱為 :泰國2 及 泰國3
举报 使用道具
小蜜蜂测试162 中级会员 发表于 2020-9-30 09:00:19 | 显示全部楼层
Wei_AA25 发表于 2020-9-29 16:56
哈囉您好!我將網址抓下來後使用集搜客抓取後,仍然抓不到資訊
是我的規則設定錯誤嗎 ?

你添加的网址发出来看看
举报 使用道具
Wei_AA25 初级会员 发表于 2020-9-30 14:26:09 | 显示全部楼层
举报 使用道具
wangyong 版主 发表于 2020-9-30 14:42:56 | 显示全部楼层
Wei_AA25 发表于 2020-9-30 14:26
類似以下
https://www.dataforthai.com/company/0203541001419/printview
https://www.dataforthai.com/c ...

登出是指什么?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 影评情感分析知识图谱构建研究
  • 学术APP用户在线评论主题语义关联研究
  • 在Jupyter Notebook中使用pyspark操作Spark
  • 基于网络文本分析的江苏乡村民宿服务质量评
  • 层次分析法研究的知识流动和主题演变分析

热门用户

GMT+8, 2021-9-28 02:32