QQ截图20220512110829.png
如上图所示,我想采集京东商品或者天猫商品,比如:Apple iPhone 13 (A2634) 256GB 星光色 支持移动联通电信5G 双卡双待手机, 把”规格与包装“页的详细参数采集下来,应该怎么做呢?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2022-5-12 15:55

gz51837844 管理员 发表于 2022-5-12 11:17:58 | 显示全部楼层
这个页面的参数比较多,并且不同类的商品,有着不同的规格参数属性。
具体采集可以考虑2种方法:
1. 如果只是想采集某些参数,比如”上市年份“,”内存“,”屏幕“。。。等, 那可以在规则里定义对应的字段名。其它没有定义的就不采集。
2. 如果是想把所有的参数都采集下来,可以做样例复制(参考教程《网络爬虫采集列表数据》),把所有的规格参数都采集下来。
举报 使用道具
Fuller 管理员 发表于 2022-5-12 15:26:35 | 显示全部楼层
gz51837844 发表于 2022-5-12 11:17
这个页面的参数比较多,并且不同类的商品,有着不同的规格参数属性。
具体采集可以考虑2种方法:
1. 如果只 ...

如果样例复制,那么 参数名 和 参数值 一对作为一个样例,这样导出的excel就是一行一对参数,那么一个产品就有很多行参数。用什么最方便的方法变成一列一个参数,一行一个产品?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2022-5-12 15:55:20 | 显示全部楼层
Fuller 发表于 2022-5-12 15:26
如果样例复制,那么 参数名 和 参数值 一对作为一个样例,这样导出的excel就是一行一对参数,那么一个产 ...

我们准备发布一个jupyter notebook,来把采集到的一行一对参数和值,清洗成一个商品一行,每列一个参数。

之前已发布的jupyter notebook参见这个帖子《用集搜客分词软件和Jupyter Notebook做文本分析和数据探索的案例汇总》,包括了excel功能测试,获取经纬度,分词数据的进一步加工(词频统计和个性化词云图),各种社会网络算法的实现(中心性,TF-IDF, PageRank),LDA主题分析和可视化等。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:07