网页链接:https://movie.douban.com/subject/26366496/
要抓取其中的  制片国家/地区  但是  中国大陆  几个字无法映射。只能映射整个大的节点吗?
要是映射整个节点的话数据该怎么一类类分开呢?像是主演一类多个人名的,只能将整个节点映射,也存在分析时需要把人名分开的问题~     
还有,类型  中    剧情、喜剧、动作   处的span节点是并列的,也没有更大的单独属于类型的节点可以映射。

举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-7-18 14:25

luna0614 初级会员 发表于 2018-7-16 16:16:44 | 显示全部楼层
微信图片_20180716161609.png
举报 使用道具
luna0614 初级会员 发表于 2018-7-16 16:17:09 | 显示全部楼层

这是整个大节点映射出来的数据
举报 使用道具
wangyong 版主 发表于 2018-7-16 16:17:55 | 显示全部楼层
抓取的时候可以用xpath函数分割出来,但是最方便的还是把数据抓取下来后用Excel把数据分列
举报 使用道具
bowieD 金牌会员 发表于 2018-7-16 16:23:45 | 显示全部楼层
本帖最后由 bowieD 于 2018-7-16 16:25 编辑

1,中国大陆单独存在于span节点后面的text节点中,找到那个节点就可以做内容映射
6.png
2,类型  中    剧情、喜剧、动作   处的span节点是并列的,可以映射整个节点,然后再用substring-before和substring-after函数去截取相应的部分,可以参考《xpath常用函数用法》

2,豆瓣电影详情可以使用快捷采集,《豆瓣_电影详情》,把网址添加到采集的入口启动采集就可以了,不需要自己做规则。
举报 使用道具
luna0614 初级会员 发表于 2018-7-17 14:24:57 | 显示全部楼层
bowieD 发表于 2018-7-16 16:23
1,中国大陆单独存在于span节点后面的text节点中,找到那个节点就可以做内容映射

2,类型  中    剧情、喜 ...

多谢!
举报 使用道具
luna0614 初级会员 发表于 2018-7-17 14:25:32 | 显示全部楼层
wangyong 发表于 2018-7-16 16:17
抓取的时候可以用xpath函数分割出来,但是最方便的还是把数据抓取下来后用Excel把数据分列 ...

多谢!
举报 使用道具
luna0614 初级会员 发表于 2018-7-17 19:34:15 | 显示全部楼层
bowieD 发表于 2018-7-16 16:23
1,中国大陆单独存在于span节点后面的text节点中,找到那个节点就可以做内容映射

2,类型  中    剧情、喜 ...

请问  豆瓣-电影详情  的快捷采集规则可不可以查看呢?很想学习怎么做的。谢谢!

举报 使用道具
Arie-X 中级会员 发表于 2018-7-17 23:19:22 | 显示全部楼层
luna0614 发表于 2018-7-17 19:34
请问  豆瓣-电影详情  的快捷采集规则可不可以查看呢?很想学习怎么做的。谢谢!

...

快捷采集用的规则比较特殊,不能直接下载
举报 使用道具
luna0614 初级会员 发表于 2018-7-18 11:28:05 | 显示全部楼层
Arie-X 发表于 2018-7-17 23:19
快捷采集用的规则比较特殊,不能直接下载

好吧,thank you all the same!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 06:25