11#
willgowell 初级会员 发表于 2016-4-15 19:10:44 | 只看该作者
Fuller 发表于 2016-4-15 16:13
样例复制规则是要在容器节点上做的,因为整理箱允许定义树状的结构,也就是在内部可以有很多层容器节点, ...

首先感谢。
要抓取的论文有好几万篇,这种方法的话抓取到的关键词是成列的,后期不好操作啊

QQ图片20160415190937.png (16.06 KB, 下载次数: 692)

QQ图片20160415190937.png
举报 使用道具
12#
Fuller 管理员 发表于 2016-4-15 21:22:51 | 只看该作者
willgowell 发表于 2016-4-15 19:10
首先感谢。
要抓取的论文有好几万篇,这种方法的话抓取到的关键词是成列的,后期不好操作啊 ...

按列放的内容,如果要合在一起,也不是特别难,可以用excel的函数做这个事情

还有另外的采集方法:假设所有A放在SPAN中,可以用SPAN做内容映射,在高级设置中设置只要“文本内容”,那么会把所有A的内容放在一起,可能词与词之间没有空格,要看原网页上是否有空格。如果没有空格,就比较麻烦了,真的要进行分词才行
举报 使用道具
13#
willgowell 初级会员 发表于 2016-4-16 10:08:46 | 只看该作者
Fuller 发表于 2016-4-15 21:22
按列放的内容,如果要合在一起,也不是特别难,可以用excel的函数做这个事情

还有另外的采集方法:假设 ...

恩恩,确实是没有空格所以抓取来成了一句话。。。。。成列抓取应该可以
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 05:32