五、RDD操作综合实例
2022/4/7 23:23:25
本文主要是介绍五、RDD操作综合实例,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
A.分步骤实现
1.准备文本文件
2.读文件
3.分词
4.排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap()
停用词,可网盘下载stopwords.txt,filter()
长度小于2的词filter()
5.统计
映射成键值对
6.排序
7.写文件
8.查看文件
B.一句话实现
文件入文件出
C.和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点
spark中特征提取中包含四个方法:TF-IDF、Word2Vec、CountVectorizer以及FeatureHasher。其中,TF-IDF以及Word2Vec的使用比较广泛,这里不详细展开,TF-IDF主要用于提取文档的关键词,而Word2Vec将词语或者文章转换为词向量,通过空间距离表示文档的相似度,距离越近则越相似,其中一篇文章的词向量是文章所有词语词向量的平均值,所以使用Word2Vec尽量使用关键词转换词向量。CountVectorizer与TF相似,输出词频向量,但是CountVectorizer是可逆的,而TF是不可逆的,也就是说,CountVectorizer可以通过词频向量的索引找到对应的单词,而TF则不可以。所以在使用spark做关键词提取时,通常使用CountVectorizer和IDF,而如果只需要文档关键词的特征向量的话,则使用TF和IDF。
二、求TOP值
这篇关于五、RDD操作综合实例的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-13TiDB + ES:转转业财系统亿级数据存储优化实践
- 2024-05-09“2024鸿蒙零基础快速实战-仿抖音App开发(ArkTS版)”实战课程已上线
- 2024-05-09聊聊如何通过arthas-tunnel-server来远程管理所有需要arthas监控的应用
- 2024-05-09log4j2这么配就对了
- 2024-05-09nginx修改Content-Type
- 2024-05-09Redis多数据源,看这篇就够了
- 2024-05-09Google Chrome驱动程序 124.0.6367.62(正式版本)去哪下载?
- 2024-05-09有没有大佬知道这种数据应该怎么抓取呀?
- 2024-05-09这种运行结果里的10.100000001,怎么能最快改成10.1?
- 2024-05-09企业src漏洞挖掘-有意思的命令执行