华为云AI开发平台ModelArts词频统计_云淘科技
概述
词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,一般为分词后的结果。 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为词频统计的结果。 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
doc_id |
是 |
文章id |
“id” |
doc_content |
是 |
文章内容(分词后的字段名) |
“segment” |
delimiter |
否 |
单词之间的分隔符 |
” “ |
样例
数据样本
id,segment doc001,词频统计 是指 统计 一个 字符串 中 , 出现了 多少 个 单词 以及 这些 单词 出现 的 次数 。
配置流程
运行流程
参数设置
结果查看
id,word,count doc001,的,1 doc001,词频统计,1 doc001,一个,1 doc001,出现了,1 doc001,,,1 doc001,个,1 doc001,出现,1 doc001,多少,1 doc001,。,1 doc001,单词,2 doc001,统计,1 doc001,次数,1 doc001,这些,1 doc001,以及,1 doc001,中,1 doc001,是指,1 doc001,字符串,1
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家