华为云AI开发平台ModelArts词频统计_云淘科技

概述

词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,一般为分词后的结果。

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为词频统计的结果。

参数说明

参数

是否必选

参数说明

默认值

doc_id

文章id

“id”

doc_content

文章内容(分词后的字段名)

“segment”

delimiter

单词之间的分隔符

” “

样例

数据样本

id,segment
doc001,词频统计 是指 统计 一个 字符串 中 , 出现了 多少 个 单词 以及 这些 单词 出现 的 次数 。

配置流程

运行流程

参数设置

结果查看

id,word,count
doc001,的,1
doc001,词频统计,1
doc001,一个,1
doc001,出现了,1
doc001,,,1
doc001,个,1
doc001,出现,1
doc001,多少,1
doc001,。,1
doc001,单词,2
doc001,统计,1
doc001,次数,1
doc001,这些,1
doc001,以及,1
doc001,中,1
doc001,是指,1
doc001,字符串,1

父主题: 文本

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家