华为云AI开发平台ModelArts停用词过滤_云淘科技
概述
停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象。里面存放的是待过滤的语句 |
inputs |
noise_dataframe |
inputs为字典类型,noise_dataframe为pyspark中的DataFrame类型对象。里面存放的用户指定的停用词 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
dataframe类型的过滤后的结果 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
selected_filter_column |
是 |
需要过滤停用词的字段名称 |
“” |
noise_data_column |
是 |
停用词所在的字段名称 |
“” |
segment_output_delimiter |
是 |
需要过滤停用词字段内部的分隔符 |
” “ |
样例
输入数据-待过滤文本
id,sentence 1,停用词 过滤 是 自然言语处理 中 一个 重要 的 步骤 。
输入数据-停用词
noise 。 是 中 一个
配置流程
运行流程
算法参数设置
查看结果
id,sentence 1,停用词 过滤 自然言语处理 重要 的 步骤
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家