华为云AI开发平台ModelArts文本词向量_云淘科技
概述
“文本词向量”节点用于将词和句/段落映射到一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象,通常为分词算子的输出,可参考分词算子的使用。 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
output为字典类型,output_port_1为pyspark中的PipelineModel类型。 |
output |
output_port_2 |
output_port_2为pyspark中的DataFrame类型,为词向量。 |
output |
output_port_3 |
output_port_3为pyspark中的DataFrame类型,为文本向量。 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
text_col |
是 |
输入数据集中文本所在列的列名。 |
“words” |
text_id |
是 |
文本id列,用一个id代表文本。 |
“id” |
result_col |
是 |
结果列的列名。 |
“result_col” |
delimiter |
是 |
单词间的分隔符。 |
” “ |
vector_size |
是 |
向量长度。 |
10 |
min_count |
是 |
词出现的最小次数,低于该值的单词会被过滤。 |
2 |
num_partitions |
否 |
分区数目。 |
8 |
step_size |
是 |
迭代优化时的步长,学习率。 |
0.025 |
max_iter |
是 |
最大迭代次数。 |
1 |
window_size |
是 |
训练过程中的窗口大小。 |
5 |
max_sentence_length |
否 |
最大句子长度。 |
1000 |
样例
样例数据
该数据为分词算子的输入,分词算子的输出作为文本词向量的输入。
配置流程
运行流程
参数设置
查看结果
词向量
文本向量
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家