华为云AI开发平台ModelArts原子分词_云淘科技

概述

对文本数据进行分词。

该算法基于HanLP,对文本列进行分词,标注词性,并支持识别实体、机构、人名、电话号码、中英文日期、中英文时间,过滤全符号、全英文或全数字结果等,自定义词典或自定义合并的词词性标注为”nz”。

输入

参数

子参数

参数说明

inputs

input_table

输入表表名

inputs

dict_table

自定义词典表;非必选

输入参数说明

参数名称

参数描述

参数要求

input_cols

用于分词的列名

string类型;必填;可支持多列

input_cols_sep

多列分词列名分隔符

string类型;必填;默认为”,”

output_sep

输出表分词列分词分隔符

string类型;必填;默认为” “

remain_other_cols

输出是否保留分词列外的其他列

boolean类型;必填;默认为False

dict_col

词典表的word列

string类型;非必填;一列的一行代表一个词

enable_ent

是否识别简单实体

boolean类型;非必填;默认为True

enable_person

是否识别人名

boolean类型;非必填;默认为True

enable_org

是否识别机构名

boolean类型;非必填;默认为True

enable_pos

是否进行词性标注

boolean类型;非必填;默认为False

pos_sep

词性标注与单词分隔符

string类型;非必填;默认为”/”;不得与output_sep重复

enable_tel

是否识别电话号码

boolean类型;非必填;默认为True

enable_time

是否识别时间

boolean类型;非必填;默认为True

enable_date

是否识别日期

boolean类型;非必填;默认为True

enable_chn_time

是否识别中文时间

boolean类型;非必填;默认为True

enable_chn_date

是否识别中文日期

boolean类型;非必填;默认为True

filter_all_punctuation

是否过滤分词结果全为标点符号的词

boolean类型;非必填;默认为False

filter_all_en

是否过滤分词结果为全英文的词

boolean类型;非必填;默认为False

filter_all_num

是否过滤分词结果为全数字的词

boolean类型;非必填;默认为False

输出

参数

子参数

参数说明

output

output_port_1

输出表表名;标签为dataframe

输出表说明

列名

列描述

备注

xxx

原输入表列

如果remain_other_cols为True,则保留input_table全列;如果为False,则只保留input_table分词列

xxx_words

分词列的分词结果列

分词结果列列名为原分词列列名 + “_words”

dict_table是对默认词典的增加,不是只保留dict_table里的词;

自定义词典或自定义合并的词词性标注为”nz”;

暂不支持中文繁体简体混合的时间日期,如“陆月贰十日”。

样例

数据输入

input_table

id

sentence_en

sentence_chn

1

You can call me at 0513-1323563

我的电话是18812534124,不要打0732-1324-5634

2

It’s a wrong telephone number like 071-2341. You can do it

这个电话号码1032-122233是错误的

3

It’s a wrong telephone number like 12345678901

这也是个错误电话号码1236452123

4

We will go there at 13 past 10 o’clock.

我们将要在十点钟零十三分钟到那里

5

you can go there at eleven to twelve o’clock.

你可以在十一点四十九分出发

6

you can go there 52 past 20 o’clock.

你可以在二十点五十二分去

7

before 12 we finish it.

我们要在十二点之前完成它

8

We will finish it at 20:13:22

我们将在20点13分22秒完成它

9

We will finish it at 13:22

我们将在十三点二十二分完成

10

We will finish it at 60:22

我们将在六十点二十二分完成(这是个错误时间)

11

aaa cafd February 1,2022 xxx

当地时间12月7日

12

dfsad February, 2022

我吃了面包在九八年五月二十八号。

13

dafdsa Feb 1st, 2nd, 3rd, 4th

1936年 3月零九日,02月八日, 1830年,

14

dsafd Feb 1

一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年

15

Feb 1 in 2022

二十年后,我不知道在哪里

16

11th August, 2020

去年12月28日,我去了兰州

17

1st in/of Feb

凌晨时候我醒了一次,然后到二月拾日

18

1 in Feb in 2022

人不能,至少不应该…【陆月贰十五日记】

19

I make 2022/01/08

二零二二年一月零八日,我开始了远行

20

I make 01/08/2022

一月八日,这个活动终止了,在二〇二二年。

21

I make 2203-01-20

贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。

27

I make 2203-01-20

贰零二三年一月二十日,游戏内测,五月三十日,正式上线。

22

will you 2019.01.30

这是个正确的时间2019年01月30日

23

I got it 1988 31 05

不想写了1988年 31号 05月

24

I got it 1988.02.33

怎么还有1988年.02月.33日

25

I got it 30/05

这个是30号/05月

26

I got it 05. 12(you need know it)

这是最后一个,05月. 12号

dict_table

word

id

游戏内测

0

电话号码

1

正式上线

2

二十年后

3

  

4

ok

5

配置流程

运行流程

输入参数

输出结果

sentence_en

sentence_chn

sentence_en_words

sentence_chn_words

You can call me at 0513-1323563

我的电话是18812534124,不要打0732-1324-5634

You/nx||can/nx||call/nx||me/nx||at/nx||0513-1323563/nz

我/r||的/uj||电话/n||是/v||18812534124/nz||不/d||要/v||打/v||0732-1324-5634/nz

It’s a wrong telephone number like 071-2341. You can do it

这个电话号码1032-122233是错误的

It’s/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||071/m||2341/m||You/nx||can/nx||do/nx||it/nx

这个/r||电话号码/nz||1032/m||122233/m||是/v||错误/n||的/uj

It’s a wrong telephone number like 12345678901

这也是个错误电话号码1236452123

It’s/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||12345678901/m

这/r||也/d||是/v||个/q||错误/n||电话号码/nz||1236452123/m

We will go there at 13 past 10 o’clock.

我们将要在十点钟零十三分钟到那里

We/nx||will/nx||go/nx||there/nx||at 13 past 10 o’clock/nz

我们/r||将要/d||在/p||十点钟零十三分钟/nz||到/v||那里/r

you can go there at eleven to twelve o’clock.

你可以在十一点四十九分出发

you/nx||can/nx||go/nx||there/nx||at eleven to twelve o’clock/nz

你/r||可以/v||在/p||十一点四十九分/nz||出发/v

you can go there 52 past 20 o’clock.

你可以在二十点五十二分去

you/nx||can/nx||go/nx||there/nx||52 past 20 o’clock/nz

你/r||可以/v||在/p||二十点五十二分/nz||去/v

before 12 we finish it.

我们要在十二点之前完成它

before 12/nz||we/nx||finish/nx||it/nx

我们/r||要/v||在/p||十二点/nz||之前/f||完成/v||它/r

We will finish it at 20:13:22

我们将在20点13分22秒完成它

We/nx||will/nx||finish/nx||it/nx||at 20:13:22/nz

我们/r||将/d||在/p||20点13分22秒/nz||完成/v||它/r

We will finish it at 13:22

我们将在十三点二十二分完成

We/nx||will/nx||finish/nx||it/nx||at 13:22/nz

我们/r||将/d||在/p||十三点二十二分/nz||完成/v

We will finish it at 60:22

我们将在六十点二十二分完成(这是个错误时间)

We/nx||will/nx||finish/nx||it/nx||at/nx||60/m||22/m

我们/r||将/d||在/p||六十/m||点/q||二十二/m||分/q||完成/v||这/r||是/v||个/q||错误/n||时间/n

aaa cafd February 1,2022 xxx

当地时间12月7日

aaa/nx||cafd/nx||February 1,2022/nz||xxx/nx

当地/s||时间/n||12月7日/nz

dfsad February, 2022

我吃了面包在九八年五月二十八号。

dfsad/nx||February, 2022/nz

我/r||吃/v||了/ul||面包/n||在/p||九八年五月二十八号/nz

dafdsa Feb 1st, 2nd, 3rd, 4th

1936年 3月零九日,02月八日, 1830年,

dafdsa/nx||Feb 1st/nz||2/m||nd/nx||3/m||rd/nx||4/m||th/nx

1936年 3月零九日/nz||02月八日/nz||1830年/nz

dsafd Feb 1

一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年

dsafd/nx||Feb 1/nz

一八二五年, 三月/nz||12月/nz||在/p||九号/nz||在/p||五/m||日/j||公元前一五三年/nz

Feb 1 in 2022

二十年后,我不知道在哪里

Feb 1 in 2022/nz

二十年后/nz||我/r||不/d||知道/v||在/p||哪里/r

11th August, 2020

去年12月28日,我去了兰州

11th August, 2020/nz

去年/nz||12月28日/nz||我/r||去/v||了/ul||兰州/ns

1st in/of Feb

凌晨时候我醒了一次,然后到二月拾日

1/m||st/nx||in/nx||of Feb/nz

凌晨/nz||时候/n||我/r||醒/v||了/ul||一/m||次/q||然后/c||到/v||二月拾日/nz

1 in Feb in 2022

人不能,至少不应该…【陆月贰十五日记】

1 in Feb in 2022/nz

人/n||不能/v||至少/d||不/d||应该/v||陆月/nr||贰十五/m||日记/n

I make 2022/01/08

二零二二年一月零八日,我开始了远行

I/nx||make/nx||2022/01/08/nz

二零二二年一月零八日/nz||我/r||开始/v||了/ul||远行/vn

I make 01/08/2022

一月八日,这个活动终止了,在二〇二二年。

I/nx||make/nx||01/08/2022/nz

一月八日/nz||这个/r||活动/vn||终止/v||了/ul||在/p||二〇二二年/nz

I make 2203-01-20

贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。

I/nx||make/nx||2203-01-20/nz

贰贰零叁年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz

I make 2203-01-20

贰零二三年一月二十日,游戏内测,五月三十日,正式上线。

I/nx||make/nx||2203-01-20/nz

贰零二三年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz

will you 2019.01.30

这是个正确的时间2019年01月30日

will/nx||you/nx||2019.01.30/nz

这/r||是/v||个/q||正确/a||的/uj||时间/n||2019年01月30日/nz

I got it 1988 31 05

不想写了1988年 31号 05月

I/nx||got/nx||it/nx||1988 31 05/nz

不想/v||写/v||了/ul||1988年 31号 05月/nz

I got it 1988.02.33

怎么还有1988年.02月.33日

I/nx||got/nx||it/nx||1988.02.33/nz

怎么/r||还有/v||1988/m||年/q||02/m||月/q||33/m||日/j

I got it 30/05

这个是30号/05月

I/nx||got/nx||it/nx||30/05/nz

这个/r||是/v||30号/05月/nz

I got it 05. 12(you need know it)

这是最后一个,05月. 12号

I/nx||got/nx||it/nx||05. 12/nz||you/nx||need/nx||know/nx||it/nx

这/r||是/v||最后/f||一个/mq||05月. 12号/nz

父主题: 文本

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家