|
6 | 6 |
|
7 | 7 | ## 介绍 ### |
8 | 8 | ### 中文字典 ### |
9 | | -我们的字典采用内部的分词工具对百度知道和百度百科的语料进行分词后产生。分词风格如下: "《红楼梦》"将被分为 "《","红楼梦","》",和 "《红楼梦》"。字典采用UTF8编码,输出有2列:词本身和词频。字典共包含 3206325个词和3个特殊标记: |
| 9 | +我们的字典使用内部的分词工具对百度知道和百度百科的语料进行分词后产生。分词风格如下: "《红楼梦》"将被分为 "《","红楼梦","》",和 "《红楼梦》"。字典采用UTF8编码,输出有2列:词本身和词频。字典共包含 3206325个词和3个特殊标记: |
10 | 10 | - `<s>`: 分词序列的开始 |
11 | 11 | - `<e>`: 分词序列的结束 |
12 | 12 | - `<unk>`: 未知词 |
13 | 13 |
|
14 | 14 | ### 中文词向量的预训练模型 ### |
15 | | -如下图,遵循文章 [A Neural Probabilistic Language Model](http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf)中介绍的方法,我们的词向量模型的结构采用:6元上下文作为输入层->全连接层->softmax层 。我们的字典包含4个维度的词向量编码,分别为:32维、64维、128维和256维。 |
| 15 | +遵循文章 [A Neural Probabilistic Language Model](http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf)中介绍的方法,模型采用 n-gram 语言模型,结构如下图:6元上下文作为输入层->全连接层->softmax层 。对应于字典,我们预训练得到4种不同维度的词向量,分别为:32维、64维、128维和256维。 |
16 | 16 | <center></center> |
17 | 17 | <center>Figure 1. neural-n-gram-model</center> |
18 | 18 |
|
|
23 | 23 | ./pre_DictAndModel.sh |
24 | 24 |
|
25 | 25 | ## 中文短语改写的例子 ## |
26 | | -以下示范如何使用预训练的中文字典和词向量模型进行短语改写。 |
| 26 | +以下示范如何使用预训练的中文字典和词向量进行短语改写。 |
27 | 27 |
|
28 | 28 | ### 数据的准备和预处理 ### |
29 | 29 | 首先,运行以下的命令下载数据集。该数据集(utf8编码)包含20个训练样例,5个测试样例和2个生成式样例。 |
|
40 | 40 |
|
41 | 41 |
|
42 | 42 | ### 使用用户指定的词向量字典 ### |
43 | | -从用户指定的词向量字典中抽取模型的命令如下: |
44 | | - |
| 43 | +使用如下命令,从预训练模型中,根据用户指定的字典,抽取对应的词向量构成新的词表 |
45 | 44 | cd $PADDLE_ROOT/demo/model_zoo/embedding |
46 | 45 | python extract_para.py --preModel PREMODEL --preDict PREDICT --usrModel USRMODEL--usrDict USRDICT -d DIM |
47 | 46 |
|
48 | | -- `--preModel PREMODEL`: 预训练词向量字典模型的名字 |
49 | | -- `--preDict PREDICT`: 预训练(词向量)字典的名字 |
50 | | -- `--usrModel USRMODEL`: (用户指定的)待抽取的词向量模型的名字 |
51 | | -- `--usrDict USRDICT`: 用户指定的字典的名字 |
| 47 | +- `--preModel PREMODEL`: 预训练词向量字典模型的路径 |
| 48 | +- `--preDict PREDICT`: 预训练模型使用的字典的路径 |
| 49 | +- `--usrModel USRMODEL`: (抽取出的新词表的保存路径 |
| 50 | +- `--usrDict USRDICT`: 用户指定新的字典的路径,用于构成新的词表 |
52 | 51 | - `-d DIM`: 参数(词向量)的维度 |
53 | 52 |
|
54 | 53 | 此处,你也可以简单的运行以下的命令: |
|
91 | 90 | 其中,`train.sh` 与`demo/seqToseq/translation/train.sh` 基本相同,只有2个配置不一样: |
92 | 91 |
|
93 | 92 | - `--init_model_path`: 初始化模型的路径配置为`data/paraphrase_modeldata/paraphrase_model` |
94 | | -- `--load_missing_parameter_strategy`: 如果参数模型文件缺失,初始化时,除词向量模型外的参数将使用正态分布 |
| 93 | +- `--load_missing_parameter_strategy`:除词向量模型外的参数将使用正态分布” 改为 “除词向量模型外的参数将使用正态分布随机初始化 |
95 | 94 |
|
96 | 95 | 如果用户想要了解详细的数据集的格式、模型的结构和训练过程,请查看 [Text generation Tutorial](../text_generation/text_generation.md). |
97 | 96 |
|
|
0 commit comments