一 文本预处理
1 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:
读入文本
分词
建立字典,将每个词映射到一个唯一的索引(index)
将文本从词的序列转换为索引的序列,方便输入模型
2 现有工具
二 语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为的词的序列,语言模型的目标就是评估该序列是否合理,即计算该序列的概率
1 元语法
通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面个词相关,即阶马尔可夫链
2 随机采样
在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻
3 相邻采样
在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻
三 循环神经网络基础
循环神经网络引入一个隐藏变量,用表示在时间步的值。的计算基于和,可以认为记录了到当前字符为止的序列信息,利用对序列的下一个字符进行预测