文本分类问题:
低概率词汇的利用,学习并理解到医学词汇。。。。。。。。
模糊语义问题:
两类问题解决:Unsupervised learning
两类问题,核心都是deep learning 根据相近原理学到一个整个的词汇矩阵就可以解决了。
需要一个这样的模型来学习上下文语义。
Embedding:模型原理
Embedding 模型的形成过程
Word 2 Vec: 是一种 Embedding model
EMBEDDING Neighbor:
Reduce dimensionality
Need use t-SNE ,not PCA (需要保留neighbor relation)
More about Word 2 Vec :COSINE
WORD 2 VEC 的流程 :
WORD ANALOGY(Vector 上有表现)
语义类比,句法类比
Vector computer:
前面都是单词的模型,后面是序列(不同长度的单词)
RNN
share weight across space and time
反向传播 :而且都是权重一样的,对SGD 优化不好
Correlated 导致的数学问题:exploding and vanishing
解决梯度问题,,两种方案,一种简单,一种优雅,
exploding 使用 gradient clipping 后期缩小学习步骤
VANISHING :使用LSTM 和 GRU解决
LSTM
注意相乘的函数是连续的,可以求导。
连续求导,,反馈
正则化: 可以使用L2 和dropout
留意 dropout 不能用在RNN的memory 接口上
RNN 应用
Beam Search: 预测下一步的序列
预测一步
预测两步
RNN 变异类型
多对一: 情感推理
Beam Search 以及 作曲(一对多)
多对多