Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
Syntagmatic 关系发现:条件熵
如果我们关于 Text segment 知道的更多呢?
预测问题:“meat” 出现在这个 segment 中么?
- “eats”的出现帮助“meat”出现预测么?
- 会降低关于“meat”的不确定性么,ie,H(X_{meat})?
或者如果我们知道“eats”没有出现的知识,会有类似的帮助么?
条件熵
条件熵:完备定义
一般来说,对于任何的离散随机变量 X 和 Y,我们有 H(X) >= H(X|Y)
那么 H(X|Y) 最小可能的值是什么?
使用条件熵来刻画 syntagmatic 关系
哪个更小?H(X_meat | X_the) 还是 H(X_meat | X_eats)?
对于哪个词 w,H(X_meat | X_w) 能取到其最小值(0)?
对于哪个词 w,H(X_meat | X_w) 能取到其最大值,H(X_meat)?
用来挖掘 syntagmatic 关系的条件熵
- 对每个词 W1
- 对每个其他词 W2,计算条件熵 H(X_W1 | X_W2)
- 对所有候选词按照 H(X_W1 | X_W2) 进行升序排序
- 选择前面的候选词作为潜在的于 W1 有 syntagmatic 关系
- 然而,尽管 H(X_W1 | X_W2) 和 H(X_W1 | X_W3) 是可比得, H(X_W1 | X_W2) 和 H(X_W3 | X_W2) 却不可以!
** 我们如何能够从一个 collection 中挖掘出 最强 K 个 syntagmatic 关系**