Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
什么是文本聚类
发现文本中的“自然结构”;
将相似的对象聚在一起;
对象可以是:文档,项,篇章,网站……
相似的定义是聚类的根本
例子
对整个集合中的文档进行聚类
对项进行聚类来定义“概念”、“主题”及“话题”
对篇章或者句子或者任意选中的文本段进行聚类(例如,使用话题模型得到一个话题下得相关文本段)
对网站进行聚类
文本的聚类可以产生一个层次性的结果
为何进行文本聚类
获得对于整个文本集合的整体把握(哪些是典型的或者代表性的文档?)
剔除重复的内容,精简文本数据
在文本数据上创建结构
引入附加的特征用来对文本对象进行分类
例子
对搜索的结果进行聚类
了解客户邮件的主要的抱怨
如何做文本聚类
生成式概率模型
重新看看话题发现
一个话题就是一个聚类
确定一个话题
生成式模型可以怎样进行聚类?
重新看一下生成式话题模型
用于文档聚类的混合模型
似然函数如何定义?
如何推广到包含 k 个话题或者聚类上?
用于文档聚类的混合模型
在参数估计后进行聚类分配