前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后的文章,会从更贴近业务的角度来写,侧重于介绍一些与自然语言问...
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言...
本文重新整理的更详细规范的介绍见这里 判断文本的相似度在很多地方很有用,比如在爬虫中判断多篇已爬取的文章是否相似,只对不同文章进一步处理可以大大提高效率。在Python中,可...
深度学习简介 深度学习的资料很多,这里就不展开了讲,本文就介绍中文NLP的序列标注工作的一般方法。 机器学习与深度学习 简单来说,机器学习就是根据样本(即数据)学习得到一个模...
DNS 解析 DNS基于UDP DNS报文的类型: A记录: Address to ip,指定地址到ip的映射。 CNAME记录:别名记录,如果返回的是CNAME,需要再对C...
连接Neo4j数据库 要通过python来操作Neo4j,首先需要安装py2neo,可以直接使用pip安装。需要注意的是如果使用默认的pip install py2neo则在...
知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联...
0 引言 jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式:精确模式、全模式、搜索引擎模式 支持繁体分词 支持自定义...
概要 之前在CSDN上写过一个blog(http://blog.csdn.net/wrzcy/article/details/51905977 ),简单的介绍了Neo4j图形...
写在前面 态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - -茂强) word2vec 大名鼎鼎的word2vec在这里...
作者:开元 1.优化算法时间复杂度 算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查找某一个元素的时...
1、冒泡排序 2、计算x的n次方的方法 这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等...
高并发系统各不相同。比如每秒百万并发的中间件系统、每日百亿请求的网关系统、瞬时每秒几十万请求的秒杀大促系统。 他们在应对高并发的时候,因为系统各自特点的不同,所以应对架构都是...