240 发简信
IP属地:江西
  • 图像数据处理

    Opencv是处理计算机视觉任务中最常用的工具包,它的底层是采用C++语言编写的,同时提供python接口。这样既实现了运算效率高的特性,也实现了应用简单的特性。 这一小结,...

  • 词向量构造 - Tf-idf模型

    前面我们总结过词袋模型,词袋模型将文本中所有不重复的词看作一个集合,然后对文本中的每句话进行编码。在句子中对于出现的词标记为1,未出现的词标记为0。这样我们就完成了对文本向量...

  • 词向量构造 - 词袋模型

    对于机器学习任务而言,不管是什么类型的数据(语言,声音,图像,视频),都必须转化为数值型数据,一般均为向量或者矩阵。自然语言处理,经过了一个长期的发展过程,近几年取得了重大的...

  • 汉语词频统计

    该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。 汉语中常见...

  • 英文词频统计

    该案例以莎士比亚的四大悲剧之一《哈姆雷特》为例,来统计该文章中的词语出现的频率。总体的步骤为读入文本,大小写转换,特殊字符转换,分词,词频统计,排序。通过观察词语频率最高的几...

  • 第一节:Jieba分词

    在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在...

  • 员工离职预测

    1.项目目标 在任何一家企业里,员工队伍的稳定性对于企业的发展都非常的重要。所以通过模型预测员工离职的价值就日益凸显出来了,该模型可以大大地提高HR部门的工作效率,同时也可以...

  • 120
    自然语言处理概述(Natural Language Process)

    近年来,人工智能逐渐成为了当前社会最热门的行业之一,也逐渐的进入了寻常百姓家。比如我们熟知的AlphaGo击败韩国围棋冠军李世石,小米的语音助手小爱同学,英国的智能机器人So...

  • 120
    科比职业生涯数据集分析

    1.项目目标 通过分析科比职业生涯比赛的相关数据,掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法,掌握常规的数据预处理的方法以...

  • 120
    Titanic沉船数据集之获救乘客预测

    项目目标: Titanic数据集是我们进入到机器学习领域中的第一个数据集,同我们学习编程的第一句程序语言(‘hello,world’)是一样的。通过对该数据集进行机器学习建模...

  • 你好,在Tableau中可以使用地图来展示一些数据信息,如某一城市的人口,GDP,疫情感染人数等或者某一家公司在某一地区的销售额和门店数量等信息。

    常用数据可视化工具简介

    当我们做数据分析或数据挖掘的时候,常常需要对数据的分析过程和结果做可视化展示。数据可视化可以更加清晰地向听众传达想要表达的信息,同时也降低了大家理解数据的门槛。Python和...

  • 120
    常用数据可视化工具简介

    当我们做数据分析或数据挖掘的时候,常常需要对数据的分析过程和结果做可视化展示。数据可视化可以更加清晰地向听众传达想要表达的信息,同时也降低了大家理解数据的门槛。Python和...

  • 120
    多分类算法的评估指标

    在以往的分类问题求解当中,我们遇到的问题多为二分类问题,我们常用的评估指标有accuracy, precision, recall_score, f1-score, roc_...

  • 120
    回归算法的评估指标

    回归问题是机器学习要解决的四大问题之一,在我们的生活中也存在着很多回归问题。比如某一地区的房价预测,某一个学生高考成绩的预测,某一地区感染病毒人数的预测,某一公司2020年营...

  • 120
    三维度图像的绘制

    这一小节,我们来绘制三维图像。二维图像可以表示两个变量在空间中的分布,三维图像可以表示三个变量在空间中的分布。通过对三维数据进行可视化,使得我们可以更加直观的理解数据。 在中...

  • 决策树绘制

    决策树是机器学习的十大算法之一,可用于解决分类和回归问题。决策树的结构很像二叉树,通过一层一层的节点,来对我们的样本进行分类。决策树算法的可解释性非常的好,通过绘制决策树,我...

  • 120
    汉语文本词云绘制

    我们在分析英文文本的时候,可以直接统计词频,是因为英文中每个单词都是天然用空格分开的。而在汉语文本中,词和词都是连接在一起的,所以我们需要先对汉语语句进行分词处理,然后再进行...

  • 120
    英文文本词云(Wordcloud)绘制

    在数据的探索性分析过程中,对于数值型数据集,我们可以使用pd.info(),pd.describe()来对数据做一些统计汇总,使我们对数据有一个初步的整体认识。我们也可以对其...

  • @京翎 其实是这样的,在机器学习任务中,我们首先会将原始数据按照一定的比例分为测试集和训练集,训练集对我们来说非常珍贵,在最终模型未确定之前,我们是不会拿训练集去做评估的。避免在调参的过程中,反复使用训练集,造成模型已经熟悉训练集的情况。我们在做交叉验证的时候,是将训练集分成了两部分,训练集和验证集。用训练集训练模型,用验证集来评价模型。当验证集的评价效果达到我们的要求了,我们再使用训练好的模型在测试集上做分类或回归任务。

    机器学习算法之交叉验证

    我们一般解决机器学习问题的步骤如下:1.拿到数据集,对数据集进行清洗。数据集清洗一般包括以下几个方面:重复值处理,缺失值处理,字符型数值处理(因为sklearn机器学习算法只...