什么是机器学习aa
从数据集——>模型——>预测的一个过程
数据集的构成:特征值(feature) + 目标值(target)
机器学习算法的分类
-监督学习(有目标值):
1.目标值为类别-分类问题:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
2.目标值为连续的数据-回归问题:线性回归、岭回归
-无监督学习(没有目标值):聚类 k-means
机器学习的开发流程
获取数据->处理数据->特征工程->机器学习的算法训练->模型评估->应用
数据集介绍
学习阶段可使用的数据集:sklearn,kaggle,uci(我们这里使用的是sklearn)
sklearn数据集
#!/usr/bin/env python3
sklearn.dataset.load_*:#获取小规模的数据集
#如:sklearn.dataset.load_iris()
sklearn.dataset.fetch_*:#获取大规模的数据集
#如:sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
获取数据集的返回值
sklearn.dataset.Bunch #继承自字典
dict['key'] = value
Bunch.key = value
数据集的划分
训练数据:用于训练,构建模型
测试数据集:在模型检验时使用,用于判断模型是否正确(20%~30%)
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(arrays, *options)
特征工程
pands做数据处理,数据清洗
sklearn做特征工程
特征提取
字典类型的特征提取
如下使用sklearn中的字典类型的转换器返回的是one-hot编码
sklearn.feature_extraction.DictVectorizer(sparse=True,…)
data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
# 1、实例化一个转换器类
transfer = DictVectorizer(sparse=True)
# 2、调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray(), type(data_new))
print("特征名字:\n", transfer.get_feature_names())
data_new是ndarray类型
文本类型的特征提取
-CountVectorizer
统计文本中每个特征词出现的个数
stop_words标识停词不计入统计
data = ["life is short,i like like python", "life is too long,i dislike python"]
# 1、实例化一个转换器类
transfer = CountVectorizer(stop_words=["is", "too"])
# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())
-TfidfVectorizer
表示特征词的重要程度
TF:词频
IDF:逆向文档频率
# 将中文文本进行分词 aa
data = ["text"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 1、实例化一个转换器类
transfer = TfidfVectorizer(stop_words=["一种", "所以"])
# 2、调用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
特征预处理
无量纲化
主要就是将一些比较大的数值全部转化为某个区间的数值
-归一化(用的较少容易受到一些异常值的影响)
# 1、获取数据
data = pd.read_csv("dating.txt")
data = data.iloc[:, :3]
print("data:\n", data)
# 2、实例化一个转换器类
transfer = MinMaxScaler(feature_range=[2, 3])
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
-标准化(用的较多,使用的标准差计算不容易受到异常值得影响表示集中程度)
data = pd.read_csv("dating.txt")
data = data.iloc[:, :3]
print("data:\n", data)
# 2、实例化一个转换器类
transfer = StandardScaler()
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
特征降维
通常数据都是多维的,不利于处理,降维就是尽量减少数据的特征数得到一组‘不相关’的主变量过程,就是降低随机变量的个数
-Filter过滤式
方差选择法:低方差特征过滤
相关系数-特征与特征的相关程度
# 1、获取数据
data = pd.read_csv("factor_returns.csv")
data = data.iloc[:, 1:-2]
print("data:\n", data)
# 2、实例化一个转换器类
transfer = VarianceThreshold(threshold=10)
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new, data_new.shape)
# 计算某两个变量之间的相关系数
r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
print("相关系数:\n", r1)
r2 = pearsonr(data['revenue'], data['total_expense'])
print("revenue与total_expense之间的相关性:\n", r2)
皮尔逊相关系数:
-1 < r < 1 r靠近0则相关性小 靠近-1则呈现负相关 +1反之
如果特征与特征之间相关性很高
选取其中一个
加权求和
主成分分析
-Embeded嵌入式
决策树(后面提到)
正则化(后面提到)
深度学习(后面提到)
主成分分析
PCA降维
sklearn.decomposition.PCA(n_components=None)
n_components属性:
如果是小数则表示保留百分之多少的信息
如果是整数则表示减少到多少特征