关于独热编码的一个函数使用
pandas.get_dummies
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) → ’DataFrame’
Convert categorical variable into dummy/indicator variables.
最主要的函数是这个data
小栗子
s = pd.Series(['男','女'])
pd.get_dummies(s)
函数返回的,就是一个独热编码
参数:drop_first
Whether to get k-1 dummies out of k categorical levels by removing the first level.
当我们需要虚拟编码,也就是k-1个自由度的时候,可以使用这个参数
s = pd.Series(['红色' , '黄色' , '蓝色'])
pd.get_dummies(s)
pd.get_dummies(s , drop_first=True)