特征工程-简介
特征工程 (清洗、组织数据)
特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,
可以通过挑选最相关的特征,提取 特征以及创造特征来实现。
其中创造特征又经常以降维算法的方式实现。
可能面对的问题有:特征之间有相关性,特征和标签无关,特征太多或太小,或者干脆就无法表现出应有的数 据现象或无法展示数据的真实面貌
-
使用ml 解决 需要手动操作才能解决的问题 比如nlp
-
80%时间都是获取、清洗、组织数据
-
经过数据转换能更好的表示潜在问题的特征,提高机器学习性能
-
目的:降低计算成本,提高模型上限
-
机器学习工程师:从清洗好的数据中挖掘出模式来
-
数据工程师:设计数据流水线 ,提供可使用的数据格式
数据和ML的基础知识
-
观察值 代表问题的一个实例 observision
-
监督学习:预测分析,利用数据结构的算法 (利用特征对响应进行预测)
-
无监督学习:从数据中提取结构,数据的数值矩阵,迭代过程应用数据变换,提取新的特征
-
特征工程:理解并转换监督学习和无监督学习中的特征
-
特征:对ml算法有益的属性
特征工程评估
-
应用特征前,获取机器学习模型的基准性能
-
应用多种特征工程
-
每种特征工程。获取一个性能指标,与基准性能进行比较
-
性能的增量大于某个阈值,就认为特征工程是有益的
-
性能的改变百分比计算 基准性能40%准确,到76%准确,改变是 36/40=90%
-
监督学习评估
-
分类,5折交叉验证计算逻辑回归的准确率 accuracy
-
回归,线性回归的均方误差 MSE 五折交叉验证 mean_squared_error
-
Cross_val_score cv = 5
-
-
无监督学习评估
- 轮廓系数,表示聚类分离性的变量[-1,1]
-
评估的算法和指标,是为了检验特征工程
-
如何理解、清洗特征、如何移除、增加特征
特征
-
特征理解 :定量、定性
-
特征增强:清洗和填充缺失值,最大化数据集价值
-
特征选择:统计方法选择一部分特征,减少数据噪声
-
特征构建:探索特征联系
-
特征转换:提取数据隐藏结构,用数学方法转换数据集,增强效果
-
特征学习:深度学习,重新看待数据,揭示新的问题并解决