特征工程-特征理解
特征理解
-
结构化vs非结构化
-
非结构化:服务器日志.原始文本格式存储的数据
-
结构化:行列结构
-
-
定量数据 vs 定性数据
-
定量是数值,衡量数量的
-
定性是累呗,描述性质
-
-
四个等级:定类、定序、定距、定比
-
定类:工作种类,动物物种,
-
定序:评分1-10,成绩A-F,工资水平,中位数,百分位,绘制茎叶图,箱线图
-
定距:数值之间的差异有意义,历年气温。均值 和标准差,滑动均值
-
定比:货币值、绝对零点
-
-
数据:
-
非结构化 :转换为结构化
-
结构化
-
识别每一列
-
定性
-
定类
-
定序
-
-
定量
-
定距
-
定比
-
-
-
-
可视化/描述性统计
-
-
理解数据的前提下,创造,修复,利用特征