大数据产品经理必备基础知识——认识数据(上)

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
了解数据知识是大数据产品经理必备的技能,我结合自己多年的工作经验,做了一些简单的总结,大家可以看看。
大数据产品经理必备基础知识——认识数据(上) 数据对象

什么是属性:是一个数据字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互相地使用。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士则用“属性”。例如,描述顾客对象的属性可能包括customer_ID、name和address.

属性向量:用来描述一个给定对象的一组属性称作属性向量(或特征向量)。涉及的属性(或变量)的数据分布称作“单变量”,分布涉及两个属性为“双变量”等等。

属性类型

属性类型:一个属性的类型由该属性可能具有的值得集合决定。属性可以是标称的、二元的、序数的或数值的。

(1)标称属性

标称属性的值是一些符号或是事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类。这些值,不必具有意义的序。

例如:hari_color(头发颜色)和marital_status(婚姻状况),是两个描述人的属性。hari_color(头发颜色)可能为黑色、棕色、红色、赤褐色、白色、灰色等、属性marital_status的值可能是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性,他们是无有意义的序。

(标称属性是有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然后,意见有意义的事情是使该属性最常出现的值,这个值称为众数,是一种中心趋势度量,后面我们将会介绍到)

除了标称属性,还有其他的几种属性,下篇文章继续给大家详细介绍。

以上就是“大数据产品经理必备基础知识——认识数据(上)”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。

随意打赏

提交建议
微信扫一扫,分享给好友吧。