在统计学中,数据通常分为两大类:定性数据
和定量数据
。了解这两类数据的区别和应用是统计学入门的基本要素。
定性数据
定性数据
(Categorical data)主要用于描述类别或属性,而不涉及数值。它能够分成不同的组别,这些组别之间没有固有的数量关系。例如:
- 性别(男、女)
- 学校类型(公立、私立)
- 颜色(红、蓝、绿)
定性数据又可以进一步分为:
- 名义数据:没有内在顺序的类别,例如,动物的种类(猫、狗、鸟)。
- 顺序数据:有自然顺序的类别,例如,教育水平(小学、中学、本科、研究生)。
案例分析
假设我们进行了一项调查,询问100位参与者的性别
和职业
。调研结果如下:
性别 | 职业 |
---|---|
男 | 工程师 |
女 | 教师 |
男 | 医生 |
女 | 护士 |
男 | 工程师 |
在这个例子中,性别是名义数据
,而职业则是顺序数据
(这取决于职业的社会地位)。
可视化示例
我们可以使用Python的matplotlib
库将定性数据可视化。
1 | import matplotlib.pyplot as plt |
定量数据
与定性数据相对,定量数据
(Quantitative data)是可以进行数值计算的数据,通常涉及到数量,可以用来进行数学运算。定量数据主要分为:
- 离散数据:只能取特定值的数据,例如,一个班级的学生人数(30、31)。
- 连续数据:可以在某个范围内取任意数值的数据,例如,一个人的身高(160.5 cm、170 cm)。
案例分析
假设我们记录了5名学生的考试成绩,结果如下:
学生 | 分数 |
---|---|
1 | 85 |
2 | 90 |
3 | 78 |
4 | 88 |
5 | 92 |
在这个例子中,分数是定量数据
,因为它是可以进行数值计算的。
可视化示例
同样,我们可以使用matplotlib
来可视化定量数据。
1 | import matplotlib.pyplot as plt |
小结
理解定性数据
和定量数据
的区别有助于我们在数据分析时选择合适的方法和工具。通过案例和代码示例,我们可以更好地掌握如何处理和可视化这两种不同类型的数据。在实际应用中,定量数据能够用于更复杂的统计分析,而定性数据则有助于我们了解样本特征和分类情况。