Press "Enter" to skip to content

初试用R进行数据统计

需要明了的基础概念:

概率:某个事件出现的可能性;
频率分布表:统计与某数值一致的数据的个数、着这属于某数值范围的数据的个数,然后将这些统计值制成一览表;
直方图:图形化的频率分布表;
平均值(期望值):用总和除以数量就是平均值。
总体:所有应当调查的对象;
样本:总体的一部分;
标准差:衡量数据离散程度的值,代表了数据相对于平均值的离散程度,先求所有差值的平方和,然后初一总数-1后的数值;
离散:也叫误差,数据的离散是有规律的,又被称为数据的分布;
正态分布:数据的离散程度称为分布,其中左右对称且只有少数结果极其偏离期望值的分布则称为正态分布。
95%的数据所在范围:距离平均值2个标准差以内;
显著水平:在实施分析或展开调查钱就确定好的一个量,用作判断基准的概率,1%、5%、10%;
零假设:认为样本均值和总体均值之间的差异只是误差,即认为二者之间不存在差异的假设;
备择假设:认为样本均值和总体均值之间差异超出了误差的范围;
概率不足5%:否定零假设
概率大于5%:保留零假设
均值差异检验:把平均值和总体均值与应当值作对比,判断二者是否在误差范围内。

将excel表格breads.csv导入RStudio

> breads <- read.csv("breads.csv")

计算面包重量的平均值

> mean(breads$weight)
[1] 397.1267

计算面包的标准差

> sd (breads$weight)
[1] 10.92062

输出面包的重量分布的直方图

> hist(breads$weight)


调用t.test函数求得概率值(p-value)
mu=400表示总体均值定义为400(克)
t表示离差统计量,df表示自由度

> t.test (breads$weight,mu=400)

    One Sample t-test

data:  breads$weight
t = -1.4411, df = 29, p-value = 0.1603
alternative hypothesis: true mean is not equal to 400
95 percent confidence interval:
 393.0488 401.2045
sample estimates:
mean of x 
 397.1267