" id="b1img" alt="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" title="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO">
  • " alt="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" title="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" />
  • " alt="Windows/Linux服务器运维技术支持 环境搭建、应用发布、服务器管理、虚拟化、云计算" title="Windows/Linux服务器运维技术支持 环境搭建、应用发布、服务器管理、虚拟化、云计算" />
  • " alt="高校/小型企业网络运维与建设免费技术支持,网络规划、网络优化、故障排除、网络管理" title="高校/小型企业网络运维与建设免费技术支持,网络规划、网络优化、故障排除、网络管理" />

别了网工——我的数据分析之路(九)抽样分布与估计

资源分享2018-06-18 itlogger阅读(222) 评论(0)

1. 什么是总体和抽样

总体是指考察的对象的全体

个体是总体中的每一个考察的对象

样本是总体中所抽取的一部分个体

样本大小(容量)则是指样本中个体的数目

抽样分布:样本平均值的分布可视化

2. 什么是中心极限定理

(1)样本的均值约等于总体平均值

(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值范围,并呈正态分布。

3. 中心极限定理有什么用

(1)用样本来估计总体

(2)根据总体信息,判断某个样本是否属于总体(3个标准差,概率97%)

4. 如何用样本估计总体?

某个数据集的标准差

样本标准差(用样本估计总体标准差)

标准误差

5. 偏见是如何产生的?如何避免?

(1)样本偏见:这种主要是观察的样本不具代表性,以偏概全。比如,穷人看到身边基本都是穷人,觉得国家整体都很穷。富人身边都是富人,觉得大家过的应该都不差。

-> 样本大小越大越可靠

(2)幸存者偏差:这种主要是对立面不能被观察到。有个很好的例子,就是研究二战战斗机的着弹点。因为只有能飞回来的飞机才能被研究,所以着弹的地方反而不是重点防护的方向。它还能飞回来,说明着弹的地方不是最致命的。又如人们总是相信事情会往好的方向发展

-> 要多角度观察问题,逆向思维解决问题;学会屏蔽噪音

(3)概率偏见:心理概率与客观概率的不吻合,过于相信直觉。比如,中彩票都知道是件概率极低的事情,但买的人还是趋之若鹜。因为他们‘觉得’自己能中奖。

-> 学好概率统计,用数学方法去验证客观概率;无法验证客观概率时,多方面咨询专业人事的看法

(3)信息茧房。个性化推荐造成的信息过滤,造成观点的极化。这个就是人民日报提到的:不能让算法决定内容。比如某头条,我好几天都看了篮球的文章,然后后边我看到推荐的基本都是关于篮球的,这样我的信息接受面就变窄了。长此以往,认知方面肯定会出现偏见。

-> 谨慎对待个性化推荐

6. 随机抽样应用:抽奖

import random
for i in range(10):
    userId=random.randint(0,395)
    print('第%s位获奖用户id是%s'%(i,userId))
第0位获奖用户id是85
第1位获奖用户id是151
第2位获奖用户id是346
第3位获奖用户id是300
第4位获奖用户id是64
第5位获奖用户id是338
第6位获奖用户id是160
第7位获奖用户id是361
第8位获奖用户id是158
第9位获奖用户id是178

7.点估计

7.1 置信区间
只有有估计,就会有误差

由样本数据估计总体分布所含未知参数的真值,所得到的值,称为估计值。点估计的精确程度用置信区间(误差范围)表示。

置信水平:区间包含总体平均值的概率 p(a<样本平均值<b)=Y%

7.2 大样本(样本大小>30)求置信区间

(1)确定要求解的问题

(2)求样本的平均值和标准误差

(3)确定置信水平,常用95%

(4)求出置信区间上下限的值(查询Z表格)

正态分布Z统计量

a=总体平均值-几个标准误差=总体平均值-Z(标准分)x标准误差

如:置信水平95%,概率p(Z<z)=2.5%,对应标准分z=-1.96

a=总体平均值-1.96*标准误差

b=总体平均值+1.96*标准误差

7.3 小样本 t分布

(1)确定要求解的问题

(2)求样本的平均值和标准误差

(3)确定置信水平,常用95%

(4)求出置信区间上下限的值(查询t表格,求t值)

自由度:指在不影响给定限制条件的情况下,可以自由变换信息的数量。可以将自由度看做估算其他信息时可有的独立信息数量。

自由度df=n-1、置信水平–>t

a=总体平均值-几个标准误差=总体平均值-t*标准误差

如:置信水平95%,t=2.262

a=总体平均值-2.262*标准误差

b=总体平均值+2.262*标准误差

转载请注明 :IT樵客
文章地址:http://www.itlogger.com/res/2518.html
标签:,
相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注