" id="b1img" alt="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" title="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO">
  • " alt="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" title="米课”N+1“思维建站-非官方免费技术支持,Wordpress/Zencart/Opencart建站、SEO" />
  • " alt="Windows/Linux服务器运维技术支持 环境搭建、应用发布、服务器管理、虚拟化、云计算" title="Windows/Linux服务器运维技术支持 环境搭建、应用发布、服务器管理、虚拟化、云计算" />
  • " alt="高校/小型企业网络运维与建设免费技术支持,网络规划、网络优化、故障排除、网络管理" title="高校/小型企业网络运维与建设免费技术支持,网络规划、网络优化、故障排除、网络管理" />

别了网工,数据分析之路(二)——描述统计学/概率基础

资源分享2018-05-14 itlogger阅读(49) 评论(0)
一、描述统计学基础
1.什么是描述统计学
描述统计学是一种数据归纳的方法,通常以表格、图形或数值这种易于理解的形式进行数据汇总。
2.常用的数值表示法
2.1 位置度量
(1)平均数
平均数对于异常值不敏感
(2)中位数
先从小到大排序,如果数量N是奇数则取中间这个数作为中位数,如果是偶数个,则取中间两个数的均值。
(3)四分位
下界、Q1、Q2、Q3、Q4、上界
箱线图表示
可用于比较不同类别数据集的整体情况,识别异常值
2.2 变异程度度量
(1)四分位数间距IRQ=Q3-Q1
(2)方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。使用平方解决了负偏离问题
(3)标准差
标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
(4)标准分
相对排名一般用标准分表示,距离平均值多少个标准差
2.3 异常值的检测
最小估计值Q1-k(Q3-Q1)
最大估计值Q3+k(Q3-Q1)
3.股票分析案例[python]
(1)Google Finance股价比较
(2)安装包文件
pIP install matplotlib
python -m pip install pandas_datareader
(3)Python代码
import pandas as pd
import io
import matplotlib.pyplot as plt
from pandas_datareader import data as web
#计算股价累计变化
def change(column):
buyPrice=column[0]
curPrice=column[261-1]
print (buyPrice)
print (curPrice)
priceChange=(curPrice – buyPrice) / buyPrice
if (priceChange>0):
print(‘股票累计上涨=’,priceChange)
elif (priceChange<0):
print(‘股票累计下跌=’,priceChange)
else:
print(‘股票累计变化=’,priceChange)
return priceChange
#gafataDict = {‘谷歌’:’GOOG’,’亚马逊’:’AMZN’,’Facebook’:’FB’}
start_date = ‘2017-01-01’
end_date = ‘2018-01-01’
#读取股票数据
Df = web.DataReader(‘FB’,’morningstar’,start_date,end_date)
print (Df.head())
print (Df.describe())
closeCol=Df[‘Close’]
DfChange=change(closeCol)
print(DfChange)
//画K线图
Df.plot(x=Df.index,y=’Close’)
plt.title(‘FaceBook’)
plt.grid(True)
plt.show()
二、概率基础
1.什么是概率
概率是对事件发生的可能性的数值度量。用数值来描述可能性,进行预测或则做出最好的选择。
2.如何计算概率
前人经验
数据描述
3.事件
独立事件:与已发生的事件无关
相关事件:与已发生的时间相关
4.条件概率
可以用决策树来表示
具体分析的时候可以多利用外部视角,比如分析基于行业的条件概率。
5.赌徒谬论
是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升。如重复抛一个公平硬币,而连续多次抛出反面朝上,赌徒可能错误地认为,下一次抛出正面的机会会较大。这是一种非正式谬误。
6.大数定律
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
7.小数定律 (统计的数据量足够大,事物出现的频率越接近期望)
小数定律是人有把从大样本中得到的结论错误地移植到小样本中的倾向。比如人们知道掷硬币的概率是两面各50% ,于是在连续掷出5个正面之后就倾向于判断下一次出现反面的几率较大。这一点已被大量的实验和证券市场上的错误预测所证实。
8.决策树实例
考证涨薪的期望=10+0-6-18=-14
由此说明通过考证实现涨薪的机会非常大

转载请注明 :IT樵客
文章地址:http://www.itlogger.com/res/2449.html
标签:
相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注