15. 置信区间 Confidence Intervals
bootstrap是计算置信区间的一个方法。
95%的置信区间能够覆盖95%的均值(覆盖了95%的bootstrap过程中产生的均值intervals that covers 95% of means that you calculated when you bootstrap the sample)。
95%的置信区间意味着 在这个置信区间之外发生一次事件的概率Pvalue是小于0.05
比较两组随机样本。首先对这个随机样本取Bootstrap的均值,>1000次,然后比较bootstrap后均值的置信区间。如果两个样本的95%置信区间不同,则两个样本是具有统计学差异的;而如果两个样本的置信区间之间有部分重叠,则需要做T-test检验。
16. P-value值
- Pvalue并不是完全指概率值。Pvalue is the probability that random chance generated the data, or something else that is equal or rarer.就是双尾的概率之和。例如二项分布的抛硬币实验。两次抛掷都为头(heads)的Pvalue是0.25+0.25+0.
- 而抛硬币5次,对于4正1反的Pvalue值。包括4正1反,1反4正,以及5正/5反的概率之和
- 和概率有区别。Pvalue就是衡量这个值是否有特别之处。例如得到平均值的pr为0.01,但P-value=1。