3.1 微积分
(1)导数
(2)最优化问题:最大化和最小化
(3)偏导数
(4)多元最优化问题:所有偏导数的一阶导为零
3.2 线性代数
1. 矩阵
2. 方阵:
(1)行数m=列数n,a11、a22…ann为主对角线元素
(2)对角矩阵
(3)n级单位矩阵,I
3. 矩阵的转置
(1)定义:
(2)对称矩阵:
4. 向量
(1)行向量/列向量
(2)向量a与向量b的点乘、正交
5.矩阵的加法
6.矩阵的数乘
7. 矩阵的乘法
8.线性方程组
9. 逆矩阵
10. 矩阵的秩
11. 二次型
备注:每一项都是二次的
此时,这个二次型是正定的,开头向上的抛物线
3.3 概率、条件概率
1. 概率
(1)含义:大量重复实验,事件发生的频率趋向的某个稳定值,记事件A发生的概率为P(A)
2. 条件概率
含义:在B的条件下A发生的概率=A与B同时发生的概率除以B发生的概率
3. 独立事件
若P(A|B)=P(A),说明A与B是相互独立的事件,也可表达为P(AB)=P(A)P(B)
4. 全概率公式
3.4 分布与条件分布
1. 离散型概率分布
2. 连续型概率分布
3. 多维随机向量的概率分布
4. 条件分布
3.5 随机变量的数字特征
1. 期望
2. 方差
3. 协方差
4. 矩的概念
6. 条件期望
理解:就是把一个大草帽放在一个二维坐标里边,按照X=x(具体数值)切一刀,观察在这个情况下y的均值。所以这个含义表示在X=x1情况下,Y的均值;X=x1情况下,Y的均值,以此类推。所以这里边说y已经被积掉了,E(Y|x)只是关于x的函数。
7. 条件方差:即条件分布的方差
8. 向量的期望
9. 向量的协方差
10.Stata的应用
sum
含义:查看变量的数量、均值、最大值、最小值,看看数据有没有什么大的错误
sum lnw,detail
含义:查看lnw更多更详细的指标,包括分位数、最值、样本容量、均值、方差、偏度、峰度
hist lnw,width(0.1)
(bin=25, start=4.605, width=.1)
含义:画出lnw的直方图,宽度设置为0.1,括号里边的是stata自动分了25组,从哪开始,以及宽度
Kdensity lnw,normal normop(lpattern(dash))
含义:①kdensity表示核密度估计(kernel density estimation),看做对直方图的光滑处理就可以了②normal:画出正太分布③normop即normal option,表示这是对normal的状态进行选择④lpattern表示line pattern,指线条的状态,这里选择了dash,即虚线
gen wage=exp(lnw)
kdensity wage
含义:这是考察工资本身的一个分布状态。发现工资的尾巴很长,但是取对数的话就比较接近正态分布
kdensity lnw if s==16
含义:条件分布
twoway kdensity lnw || kensity lnw if s==16,pattern(dash)
含义:把两个图放一起
twoway (kdensity lnw)(kensity lnw if s==16,pattern(dash))
含义:同上
含义:通过sum来比较期望和条件期望(看均值)、标准差(std)
3.6 迭代期望定律
1. 定义
2. Stata实操
先求条件期望
sum lw if rns==0
含义:北方居民的工资对数,即E(lw|rns=0)=5.725644
sum lw if rns==1
含义:南方居民的工资对数,即E(lw|rns=1)=5.581083
含义:北方居民的工资对数要高于南方居民
然后在加权平均
dis 5.725644(554/758)+5.581083(204/758)
得到:5.6867384
上边是按照公式计算的无条件期望,那么如何直接计算无条件期望呢?
sum lnw
得到:5.6867384
证明了:E(lnw)=Erns【E(lnw|rns)】
3. 迭代期望定律的推广
就是把Y换成了一个函数g(Y)
注意右边第一个E是对x求期望,有时候会把这个下标省去
3.7 随机变量无关的三个层次概念
1.最强的概念:X与Y相互独立
2. 中间概念:均值独立
3. 最弱的概念:线性不相关
4. 上述三种关系的关系
3.8 常用连续型统计分布
1. 正态分布
twoway function y=normalden(x),range(-5 5) xline(0) ytitle(概率密度)
含义:①range(-5,5)表示在横轴区间(-5,5)画此图②xline(0)表示在横轴x=0处画一条直线③“ytitle(概率密度)”表示将纵轴标签设为概率密度
Twoway function y=normalden(x),range(-5 10)||function z=normalden(x,1,2),range(-5 10) lpattern(dash) ytitle(概率密度)
含义:这是把两个图画在一起了,注意z=normalden(x,1,2),其中1和2分别表示期望与方差
图的形状:u决定了对称轴,方差决定离散程度,方差越大代表数据越分散,曲线越扁
2. 多维正态分布
3. 卡方分布
twoway function chi3=chi2den(3,x),range(0 20)||function chi5=chi2den(5,x),range(0 20) lp(dash) ytitle(概率密度)
含义:同时画出自由度为3和5的卡方分布
图形:自由度越高,方差越大,越扁
4. t分布
Stata命令:twoway function t1=tden(1,x),range(-5 5)||function t5=tden(5,x),range(-5 5) lp(dash) ytitle(概率密度)
图形:自由度越高,图形越高,尾巴越薄,表示收敛的速度更快一些
5. F分布
twoway function F20=Fden(10,20,x),range(0 5)||function F5=Fden(10,5,x),range(0 5) lp(dash) ytitle(概率密度)
可以打开图像编辑器继续对图像进行修改
- 其他关于概率密度的信息:help density function
6. F分布与T分布的关系
3.9 统计推断的思想
总体与个体
样本:希望样本是随机样本,并且服从独立同分布(iid:即被抽中的概率是一样的,且被抽中的概率不会相互影响)
样本容量
统计推断:根据样本数据,对总体性质进行推断的科学
统计量与估计量
希望估计量有良好的性质:无偏的,即即估计量距离真实的参数越近越好
“均方误差”的概念
- 均方误差可以分解为方差与偏差平方之和
备注:因此均方误差最小化,可以看做在“估计量方差”与“偏差”之间进行权衡。比如一个无偏估计量,如果方差很大,可能不入一个有偏差但是方差很小的估计量