当前位置:首页>高考备考>数学>知识点

回归分析的定义和回归直线及相关例题解析

回归分析的定义和回归直线及相关例题解析

一、回归分析的定义和回归直线

1、回归分析

对具有相关关系的两个变量进行统计分析的方法叫回归分析。

其基本步骤是:

(1)画散点图;

(2)求回归直线方程;

(3)用回归直线方程作预报。

2、回归直线

如果具有相关关系的两个变量的一组数据$(x_1,y_1),(x_2,y_2),cdots,(x_n,y_n)$大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系,这条直线就是回归直线,记为$hat{y}=hat{b}x+hat{a}$。

3、回归直线方程的求法——最小二乘法

设具有线性相关关系的两个变量$x,y$的一组观察值为$(x_i,y_i)(i=1,2,cdots,n)$,则回归直线方程$hat{y}=hat{b}x+hat{a}$的系数为$hat{b}=frac{sumlimits_{i=1}^{n} (x_i-bar{x})(y_i-bar{y})}{sumlimits_{i=1}^{n} (x_i-bar{x})^2}=frac{sumlimits_{i=1}^{n} x_iy_i-nbar{x}bar{y}}{sumlimits_{i=1}^{n} x^2_i-nbar{x}^2}$,$ hat{a}=bar{y}-hat{b}bar{x}$,其中$(x_i,y_i)$为样本数据,$bar{x}=frac{1}{n}sumlimits_{i=1}^{n}{x_i}$,$bar{y}=frac{1}{n}sumlimits_{i=1}^{n}{y_i}$为样本平均数。

注:1、$(bar{x},bar{y})$称为样本点的中心,回归直线$hat{y}=hat{b}x+hat{a}$一定经过样本点的中心$(bar{x},bar{y})$。

2、当回归直线的斜率$hat{b}>0$时,为线性正相关,当$hat{b}<0$时,为线性负相关。

3、回归直线方程$hat{y}=hat{b}x+hat{a}$中的$hat{y}$是为了与$y$的实际值区别。

4、随机误差

由于所有的样本点不共线,只是散布在某一条直线的附近,所以两变量之间的关系可用线性回归模型$y=bx+a+e$来表示,$a$和$b$为模型的未知参数,$e$是$y$与$bx$+$a$之间的误差。通常$e$为随机变量,称为随机误差,它的均值$E(e)$=0,方差$D(e)=σ^2>0$。这样线性回归模型的完整表达式为$begin{cases}y=bx+a+e,\E(e)=0,D(e)=σ^2end{cases}$,随机误差$e$的方差$σ^2$越小,通过回归直线预报真实值$y$的精确度越高。

5、线性相关系数

对于变量$x$与$y$随机抽取到的$n$对数据,利用$(x_1,y_1),(x_2,y_2),cdots,(x_n,y_n)$相关系数$r$来衡量两个变量之间线性关系的强弱,相关系数$r$的计算公式为$r=frac{sumlimits_{i=1}^{n}(x_i-bar{x})(y_i-bar{y})}{sqrt{sumlimits_{i=1}^{n}(x_i- bar{x})^2·sumlimits_{i=1}^{n}(y_i-bar{y})^2}}$=$frac{sumlimits_{i=1}^{n}{x_iy_i}-nbar{x}bar{y}}{sqrt{left(sumlimits_{i=1}^{n}{x^2_i-nbar{x}}^2right)left(sumlimits_{i=1}^{n}{y^2_i}-nbar{y}^2right)}}$。

(1)当$r$>0时,表明两个变量正相关;当$r$<0时,表明两个变量负相关。

(2)$|r|$越接近于1,表明两个变量的线性相关性越强;$|r|$越接近于0,表明两个变量之间几乎不存在线性相关关系。通常$|r|$大于0.75时,认为两个变量有很强的线性相关性。

二、回归分析的相关例题

已知变量$x$和$y$满足关系$y$=-2$x$+1,变量$y$

与$z$正相关,下列结论中正确的是___

A.$x$与$y$正相关,$x$与$z$负相关

B.$x$与$y$正相关,$x$与$z$正相关

C.$x$与$y$负相关,$x$与$z$负相关

D.$x$与$y$负相关,$x$与$z$正相关

答案:C

解析:根据题意,变量$x$和$y$满足关系$y$=-2$x$+1,其相关系数为-2<0,所以$x$与$y$负相关,又由变量$y$与$z$正相关知$x$与$z$负相关,故选C。

已有0人点赞