第17章二元变量相关和回归

学习目标

理解二元变量相关分析
熟悉二元变量回归分析
定义相关分析

在本章中，我们将介绍几种计莫二元变量关系的方法。

17. 1二元变量相关分析

在许多市场调研中，调研人员和管理者的兴趣都超出了运用前一章差分统计检验所能解决的间题。他们可能对两变挝之间的相关度有兴趣。适合该类分析的统计方法被称为二元变量法(bivariatetechniques)。若涉及两个以上的变俄，采用的统计方法叫多元变量法（或多变量法）。多元变匮法将在第18章讲述。

在分析两个变量之间的相关程度时，两个变报分别被定义为自变量(independentvariable)和因变量(dependentvariable)。自变量是指那些可以影响因变量结果的变址。例如，价格、广告支出或零售店数量等自变量可能被用来预测和解释某一品牌的销量或市场份额（因变量）。二元变扭分析可以解决下述问题：商品的价格对销量有什么影响？家庭收入和娱乐支出两者之间存在什么关系？

必须要指出的是，在我们本章所讲述的所有分析方法中，没有一种可用千证明一个变量可以导致另一个变量的变化，它们只适用千描述变量之间统计关系的性质。

可供分析人员选择的二元变侃方法有许多种。本章将详细论述适合可测晕（定比或定距）数据的二元变量回归和皮尔逊积矩相关，以及适合于有序（等级）数据分析的斯皮尔曼等级相关。其他可用于分析二元变量间统计关系的统计方法还包括：两组t检验、交叉表或权变表中的卡方分析和两组方差的ANOVA分析（方差分析）。这些方法均在第16章中介绍过。

17. 2二元变量回归

二元变量回归分析(bivariateregressionanalysis)是一种适合于分析因变量与自变量两变量之间关系的统计方法。例如，调研人员想要了解销员（因变批）和广告（自变星）之间的关系。如果广告支出与销旧之间的关系可以通过回归分析准确得知的话，那么调研入员就可以用生成的模型来预测不同广告支出水平下的产品销批。当一个问题涉及使用两个或多个自变量（如价格和广告）来预测因变量时，就要用到多元回归分析法（参见第18章）。

17. 2. 1(^)二元变量回归关系的性质

若研究自变量和因变址之间关系的性质，其中一种方法就是绘制散点图(scatter中agram)。因变量Y在纵轴上，自变量X在横轴上。通过观察散点图，可以得出两个变量之间是否存在直线或曲线关系。若两变量的关系呈现为直线或接近直线，那么就可以用线性回归方程分析这种关系。若图上呈现的是曲线关系，那么就要用到非线性回归分析法。此方法巳经超出了本章论述范围。

图17- 1描绘了变量X(自变量）与Y(因变量）之间的几种基本关系。散点图17- la和17- 1b表示X与Y是一种正比例线性关系，但图17- lb中的关系不如图17- la中的明显。图17- 1C说明变量X与Y是完全的反比例线性关系。例如价格与销量之间的关系：当价格上升时，销量下降；当价格下降时，销量上升。图17- 1d和17- le表明变戳之间是一种非线性关系，要精确地描述它们之间的关系，最适合的方法是曲线回归方法。图17- 1f表示X与Y之间没有任何关系。

用回归法分析电视节目的作用

MTV的少女妈妈(TeenMom)节目向来争议颇多，但它已经成为保护公共健康的工具。美国国家统计局经济研究中心发布一项研究报告称，MTV的少女妈妈（包括曾经的少女妈妈、16岁以下的少女妈妈和孕妇）在降低青少年怀孕率上起到了很好的作用。

研究显示MTV上的节目对青年的行为会有积极的影响。威尔里斯学院经济学家菲利普·莱文和马里兰州大学经济学家梅丽莎·卡尼共同撰写了报告，他们称该研究结果解释了一个统计难题。1991年以来，全美青年怀孕率以每年2.5%的速度在降低，但在2009年前后，该速度猛增到7.5%。

莱文长期研究生殖健康经济学，他称：“这种类型的数据变化很难理解。”人们通常猜测的解释是新的避孕方法和性教育导致该现象，但似乎都不太合理。经济变差有可能是其中一个因素。同时，莱文和卡尼偶然发现，美国全国预防青少年怀孕协会发布的一则公告将16岁以下怀孕少女计入了预防范围之内。

因此，他们对数据进行了处理，分析了尼尔森收视率和相关的节目推送及搜索。他们对照青年生日数据并做了些回归分析，他们得到的结论是：虽然经济因素也起到一定的影响，但青年怀孕率下降主要还是由该节目影响的，节目因素能解释5.7%。

有人提出疑问：相关就一定意味着存在因果关系吗？即使不能确定其中的因果关系，也不能低估少年妈妈节目带来的影响。每周二的首映在所有电视节目中最受12~34岁观众的关注。那就值得一问：为什么该节目如此吸引人？

可能是那些扣人心弦的短片，也可能是电视节目的真实性。莱文在开始该研究之前并没有看过少年妈妈的节目，他原本以为节目展现的是女孩们和男友之间坦诚相待以及理性地讨论避孕。结果恰恰相反，他说：“大量的节目都与冲突有关一女孩和男友、前任、父母以及自己内心的冲突。”

艾安娜·普雷斯利是一个长期致力于提高波士顿学校性教育整体水平的波士顿州议员，她说：“数据显示能和信任的、无偏见的成年人讨论性爱的女孩通常会有更好的结果。”即使事实上少女怀孕率的降低与少女妈妈节目没多大关系，那节目也不会差到哪儿去。正确的做法是经常观看，并且勇敢讨论。

问题：

1回归分析显示少女妈妈节目对少女怀孕率产生了怎样的影响？

2如果有的话，回归结果告诉了我们哪些降低少女怀孕率的原因？

17. 2. 2二元变量回归实例

Stop'NGo公司最近致力千测算特殊地段车流凰对坐落于该地的商店年销量的影响。为了控制其他变址，调研人员选定了20家商店。这些商店都有共同之处，即能显著影响商店销量的其他变量（如商店面积、停车量、周围居民点的人口统计特征等）是完全相同的这项具体的分析是Stop'NGo公司致力于识别和量化影响商店销量因素的整体项目中的一部分。公司的最终目的是构建出一个模型来筛选潜在的店址，考虑实际购买情况与店铺建设，从中选择能够带来最多销售额的店址。

在确定了2_0个商店以后，Stop'NGo公司在长达30天的时间内，每天到每个观测地点做车流怔记录。而且，公司通过内部记录获得了这20家店前12个月的全部销售数据（见表17- 1)。

最小乘估计法

最小二乘估计法(least-squaresestimationprocedure)是最能体现X与Y两个变量之间关系的浅显易懂的数学方法。在散点图中，没有任何一条直线可以完美地表示出每个观察结果。这表现为实际结果（散点分布）和预测结果（线所表示的值）之间不完全相符。散点图上的任何一条拟合直线都会存在误差。能够基本反映观察结果的直线可以画出许多条来，如图17- 2所示。

最小二乘估计的结果是一条比其他线更能体现观察结果的直线。换句话说，这条直线上的离差平方和比可用千观察结果的其他任一条直线的离差平方和都小。这条直线的一般方程为Y=a+bx。回归分析的估计方程式是

关于总体回归的假设

这里，我们将研究对所提间题的R叮古计值的假设。回归模型所得结果中巳解释的变差量是否相对于期望的随机变化更显著？或者是像在第16章讨论的各种统计检验那样，我们能在何种程度上将样本误差作为所得结果的一个解释？方差分析(F检验）就是用来检验回归结果的显著性的。

方差分析表如表17- 4所示，我们所列举例子的计算机输出结果如表17- 5所示。总变差和自由度在方差分析(ANOVA)表中列出，我们将利用该表的信息对X和Y的线性相关性进行显著性检验。正如前所述，F检验的目的正在千此。我们的假设如下：

用回归分析法进行关键驱动因素分析

关键驱动因素分析是一个广义的概念，包含了很多分析手段。它通常包含至少一个因变证或结果变量，自变量的个数可能是一个，但通常都是多个。当一个解释变量与因变量的关系未知的时候，我们把它称作预测变量。因变量通常是管理者们试图用来提高公司绩效方法的一个指标。比如整体的满意度、忠诚度、价值和被推荐的可能性

当进行关键驱动因素分析的时候，需要注意一个非常重要的问题：分析的目标是用来解释还是用来预测。

在分析开始之前回答这个问题不仅可以帮助选择分析方法，还可以在某种程度上帮助选择变量。如果分析的目标是用来解释的，我们就要找到一组能够解释因变量变化并且可操作的自变量。例如，研究对一个公司的整体满意度时，我们可以赋予不同的驱动满意度因素一定的分数，每个因素的得分增加就意味着整体满意度的增加。如果自变量对应的是不可操作的对象，分析的意义就不大。

如果分析的目标是用来预测的，我们就要找到能够做出预测的最好变量。与前一种分析不同的是我们不需要可操作的自变量，因为我们不打算改变因变量的值。只要给出了一个自变量的值，就能预测出一个因变量。例如，在金融服务行业很重要的一项工作就是根据客户资料推测（而不是改变）潜在客户的信誉度。

确定了分析类型之后，以下两点是在选择分析手段时需要注意的：

(I)有一个还是多个因变量？

(2)建立的关系模型是线性的，还是非线性的？

文章剩下的部分将讨论，在确切回答上述一个或两个问题的情况下适合使用的分析方法，

单个因变量

关键驱动因素分析法通常使用单个因变量模型，最常用的分析方法是多重回归一用多个自变量解释单个因变量。通常用5~10分的分数对诸如满意度或被推荐可能性的因变量进行总体衡量。

自变量是一些对驱动满意度因素的衡量，通常赋值的范围和因变量一样，但也可以不同。管理者关心的输出结果主要有两部分：模型的拟合优度和自变量的重要程度

模型整体的拟合优度经常用R2表示，它代表的是因变量总方差中能被自变量解释的部分。R2的值介于0~~1,越大说明拟合得越好。对于有关态度问题的研究，R2达到0. 4~~0. 6就被认为拟合的好了。自变量的重要程度用系数或beta权重表示。变量0. 4的权重表示，该变量变化一个单位，因变量将变化0. 4个单位。而且，从beta权重中也能够知道对因变量影响最大的变量。

虽然回归模型分析法非常稳健，也被人们使用了多年，但它们也存在一些缺陷。回归分析最大的（也可能是最常见的）问题是多重共线性。当自变量之间高度相关时就会产生这一问题，这样它们对因变量的影响就被扭曲。当然有很多方法可以克服这一问题。

可以用一些类似因子分析的处理技术，从高度相关的自变量中提取因子，并将这些无关的因子作为回归分析的自变量。当然，这会使自变量的意义变得更难解释。另一种克服多重共线性的方法是在建立回归之前找到并剔除多余变量。但这种方法比较主观随意，可能导致遗漏重要变量。

问题：

什么是关键驱动因素分析？回归分析在这类分析中扮演怎样的角色？
怎样使用关键驱动因素结果去提升、描述客户满意度？请解释。

17. 3计量数据的相关分析：皮尔逊积矩相关

市场调研实践17-3

重新思考皮尔逊积矩相关

在检测和复测过程中，皮尔逊积矩相关系数是衡量信度系数的最好方式吗？中国台湾台南市成功大学专家、博士、注册护士苗芬燕和李华罗(MiaofenYen&LiHuaLo)对此表示怀疑。他们解释道：“在统计上，信度用回归方差和数据真实方差的比率大小衡量。在检测和复测过程中，统计工作者通常都用皮尔逊积矩相关系数计算信度，尤其是在护理研究上。但是，研究表明这一方法有三个局限：第一，皮尔逊积矩相关是用来检验两个变量之间关系的，不适合用来计算一个变量的两个数据集。第二，当实施了多次检测时，很难辨别每次检测发生的变化。如果进行了三次检测，得到三个值，我们就没有办法计算同时适合这三个值的相关系数第三，该方法还不能研究系统误差．即便得到的系数可能巳经显示变量＇高度相关'。”

组内相关系数(ICC)是一种可供替代的方法，同样以处理系数得名．解决了上述三个问题。在使用ICC时，需要注意三个问题：第一，设计的研究应该关注信度而非相关性；第二，一定要采用正确的模型一单因素随机模型还是双因素随机模型；第三，一定要认真考虑研究中测度的数世。

苗芬燕和李华罗用一项有关乳房自我检查法的研究证明了ICC的能力。该研究的对象是自我检查法的感知能力和感知障碍。医生召集了10名护士，让她们在两周时间内完成两次调查，调查包含20个问题，每题5分。然后她们用ICC计算复测信度。计算得到了两个ICC系数：一个是单一测量的（这是计算ICC专门软件的一个预设参数）ICC系数(0. 640),另一个是平均测量的ICC系数(0. 781)。但是，研究者发现前一个系数最具实用性，因为实际上她们只进行一次检测

得到的ICC系数(0. 640)和皮尔逊积矩相关系数(0. 643)很接近，但ICC系数在研究系统误差方面同样显示了它的优越性9当引入一个12分的系统误差时，两种方式得到的结果就不同了：皮尔逊积矩相关系数还是0. 643,而ICC系数变成了0. 554。这说明ICC系数对系统误差更敏感，也更适合在复测信度检测中使用。

问题：

找几个使用皮尔逊积距相关方法衡量测试与再测试信度的例子，并评价使用ICC方法是否能够得出更好的结果。
为什么皮尔逊相关不能精确地反映系统误差，ICC是如何更好地反映系统误差的？

运用BOSE解释相关关系

相关系数的取值范围是- 1~1,绝对值越大，意味着变量间相关性越强。

有两种常用的方法解释相关性，但都无法使用户对解释结果有个清楚的理解。

一种方法是用相关系数计算方差解释比例，将相关系数的平方代表对整体方差的解释比例。这样，两个变量（如教育水平和收入）的相关系数是5'我们就说教育水平方差能够解释收入方差的25%。

另一种方法是相关系数的取值分类。将相关关系分为弱相关关系、中等相关关系和强相关关系。许多调研人员将小千3的划为弱相关，3~5为中等相关，大于5为强相关，这种解释方法的优点在于很好掌握。

还有一种方法是社会科学家在20世纪80年代发明的二项式效应大小显示法(BESD),它能够很好地解释相关关系结果是否重要。举个例子，如果你想预测某一客户群体的重复购买行为，调查使用客户态度指数，结果是重复购买和不重复购买的顾客各占一半。得到的相关系数是0. 5,如果运用第一种方法，就说明重复购买方差中的25%能由指数方差解释。你可能会觉得该指数并不重要，只能解释方差的25%。这可能是错误的想法，运用BESD能够说明原因。

皮尔逊积矩相关可以优化医疗统计

皮尔逊积矩相关是一种适用于分析两个数值型变量关系的统计工具。系数r是通过两个变量的协方差除以它们的标准变差而得来的、它可以测量两个变量的关系强度，其取值范围在+l~- 1。

统计学家应该感谢英国的卡尔·皮尔逊(KarlPearson,1857- 1936)教授发明了皮尔逊计算法。1911年，皮尔逊在英国伦敦大学创立了界上第一个应用统计学系。从那时起，很多领域的研究者，特别是医学领域的研究者，就依靠皮尔逊算法来优化数据。下面叙述的就是一个生动的例子。

人体运动实验室和布鲁塞尔国内医学研究人员组织了427名临床诊断患有慢性疲劳综合征(CFS)的女士和204名与其年龄相仿的不经常活动的女士参加心率测试项目。在她们骑固定式测功自行车的8~12分钟内，研究人员对她们的氧气水平、心率和其他身体参数进行监测。

研究者用皮尔逊相关研究每组两个变量之间相关性的变化（通过检验和控制的方法）3他们还用皮尔逊积矩相关识别两组间运动参数的区别，其目的是为了更好地了解两组之间的运动能力为什么不同。正如数据所示，皮尔逊算法提供了明确的相关性。

计算显示，厌氧临界值的负荷（减少氧气的摄入）的相关差异体现在：有慢性疲劳综合征的调研人员的最大心率可以达到0. 37,而另一组长坐不动的调研人员的相关值达到0. 70。同时计算显示，诊断患有慢性疲劳综合征的一组的最大呼吸系数与厌氧临界值的负荷正相关(r=0. 26,P<0. 001),与厌氧临界值时心率负相关(r=0. 15,P<0. 01)。在两组被调研人员中，最大呼吸系数与静息心率正相关(r=0. 17,P<0. 02),与厌氧临界值的负荷负相关(r=0. 24,P<0. 002)。

总的来说，皮尔逊积矩相关表明，心率的变化与患有慢性疲劳综合征的患者的运动能力的变化有很高的相关性。研究者表明，这是第一次如此大规模地在慢性疲劳综合征患者中评定运动能力。在皮尔逊积矩相关的支持下，研究报告证实患有慢性疲劳综合征的患者的运动能力显著降低了，其有时多达50%。

问题：

1解释统计操作中皮尔逊相关系数r可以明确显示两组间差异的原因。

2在该项研究中是否存在不可信的（可能偏高）r值？

综合运用二元变量相关和多元变量相关能给出最佳的描述

社会调研人员道格拉斯·柯比(DouglasKirby)、卡琳·科伊尔(KarinCoyle)和杰弗里B古尔德(JeffreyB. Gould)曾在加利福尼亚州进行一项调查，该调查目的在于评估贫困状况和青少年早育率之间的关系。他们首先在1991~~1996年有青少年登记分挽的地区中预选了I811个地区。在样本筛选过程中，他们排除了那些不足200名年龄在15~~17岁（被称为早育率）的年轻女性的地区，选取了1192个地区作为样本。

该调研中，因变量是样本的每年平均生育人口数，自变量是从177个社会学指标中精选出来的19个人口统计学的特征变量。在这19个自变量中，有3个是描述种族的，其余16个分别代表其他因素，如教育程度、职业、社会经济地位、收入水平和住房状况等。

调研人员将青少年的早育率和19个社会学测度分别进行二元变量相关分析和回归分析。结果显示：在所有被调研人员中，指定地区的贫困家庭数量与年龄在15~17岁的青少年早育率呈高度相关。调研人员还指出，二元变最相关分析显示：家庭生活条件在贫困线以下的比例与青少年的早育率高度相关。中等家庭收入和接受公共救助的家庭数量也与早育率呈高度相关。在这4个贫困测度变量中，有3个有最大的相关系数。

但是，调研人员希望能探究更深层次关系，他们控制了家庭贫困水平的影响。所以，他们转而采用多元变量相关来分析贫困、低教育程度、就业状况和高水平就业之间的关系，他们发现这些因素对青少年的早育率也有重要的影响。多元相关显示，到目前为止，生活在贫困线上或贫困线以下的家庭数量是影响青少年早育率的最重要因素。

同样地，作为研究者和作家的克莱顿E. 克莱默(ClaytonE. Cramer)发现，二元变囊相关的连续运用和后续多元变量的运用，在其《1993年布雷迪手枪暴力防制法》（又称《布雷迪法案》）的效果的研究中产生了最佳的结果。克莱默说，二元变量分析是一种很简单的操作，它可以很好地分析很多调研问题，例如机枪弹药品牌的比较，证明因素A的变化不能引起因素B的变化，或证明因素A影响因素B。

但是当你处理较复杂的社会问题时，例如与犯罪和枪支控制有关的问题时，仅仅使用两个变量是无法充分地证明实际的因果关系。不同于二元变量相关分析，多元变量相关分析有助于确定一些十分精确的关系，例如A的3%增长可以引起B的1%增长。“多元变量分析是一种非常复杂的方法”，使用它的科学家会犯一些“合理的＂错误，而且除科学家本人外其他人很难检测出来。但是，它的运用却产生了具有说服力的数据结果，那就是《布雷迪法案》对杀人犯罪率没有影响，克莱默说。

本章小结

二元变量分析是用于分析两个变量之间关系的一种统计方法。二元变量回归分析可以根据一个自变量的变化来预测一个因变量变化。研究自变量与因变量之间潜在关系的方法之一就是绘制散点图，如果两者之间的关系近似一条直线，那么就可以用线性回归进行分析；如果其呈曲线分布，那么就要采用曲线分析法。适用于两个变量的直线方程一般为

a和b都是需要估计的未知参数，这种方法被称为简单线性回归分析。二元变量最小二乘回归分析是通过确定一条直线来测定变量X与Y的数学方法。这条直线应该满足：所有观察点都在这一条直线附近，其方差是所有拟合直线中最小的。

回归分析法反映了X和Y之间的关系，而调研人员还想知道两个变量之间的关联程度，这可由判定系数Ri来求出。判定系数R2是由X变差解释的Y变量总变差的百分比，其取值在O~I。方差分析(ANOVA)也可用于回归分析。总变差称为总平方和(SST)。巳解释变差，或称为回归平方和(SSR),表示被回归方程解释的变异性。未解释变差被称为误差平方和(SSE)。

相关分析则是计算一个变量变化引起另一个变量变化的程度。相关分析能反映两个变量之间是正相关、负相关还是不相关。

复习思考题

列举一个适合运用相关性分析方法的市场营销案例。
一家人寿保险公司的销售经理负责测量公司销售人员的多项工作的满意度。他把满意度分数与销售人员受教育的年数进行相关分析（皮尔逊积矩相关），生成的相关系数为0. 11。根据该分析，他断定一位销售人员的工作满意度与他的教育程度几乎无关。你是否同意他的结论？请给出解释。
散点图的目的是什么？
解释判定系数的意义。判定系数可以反映自变量和因变量之间的什么关系？
我们曾注意到，“一支美国橄榄球联合会(AFC)队赢得美国橄榄球｀超级碗＇大赛时，第一季度的股市几乎在任何情况下都呈上升趋势；一支国家橄榄球联合会(NFC)队赢得超级杯大赛时，第一季的股市几乎在任何情况下都呈下降趋势”这意味着股市的直接变化是由哪个橄榄球联合会获得超级杯引起的吗？这个例子可以说明什么？
下表是在一家便民连锁店的20家分店中收集的数据：

第一列：每个分店的号码；

第二列：上一年的销售额（于美元）；

第三列：每天平均经过连锁店的车辆数目（根据每月的实际车流量计算）；

第四列：连锁店方圆两英里内的居住总人口(1990年的统计数据）；

第五列：连锁店方圆两英里内家庭的平均收入(2000年统计数据）

回答下列问题：

a. 哪三个变量是预测销售额的最好指标？请计算相关系数并回答该问题。

b. 进行下列回归分析：

- 根据销售额和平均每天交通量确立回归方程。

- 根据销售额和方圆两英里内的人口确立回归方程

C. 解释两个回归分析的结果

对以下问题做出解释：

a. Y=O. I1+0. 009X,Y是送孩子上大学的可能性，X是以千美元计算的家庭收入。

按照该模型，一个收入为100000美元的家庭有多大可能送孩子上大学？
家庭收入50000美元的呢？
家庭收入17500美元的呢？
这些推测有一定的逻辑吗？请解释。 b. Y=0. 25- 0. 0039X,Y代表去溜冰场的可能性，X代表年龄。
根据该模型，一个10岁小孩去溜冰场的可能性有多大？
60岁的老人呢？
40岁的人呢？
这些推测有一定的逻辑吗？请解释。

下列方差分析数据是根据一家玩具公司的年销售额（因变量）与年促销费用（自变量）得出的，其分子、分母的自由度分别为1和19。当显著性a=0. 05时，这两个变量的关系如何？请评论。

Axcis运动鞋

弗雷德·勒特雷尔(FredLuttrell)是Axcis运动鞋公司的产品研发主管，最近他正在进行一项关千12款新鞋的消费者调研测试。作为测试的一部分，消费者要对12款新产品的质量和款式进行评分。评分范围为1~10分，"10"代表最好，"1"代表最差。

评价小组由20个消费者组成，消费者以小组形式进行评分。弗雷德认为，款式评分和质量评分之间存在一定的关系，款式获得高分数的鞋，质量也会获得高分数。12款新鞋的评分结果如下：

问题：

本章中的哪种统计方法更适合解释弗雷德的理论？为什么你觉得这种方法更适合？
使用你选择的方法进行计算，看弗雷德的理论是否可以得到数据的支持。简述原假设和备择假设。弗雷德的理论可以得到统计上的支持吗？为什么？

Previous第16章差分统计检验 Next第18章多变量数据分析

Last updated 3 years ago

hashtag学习目标

hashtag17. 1二元变量相关分析

hashtag17. 2二元变量回归

hashtag17. 2. 1(^)二元变量回归关系的性质

hashtag17. 2. 2二元变量回归实例

hashtag17. 3计量数据的相关分析：皮尔逊积矩相关

hashtag本章小结

hashtag复习思考题