657阅读
0回复

[讨论]技术贴~~史上关于“脱光”的xx分析都弱爆了！！ [复制链接]

上一主题下一主题查看指定楼层

离线寂寞左上角

小学一年级

发帖: 36

C币: 746

威望: 0

贡献值: 0

银元: 96

铜钱: 201

人人网人气币: 0

只看楼主倒序阅读使用道具楼主发表于: 2012-01-20

话说呢，这其实是我们概统小组（褚君、刘畅、韩冰、李铖）的小组作业，应广大人民同志的要求，特意发上来~~

特别鸣谢：
褚君、刘畅两位技术大牛！！！没有你们就没有这篇惊天地泣鬼神的报告！！有木有！！
还有冰哥！！@起人来灰常给力！！

一、问题提出

从古到今，青年男女的恋爱总是大家评论的热门话题。在中国古代，青年男女秉承父母之命、媒妁之言，通过媒婆相互共同，最终达成秦晋之好。
时至今日，社会风气自由开放，人们更加推崇给予当事人更大自主权的“婚姻自由，恋爱自由”之原则。因此，选择伴侣的过程由一家之言逐渐演化成为多因素共同决定、相互影响的过程。
具体到大学生而言，由于绝大部分大学生基本已步入成年，对选择伴侣一事已具有一定的自主权与自由，如何能找到最佳的伴侣也成为不少大学生，尤其是男生所考虑的一件事。而对于究竟何种特质左右着男生“脱光”与否一事，则是仁者见仁，智者见智。
因此，基于以上现状，我们觉得有必要影响对大学男生“脱光”的特质进行探究，以为广大寄希望于在大学生活中收获美满爱情的男生提供具有一定价值与说服力的指导。

二、研究设计

（一）实验变量

在进行待探究变量的选取时，我们从个人基本信息、生活习惯及恋爱预期三个方面出发进行变量的筛选，其中囊括了连续变量与离散变量，具体如下。
1.连续变量：身高（cm）体重（kg）当前平均绩点意愿为恋爱活动花费的金额上限
2.离散变量：年级、现在恋爱状态（是或否）、是否具有恋爱经历（是或否）、进入大学的途径（正常高考、竞赛保送、自主招生）、每周花费在课程学习上的小时数（分段计量）、每周花费在社团活动方面的小时数（分段计量）、在电子游戏方面花费的小时数（分段计量）、各类社交网络方面花费的小时数（分段计量）、每周洗澡的次数每学期剪发的次数、平均每餐饭需要的米饭量、体质健康测试的成绩、《思想道德修养与法律基础》总评成绩、平均每月所需的生活费（分段计量）

（二）问卷研究

1.问卷目的：

充分收集现象，为对总体进行估计提供基础。

2.问卷设计

问卷主要由三部分构成：
其一，向被调查者说明本组研究目的，并向其承诺问卷调查结果将被严格保密。
其二，个人信息部分，针对被调查者个人的基本状况的调查部分。
其三，主要问题部分，针对被调查者对于各问题偏好的调查部分。

3.问卷测试、发放与回收

在正式发放问卷之前，我们首先打印了15份纸质版问卷在私下进行小范围的发放，通过被调查者的反馈与建议，我们对问卷中的措辞及选项设计的不当进行了更正。
正式问卷的发放采用专业的问卷网站“问卷星”进行。问卷发放采取在人人网等社交网站平台上对符合条件的被调查者（男生）进行邀请的方法。据统计，本组问卷页面的访问人次达到449次（其中独立IP数为262），最终有效答卷为137份，完成率为30.51%。

三、数据统计与分析

（一）统计结果描述

1.性别分布

由于本研究针对男生进行，因此本次问卷回答者均为男性。

2.年级分布

本次接受调查者普遍为本科全日制在校大学生（除两人为研究生），其中，各年级人数分布如下：

Figure 1 年级分布

由上图可以看出，本次调查中大二年级的同学占绝大多数，达51.2%，其次为大一同学，占23.36%，大三与大四同学分别占到14.6%与9.49%，本科以上学历者仅占到1.46%。

3.现在所处感情状态与感情经历

Figure 2 目前感情状态

Figure 3 感情经历

由上图可以看出，在本次的被调查人群中，目前无伴侣者约占到总人数的3/4，而有伴侣者仅占到1/4。在目前无伴侣的调查者中，约1/2（总样本的3/8）的调查者曾有过感情经历，而另外1/2（总样本的3/8）还未曾有过感情经历。

4.入学途径

Figure 4 入学途径

在关于入学途径的调查中，通过普通高考进入大学的被调查者占绝大多数，达到67.15%；其次为自主招生，占到19.71%；竞赛保送的同学占到13.14%。

5.身高

本次被调查者的总体身高分布情况，及对应正态分布图线如上图所示。
据统计，本次调查中，被调查者身高的样本均值为175.86cm，标准差为5.38。其中，中位数为176cm，众数为170cm，最大值与最小值分别为192cm与160cm。

6.体重

本次被调查者总体体重分布情况，及正态分布图线如上图所示
据统计，本次调查中，被调查者体重的样本均值为66.56kg，标准差为8.01。其中，中位数与众数均为65kg，最大值与最小值分别为87kg与50kg。

7.平均绩点

本次被调查者总体绩点分布情况，及正态分布图线如上图所示（由于被调查人群中大一年级同学尚未得知其平均绩点，因此仅选择了非大一年级同学的剩余92份调查结果）
据统计，本次调查中，被调查者体重的样本均值为3.33，标准差为0.31。其中，中位数为3.37，众数为3.25，最大值与最小值分别为3.85与2.39。

（二）交叉分析

1.年级与平均身高

方差分析：单因素方差分析（年级对于平均身高的影响）

SUMMARY
组（年级）	观测数	求和	平均	方差
4	12	2117	176.4167	26.62879
3	19	3351	176.3684	36.80117
2	61	10564.72	173.1921	527.7598
1	31	5429	175.129	26.31613


方差分析
差异源	SS	df	MS	F	P-value	F crit
组间	226.9944	3	75.66481	0.2695	0.84728	2.680811
组内	33410.41	119	280.7597

总计	33637.4	122

以上为通过ANOVA法，对获得的身高值与所在年级的数据处理之后的结果。我们发现，观测到的数据的p-value=0.84728，非常大，因此我们可以认为，原假设“μ₁=μ₂=μ₃=μ₄”可以被接受。这个同样可以通过F值的比较看出来。由上表我们看出，在α=0.05的条件下，F_3,119,0.05=2.680811，而观测到的F值为0.2695，远小于前者，因此我们同样可以得出结论，原假设应当被接受。所以，我们得出结论，年级对于男生的身高没有很大的影响。

2. 年级与平均体重的影响

方差分析：单因素方差分析（年级对于平均体重的影响）

SUMMARY
组（年级）	观测数	求和	平均	方差
4	12	809	67.41667	68.08333
3	19	1249	65.73684	44.64912
2	61	4078	66.85246	65.3362
1	31	2051	66.16129	77.47312


方差分析
差异源	SS	df	MS	F	P-value	F crit
组间	31.82613	3	10.60871	0.161914	0.921786	2.680811
组内	7796.967	119	65.52073

总计	7828.793	122

同样的，P-value 明显高于显著性水平，因此我们得出结论：年级对于男生的体重没有显著影响。

3.出生地与绩点

方差分析：单因素方差分析（地域对于绩点的影响）

SUMMARY
组（地区）	观测数	求和	平均	方差
1	17	56.99	3.352353	0.042132
2	76	250.34	3.293947	0.163931


方差分析
差异源	SS	df	MS	F	P-value	F crit
组间	0.04739	1	0.04739	0.332526	0.565599	3.945694
组内	12.96892	91	0.142516

总计	13.01631	92

类似的，我们做出了不同地域的同学的平均绩点的差异比较。组1是来自一线城市的同学的数据，组2是来自其他地区城市的同学的相应数据。我们在本次研究中把“一线城市”定义为：北京，上海，广州，重庆，天津，香港，台北。通过ANOVA表我们看出，“一线城市”同学的平均绩点要比其他城市同学的要稍微高一点点，可是差别并不显著，因为P-value也较大。因此我们认为，来自不同地区的同学的成绩并不存在显著的差异。

4.身高与体重

SUMMARY OUTPUT

回归统计
Multiple R	0.568158
R Square	0.322804
Adjusted R Square	0.317207
标准误差	6.614726
观测值	123

方差分析
	df	SS	MS	F	Significance F
回归分析	1	2523.673	2523.673	57.6779	7.18273E-12
残差	121	5294.306	43.7546
总计	122	7817.98

	Coefficients	标准误差	t Stat	P-value	Lower 95%	Upper 95%
Intercept	-81.7943	19.54877	-4.18411	5.45E-05	-120.4962165	-43.0923
height	0.843665	0.111088	7.594597	7.18E-12	0.62373806	1.063592

由上表及残差图我们可以看出，由回归得出的β₀以及β₁的P-value的值都很小，说明身高与体重是具有显著的线性相关关系的。F检验的显著性水平和残差图都让我们相信，这个回归模型是可行且有效的。因此，该结果检验了一个大家公认的道理，体重与身高水平间是具有明显的相关性的。

（三）针对影响脱光与否的变量的探究

1.样本数据的整理

由于大一新生缺乏体侧和GPA等数据，而我们推测这些数据应该与是否脱光有一定联系，所以做出了两个样本，Sample1包含大二至大四的93位同学的数据，包括体测与GPA等数据，Sample2包括大一到大四所有有效问卷的所有变量数据。
由于问卷设计的问题，对于恋爱史这个问题的回答，如果已经脱光的人这个问题就直接跳转了，所以所有已经脱光的同学的第三题回答都是“跳过”，造成做Logistic回归时，百分百匹配的错误结果。

2.logistic回归模型理论回顾及应用

1）Logistic 回归理论：

Logistic回归模型是一种概率模型，适合于病例—对照研究、随访研究和横断面研究，且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量，建立回归方程。
令： y=1 发病（阳性、死亡、治愈等），y=0 未发病（阴性、生存、未治愈等）
发病的概率记为P，它与自变量x₁, x₂,…,x_p之间的Logistic回归模型为：

可知，不发病的概率为：

经数学变换得：

定义：

Logistic变换即为：

流行病学的常用指标优势比（odds ratio,OR)或称比数比，定义为：暴露人群发病优势与非暴露人群发病优势之比。即X_i的优势比为：

2）Logistic回归模型在本研究中的应用

A. Sample1分析：

l 变量说明

y（因变量）	是否脱光
x1	入学途径
x2	眼镜度数
x3	身高
x4	体重
x5	出生地城市等级
x6	填写问卷所用时间
x7	年级
x8	学习时间
x9	社交活动时间
x10	游戏时间
x11	社交网络时间
x12	每周洗澡次数
x13	每学期剪发次数
x14	每餐饭饭量
x15	月平均生活费
x16	恋爱活动花销上限

l Logistic regression

Number of obs =	127
LR chi2(15) =	4.90
Prob > chi2 =	0.9930

Log likelihood = -71.335948

Pseudo R2 = 0.0332

y	Odds Ratio	Std. Err.	z	P>\|z\|	95% Conf. Interval
x1	0.999396	0.27427	0	0.998	0.583629	1.711347
x2	0.999729	0.000877	-0.31	0.757	0.998012	1.001448
x3	1.019669	0.040322	0.49	0.622	0.943624	1.101842
x4	1.012096	0.031398	0.39	0.698	0.952391	1.075545
x5	0.837097	0.519101	-0.29	0.774	0.248272	2.82243
x7	1.094433	0.265786	0.37	0.71	0.679943	1.761592
x8	0.920306	0.158984	-0.48	0.631	0.655973	1.291156
x9	1.114203	0.167649	0.72	0.472	0.829637	1.496374
x10	1.081307	0.158682	0.53	0.594	0.811026	1.441661
x11	1.013538	0.150495	0.09	0.928	0.757617	1.35591
x12	0.936543	0.229368	-0.27	0.789	0.57951	1.513544
x13	1.191193	0.372359	0.56	0.576	0.645509	2.198174
x14	1.140432	0.380887	0.39	0.694	0.592626	2.194611
x15	1.041715	0.237615	0.18	0.858	0.666178	1.628951
x16	1.000107	0.0003	0.36	0.721	0.999519	1.000695

Sample1的伪R方很低，说明模型对数据的解释程度很小，没有发现显著的相关性。

B. Sample 2分析

l 变量说明

Y（因变量）	是否脱光
x1	入学途径
x2	眼镜度数
x3	身高
x4	体重
x5	出生地城市等级
x6	平均绩点
x7	学习时间
x8	社团活动时间
x9	游戏时间
x10	社交网络时间
x11	每周洗澡次数
x12	每学期剪发次数
x13	每餐饭饭量
x14	体质健康测试成绩
x15	《思想品德修养》成绩
x16	月平均生活费
x17	恋爱活动花销上限
x18	填写问卷所用时间
x19	年级

l Logistic regression

Number of obs =	93
LR chi2(19) =	19.76
Prob > chi2 =	0.4091

Log likelihood =-44.253338

Pseudo R2 = 0.1825

y	Odds Ratio	Std. Err.	z	P>\|z\|	95% Conf. Interval
x1	0.759095	0.319925	-0.65	0.513	0.332317	1.733965
x2	0.998395	0.001208	-1.33	0.184	0.996031	1.000764
x3	1.008557	0.028756	0.3	0.765	0.953743	1.066522
x4	0.993813	0.040715	-0.15	0.88	0.917133	1.076905
x5	1.303468	0.958247	0.36	0.718	0.308559	5.506333
x6	10.43962	13.1499	1.86	0.063	0.884094	123.2738
x7	0.677543	0.18384	-1.43	0.151	0.398087	1.153176
x8	0.960636	0.193426	-0.2	0.842	0.647393	1.425442
x9	1.348398	0.263897	1.53	0.127	0.918815	1.978828
x10	0.944803	0.196065	-0.27	0.784	0.629072	1.418997
x11	1.830184	0.692775	1.6	0.11	0.871549	3.843243
x12	0.863524	0.385489	-0.33	0.742	0.359987	2.071391
x13	0.862981	0.35367	-0.36	0.719	0.386508	1.92683
x14	1.014208	0.025802	0.55	0.579	0.964877	1.066061
x15	0.97647	0.049797	-0.47	0.641	0.883589	1.079113
x16	0.870935	0.31608	-0.38	0.703	0.427629	1.773797
x17	0.999315	0.000541	-1.27	0.206	0.998255	1.000376
x18	0.990483	0.004934	-1.92	0.055	0.98086	1.000201
x19	1.042927	0.401648	0.11	0.913	0.490278	2.218532

C.回归结果分析

观察伪R方，为0.1825，因为是取实际数据而且对于总的人口来说，大小为93的样本略小，所以模型拟合度较低也是在接受范围之内。
观察P值，可以发现x6和x18是显著的，分别代表GPA和填写问卷用时，他们的Odds Ratio均为正，分别是10.43962和.9904828，Odds ratio代表的是自变量对因变量变化率的关联程度，由此我们发现相比于其他的变量GPA显著与是否脱光具有正相关性，但是由于不清楚因果顺序，我们并不能断定是“是否脱光”导致高GPA，还是高GPA导致了更容易脱光。
对于填写问卷时间，这里由于不是所有人都填写了这份问卷，所以这个变量的说明性不强，但是我们可以做出假设填写问卷的时间有可能反映了这个人的耐心程度，一定程度上是个人特质的反映。所以也和是否脱光有正相关。
我们删掉变量x18（即问卷填写用时）后，重新对Sample2进行logistic回归：
l Logistic regression

Number of obs =	93
LR chi2(19) =	15.26
Prob > chi2 =	0.6439

Log likelihood =-46.502035

Pseudo R2 = 0.1410

y	Odds Ratio	Std. Err.	z	P>\|z\|	95% Conf. Interval
x1	0.966567	0.389683	-0.08	0.933	0.438591	2.13012
x2	0.998552	0.001221	-1.18	0.236	0.996163	1.000948
x3	1.004375	0.023902	0.18	0.854	0.958604	1.052332
x4	1.000338	0.039711	0.01	0.993	0.925456	1.081279
x5	1.118968	0.762385	0.16	0.869	0.294354	4.253692
x6	9.875414	11.59249	1.95	0.051	0.989355	98.57315
x7	0.657345	0.171125	-1.61	0.107	0.394641	1.094927
x8	0.988415	0.188748	-0.06	0.951	0.679819	1.437095
x9	1.247821	0.231837	1.19	0.233	0.866971	1.795973
x10	0.998727	0.200802	-0.01	0.995	0.673451	1.481112
x11	1.994701	0.729849	1.89	0.059	0.973707	4.086274
x12	0.870734	0.379475	-0.32	0.751	0.370615	2.045727
x13	1.046934	0.405072	0.12	0.906	0.490432	2.234909
x14	1.024493	0.025059	0.99	0.323	0.976536	1.074805
x15	0.968472	0.048457	-0.64	0.522	0.878006	1.068258
x16	0.860198	0.308118	-0.42	0.674	0.426288	1.735777
x17	0.999382	0.00048	-1.29	0.198	0.998442	1.000324
x19	1.06663	0.394124	0.17	0.861	0.517002	2.200574

发现除x6显著的同时，x11也显著p值为0.059，Odds Ratio为1.994701，说明洗澡次数的多少和是否脱光有显著正相关，但是在交叉分析的时候也可以看见，并不是洗澡次数越多越好，而是在洗澡次数为一周5-6次的人群中脱光比率最高。同时观察到P值较小的x7（学习时间），我们猜测GPA和学习时间之间是否有相关性，所以对绩点和学习时间做了相关性分析：
由相关性分析得出，绩点与学习时间的相关系数为0.2356，相关性显著水平为0.0230，说明他们是显著相关的，于是我们再调整logistic 回归模型，去掉学习时间后再做回归：
l Logistic regression

Number of obs =	93
LR chi2(19) =	12.45
Prob > chi2 =	0.7724

Log likelihood =-47.909893

Pseudo R2 =0.1150

y	Odds Ratio	Std. Err.	z	P>\|z\|	95% Conf. Interval
x1	1.123618	0.431459	0.3	0.761	0.529377	2.384912
x2	0.998841	0.001145	-1.01	0.312	0.996599	1.001088
x3	1.007638	0.021451	0.36	0.721	0.96646	1.05057
x4	1.007309	0.03744	0.2	0.845	0.936537	1.083429
x5	0.918112	0.599241	-0.13	0.896	0.255462	3.299625
x6	6.722039	7.580689	1.69	0.091	0.737174	61.29599
x8	1.010959	0.19535	0.06	0.955	0.692236	1.476431
x9	1.317978	0.241724	1.51	0.132	0.920012	1.88809
x10	0.908595	0.169878	-0.51	0.608	0.62983	1.310744
x11	1.78157	0.599984	1.71	0.086	0.92075	3.447182
x12	1.232802	0.456778	0.56	0.572	0.596356	2.548476
x13	1.072568	0.393097	0.19	0.848	0.522949	2.199838
x14	1.027493	0.024851	1.12	0.262	0.979922	1.077373
x15	0.963352	0.047452	-0.76	0.448	0.874696	1.060994
x16	0.92975	0.321295	-0.21	0.833	0.472296	1.830279
x17	0.999607	0.000442	-0.89	0.374	0.998741	1.000474
x19	1.190924	0.420169	0.5	0.62	0.596448	2.377911

从以上回归分析结果来看，仍然为绩点和洗澡次数较为显著。

3. 卡方检验（Goodness of Fit Test）理论回顾及应用

1）卡方检验理论回顾

l  理论依据：
H0: pij=pi.p.j  for i=1,…,R and j=1,…,C
H1: The hypothesis H0 is not true.
l  需要检验的统计量：

2）卡方检验在本研究中的应用

A. Sample 1卡方检验——检验地域，年级和是否脱光的独立性：

l  地域与是否脱光对应的列联表如下：

		x5		Total
		1	2	Total
y	0	13	28	93
y	1	6	80	34
Total		19	108	127

经过计算得出，该卡方检验的P值为0.608。
l 年级与是否脱光对应的列联表如下：

		x7					Total
		1	2	3	4	5	Total
y	0	22	51	11	8	1	93
y	1	9	13	8	4	0	34
Total		31	64	19	12	1	127

经过计算得出，该卡方检验的P值为0.361。
在我们选定的0.05的显著性水平下，对于以上两个检验的原假设我们均接受。说明地域分布，年级与脱光与否没有显著相关性。

5.研究结果综述

在本次研究中，我们用Logistic模型研究了“x1 入学途径；x2 眼镜度数；x3 身高；x4 体重；x5 出生地城市等级（一线或者二线）；x6 平均绩点；x7 每周学习时间；x8 每周社团活动时间；x9每周花在游戏上的时间；x10 每周在社交网络时间；x11 每周洗澡次数；x12 每学期剪发次数；x13 每餐饭饭量；x14 体质健康测试成绩；x15 《思想品德修养》成绩；x16 月平均生活费；x17 恋爱活动花销上限；x18 填写问卷所用时间；x19 年级”等19个变量对于脱光与否的影响。我们把样本数据分为两组，其中第一组包含19个自变量，针对非大一同学；另一组包含16个自变量（以上19个数据中除去“x6平均绩点，x14体质健康测试成绩和x15《思想品德修养》成绩”），针对所有参与调查的同学。
在两组数据的分析中，我们惊奇的发现，在罗列出来的所有变量中，最后都只有“绩点”和“每周洗澡次数”同脱光与否有显著的正相关关系。其余的17个变量与脱光与否的关系不显著。这说明绩点越高的男生，他脱光的机会就越大；同样，“每周洗澡次数”越多，他就更有可能赢得女生的青睐。而至于其他的因素，像来自一线城市还是二线城市，身高体重如何，家境如何，所在年级，均与脱光与否没有直接相关关系。
所以，对于尚未脱光的男生们，大家一定不要懊丧于自己的家庭状况和所生活的城市，也不要懊恼于自己的身体条件，或者苦恼于自己的思想道德水平没有其他人人高尚，抑或是自己在不同活动上的时间分配不合理，它们对于脱光与否都不是主要因素！而如果你想在恋爱问题上取得突破，突破口便是自身的形象的维护和学习成绩的提高。
最后在报告的结尾部分，我们衷心提醒广大男同胞们，每周“多洗几次澡”，“多看一些书”，你的脱光之路将不再漫长。真心祝愿每位有情人找到属于自己的真爱！