当前位置:首页> 资源> 资讯详情

SPSS数据分析心得分享

2015-02-04来源:人大经济论坛 xddlovejiao1314收藏
   心得1:做问卷调查的人,经常会遇到收集到的数据是偏正态分布的连续变量(主要表现为有极端值存在),可考虑用对数变换的方法对原始数据进行处理。倘若对数变换后还是存在很多极端值(看箱图),这时可考虑将其分组(如分成高、中、低),然后再通过设置两个虚拟变量的方式将分组后的变量处理后引入下一步的建模;
 
  心得2:在对农户问卷数据做聚类分析时,先考察数据的分布,一般情况下很多变量均是正偏态分布,在不想去除极端值的情况下(去除极端值会造成本不多的样本再度流失)可考虑在系统聚类时用横向标准化的方法并用中位数进行聚类。这样既不损失样本,又能在不受极端值影响下考察数据的集中趋势,不至于得到不好甚至错误的分析结果(因为均值受极端值影响);
 
  心得3:在做回归分析时(不管是线性回归还是logistic回归),先做变量间多重共线性诊断(可通过主成分回归解决多重共线性问题),然后在变量选择时依据0.05的标准依次剔除不显著的变量。这样做比单纯使用逐步向前或向后法要好。因为据估算,直接使用逐步向前或向后的方法选择变量,其犯错误的概率为1/3左右。故而,有时间还是人为的多跑跑模型为好,不要太依赖于软件所谓的“智能”;
 
  心得4:在处理数据时,当存在极端异常值时(通过箱图判断),如果是正偏态分布,可通过取对数办法解决。如果数据里面包含负数,没法取对数时,可通过缩尾处理极端异常值。
  • 评论
  • 分享:

最新评论

热门资讯

学人资讯

学科资讯