最近在一门课上聊到政府部门招聘的问题,好几个学生同时抱怨说自己参加过的好多次面试都跟该工作岗位一点关系都没有。比如,工作岗位是图书馆管理员,笔试一轮中全是宽泛的性格测试;工作岗位是政策分析咨询师,面试完全没有问到受试者研究经验或者测试分析能力,而是进行了一个小时漫无边际的闲谈等等(是的,美国公务员招聘也存在诸多问题)。
生活中如果遇到这种情况,我们会很容易察觉到哪里出了问题------比如,想招后勤管理人员你却一直调查人家有没有科研经历,想招公司文职人员却全是跑步、举重之类的体力测试,想招专职司机却全篇测试写作能力------OK,虽然俗语说不想当将军的厨子不是好司机,但这么不着边际的遴选测试考察的是跨界能力而不是做好某个本职工作的能力,古语所谓“缘木求鱼”是也。谁遇上这样的面试过程都会觉得的是深井冰。
然而在设计研究时候也经常有这种“缘木求鱼”的问题,俗称“研究者中的深井冰”。
比如,你想调查“流行音乐对人情绪的影响”,问卷中却一直在问受试者对古典音乐的看法;
比如,你的研究问题是“如何提升政府部门绩效”,却只在与政府部门领导的访谈中问人家海外考察的经历;
比如,你想理解“家花和野花对生长环境的不同需求”,却被家花和野花的外观吸引,只观察了叶子和花瓣的区别而不是他们的生长环境;
再比如,你想调查“蔬菜销量与经济健康指标的关系”,却只研究了菠菜这一种蔬菜与经济指标的关系(其它蔬菜是很不高兴的)。
以上种种,都可以归纳为在研究测量中缺乏”Validity”(效度)的问题。社会研究的设计中,Validity可是个天大问题。
那么何为一个测量的validity呢?---简单来说,就是“你所检验的是不是你想要检验的”-------你瞄准的靶子是不是你该射击的靶子,你正在行驶的方向是不是你要去的地方。Validity侧重在measurement当中的“准确性”(accurateassessment)。
怎么才知道一个研究的测量是否具有较高的validity呢?
首要的标准是看其研究测量(measurement)是否符合和适用于其要去检验的、提出的研究问题和研究目的-----research的总体目的应该是我们设计整个研究的统领和导向,偏离了目标的测量就是缺乏validity的测量。比如,上面几个例子皆是偏离了其本来研究问题才出现了问题。要去海淀,结果一路小跑去了顺义;想发射火箭去火星,小风一吹刮去了木星。
这样说来,同样一个访谈问题问出来,对于一个研究可能是个极好的问题,对于另外一个研究可能就是个极差的问题----因为两个研究的目的如果不同,要去的地方不一样,那么所谓“好问题”的标准当然也就不一样---“彼之蜜糖,吾之毒药”。
要看知道一个研究是不是缺乏validity,我们具体可以看它的以下几点:
Facevalidity(表面效度):这个是最基本的一种validity,研究者问的问题从表面上来看跟他的研究目的是否相关呢?----想买萝卜的人到处问黄瓜的价格吗?想说喜欢你的人说出口的是“今晚的月亮真圆啊”—啊,效度太差LOL
Contentvalidity(内容效度):一个标准定义是“Thedegreetowhichameasurecoverstherangeofmeaningsincludedwithinaconcept”---你要检验的概念被完整的涵盖了吗?比如哈,上面最后一个例子,想研究"蔬菜销量和经济健康指标关系"却只测量了菠菜销量的,这就没有涵盖“蔬菜”这个概念的全部,缺乏内容效度。
Criterion-relatedvalidity(效标关联效度):"Thedegreetowhichameasurerelatedtosomeexternalcriterion”---比如,使用大学生的GRE分数来测量他们的学习能力,这是不是一种有效度的测量呢?GRE分数能够完美看出一个人的学习能力吗?再比如,要测量一个人对宗教的信仰程度,我使用这个人每周去参加宗教性服务的次数,这又是不是有效度的测量呢?
Constructvalidity(结构效度):访谈或者问卷的问题真的测的是你要研究的某个具体概念吗?还是其实测了另一个概念?社会科学中有很多概念是非常主观和接近的,比如,你问的某个问题是测了一个人的自信度(confidence),还是自我效能(self-efficacy)?你对某两个人之间彼此态度的问题测出来的是他们的信任度(trust)还是友谊(friendship)?
与validity经常一起讨论的另一个概念是“reliability”(信度),一个好的研究测量必须既有validity又有reliability。如果说validity