第1节 抽样设计与追踪情况

第1节 抽样设计与追踪情况

本调查的被访样本是通过分层多阶段的抽样方式,从首都高校学籍数据库随机取得的,直接抽取到学生个人(具体的抽样方法见《中国大学生成长报告2012》)。首轮的调查中,项目组直接派调查员到各个学校,由学生工作部门协作通知被抽中学生到指定场所,集中现场填写问卷。这在同类调查研究中是非常难得的。当前关于大学生的调查并不少,有的调查样本规模甚至达到数十万级别,但多数调查都难以保证样本的随机性,将抽样名单明确到学生个人。一些调查通过学校行政系统或者学生网络系统发放,对具体填答对象和填答过程缺乏控制。一些调查限于各方面的原因,采用了设计效应更大的整群抽样,表面上看样本规模很大,实际有效的样本规模并不大。还有一些调查直接将问卷放到互联网上供人自由填写。这些研究设计都相对缺乏对于抽样过程的实际控制,既难以明确实际的抽样总体,也难以评估样本的平均代表性。在这一点上,本调查有相对最为完备的抽样框和详细的学生名单,保证了抽样过程的可控性和随机性,从而能够较好地排除各种人为因素和潜在选择性因素带来的偏差。

本调查采用追踪调查(longitudinal survey)设计,凡初次参与了调查的学生都被邀请参与后续年份的调查。这种调查设计,有利于记录学生大学期间以及毕业之后的变化,从而在一定程度上超越截面调查(cross-sectional survey)在因果推论方面的不足。本调查具体涵盖的学校以及各个学校的抽样数、初访成功样本数、此后历年的追踪样本数和追访率情况见表1—1到表1—3。

表1—1 首都大学生成长追踪调查涵盖学校及各年追访情况(全体样本)

说明:各轮追访率都是相对于基期成功调查样本的。表1—2、1—3相同。

表1—2 首都大学生成长追踪调查涵盖学校及各年追访情况(2006级样本)

表1—3 首都大学生成长追踪调查涵盖学校及各年追访情况(2008级样本)

本调查以2009年为基准年,包括当时的大一(2008级)及大三(2006级)两个年级的代表性样本,其后在2010年、2011年和2012年进行了3次追踪调查。对于2008级而言,这四年反映的是他们整个大学时代的成长经历;对于2006级而言,四年经历反映了他们从大学走向社会的过程。

可以看到,无论是基期调查还是后续追踪调查,本调查都保证了很高的成功率。这在同类调查中是非常难得的。当然本调查也存在样本丢失的情况,在2006级更为严重(见图1—1)。因为四轮调查都在学校,2008级的样本丢失相对较少,预计因为毕业后联系方式的变化,在2013年第五轮调查中会有较大变化。

图1—1 首都大学生成长追踪调查历年追访率

数据分析发现,样本的丢失(如果第四轮调查仍被调查到则不为丢失,即便中间有个别轮次丢失)存在一定的选择性。从基本属性上看,来自城市,特别是地级市和直辖市的学生更有可能退出调查。对于2006级而言,不同性别、民族、专业、学校(除邮电大学外)的学生丢失的差异不明显。从包含更多家庭背景及个人特征变量的探索模型3可以看到,在其他情况相同的情况下,家庭条件较好、在校期间得过奖励的学生更有可能保留在样本中(见表1—4)。样本的丢失具有一定的“选择性”。2008级学生截止到2012年的丢失比例相对较小。但是,男生、人文学科以及中央民族大学的学生更有可能缺席后来的调查。第一轮调查收集的家庭背景变量及个人特征变量对预测该年级学生是否会退出本调查没有明显的意义。当我们将这些家庭背景和个人属性更换为2011年也就是他们大三时的信息时(模型5)。可以看到,是否退出本追踪调查与个体政治面貌、是否获得奖励、价值观及社团活动时间有一定的关系。参照2006级的情况,其中有些变量的影响可能是合理的,另一些变量的影响可能是上述信息替换造成的。总体而言,样本丢失有一定的选择性,但各模型的伪确定系数都很小(见表1—4),表明各变量对丢失事件的解释效果较差,选择性在上述各个方面并不特别明显。

表1—4 首都大学生成长追踪调查样本追访失败Logistic模型

注:* p<0.05,** p<0.01,*** p<0.001。

说明:限于篇幅,截距省略了。模型5中的个人政治面貌及以下的变量取值为第三轮调查时的取值,如果第三轮调查时样本已经丢失,则为最后一次调查时的回答取值。所谓大学特殊入学渠道,指大学入学时享受过保送、加分、降分或者增投志愿等特殊待遇。

样本丢失最主要的直接原因是无法联系到受访者。因为大学生的追踪调查不同于居民户的调查。前者没有固定的生活场所,尤其受毕业事件的影响,我们只有通过手机、电话、邮件等方式来联系受访者。2011年对2008级学生的调查中,截至当年7月18日有162名受访者未填写问卷,其中61人为无法联系上。同年针对2006级的追访中,截至当年10月22日尚未填答问卷的408名受访者中,联系不上的有299人,联系上但因为各种原因未填的92人,明确表示拒绝的只有17人。

联系方式的改变是造成这种问题的主要原因,尤其是毕业前后,联系方式的变化更普遍。毕业后一年内能够联系上的2006级学生手机联系方式发生变化的比例将近1/3。那些未联系上因而缺席当年调查的受访者,他们中多数电话无法接通。2008级学生在校期间,每年更换手机联系方式的比例也超过10%。邮件联系方式的改变更为频繁,2010—2011年有超过30%的学生更改主要邮箱联系方式。网易163和126、腾讯QQ、新浪和Gmail是使用率排在前五位的邮箱,其中网易邮箱相对更为稳定,在大学生中的市场占有率也比较稳定。

除了联系方式的改变会影响到与受访者的联系外,短信和邮件的到达率也是影响追踪联系的重要原因。随着反垃圾邮件和垃圾短信力度的加大,追踪调查中的集中邮件通知和短信通知很容易被当作垃圾信息遭到屏蔽。这在最近轮次的调查中表现得特别明显。

表1—5 首都大学生成长追踪调查受访者手机联系方式变更比例

在抽样与追踪介绍部分的最后,需要就一个问题做一些说明:仅仅使用北京地区的资料能够代表中国大学毕业生的普遍状况吗?关于这个问题,第一,我们认为利用北京市大学生样本洞悉大学生的发展状况是有意义的。第二,我们也在努力将中国教育追踪调查扩展到全国及各个教育阶段。而这已经不完全是一个研究设计问题。在科研资源有限以及当前高等教育投资与招生制度背景下,使用任一局部地区(甚至多个具有代表性的局部地区)的大学生样本讨论大学生问题,都面临着学生来源的选择性问题。高等教育资源的地区差异越大,就业制度的地区差异越大,地区发展越不均衡,一个地区的大学生的在校成长与毕业后的发展就越具有特殊意义。通过抽样调查概括出全国平均面貌,要么容易流于肤浅,要么需要海量的投入。我们相信,基于不同区域的比较同样能够为认识全国的面貌提供丰富的支持。这里我们至少呈现了一个地区的面貌。我们的能力是有限的,但抱负是远大的。

而且,对于北京这样一个特殊的教育空间的研究,即便完全不能将结论推论到其他地区,也因为其政治上的敏感性以及在高等教育中的特殊地位而具有充分的研究价值。北京作为中国的首都,集政治、经济、文化中心为一体,是我国高等教育资源最为集中的地区。这里集中了全国39所985高校中的8所,112所211高校中的26所,占到全国同类高校总数的20%以上。这里每年的研究生招生人数占全国招生人数的14.8%。每年毕业的高校学生达到将近16万,且其中2/3为外地生源,而毕业找工作的学生中有80%首选在北京找工作。我们承认在北京上大学的学生都是选择的结果,而北京的学生毕业后的出路也必然具有独特性。但这种情况在哪里不是一样呢?我国高校集中的大城市(如上海、西安、武汉等等)普遍面临类似的境况,只不过程度不同罢了。在这个意义上讲,利用北京高校学生的数据来研究大学生不仅具有典型性,也具有代表性。而且北京不仅有中国最好的高校,也有相对差的学校,学校之间的层次是非常明显的,这对于研究不同高校及其他不同类别的学生的发展都具有重要意义。

读书导航