关于中国582所高校官网的一项非正经研究

关于中国582所高校官网的一项非正经研究

0.摘要

大学官网相比大家都见过,但不知几人观察过官网都在展示些什么呢?清华大学和河北石油职业技术大学的官网都在说着一样的话、传递着同样的信息吗?优秀大学和普通大学再宣传上有什么侧重点呢?本研究利用关键词法,从大学官网文本中计算出四个变量权力导向、服务导向、指标导向和开放导向,同时结合大家都很关心的大学排名进行分析,最后发现越是优秀的大学,越倾向于宣传学生、为师生服务,而是宣传领导在开什么会巴拉巴拉能量。同时,越是优秀的大学,越倾向于宣传本校在国际方面上的活动交流。

1.为什么要研究

众所周知,中国是一个牛逼的国家,这个牛逼的国家每天都上演着牛逼的事情。就比如宗教这个东西吧,几代地球人经过近现代的奋斗后,发现政教合一的国家往往具有相当的危害性,对内迫害民众、对外输出侵略。但笔者查看了中国宗教网中国佛教协会中国基督教网后,却看到了这种景象:

大跌眼镜👀。
相比之下这个网站倒是符合我对这类网站的心理预期。

此中有真意,欲辩已忘言。

笔者个人前阵子在一篇博文中分析了中国几所牛逼大学的中英文官网对比,发现中文官网大多是又红又专,满面中国特色扑面而来,但英文官网却十分现代化。相比之下,美日韩和越南的官网至少没有双标。看似这一发现无足轻重,但这只是错综复杂关系的一个表象。 借用冰山模型的思想,行为只是更深层次的的属性的外显,所以大学的官网,笔者个人认为也是一所大学的“某些思想理念”的外显。所以透过官网,也许能什么。
至于研究意义,I don't give a damn,我讨厌功利式的研究,尤其是蹭热点研究,那样永远不会有自己的特色和伟大的成就。牛顿&苹果、爱迪生&灯泡、卡尼曼&行为经济学,他们都不是在刻意的追逐些什么世俗的潮流,他们就是想研究他们想研究的。
仅此而已。

2.如何研究

笔者在一篇博文里分析了安徽、河南和河北三省几十座城市的GDP和青年大学习牛逼程度的关系,得出了一些是是而非的结论。但毫无疑问,分析大学实力排名和大学习的排名绝对会有更稳健的结论(见得多了:)不过很可惜,笔者无法有效收集到足够的数据,大学实力排名以及其大学习排名。

笔者平日里受尽了白嫖他人劳动成果的好处,所以觉得有必要回馈开源社区点东西。软科2021中国大学排名较为合理,但笔者爬虫和JS并不nb,所以采取的是笨方法来整理相关数据(保存HTML元素到txt文件中,然后利用Python逐行猜测这是哪个大学的哪个属性:-)。在软科数据的基础上,关于中国582所高校的中英名、软科2021总分及排名、类型、位置等信息基本整理完成。在Google Search API和request的加持下,终于收集到了582所院校的官网链接和2022/1/26的官网页面。What's more,这些数据支持JSON、CSV读取,爬取网页的原生结果被封装在python类对象里。相关数据在这个链接

原始数据都有了,那么接下来就是利用python和spss对这些数据进行挖掘。主要关注研究关系为大学的官网内容和大学综合水平有无关系?特别的,本研究采用软科排名来代表大学牛逼程度,来研究其和官网信息具有什么样的关系。

3.院校类型与所在地

来简单的看下582所院校都是什么类型的吧
可以看到理工院校凭一己之力占据了约1/3的席位。这也是中国从建国开始一直奉行的重理工压人文的战略的一个侧面体现。
看起来江苏、山东、河南三个并不突出的省份拥有着不少院校,但我们可以因此说这三个省份是高等教育强省🐎?别急,继续分析。
注:财经、政法等类型院校不参与所有分析
从TOP100院校来看,两幅图有几点变化值得注意。
1.综合类大学反超理工。这个可能是因为独腿干不过俩腿的,比如一些财经类院校,虽然某类专业国内很强,但在一些统计排名上并不高。再加上TOP100算是国内知名大学了,经过长期的发展,原单一理工类大学也有能力建立其他学院成为综合类院校。

2师范类院校大幅减少。或者是换句话来说,本来就该这么多。由于师范类院校不需要购买十分烧钱的仪器设备,只需要有教室和老师就可以让学生“上大学”了,所以才会有比较多的排名靠后的师范院校。成本只是一方面,另外这也许和我国对师范类院校的的定位有关:消化过多的毕业生。每年都有大量的学生参加高考,中国能优质的教育资源有限,所以要想办法尽量把那些无法考上较好大学的学生给稳定下来,不至于让其流落到社会上增加社会管理难度。师范类专业办学门槛低,毕业后可以“灵活就业”,当作缓冲肉垫再好不过。

3.所在地排名重新洗牌。江苏不再是第一,山东跌出前五,河南跑到队尾,部分省份直接出局。这说明大和强根本不是一个概念,所谓的大,也许只是人口基数堆起来的,平均一除啥都不是。更具有戏剧性的是河北省,和作为其囊中之物的帝都并列第一,不过一个是正序一个是倒序罢了。部分原因可能是帝都强大的虹吸能力一定程度压制了周边地区的发展,不过这样也好,北京已经这么厉害了,要是河北再很厉害,那么从全国来看教育资源分配会更加不公。

4.研究方法

借用冰山理论的思想,行为是更深层次的因素的外显,所以从一个人的穿着和言行举止可以看出一个人的素质,当然从一个大学的官网也能看出这个大学的一些教育理念。

大学官网是大学是展示大学形象、发布大学消息的平台,总的来说就是传递信息。信息的展现形式可分为文本和图片,由于图片不便于批量分析,所以我们主要关心大学官网都在传递什么文本信息。

文本只是形式,重要的是文本都在表达什么。由于技术水平限制,我们只能采用关键词法来猜测这句话在表达什么。比如“xx领导视察我校”,我们可以从关键词“领导”判断出这句话在说领导有关的事情,可能是领导开会,也可能是视察等。

为了方便分析,笔者根据生活中的宏观经验和对少量样本的主观观察,决定过关键词法来判断官网都在强调些什么,即是什么导向。

权力导向:指对权力、权威的一些宣扬,这些东西往往属于又红又专、同时具有“假大空”的特征,比如党委书记、讲话精神等。具体的,以下关键词代表着权力导向:[党,国,书记,校长,领导,管理,我校,会,传统,精神,民族,院]。

服务导向:指对老师、学生的宣传和服务,比如报导学生得奖、进行学校信息公开,建立投诉服务渠道等。具体的,以下关键词代表着服务导向:[学生,学子,服务,公告,投诉]

指标导向:指一些可以量化的成果,如项目得奖、就业质量,大型比赛等。具体的,以下关键词代表着指标导向:[毕业,就业,项目,成果,获,入选,建设,赛]

开放导向:指大学对有关的国际信息的宣传,通常是取得国际成果,开展国际合作等。具体的,以下关键词代表着开放导向:[英,英国,美国,德国,法国,俄罗斯,日本,国际,全球]

对于以上四种分类,需要说明的是,四种导向并非互斥,如报导学生得奖,同时代表着指标导向和服务导向。同时并非所有信息只能落在四种导向内,大量的文本消息也有其意义,但我们暂不加以考虑。其次,关键词法只是一种较为低级、粗略的分析,如“我校学生xxx取得国家级奖项”,这句话应该是服务导向+指标导向,但由于触发了关键词“学校”,所以也被认为是权力导向。这些缺陷的解决需要更智能的程序或人工逐行编码,但考虑到我们的样本较多,且研究精力有限,所以权衡之下,本研究决定采用关键词法来计算某种导向的强弱

不过在正式分析之前,我们还需要回答几个问题。
1.用什么来代表大学的牛逼程度? 我们已经选择用软科数据来代表牛逼程度了,但是仍需要决定用总分还是用总分排名来代表牛逼程度。采用排名的坏处是会隐蔽水平差距,如第1名和第2名的差距可能远远要大于第222和第223的差距。但其好处也是明显的,就是分布均匀。根据散点图来看,前20%的院校占据了约80%的Y轴(再次印证二八定理:-),如果采用总分的话,大部分样本的总分变异不大,可能会影响到一些统计检验的效力。权衡利弊,笔者决定使用软科2021大学排名来作为牛逼程度的代表,排名越小,越牛逼。

2.用关键词出现的绝对值还是相对值来代表导向强弱?考虑到官网汉字数几乎从500到10000字A的都有,所以有必要讨论这个问题。假设有A和B两个学校官网,A站一共500字,但是出现“领导”50次,B站800字,出现“领导”70次,那么相比而言那个的权力导向更强呢?貌似不是很好做抉择。我们不妨人为的加剧二者对立。假如A站一共5字,领导出现一次;B站一共5万字,领导出现100次。那么很显然,A的权力导向更强。所以,鉴于抛开基数谈次数——纯属扯淡,本研究决定采用关键词出现的频率来代表导向强弱

在具体操作层面,我们根据收集到的信息利用python对院校的官网进行爬取,得到其HTML内容(中英文和标点符号),然后对这些内容逐一判断,如果其Unicode数值小于2000,则予以剔除。经过上述过滤后,可以保证常见的非汉字字符都会被排除,如a-z,A-Z,!@#$<>{}[]等。需要注意的是中文标点如,。!?等不会被过滤。这就大功告成可以分析?Too young, sometimes naive, I AM ANGRY!! 经过查看,有的网站汉字数为0,有的则不到100,还有的则一万多。这数值显然是异常的,如爬取的并非官网首页,返回数据为空等,所以笔者将字数不足500的网站剔除。有两个网站字数过多,也当作异常值剔除。具体参见注0。

5.研究假设

H1a:大学牛逼程度正向影响官网字数。官网是大学对外宣传展示的窗口,正如个人履历,越是优秀的大学,其能够对外展示的东西越多。可以进行一个极端思想实验:一个非常垃圾的小大学,他的官网能够放点什么?恐怕什么也没有。

H1b:大学牛逼程度正向影响官网字数,但曲线回归的拟合效果更好。好的大学只是能拿得出手的东西较多,差大学也并非什么都没有,所以官网字数就要考虑到另一因素“展现意愿”。还拿简历为例,大佬的简历和一般人的简历都是一页写满,但含金量不能相提并论。但小菜鸡是什么都没有,东拼西凑也凑不出来。清华并不会由于成果多就全堆在首页上,可能省级奖项类的就被雪藏了,一般学校可能取得个市级奖项就沾沾自喜,但是垃圾学校是实在没啥好展示的,所以牛逼学校和一般学校的字数差距要远小于一般学校和垃圾学校的字数差距,也就是说,如果横轴为排名,纵轴为字数,那么H1a认为回归是一条斜率为负的直线,H1b则更进一步,认为是一条水平发力的抛物线。特别的,笔者认为前50名为牛逼大学,50-150为较好大学,150-300为一般大学,300-450为较差大学,450以后为垃圾大学。

H2a:大学牛逼程度负向影响其权力导向。这是因为作为一所高校,权力导向本来不应该存在,换句话说,在现代社会中权力导向本身就不应该存在。越牛逼的高校,其现代化程度就越高,自然也就会多务实,少务虚。从另一方面来说,大学越有实力,也就越有底气对权力说NO。从8964和民国时期的一些事件来看,名校的反抗权力干预的精神是最浓厚的。需要指出的是,笔者同时认为权力导向也会影响其牛逼程度,但是总的来说还是牛逼导致弱权力导向,而非高权力导向导致牛逼,原因如下:在中国这个国度下,想要取得成就有两条路可以选,一条是实干,一条是跪舔。跪舔可以通过得到上级资源的倾斜,从而助力发展。但是上级手里的发展资源是有限的,如果大家一起添,那么只会达到一个新的均衡,除了上级谁都没得到好处。这时要想获得更多资源,就不是舔不舔的问题,而是谁舔的快、谁舔的舒服。很不幸,不止中国高校,整个中国都在跪舔权力,所以在大家都跪舔,还已经跪舔那么久的情况下,跪舔只能保证不被针对和排挤,而非得到更多资源。囚徒困境的生动体现:)

H2b:大学牛逼程度负向影响其权力导向,而这一关系受院校类型的调节。在重理工、轻人文的前提下,理工院校可以通过宣传理工成就来相应的减少权力导向的内容,但是师范类院校根本没有机会来通过宣传人文成就来减少权力导向的内容。在中国,权力对理工的破坏远不及对人文环境的破坏,只需要想一下作家和工程师那一个需要自我审查就行了。所以在同样牛逼的情况下,理工类院校比师范类院校的权力导向更弱。

H2c:大学牛逼程度负向影响其权力导向,但其关系呈U型。这是因为,牛逼的大学属于是鹤立鸡群,所以其一举一动都被那些人和全国人给盯着,再加上8964等事件,所以牛逼大学受到的来自权力的压力并不小,因此也要跪舔权力以表忠心。而一般大学则没有这种额外的负向加成,所以其权力导向更多的受自身实力影响,因此要比垃圾学校低。笔者认为这一U型关系的节点在前150名内,因为211、985、C9,这些定性的分类都影响上面是否要重点关注。

H3a:大学牛逼程度正向影响其服务导向。大学应该以师生为本,越是牛逼的大学就越倾向于在官僚和师生的博弈中保护师生的利益,自然而然地,官网也就会更多的宣传师生成就,为师生服务,而非把领导开会挂到首页。

H3b:服务导向和权力导向负相关。首先,首页资源有限,所以不同导向都在竞争者有效的资源。其次,服务导向和权力导向往往是不可兼得的,正如小人只会欺下瞒上,而非一边奉承上级,一边为人民服务。

H4a:大学牛逼程度正向影响其指标导向。如果一个大学越厉害,那么其取得的成绩相对来说在质量还有数量上都会比一般学校更胜一筹,所以曝光度也会相应的增加。而且相对于权力导向而言,指标导向可以被认为是务实的体现,又由于好大学更加务实,所以指标导向会更强。但需要指出的是,务虚也可能会造成较强的指标导向。这是因为竞赛、项目等指标就像是GDP,只是一个外显的、容易判断的object,大学和城市一样,真正重要的是其文化底蕴,具有更隐蔽、但更强劲的驱动力。但这种东西不好量化体现,所以自然而然,就如唯GDP论反而会阻碍社会发展,

H4b:大学牛逼程度正向影响其指标导向,但曲线回归的拟合效果更好。逻辑等同H1b,好大学和一般大学的指标导向存在数量和质量上的差距,但是差学校连数量都凑不齐。所以,笔者认为指标导向随着大学排名的增加而边际递减。

H5a:大学牛逼程度正向影响其开放导向。首先,牛逼大学有更多的人力、物力和才力来开展一些国际项目合作、举办国际论坛交流等,而一般学校则无此能力。其次,牛逼大学的国际吸引力相对来说更强,无论是留学生,还是国际交流合作,恐怕清华永远都要比黄淮学院更受青睐。另外,牛逼大学现代化程度更高,所以国际化程度也就相对更高。

H5b:大学牛逼程度正向影响其开放导向,但曲线回归的拟合效果更好意思就是不仅仅是牛逼大学开放导向高,更是两极分化。这是因为,中国高校整体来看开放度并不高,在这种情况下所以可以说“供需严重不平衡”,想开放的多,老外想配合的少。所以,有资格玩开放的就那几个大学,又因为人家已经有开放经验了,所以在后续开放竞争中更具有优势,因此形成马太效应,开放导向随大学排名增加而边际递减。此外,由于牛逼大学提高国际排名的压力较大,所以会更加重视开放导向。但到某个节点,就会出现后续院校的开放导向全为0的情况(大多外语学校的开放导向应该不为0)。笔者进一步认为这个节点在100-150之间,因为211、双一流的招牌是个分水岭。

6.研究开始

有点心理、管理科研基础的同学可能已经想到一个问题了:上面说的那些导向,究竟能不能用那些关键词来刻画?
其实关键词可以看作导向的某一个维度,这些关键词和反映的导向则可以看作一份面向官网的问卷测试上的量表,这份量表想要研究四个变量:权力导向、服务导向、指标导向和开放导向。每个导向用一系列问题如“在今天的官网中,“党”占总字数为百分之多少?_____”。每一个问题都代表着某个导向的一个维度。四个导向是我们要研究的变量,看似是一份量表,其实是4个小量表滴,由于是前无古人的量表,因此有必要检验下4个量表的信效度(最近在看一本书,貌似准确来说应该是我提出了四个构念,然后那些关键词的频率是对应构念的效果型指标)。效度难搞,而且由于是新量表,信度好像也要进行因子分析什么的。但是我们是不正经研究啦,加上笔者能力有限,所以只能先简单的算下Cronbach's alpha。
看起来我们的“量表”设计的不是很好,信度没一个上0.7。而且,我们决定用的衡量方法相对值法,信度巨差无比。根据信度公式,我们可以发现各个网站的那些关键词频数的标准差要远小于频率的标准差
注:为了便于分析,关键词占比为万分比,比如本图中的学生比极大值是万分之一百
看起来我们的“量表”设计的不是很好,信度没一个上0.7。而且,我们决定用的衡量方法相对值法,信度更不行。这说明一点,大家强调的这些关键词内容差异并不大,但是总字数的差异很大。这个可能是网站排版问题,有的只是标题+超链接,而有的是列出标题,同时提供简短摘要。信度奇差的问题,说明有必要同时运用绝对值法和相对值法,当然为了避免冲突,还是先使用相对值法。
尽管信度低,但我们不在乎:)

老样子,先看牛逼程度和四个导向的散点图和Spearman相关系数。
再来回忆下我们的N多假设:
H1a:大学牛逼程度正向影响官网字数。
H1b:大学牛逼程度正向影响官网字数,但曲线回归的拟合效果更好。
H2a:大学牛逼程度负向影响其权力导向。
H2b:大学牛逼程度负向影响其权力导向,而这一关系受院校类型的调节。
H2c:大学牛逼程度负向影响其权力导向,但其关系呈U型。
H3a:大学牛逼程度正向影响其服务导向。
H3b:服务导向和权力导向负相关。
H4a:大学牛逼程度正向影响其指标导向。
H4b:大学牛逼程度正向影响其指标导向,但曲线回归的拟合效果更好。
H5a:大学牛逼程度正向影响其开放导向。
H5b:大学牛逼程度正向影响其开放导向,但曲线回归的拟合效果更好。

从相关系数来看,我们知道了以下假设(相对值法)没有被数据支持:H3a,H3b,H4a,H4b

用字数对排名进行回归,结果为(R²=.017,β=-1.195,p=.002),所以H1a得证。但别急,很有可能存在异方差性的问题。
但我们不怕,这个样子应该对字数取对数就能解决异方差问题了。对字数取对数后,回归结果依旧显著(p=.014),但是残差明显从非对称分布变为对称分布。左、右图分别为因变量为字数和字数的值的回归残差图

但如何证明H1b呢?我们先用曲线回归和直线回归试一下,发现二次项回归的拟合效果确实要好于直线回归(0.018>0.017),但这一优势可能并不显著,而且形状并非笔者设想的平抛那样,而是先下坡再上坡。笔者认为出现这样的问题是因为排名和字数的关系显著,但是R²过低(并非很强的线性关系),导致怎么回归也好使。所以笔者决定使用某种办法“减少样本量”试试。具体的,既然关系显著却不强,那么我们就把临近的几个样本合并为一个,字数取其均值。这样应该能够大幅减少字数的变异度。
笔者分别以2,4,5,10,20,50,100为一组,and see what will happen:)
假如我们有一个字数列表[1,2,3,4,5,6,],如果我们使用笔者写的merge函数,那么合并跨度为1时则返回[1.0, 2.0, 3.0, 4.0, 5.0],跨度为2时返回[1.5, 3.5],跨度为3时则返回[2.0],跨度为6时[]。程序严格来说时没有达到我们的预期的效果,因为存在着“去尾”的副作用,不过好在我们样本多,受影响较大的只有50,100两个跨度。由于是已经合并了,所以新的字数是成员字数的均值,但新样本的排名则并非成员排名均值,而是程序生成的顺序。不过不用担心,程序按照原排名进行处理的,所以新排名是可靠滴。
老样子,先看散点图
不同跨度的标准差分别为:1499.28099,1108.13491,846.34322,715.51450,536.26687,403.43711,252.33413,215.48737

可以看到的是,随着合并跨度的增大,字数标准差在降低,排名和字数的线性关系愈发明显。而从这几幅图中,尤其是跨度为50时,笔者能感受到好大学和一般大学和垃圾大学的官网字数,从理论上就并非线性。但笔者无法有效证明H1b:(

用权力导向对排名做回归结果为(R²=.217,β=.365,p=.000),H2a得证。
笔者另建一个虚拟变量将理工院校标记为1,师范院校标记为0(其余院校不被分析)。在分层回归中,交叉项的进入提高了R²,但并不显著(p=.119)。因此H2b不被支持。BUT,经过单因素分析,笔者发现理工院校本来显著的比师范类院校牛逼(p=.000),而牛逼又显著影响权力导向,因此第一层的回归模型(权力导向=c+β1*排名+β2*是理工),理论上来说是存在多重共线性的缺陷的。利用Eviews分析,对第一层回归模型进行VIF检验,得到排名和虚拟变量的VIF为(5.2,2.8),所以并不存在严重的多重共线性。所以H2b不被支持。

对于H2c,散点图如下:
直观感觉,直线回归的拟合效果不如二次项回归,因为从300名开始,感觉关系“加速抬头”。
果不其然,二次项的R²高于直线回归(.224>.217),但笔者无法计算其显著性。




且慢,二次项回归的本质是什么?线性回归方程是y=a+b*x,但如果我们的样本关系大致为y=x²,那么这里用直线回归是肯定不行滴。However,如果我们另n=x²,那么我们就可以用y=a+b*n来做回归。所以,曲线回归其实还是直线回归,因为BLUE性质中的线性,更重要的是关于参数的线性关系,而非变量。
在二次项回归中,笔者看了下SPSS的输出结果,其实方程也就是y=a+b*x+c*x²,为何我们不构造一个方程,y=a+b*x+c*n,其中n=x²,将其与y=a+b*x进行对比,看看R²变化是否显著?笔者觉得理论上来说,这种假分层回归,统计理论上应该没问题。在分层回归中,加入了排名的平方项的后,R方显著增加(sig=.029)。所以尽管并非倒U型,但我们的确发现二次项回归的效果更好。这可能是由于,排名较靠前的确会受到更多强化权力导向的压力,但是这一压力并没有cover掉排名对权力抗拒的主效应,只是起到了一个弱化作用。所以H2c背后的逻辑很可能是对的,但需要更多的研究,因此我们仍不能说H2c得证。

对于H3a,排名和服务导向并不存在相关关系(ρ=-.002,p=.97)。但这也许并非说明排名和服务师生的积极度之间没关系,而是我们的服务导向变量效度不行,未能很好的反映“为师生服务的积极性”这一态度。

我们采用的是反映型指标,那么不同指标之间应该是高度相关的,但从相关性来看,我们所选的代表服务导向那些的关键词组合效果并不好。所以有必要重新确认新的关键词组合。
经过权衡,笔者重新确认服务导向的关键词组合为[学生,服务]。排除掉“学子”,是因为学子一关键词较少出现,而且这和“学生”要表达的意思接近,没有存在的必要。排除掉“公告”,是因为我们一开始认为,公告代表着信息披露和自觉接受师生监督,但是公告和学生、服务显著负相关,因此公告更多的也许是一种盛气凌人的通知,而且公告往往是校级领导层发布的,所以公告越多,代表行政势力越大,反而不倾向于为师生服务。原先纳入“投诉”这一关键词是因为笔者认为投诉体现了校方愿意公开问题、并提供解决问题的渠道,所以这是为师生服务的体现。但投诉其余关键词都不相关,所以统计上来说不适合纳入分析。值得一提的是,投诉和排名显著正相关,这也许是因为学校越垃圾,问题就越多,所以公开投诉并非基于为师生服务而是现实所迫。
新的“量表”信度为.129,较之前的.036不要好太多,但信度仍不行。但我们还是一如既往的不在乎。
虽然重新修正了服务导向,但是服务导向依旧和权力导向不相关,所以H3b仍不被支持。这可能是由于权力导向是向上恭维,服务导向是向下恭维,二者并非对立。比如说同时大力宣传权力和师生,或者是两者都较少提及。
服务导向对排名的回归结果为(R²=.033,β=-.028,p=.000),所以H3a得证。

对于排名和指标导向的关系,散点图如下:
(ρ=.062,p=.151)排名和指标导向并不相关,所以H4a、H4b不被支持。我们的分析就到此为止?肯定不是。在提出H4a和H4b时,我们就是分析过指标导向可能是务实驱动也可能是务虚驱动,而且指标导向无法反映指标的含金量。所以有必要审视下各个关键词之间的关系,相关性如下。

可以看到的是,垃圾学校更注重就业和毕业。这也是符合社会现实的。大学归根到底还是要为人的灵魂发展提供土壤,为社会进步助力,但是我们每个家庭,更多的是看重上学能够带来多大的经济报酬,尤其是中国家庭、农村家庭和贫困家庭。笔者小时候就经常被灌输“好好学习,考个好大学,找个好工作”诸如此类的话,再周围人眼里,读书只是成为人上人的工具(笔者只想说:被压迫的人,他们其实不反对压迫,他们只是怨恨自己在下层:(。
好大学现代化程度更高(笔者在本研究中多次提及:),他们的本科生更多是选择深造而非就业。同时,好大学的学生相比而言对工作就业等外在结果看重更少。而差大学的学生,他们本身学习成绩较差,深造的意愿较低,而且可能家庭条件也较差,所以更注重学校的就业情况。从大学的角度来说,差大学也确实不会有太多的成果、奖项等来宣传,而且。所以宣传就业既能投学生所好,退一步来说,差大学宣传就业、差学生注重就业,其实更多的是一种差异化竞争,这样的选择是他们的最优策略。
也可以看到,好大学更多的是宣传项目成果、入选获奖等内容。这个没什么好额外解释的。但是一个比较奇怪的就是排名和项目显著正相关,笔者暂时没有想到很好的解释。因为宣传内容一般是“XX项目成果入选国家xxx”,这一宣传模式从相关性上也可以得证。但排名和和项目正相关,却和入选负相关,或许是因为差大学有了项目就大力宣传,但是重要成果难以产出?亦或是项目一次没有体现出质量高低,但是在获奖、入选的筛选下,分出了差大学的李鬼?

对于排名和开放导向的关系,散点图和相关系数图如下:
关系不言而喻,回归结果也证实了H5a(R²=.096,p=.000,β=-.034)。但从形状上来看,排名靠后的院校也不是一无所有,所以H5b不被支持。
好了,目前来看,我们的研究任务已经接近尾声了。接下来是收尾研究,也是为了填这篇博文的坑,我们将分析下安徽、河南的大学权力导向水平有无差异。鉴于先前的分析,笔者提出假设,河北省院校的权力导向应显著的高于河南院校。
从分类汇总来看,两省份大学的平均排名基本相同,但字数大有不同,而且河南的权力导向相对来说更高,这就很有意思了:)
在单因素方差分析中,我们将省份作为因子来考察两省的一些变量差异:
结果表明,两省间的字数和权力导向绝对值显著不同,但考虑到字数基数差异大,相对值差异才是我们应该关心的。BUT并不显著,也就是说,河北省和河南省高校的权力导向差异不大。这进一步增加了以往分析GDP和青年大学习排名的显著关系为虚假的可能。

7.总结

通过对535所高校网页的文本关键词分析,我们有以下发现:

1.大学排名显著影响到官网字数,好大学的字数更多。

2.大学排名显著影响其权力导向程度,好大学的权力导向更弱。但可能由于好大学受到的关注压力更多,所以所以好大学排名对权力导向的影响会被抵消掉一部分,因此用二次项回归拟合效果更好。而且权力导向在理工和师范类院校间不存在显著差异。

3.大学排名显著影响其修正服务导向程度,好大学的服务导向更强。但服务导向和权力导向并不互斥,也就是关系不为负相关。

4.大学排名和指标导向程度不相关,但是具体到不同的关键词,排名和关键词呈现显著的正相关或负相关。

5.大学排名显著影响开放导向程度,好大学的开放导向更强。

本研究具有以下重要性:

第一,本研究证明不同大学层次不同,对其官网文本这种外显的表示也不相同。这说明将官网外表作为数据源具有一定的合理性,既然文本关键词分析可以,那么从句意分析,图片分析,排版分析,也许都能有新收获。

第二,既然大学可以用来分析,那么一些地方政府的官网也可以用来分析。由于权力导向、服务导向这些构念非常不容易通过问卷调查等方式来获取,那么可以利用其官网中进行关键词分析,作为这些构念的代表来用于进一步的分析,如服务导向和满意度,GDP和权力导向等。

同时,本研究存在以下局限:

1.统计手段不严谨。比如变量的正态性检验等等,各种回归的自相关检验等都没做,一些分析方法也不是很懂,比如单因素方差分析。不严谨一部分由于笔者目前水平有限,另一部分是懒。

2.构念不清晰,不严谨。比如权力导向,笔者称其为“对权力、权威的一些宣扬,这些东西往往属于又红又专、同时具有“假大空”的特征,比如党委书记、讲话精神等”,这其实不是在通过概念直接下定义,而是通过特征来迂回下定义。而且权力也分好几种,比如对中央权力、党组织权力,院级权力,领导个人权力等,笔者都没有进行严谨的定义。而且,相对值和绝对值哪个更能代表目标构念?有无更准确的反应型指标?这些笔者也没有给出明确的定论。服务导向的修正、指标导向内部冲突进一步说明我们的构念和如何去刻画构念存在问题。

3.关键词分析较为低级。由于网页给人带来的是视觉刺激,所以字体不同颜色、不同大小、不同位置,都具有不同的意义,而我们将其同一对待了。现在大多数官网采用的是大横幅+新闻消息的列表的方式,而往往一张横幅图片就能铺满整屏幕,所以图片分析是很有必要的。

4.数据处理过程较为粗糙。这集中体现在网页字数的确定中。有的字符不是汉字,却被当作汉字,只因为其不是常见英文字符。部分汉字是JS脚本的注释,但我们还将其视为官网展现出的字。而且出于种种原因,有几十所院校无法参与到我们的分析中,相当于损失了约10%的样本。

5.假设提出过于主观,缺少理论支撑。笔者提出假设几乎完全依靠个人经验,在没有成熟理论的支撑下,假设就算是得证,也有可能是“虚假”的。BUT,我们是非正经研究,又不浪费纳税人的钱,爱怎么,就怎么着:)

相关数据都可以在这里找到

注0:如果在爬取某一官网时返回值不是200(200说明请求成功),或者是出于某些原因程序出错(重定向过多、证书问题),那么该大学的官网内容会被赋值为None(参见注1)。在对爬取的官网网页的分析后,如果该院校官网字汉字书异常,则不会参与后续分析(参见注2和注3)。综合来看,29所院校官网汉字数为零,18所院校官网汉字数异常,所以有效样本只有535个。

注1:23所大学的官网链接无法正常爬取
注2:2所院校汉字数超过12000,16所院校汉字数低于500,予以剔除。
注3:29所院校汉字数为0(其中23个是由于爬取失败,剩下6个如兴义民族师范学院只返回了一个JS脚本,属于无效信息),予以剔除。

评论

此博客中的热门博文

我们应该满足欲望吗?——谈谈为什么感觉不到幸福

浅谈公民、国家、政府和政党的区别

should we satisfy our desire? Yes, it's justified