计量语言学研究进展
上QQ阅读APP看书,第一时间看更新

4.3 数据与讨论

4.3.1 各指标与文本长度、词汇量的关系

各指标与文本长度N、词汇量V的关系如图4.4和图4.5。除指标R4外,其他各指标与文本长度N和词汇量V之间均不存在明显的线性或曲线关系。指标R4N之间,其线性拟合方程y=0.000186x+0.72的拟合优度为R2=0.67。这一拟合优度并不高。因此可以说,这15项基于词频(谱)的文本计量指标不单纯因文本长度或词汇量因素而产生变异。

图4.4 各指标与文本长度N的散点图

图4.5 各指标与文本词汇量V的散点图

4.3.2 各指标与语体、文体因素的关系

各指标在不同语体或文体的样本中的平均值见表4.5。以各指标为因变量、语体与文体因素为自变量、文本长度因素为协变量的方差分析结果见表4.6。

表4.5 不同样本组各指标的描述性统计

表4.6 各项指标的方差分析结果

方差分析结果显示:

(1)indicator-a:语体因素主效应显著(F(1,115)=5.271, p=0.023),口语体文本的词频指标indicator-a(M=9.970, SD=2.336)显著大于书面语体文本(M=9.087, SD=2.206);文体因素主效应、交互作用和文本长度的影响均不显著(基本上没有交互作用,图4.6中两条线几乎平行)。indicator-a代表了文本在虚词与实词使用频率方面的特征,口语体的指标indicator-a高于书面语体,说明与书面语体相比,口语体新闻文本中实词的比例较大。这与新闻语体本身有关。新闻要及时传递信息,而口语新闻相比于书面语新闻受时间限制更多一些,更注重信息的高效传递。这一点从下一个指标R1中能得到更加直观的验证。

(2)R1:语体因素主效应显著(F(1,115)=5.225, p=0.024),口语体文本的词频指标R1M=0.863, SD=0.034)显著大于书面语体文本(M=0.852, SD=0.046);文体因素主效应显著(F(1,115)=6.340, p=0.013),报道体文本的词频指标R1M=0.881, SD=0.028)显著大于评论体文本(M=0.834, SD=0.037);交互作用显著(F(1,115)=10.179, p=0.002);文本长度的影响显著(F(1,115)=11.344, p=0.001)。在口语体文本中,报道体与评论体的指标R1非常接近;而在书面语体文本中,报道体和评论体的指标R1差别较大(图4.7)。R1近似于文本中实词的覆盖率,报道体以陈述事实为主,表达的信息量更丰富,从而实词覆盖率也应略高;评论体主要阐述观点,信息量和实词覆盖率相对低一些。

图4.6 语体、文体因素对indicator-a的影响

图4.7 语体、文体因素对R1的影响

(3)indicator-bR2:语体、文体二因素的主效应、两个自变量的交互作用以及文本长度因素的影响均不显著。

(4)R3:语体因素主效应显著(F(1,115)=23.870, p=0.000),口语体文本的词频指标R3M=0.391, SD=0.050)显著大于书面语体文本(M=0.369, SD=0.039);文体因素和交互作用均不显著;文本长度的影响显著(F(1,115)=33.913, p=0.000)。指标R2R3都是从词型数与词汇量的角度对文本的测量,不同的是它们考察非常用词的范围不同。指标R3更清晰地展示了不同语体和文体的文本在非常用词方面的差异。图4.8中两条平行线说明语体与文体因素没有产生交互作用;口语体文本的词汇丰富性更高,这一结果与indicator-a的表现一致。此外,指标R3在考察文本语体因素时受到了文本长度因素的影响。

(5)R4:语体因素主效应显著(F(1,115)=20.534, p=0.000),口语体文本的词频指标R4M=0.619, SD=0.072)显著大于书面语体文本(M=0.599, SD=0.058);文体因素主效应不显著;交互作用显著(F(1,115)=4.420, p=0.038);文本长度的影响显著(F(1,115)=88.509, p=0.000)。语体与文体因素存在交互作用(图4.9):在报道体文本中,口语体的指标略高于书面语体;在评论体文本中,二者间的差距加大。指标R4与基尼系数G互补,都是衡量词汇使用均衡程度的统计量。口语体文本指标R4高,基尼系数G小,词汇使用均衡程度低,词汇丰富性高,书面语体文本相反。此外,文本长度因素对该指标有显著影响。

(6)ABA/B:1)指标A:语体因素主效应显著(F(1,115)=13.216, p=0.000),口语体文本的词频指标A(M=0.771, SD=0.086)显著大于书面语体文本(M=0.704, SD=0.140);文体因素主效应显著(F(1,115)=6.307, p=0.013),报道体文本的词频指标A(M=0.669, SD=0.133)显著小于评论体文本(M=0.806, SD=0.044);交互作用显著(F(1,115)=13.750, p=0.000);文本长度的影响显著(F(1,115)=12.178, p=0.001)。2)指标B:语体因素主效应不显著;文体因素主效应显著(F(1,115)=5.820, p=0.017),报道体文本的词频指标B(M=0.781, SD=0.093)显著小于评论体文本(M=0.894, SD=0.033);交互作用显著(F(1,115)=5.382, p=0.022);文本长度的影响显著(F(1,115)=19.269, p=0.000)。3)指标A/B:语体因素主效应显著(F(1,115)=13.895, p=0.000),口语体文本的词频指标A/B(M=0.914, SD=0.087)显著大于书面语体文本(M=0.844, SD=0.117);文体因素主效应不显著;交互作用显著(F(1,115)=8.415, p=0.004);文本长度的影响不显著。

图4.8 语体、文体因素对 R3的影响

图4.9 语体、文体因素对 R4的影响

这三个指标从词频几何学的角度对文本词汇利用率进行测量。语体与文体的交互作用对这三个指标均有显著影响,且语体、文体与文本长度诸因素多为显著影响指标的变量。例如,评论体文本中,口语体与书面语体在指标A上差别不大;但是报道体文本中,口语体文本指标A显著大于书面语体(图4.10(a))。又如,在评论体文本中,口语体文本的指标B低于书面语体;但是在报道体文本中,口语体文本的指标B反而高于书面语体(图4.10(b))。同时,文本长度因素对指标A与指标B也有显著影响。可见,这两个指标反映的情况比较复杂。综合了这两个指标的第三个指标A/B将情况简化了一些。首先,文本长度因素对指标A/B没有显著影响;其次,指标A/B的考察中,只有语体因素主效应显著,文体因素主效应不显著,且二者的交互作用是一种按序的交互,即影响方向是一致的(图4.10(c))。无论报道体还是评论体,口语体文本的指标A/B均高于书面语体。语体与文体因素交互作用没有改变这种趋势。即便如此,由于指标A/B本身的复杂性和本研究取样的局限性,尚不能对该指标在测量文本词汇丰富性方面的表现做出解释。

图4.10语体、文体因素对指标ABA/B的影响

(7)RRr, relRRr, rel2:1)指标RRr, rel:语体因素主效应不显著;文体因素主效应显著(F(1,115)=8.079, p=0.005),报道体文本的词频指标(M=0.994, SD=0.002)显著大于评论体文本(M=0.992, SD=0.003);交互作用显著(F(1,115)=10.470, p=0.002);文本长度的影响不显著。2)指标RRr, rel2:语体因素主效应不显著;文体因素主效应显著(F(1,115)=10.705, p=0.001),报道体文本的词频指标(M=0.963, SD=0.010)显著大于评论体文本(M=0.946, SD=0.012);交互作用显著(F(1,115)=10.369, p=0.002);文本长度的影响显著(F(1,115)=5.918, p=0.017)。作为衡量词汇使用重复率(集中程度)的统计量,这两个指标只在计算方法上略有区别,表现基本一致。首先,语体与文体因素交互作用显著(图4.11),且都是在报道体中口语文本的指标低于书面语文本,在评论体中口语文本的指标高于书面语文本;其次,文体主效应显著,无论口语还是书面语,报道体文本的指标均高于评论体文本,即报道体文本的词汇重复率(集中程度)显著高于评论体文本。这两个指标的不同之处是,文本长度对指标RRr, rel2有显著影响,对指标RRr, rel却没有。

图4.11 语体、文体因素对指标RRr, reI和指标RRr, reI2的影响

(8)RRs,relRRs,rel2:1)指标RRs,rel:语体因素主效应显著(F(1,115)=10.998, p=0.001),口语体文本的词频指标(M=0.530, SD=0.053)显著小于书面语体文本(M=0.558, SD=0.061);文体因素主效应和交互作用均不显著;文本长度的影响显著(F(1,115)=9.083, p=0.003)。2)指标RRs,rel2:语体因素主效应显著(F(1,115)=8.168, p=0.005),口语体文本的词频指标(M=0.403, SD=0.042)显著小于书面语体文本(M=0.428, SD=0.057);文体因素主效应、交互作用、文本长度的影响均不显著。这两个指标从词频谱的角度对词汇使用重复率进行测量。其表现相同之处是:首先,语体与文体因素的交互作用均不显著(图4.12(a)与图4.12(b)中两条线几乎平行);其次,文体因素主效应均不显著;第三,语体因素主效应均显著,无论是报道体还是评论体,口语体文本的这两个指标均显著低于书面语体,即口语体文本的词汇重复率显著高于书面语体。这两个指标的不同之处是文本长度因素对指标RRs,rel2有显著影响,对指标RRs, rel没有。

图4.12 语体、文体因素对指标RRs,reI和指标RRs,reI2的影响

(9)Hr, relHs, rel:1)指标Hr, rel:语体因素主效应、文体因素主效应、交互作用和文本长度的影响均不显著。指标Hs, relHr, rel分别测量文本的词频与词频谱反映的词汇使用的多样性。指标Hs, rel反映出报道体文本的词汇多样性显著大于评论体文本;在报道体文本中,口语体文本的词汇多样性小于书面语体文本,在评论体文本中,口语体文本的词汇多样性大于书面语体文本。2)指标 Hs,rel:语体因素主效应显著(F(1,115)=7.555, p=0.007),口语体文本的词频指标(M=0.928, SD=0.020)显著大于书面语体文本(M=0.923, SD=0.022);文体因素主效应显著(F(1,115)=7.747, p=0.006),报道体文本的词频指标Hs, relM=0.940, SD=0.013)显著大于评论体文本(M=0.911, SD=0.016);交互作用显著(F(1,115)=9.979, p=0.002);文本长度的影响显著(F(1,115)=37.953, p=0.000)。

图4.13 语体、文体因素对指标Hr, reI和指标Hs, reI的影响

综合以上对各项指标的分析,可以将语体、文体与文本长度因素对各指标影响的情况概括如表4.7, “+”表示该指标受某因素(或两因素交互作用)影响显著。在语体与文体交互作用不显著的指标当中,指标indicator-aRRs,rel2只受语体因素影响显著,指标R3RRs,rel受语体因素和文本长度因素影响显著。

表4.7 语体、文体与文本长度因素对各指标影响的显著性