信息管理学基础_武汉大学_主讲-马费成 72讲

Contenu vidéo originalAgrandir la vidéo
  • 这一节介绍信息内容的离散分布规律,实际上是马太效应的一种重要表现形式。
  • 信息的离散分布指信息自生产传播后,表现为内容单元以不同方式分散在不同载体中。
  • 信息的离散分布由信息的生产和利用决定,是信息管理学中的基础性规律。
  • 布拉德夫定理揭示了相关论文在期刊中的不均匀分布及其集中规律。
  • 维克利对布拉德夫定理进行了推广,扩展了区的划分。

这一节我们介绍信息内容的离散分布规律,这个规律实际上就是马太效应的一种非常重要的表现形式。

那么我们这里讲的所谓信息的离散分布是指信息自生产传播出来以后,它表现为信息的内容单元以不同的方式,从不同的角度分散在不同的载体当中。而信息的离散分布具有非常复杂的机理,但它本质上是由信息的生产和利用决定的。

而这个规律可以说是我们信息管理学当中一个非常基础性的规律。有的学者认为,信息的离散分配规律可以发现信息管理学奠基性的定理,因此它非常的重要。

那么信息管理学当中的这个离散分布规律的表现形式,最先取得成果的,正像我前面所说的,它是以文献为基础发现的。这就是英国著名的文献学家布拉德夫,他在长期的工作当中,发现某一个学科领域当中的相关论文在期刊当中的分布不是均匀的,而且具有明显的集中和分布规律。

在长期的观察和统计基础之上,他提出了有名的布拉德夫定理。布拉德夫定理就是我们研究信息离散分布规律最初从文献信息的角度来解释的这样一个重要的现象。

那么布拉德夫定理在解释以后,他便将其表示为两种形式,一个是区域描述,一个是图形描述。他的区域描述是这样讲的:如果将科学期刊按其刊载某个学科主题的论文数量以地点顺序排列起来,就可以在所有这些区块中区分出核心部分和包含着与核心部分同等数量的论文的随后几个区。

这时候核心区和相继各个区当中的区块数呈1比a比a平方的关系,这里a大于1。按照布拉德夫当时统计的数据,A约等于5,这就是他当时统计的关于应用地球物理学的文献分布。

左边是期刊排序,右边是相关的论文书,这里是他的论文书。左边是他的期刊排序,那么这个期刊排序主要是按照论文的第一件顺序来排列的。

在这样排列以后,就把期刊分成了一个有论文量大于20的核心区,也就是应用地球物理学的相关论文大于20的,还有5到17的,另外就是小于5的。

那么中间这一栏是期刊数量,右边这一栏是与这些期刊相对应的论文的数量。我们可以看到当论文量大致相等的时候,期刊数量就是9比59比258,约等于1比5比5的平方。我想同学们一定会认为这个误差也太大了。

的确,因为它是一个经验的统计,而且我们讲期刊也是不能拆散的,期刊以总和本为单位,甚至每本是以年为单位。因此我们选择了这个期刊以后,这个误差应该说就不算大,但我们不能拿数学上精确的模型进行对比。

这是布拉德夫定理的图形描述。刚才我们讲的是它的区域描述。那么这个图形描述很有意思,也就是把横坐标按期刊载文量的第一件排列的顺序号n去对数,而纵坐标取1至n号期刊所在论文的累积数。

这样我们就可以绘制出这个布拉德夫分散曲线。纵坐标是论文的累积量,横坐标是期刊按减少顺序排列的一个序号,也就是说最高的刊载期刊序号排在前面,依次低减。

这里的n就是总的期刊数。因此,从这个图上我们可以看出布拉德夫分散曲线实际上分为三个部分。第一个部分就是这一段曲线,即AC部分,这被称为是对应于核心区的第二个部分,就是直线CB部分,第三部分就是BD是一段下垂的曲线。

这就是布拉德夫定理的图形描述。布鲁克斯他用这样的模型来描述布拉德夫定理。首先这是对曲线部分的描述,他认为Rn等于α乘n的β次方,而n在1到C的这个曲线之内,这就是对AC这个核心区的一个描述和模拟。

那么这里的RN就是N号期刊前的论文累积数,α和β是参数,N是第一件排列的期刊的序号。α大致等于排在第一级的期刊当中的论文数量,所以有人认为α实际上等于R1,而β呢,有人测试认为它是AC这个曲线的曲率。

而对直线部分CB,可用这个公式表示:RN等于K乘上log刮弧S分之N。那么这个K是代表这一段C-B直线的斜率,N是排列的期刊序号,S是一个参数。有的学者在大量的研究当中发现,这个S可以表征某一学科的幅度。

所谓学科的幅度指的是这个学科的宽度、广度,也就是这个学科范围的大小。有的较大的学科可能它的S比较大,而较小的、比较窄的学科,它的这个S比较小,因此这就是命名为学科幅度的原因,而K可以通过实验的方式来获得。

我想这就是著名的布拉德夫定理,它包括了两个部分,一个是区域描述,一个是图形描述。但是我们看到区域描述和图形描述是矛盾的,它的矛盾在于区域描述取得的是每个区的论文量,图形描述所取得的是每一个区的以及前一区的论文累积量。

英国著名的情报学家、文献学家维克利他对布拉德夫定理做了推广,他把三个区的划分推广到N个区的情形。也就是说,布拉德夫定理不仅适用于三个区的划分,而且可以推广到任意M个区。但是维克利的修正和布拉德夫定理的区域描述是有区别的,实际上对应于他的图形描述。

因为维克利的修正当中他的每个区的论文相比,是每个区以及前面各个区的论文累积量之比,而不是各个区所含的论文的比。因此我们想这是一个非常重要的修正。在维克利的基础上,许多学者对布拉德夫定理进行了研究,发现了许多重要规律。

我想指出的是,布拉德夫定理有两个非常重要的特征。第一个就是它所采用的方法是频次等级排序。所谓频次等级排序是把载文量最高的期刊排在前面,而相应刊载论文较少的期刊排在后面,这是一种排序。这种排序突出了那些刊载论文最高的期刊,也就是突出了核心的信息源。

因此,我想这是非常重要的一个方法。布鲁克斯讲到这种方法为什么如此重要,他认为排序是人的本能,人们在学会说话之前就懂得排序,按某种规律、某种特征去排序,因此这种排序就不需要高深的统计知识。

这是布拉德夫定理的第一个非常重要的特征。第二个在排序的基础之上形成信息对象的主体来源,对主体来源进行统计分析的结果,获得了这样的分布规律。我想这是同学们要注意的,也是非常有意思的。

后来很多人也都利用这样的排序方法获得了一些重要的发现。但同时我们也要知悉,布拉德夫定理还是有一定的局限。第一个局限是解释了期刊当中的文献的分散,把文献当成信息单元。

那么我们知道文献应该和文献的内容是不同的,文献是无理在提,而内容是它的一个实质性的一个信息或知识。这两者之间是不能相等的。布拉德夫定理主要是在宏观层次上对文献的离散分布进行了统计,解释了它在期刊当中的分布规律,而对微观层次的信息内容单元分布基本上没有研究。

这在很长一段时间当中都没有进行。为了进一步验证布拉德夫定理是否在微观层次上也正确,我们做了一项研究。

这项研究选择了电子学、物理学、生物学、工程技术等具有代表性的学科,同时利用BIOSIS、INSPEC、Compendex这样一些光盘数据库来输出记录,使用计算机分析和统计记录当中的集中聚类和分散状态。

我们绘制出了文献单元和内容单元的分布曲线。这里讲的内容单元,主要是选择文献作者标注的关键词和主题词。通过这样的方式,我们画出了其分布曲线,并与文献的分布相比较。

研究发现,这些内容单元或者说知识单元的分布也是服从布拉德夫定理的。我们所统计出的信息来自这三个光盘数据库,我们同时选择了这三个方面的信息:主题值的总数、主题词的个数、核心词。

其中,主题词的总数考虑了包括重复的关键词,主题词的个数则剔除了重复的关键词,而核心词的统计是因为我们认为,如果关键词、主题词在描述学科、文献、内容单元的时候还有一些距离,那么这个学科领域的核心词应该是该学科核心知识的重要标准。

对于这些学科领域,我们的核心词的选择都是通过这些领域的专家来鉴别的,因此它应该具有一定的可靠性。通过这样的统计,我们绘制出了三大数据库所输出的信息单元的分布曲线。

我们看到,BIOSIS的主题总数的分布图、主题词的分布图及核心词的分布图,这些图的分布曲线与前面的布拉德夫分布曲线非常类似。

其次,这是INSPEC的统计结果,也是得到了相同的三张图,分布曲线与前面相似。最后,Compendex数据库输出的信息也同样,以同样的方法对三种类型的信息单元进行了统计。

我们发现不仅在形式上,它与布拉德夫定理相似,用回归分析的方法来理活这些曲线,发现它们的模式与布拉德夫定理的公式表现相同。这也证明了内容单元符合布拉德夫定理的真实性。

我想这是一个非常重要且有趣的发现,也是在很长一段时间当中人们认为布拉德夫定理仅仅适用于文献,实际上文献中的内容单元也符合布拉德夫定理。因此,布拉德夫定理由于其影响,亦被称为布式分布或布式定理。