目录 |
文件组织方式是网上数字化信息资源的一种主要存储形式。文件组织方式采用主题组织法的思想,以文件名标识信息内容,用文件夹组织信息资源,并通过网络共享实现信息传播。文件服务器(FTP)即以此方式组织网络信息资源(多为非结构化信息),用户界面就是人们熟悉的文件夹窗口,浏览和下载信息操作简便。
以文件系统来组织和管理网络信息资源具有以下优点:
(1)简单快捷。计算机有一整套文件处理的理论与技术,在组织网络信息时可以非常容易地利用这些成熟的技术和方法。
(2)适合图形、图像、音频、视频等各种非结构化信息组织管理。由于计算机处理的所有最终结果都能以文件的形式保存下来,因此对于图形、图表、音频、视频等非结构化信息,可以方便地利用文件系统来管理。正因为如此,以文件组织方式来管理信息资源在目前仍然广泛使用。
但是,随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息会使网络负载越来越大。同时,文件方式对结构化信息的管理显得力不从心,文件系统只涉及信息的简单逻辑结构,当信息结构较复杂时,就难以实现有效的控制和管理,从而降低了信息组织的效率。因此,文件只能是网络信息资源管理的辅助形式或者是作为信息单位成为其他信息组织方式的管理对象。
顺序文件的物理结构最简单,在此结构中,从文件空间的起点开始,文件的各个记录顺序地存放在外存的连续区内,记录的物理顺序和逻辑顺序是完全一致的。它适用于所有的文件媒体。磁带顺序文件从磁带上文件空间头部开始,按物理位置顺序存储记录:磁盘顺序文件的结构从磁盘文件空间最初磁道的头部开始,按物理位置顺序排列。顺序文件适用于按顺序存取处理,处理速度较快,但记录的插入和删除都不方便。
顺序文件是一种最常用、最简单的文件组织方法,在许多资料处理的场合,它仍然是一种简单、经济而有效的方法。如磁带文件、打印文件都是常用的顺序文件。
实现顺序文件的排列方法有如下几种:
按这种方法排列的数据,要求在文件建立时,首先对文件进行排序:
索引文件分为索引顺序文件和索引非顺序文件。索引顺序文件,其记录的物理顺序和逻辑顺序相一致。记录按记录键的顺序存放,并带有索引。这种文件组织方式用得比较普遍,但是只适用于磁盘媒体。对于这种文件记录的存取方式可以采用顺序存取和直接存取,并能进行各种形式的处理。
索引顺序文件的特点是:
此外,还有索引非顺序文件,这种文件也带索引表,但文件记录的物理顺序和逻辑顺序不一致,索引表中存有已排序的记录键号以及该键号的记录地址。处理和查找记录时,先查索引表,查到所需的记录地址后,再按地址查找记录。还可以通过设立不同键值的几个索引来利用同一个记录。这种组织方式,可以保证地址的惟一性,存取也比较简单,其缺点是记录数目多时,索引区也很大,索引表本身占用存储空间较大,查找费时。
直接文件中记录的逻辑顺序与物理顺序不一定相同,但记录的键值直接指明该记录的地址,所以只要知道了记录键值,就能查找该记录的物理位置。
直接文件的记录存放在磁盘等随机存储媒体上,且可以被随机处理,所以也称直接文件为随机存取文件。
确定直接文件中记录的物理位置的方法很多,常用的有:
直接文件有3种形式:无键直接文件、带键直接文件、桶式(bucket)直接文件。
增大桶的容量可以减少溢出次数,从而减少查找记录所需的平均查换次数。但桶太大,文件存储空间的密度减少,主数据区利用率低,在内存中查找桶中记录的时间增加,而且要求内存缓冲区足够大,所以桶的容量的选择要全面考虑,应选择大小合适的桶。
除了以上几种基本的文件组织方式外,还有索引链接文件、倒排文件等。索引链接文件是将索引方法和链接方法结合起来的一种组织方式,可用多码检索。倒排文件是一种处理多码检索的组织方式,它利用次键建立次索引表,便于文件记录按各种属性查找,但这种文件占用较大的存储空间。
综合几种基本的文件组织方式的优、缺点列于表中。
特性 组织方式 | 优点 | 缺点 |
顺序文件 | 处理速度快 存储空间利用率高 在任何媒体上实现 | 需要对事务己求预先排序 插入记录麻烦 要检索整个记录 |
索引文件 | 可顺序处理,也可随机处理 记录追加、插入方便 查找速度较快 | 增加索引区和溢出区空间 不能用于多码检索 |
直接文件 | 存取速度快 记录追加、删除容易 | 要进行键变换 存储空间利用率低 |