文件存储系统集成数据管理与搜索

发布者:上海IT外包 发布时间:2019/1/17 17:35:10来源:www.linemore.com

数据量正在呈指数倍上升,各个领域都需求一个合适的文件存储体系来为自己处理大量数据在存储中存在的许多问题。

随着信息技能的不断发展,文本文件、页面、电子邮件、音乐、电影等众多不同类型信息的存储需求出现爆炸性添加。存储体系在数据存储的可靠性和功用方面是比较有用的,可是随着存储体系的容量不断增大,存储信息的数量和类型不断添加,信息的检索和办理会变得越来越困难,这与互联网环境形成了鲜明的比照。

随着查找引擎的不断发展,在互联网的环境下寻找信息十分方便。用户如安在存储体系中找到想要的信息比在互联网上查找信息更加困难。传统文件存储体系率不高几乎所有的文件存储体系都是根据文件体系的,文件体系与操作体系是密不可分的整体。

文件体系由文件和目录组成。数据按其内容、结构和用途组成若干命名的文件。目录构建了文件体系的层次化化结构。用户创立子层次以便对文件进行分类。文件体系能够有用地组织文件,一个目录下的子目录或许文件的名字是专一的,这就保证了文件的全路径称号不会一起指向两个或许更多的子目录或许文件。

根据什么来建立层次结构并没有一个很有用的办法,在考虑文件安全和文件同享时,层次结构的缺点更加明显。比方,一个文件在网络上进行同享时,会把这个文件复制到一个公共目录下面,一起设定好公共目录的拜访权限,这样一个文件就会在两个不同的层次结构中有着两份复制,会给文件的办理带来很大不方便,特别是在文件的数量不断添加的时候。

别的,层次化结构使得文件拜访的功率不高。比方,目录躲藏了它包含的内容,并且目录下或许还有一层又一层的子目录,用户很难知道一个目录下面到底有什么东西,拜访某个文件有必要经过层次型的目录树结构到达文件的保存位置,假如不知道文件保存位置,就有必要遍历整个目录或运用操作体系的查找功用,而操作体系仅能依靠文件名来检索和查找数据。

语义文件存储体系高效可靠在过去十几年中,文件体系技能并未进行大的革新,而新数据类型(如多媒体、电子邮件)不断出现,包括了丰富的元数据。没有给予元数据信息满足重要的位置,存储在文件体系中的数据都缺乏语义支撑,因而存储体系不能供给高层的根据语义的相关式数据存取。正因为认识到现有文件体系的缺乏,学术界和工业界做了大量作业,研讨如何进步文件的办理和查找功率。

其间,最重要的研讨成果是语义文件体系,它能够充分利用文件的元数据信息进行文件阅读与查找。语义文件体系利用元数据抽取工具获取更多的元数据,记录用户活动,并选用手艺或其他办法对文件进行标注,最后将这些信息结合起来完成一致元数据。

经过元数据信息在非结构化文件和数据库数据之间建立起链接,存储体系能够完成快速的根据文件特点的文件体系拜访。语义文件体系供给新的规矩,即相关性的拜访办法。相关性拜访是根据内容拜访的特性,供一种灵敏的相关方式来存取文件。文件特点由转换器从特定类型文件中主动抽取,表达为 Hkey和Valuei对。

一起,语义文件体系又引入了虚拟文件夹的概念。在虚拟文件夹中,一个运用者能够进行根据特点的查找,体系在成果会集创立一组文件的符号衔接,供给跨过目录层次的文件存取通路。比方WinFS和Spotlight的虚拟文件夹,虚拟文件夹可选用XML格局的文本文件进行表示,内容是对数据库进行查询后回来的成果组成的列表,包含了指向符合某种规矩的文件或文件夹的链接。在占用更多存储空间的情况下,语义文件体系可容易完成一个文件一起放在几个不同的目录层次下面。

语义文件体系可对文件进行高效分类。比方,根据用户空间文件体系(Filesystem in Userspace,FUSE)的TagFS选用智能标签(Smart Tagging)机制,能够动态地让数据文件具有特定的标签,而加了标签的数据文件能根据用户的喜爱与意图分类,并根据权重排序后出现。语义文件体系便于用户对数据文件进行高效地查找。逻辑文件体系 (LISFS)运用一个数据库为体系的文件供给查找功用。数据库表由从关键词到目标的映射组成。目录的内容是一个符合查询条件的目标集。

苹果计算机的Spotlight是一个元数据和内容索引体系,并集成在HFS文件体系中。WinFS的元数据被储存在一个数据库中,而Spotlight的索引内容和查找成果也保存在数据库中。Linux也有一个与Spotlight类似的体系,称为Beagle。Beagle利用一个内核中的文件体系事件服务Inotify,为新文件类型供给一个即插即用的基础架构。

集成数据办理与查找尽管语义文件体系在文件的存储和检索方面做了很多优化作业,相关办法也取得了广泛认可,可是其层次化的实质并没有改变,语义文件体系仅仅层次化文件体系的重要补充技能。一种新思维是把文件存储与Web结合起来,Web经过加入链接来传达信息。一般情况下,在Web和超文本文件中,链接能够让运用者从一个文件主动跳转到另一个文件。

链接能够经过语义Web进行扩展。为了使语义Web成为或许,W3C制订了各项标准,为HTML和HTTP在某种程度上的标准化供给一个可行的途径。语义Web标准组分红不同层次,URI和Unicode在底部,XML、名字空间和款式作为自描述文件层在中间,RDF在顶部。RDF为各种使用供给了一个通用的元数据框架。此外,语义Web添加了对内容进行处理的才干,并引入了别的两个概念,即常识导航员和联邦常识或数据库。因而,语义Web或许成为一个容易取得的全能图书馆。假如使文件存储变成Web的一部分,文件的存储和查找或许会产生一次革新。

根据这种思维,咱们正在开发语义网络存储(Semantic Network Storage,SNStor)体系,意图是供给丰富的元数据结构和构建一个在线文件体系。为了处理根据Web的文件存储体系的功用问题,咱们准备选用更快的数据结构--平衡树来取代多种链接列表,还要选用压缩文件,才干完成高效存储。此外,咱们还在研讨运用容错数据结构,以添加存储的可靠性和可用性,如开发一致性检查程序以进步可用性。文件数量的高速添加预示着,市场对高功率文件存储体系的需求会急剧添加。那些能够将数据办理和查找功用集成在一起的文件存储体系,能够进步存储功率,并削减存储成本,一定会遭到用户的热烈欢迎。

 

上海IT外包服务网 链接:http://www.linemore.com

>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部