大数据技术中计算与数据的协作机制
摘 要:我们现今正处于大数据时代当中,同高性能计算系统相似,大数据系统在数据储存以及计算方面一般为基于机群实现的。为了能够在大数据环境中使数据能够同计算间获得更好的协调,在文章中,将就大数据技术中计算与数据的协作机制进行一定的研究。
关键词:大数据技术;计算与数据;协作机制
引言
在现今信息技术发展中,数据同计算可以说是信息技术发展过程中的两个重要主题,在这两个主题的基础上,信息技术也逐渐出现了大数据技术概念。从严格意义来说,所谓大数据技术,即是针对于海量数据的分析、存储以及发布技术。对于这部分海量数据来说,我们很难直接对其进行应用,在获得数据之后,需要在经过一定处理后才能够获得有用的数据,如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制,则成为了目前非常重要的一项问题。
1 计算同数据协作机制对比
对于面对数据系统来说,其一般为分布式系统类型,即通过将计算向数据进行迁移对系统中数据传递代价进行降低,可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算,实现数据的定位可以说是一项重要的前提,而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此,要想对数据同计算间的科学协作进行实现,就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中,需要对数据冗余、节点失效以及备份等问题进行解决,就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中,数据同计算的一致性可以说是研究重点,需要首先从该方面进行讨论与解决。
1.1 位置一致性映射模型
对于分布式系统中数据同计算的一致性问题,我们可以将其理解为将两者在同一节点位置映射,即在数据存储区域发起计算。以网格计算系统为例,其到达客户节点的数据是计算先于数据,并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说,就是先将数据存储到系统的一个节点当中,当系统发起计算时,再对元数据进行查询后对数据存储位置进行获得,并将计算任务映射到节点当中进行处理。根据此种情况,我们可以将计算同数据间的映射比作是数据到节点的映射过程,在该过程中,数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中,而到该节点失效时,数据片则会按照相应的规则进行数据备份以及迁移,并重新按照规则实现到节点的对应。
在上述模型中,我们可以