期刊信息
Navigation

刊名:地质科技通报
曾用名:地质科技情报
主办:中国地质大学(武汉)
主管:中华人民共和国教育部
ISSN:1000-7849
CN:42-1904/P
语言:中文
周期:双月
影响因子:0
数据库收录:
文摘杂志;北大核心期刊(1992版);北大核心期刊(1996版);北大核心期刊(2000版);北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2014版);北大核心期刊(2017版);化学文摘(网络版);中国科学引文数据库(2011-2012);中国科学引文数据库(2013-2014);中国科学引文数据库(2015-2016);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);日本科学技术振兴机构数据库;文摘与引文数据库;中国科技核心期刊;期刊分类:地质学
期刊热词:
环境地质工程

现在的位置:主页 > 期刊导读 >

基于云计算的地质大数据挖掘内涵(5)

来源:地质科技通报 【在线投稿】 栏目:期刊导读 时间:2020-09-09

【作者】网站采编

【关键词】

【摘要】:SQL应用接近局限性边缘时,可选择NoSQL,对可扩展性及灵活性要求较高时,NoSQL是大数据的最佳选择。结构化数据可以使用关系数据库处理,非结构化数据使

SQL应用接近局限性边缘时,可选择NoSQL,对可扩展性及灵活性要求较高时,NoSQL是大数据的最佳选择。结构化数据可以使用关系数据库处理,非结构化数据使用NoSQL处理,对于结构化数据,采用动态分层技术,依据数据被调用频率的大小,自动将最常用的数据搬到最高层;针对非结构化数据使用内容归档平台,集成结构化数据与非结构化数据到一个单一的动态归档架构中,利用设计好的软件和元数据库规则,给数据加标签并建立不同的维度,实现模糊查询。表1 数据模型分类Table 1 Data model classification数据库数据模型示例优点关系数据库各种关系MySQL,VoltDB,Clustrix高性能、可扩展的OLTP,支持SQL,物化视图,支持事务,编程友好图数据库节点和关系,也可处理键值对Neo4j,AllegroGraph,InfoGrid解决复杂的图问题文档数据库包含了key-value的文档集合MongoDB,CouchDB数据模型自然,编程友好,快速开发,web友好,CRUD对象数据库对象Objectivity,Gemstone复杂对象模型,快速键值访问,键功能访问,以及图数据库的优点BigTable类型数据库列簇,每一行在理论上都是不同的HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduceKey-Value数据库键值对HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduce网格数据库基于空间的架构GigaSpaces,Coherence适于事务处理的高性能和高扩展性数据结构服务字典操作,lists,sets和字符串值Redis与以前的任何数据库不同资料来源:文献[3]2.2地质大数据分布式文件系统技术地质资料非结构化数据的增长较快,分布式文件存储系统可以实现海量地质资料的稳定、高效的存放与读取。采用Sqoop、Flume和Avro等大数据存取工具可以提高存储效率。HBase(Hadoop Database)是基于Hadoop HDFS和Hadoop Zookeeper的分布式存储系统,有很好的扩展性,HBase以表的形式存储数据,使用列存式数据库存储数据,可以单独针对列(族)存储、检索,列可以动态增加,空列不占用内存。HDFS采用Master/Slave架构,由提供元数据服务的NameNode结点及提供存储块的DataNode结点组成。NameNode是中心服务器,在HDFS集群中只有一个,Datanode在集群中一般是一个节点一个,负责管理节点上附带的存储。将地质调查数据原始资料存储在HDFS中,HDFS的数据访问均摊到服务器阵列中每个服务器的多个数据拷贝之上,当系统容量不足时,通过增加Datanode节点的数量,将新的服务器匹配到整体阵列中。同时,在保证不丢失原始地质资料信息量的基础上,利用包含多个逻辑属性组(列族)的表存储知识内容库,将复杂地质调查非结构化数据化“散”为“整”,化“异构”为“同构”,使计算分析更贴近数据表示的本质和发现数据中隐藏的知识。3 地质大数据挖掘地质大数据挖掘基于Hadoop平台,融合多种存储模式及计算模式,随着地质数据结构的复杂化以及数据规模的海量化,地质大数据的挖掘进入云计算时代。云计算[5-7]核心技术包括分布式文件存储、分布式数据库存储、分布式并行计算。目前应用广泛的分布式文件系统有GFS(Google文件系统)、HDFS(Hadoop分布式文件系统)、KFS(Kosmos文件系统)。目前典型的分布式计算框架有:MapReduce、Pregel、Dryad。3.1地质大数据预处理大数据的预处理[8-9]模式随数据的变化而变化,基于Hadoop、传统数据库技术、图并行计算技术、内存计算技术,实时处理半结构化、非结构化数据。同时,利用流式计算技术Flume、Sqoop和嵌入式中间件多级数据处理技术、数据库实时同步、文件传输协议(FTP)同步、socket消息同步等方式,传输迁移数据,同步处理数据流及历史数据,提高实时处理数据的效率。对地球化学数据等结构性数据以统计学中相关性分析方法处理;对地质图像等半结构化数据结合计算机图像处理中的融合、配准等算法进行信息提取等处理;关于地质调查文档大数据,由于地质学领域专业分支较多,每个专业的地质资料格式、组织结构不同,依据不同专业与研究主题的相关性,为每个专业赋以不同的权重,并以不同的动态描述模型表达不同的专业文本资料,为数据格式的转换、数据索引层的构建、利用文本提取工具建立全文索引奠定基础;对地质调查非结构化图件,通过建立基于元数据的动态模型,在统一地质资料标识图名、图号的基础上,按图例的颜色、花纹符号匹配图件

文章来源:《地质科技通报》 网址: http://www.dzkjqbzz.cn/qikandaodu/2020/0909/338.html


上一篇:高校地质类专业“矿物岩石学”课程教学内容改
下一篇:航空科技情报研究与服务创新