基于云计算的地质大数据挖掘内涵(5)

栏目导航
Navigation

期刊信息
Navigation

刊名：地质科技通报
曾用名：地质科技情报
主办：中国地质大学（武汉）
主管：中华人民共和国教育部
ISSN：1000-7849
CN：42-1904/P
语言：中文
周期：双月
影响因子：0
数据库收录：
文摘杂志;北大核心期刊（1992版）;北大核心期刊（1996版）;北大核心期刊（2000版）;北大核心期刊（2004版）;北大核心期刊（2008版）;北大核心期刊（2011版）;北大核心期刊（2014版）;北大核心期刊（2017版）;化学文摘（网络版）;中国科学引文数据库（2011-2012）;中国科学引文数据库（2013-2014）;中国科学引文数据库（2015-2016）;中国科学引文数据库（2017-2018）;中国科学引文数据库（2019-2020）;日本科学技术振兴机构数据库;文摘与引文数据库;中国科技核心期刊;期刊分类：地质学
期刊热词：
环境地质工程

现在的位置：主页 > 期刊导读 >

来源：地质科技通报 【在线投稿】栏目：期刊导读时间：2020-09-09

【作者】网站采编

【关键词】

【摘要】:SQL应用接近局限性边缘时，可选择NoSQL，对可扩展性及灵活性要求较高时，NoSQL是大数据的最佳选择。结构化数据可以使用关系数据库处理，非结构化数据使

SQL应用接近局限性边缘时，可选择NoSQL，对可扩展性及灵活性要求较高时，NoSQL是大数据的最佳选择。结构化数据可以使用关系数据库处理，非结构化数据使用NoSQL处理，对于结构化数据，采用动态分层技术，依据数据被调用频率的大小，自动将最常用的数据搬到最高层；针对非结构化数据使用内容归档平台，集成结构化数据与非结构化数据到一个单一的动态归档架构中，利用设计好的软件和元数据库规则，给数据加标签并建立不同的维度，实现模糊查询。表1 数据模型分类Table 1 Data model classification数据库数据模型示例优点关系数据库各种关系MySQL,VoltDB,Clustrix高性能、可扩展的OLTP,支持SQL,物化视图,支持事务,编程友好图数据库节点和关系,也可处理键值对Neo4j,AllegroGraph,InfoGrid解决复杂的图问题文档数据库包含了key-value的文档集合MongoDB,CouchDB数据模型自然,编程友好,快速开发,web友好,CRUD对象数据库对象Objectivity,Gemstone复杂对象模型,快速键值访问,键功能访问,以及图数据库的优点BigTable类型数据库列簇,每一行在理论上都是不同的HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduceKey-Value数据库键值对HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduce网格数据库基于空间的架构GigaSpaces,Coherence适于事务处理的高性能和高扩展性数据结构服务字典操作,lists,sets和字符串值Redis与以前的任何数据库不同资料来源：文献[3]2.2地质大数据分布式文件系统技术地质资料非结构化数据的增长较快，分布式文件存储系统可以实现海量地质资料的稳定、高效的存放与读取。采用Sqoop、Flume和Avro等大数据存取工具可以提高存储效率。HBase(Hadoop Database)是基于Hadoop HDFS和Hadoop Zookeeper的分布式存储系统，有很好的扩展性，HBase以表的形式存储数据，使用列存式数据库存储数据，可以单独针对列(族)存储、检索，列可以动态增加，空列不占用内存。HDFS采用Master/Slave架构，由提供元数据服务的NameNode结点及提供存储块的DataNode结点组成。NameNode是中心服务器，在HDFS集群中只有一个，Datanode在集群中一般是一个节点一个，负责管理节点上附带的存储。将地质调查数据原始资料存储在HDFS中，HDFS的数据访问均摊到服务器阵列中每个服务器的多个数据拷贝之上，当系统容量不足时，通过增加Datanode节点的数量，将新的服务器匹配到整体阵列中。同时，在保证不丢失原始地质资料信息量的基础上，利用包含多个逻辑属性组(列族)的表存储知识内容库，将复杂地质调查非结构化数据化“散”为“整”，化“异构”为“同构”，使计算分析更贴近数据表示的本质和发现数据中隐藏的知识。3 地质大数据挖掘地质大数据挖掘基于Hadoop平台，融合多种存储模式及计算模式，随着地质数据结构的复杂化以及数据规模的海量化，地质大数据的挖掘进入云计算时代。云计算[5-7]核心技术包括分布式文件存储、分布式数据库存储、分布式并行计算。目前应用广泛的分布式文件系统有GFS(Google文件系统)、HDFS(Hadoop分布式文件系统)、KFS(Kosmos文件系统)。目前典型的分布式计算框架有：MapReduce、Pregel、Dryad。3.1地质大数据预处理大数据的预处理[8-9]模式随数据的变化而变化，基于Hadoop、传统数据库技术、图并行计算技术、内存计算技术，实时处理半结构化、非结构化数据。同时，利用流式计算技术Flume、Sqoop和嵌入式中间件多级数据处理技术、数据库实时同步、文件传输协议(FTP)同步、socket消息同步等方式，传输迁移数据，同步处理数据流及历史数据，提高实时处理数据的效率。对地球化学数据等结构性数据以统计学中相关性分析方法处理；对地质图像等半结构化数据结合计算机图像处理中的融合、配准等算法进行信息提取等处理；关于地质调查文档大数据，由于地质学领域专业分支较多，每个专业的地质资料格式、组织结构不同，依据不同专业与研究主题的相关性，为每个专业赋以不同的权重，并以不同的动态描述模型表达不同的专业文本资料，为数据格式的转换、数据索引层的构建、利用文本提取工具建立全文索引奠定基础；对地质调查非结构化图件，通过建立基于元数据的动态模型，在统一地质资料标识图名、图号的基础上，按图例的颜色、花纹符号匹配图件

文章来源：《地质科技通报》网址: http://www.dzkjqbzz.cn/qikandaodu/2020/0909/338.html

上一篇：高校地质类专业“矿物岩石学”课程教学内容改
下一篇：航空科技情报研究与服务创新

栏目导航Navigation

期刊信息Navigation