期刊信息
Navigation

刊名:地质科技通报
曾用名:地质科技情报
主办:中国地质大学(武汉)
主管:中华人民共和国教育部
ISSN:1000-7849
CN:42-1904/P
语言:中文
周期:双月
影响因子:0
数据库收录:
文摘杂志;北大核心期刊(1992版);北大核心期刊(1996版);北大核心期刊(2000版);北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2014版);北大核心期刊(2017版);化学文摘(网络版);中国科学引文数据库(2011-2012);中国科学引文数据库(2013-2014);中国科学引文数据库(2015-2016);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);日本科学技术振兴机构数据库;文摘与引文数据库;中国科技核心期刊;期刊分类:地质学
期刊热词:
环境地质工程

现在的位置:主页 > 期刊导读 >

基于云计算的地质大数据挖掘内涵(2)

来源:地质科技通报 【在线投稿】 栏目:期刊导读 时间:2020-09-09

【作者】网站采编

【关键词】

【摘要】:个,负责管理节点上附带的存储。 将地质调查数据原始资料存储在HDFS中,HDFS的数据访问均摊到服务器阵列中每个服务器的多个数据拷贝之上,当系统容量

个,负责管理节点上附带的存储。 将地质调查数据原始资料存储在HDFS中,HDFS的数据访问均摊到服务器阵列中每个服务器的多个数据拷贝之上,当系统容量不足时,通过增加Datanode节点的数量,将新的服务器匹配到整体阵列中。同时,在保证不丢失原始地质资料信息量的基础上,利用包含多个逻辑属性组(列族)的表存储知识内容库,将复杂地质调查非结构化数据化“散”为“整”,化“异构”为“同构”,使计算分析更贴近数据表示的本质和发现数据中隐藏的知识。 3 地质大数据挖掘 地质大数据挖掘基于Hadoop平台,融合多种存储模式及计算模式,随着地质数据结构的复杂化以及数据规模的海量化,地质大数据的挖掘进入云计算时代。云计算[5-7]核心技术包括分布式文件存储、分布式数据库存储、分布式并行计算。目前应用广泛的分布式文件系统有GFS(Google文件系统)、HDFS(Hadoop分布式文件系统)、KFS(Kosmos文件系统)。目前典型的分布式计算框架有:MapReduce、Pregel、Dryad。 3.1地质大数据预处理 大数据的预处理[8-9]模式随数据的变化而变化,基于Hadoop、传统数据库技术、图并行计算技术、内存计算技术,实时处理半结构化、非结构化数据。同时,利用流式计算技术Flume、Sqoop和嵌入式中间件多级数据处理技术、数据库实时同步、文件传输协议(FTP)同步、socket消息同步等方式,传输迁移数据,同步处理数据流及历史数据,提高实时处理数据的效率。 对地球化学数据等结构性数据以统计学中相关性分析方法处理;对地质图像等半结构化数据结合计算机图像处理中的融合、配准等算法进行信息提取等处理;关于地质调查文档大数据,由于地质学领域专业分支较多,每个专业的地质资料格式、组织结构不同,依据不同专业与研究主题的相关性,为每个专业赋以不同的权重,并以不同的动态描述模型表达不同的专业文本资料,为数据格式的转换、数据索引层的构建、利用文本提取工具建立全文索引奠定基础;对地质调查非结构化图件,通过建立基于元数据的动态模型,在统一地质资料标识图名、图号的基础上,按图例的颜色、花纹符号匹配图件,并依图例分图层。用大数据技术并行实时处理地质图件、附图、插图及表格。 3.2地质大数据分析 针对海量地质数据排序、查询等分布式计算问题,对地质大数据采取并行计算技术,包括离线并行计算技术、分布式资源管理技术、内存计算技术等,将整个任务分成若干子任务,在保证计算过程中足够的中间数据容错的基础上,由不同的节点完成,并整合子任务产生的中间结果,生成整个任务的最终查询结果,实现海量地质数据的分布式高性能计算和自动并行化。包括面向数据流滑动窗口的概率维度索引、基于Hadoop的Mahout挖掘模块[10-12],HiveQL、Pig Latin等大数据挖掘查询语言等。 3.3基于云计算的地质大数据挖掘 基于Hadoop的地质大数据挖掘分为数据源、大数据挖掘平台、用户层3层。在大数据挖掘平台,利用Sqoop、Flume或Avro等流式计算工具实时的将附图、附表、附件单独存储,主文件按章节存储在HBase中,并对HBase中的存储内容建立索引至分布式内存对象缓存系统Memcached或Redis中,这样大大减少了读写数据库的次数,提高了效率。利用地质领域本体库和全文搜索框架Lucence分词处理地质文档,利用数据挖掘库Mahout实现数据挖掘(图1)。 4 地质大数据可视化 大数据可视化是人们理解半结构化、非结构化问题的关系和模型的最佳手段,因此,我们总用图件表达地质矿产研究以及勘查成果。地质大数据可视化技术在工程地质勘查、矿产资源勘查、矿山设计开发、地质灾害勘查治理、水利水电工程设计以及国防工程建设领域有广泛的应用前景。地质大数据可视化的关键技术包括合理的数据结构、地质大数据的存储和快速调度、数字化快速建摸技术、数字地质体的快速动态更新技术、快速自由矢量剪切技术、快速动态建模技术以及多样化空间分析技术。地质三维建模是一种较好的可视化方式,从高维的、不确定的、多源异构的地质数据中抽取有效特征,实现地质体、地质过程的建模,挖掘地质大数据中潜在的地质规律及异常等知识,指导地质找矿、支持政府决策等,其本质也是知识发现[13]。复杂地质结构表达、地质体快速动态建模方法仍是未来地质大数据可视化的研究重点,进一步研究知识驱动以及本体论,将是解决这些问题的有效办法。 5 地质大数据处理流程 地质学与地球科学面临的问题息息相关,长期积累的各类地质数据以及互联网所能收集的大量数字国土资源相关数据(包括传统意义上认为不是“数据”的信息数据),构成了地质大数据的总体。地质大数据的发现、梳理、平台、分析和服务是本研究领域的主要内容。通过数据发现模块,定位及更新局域网数据

文章来源:《地质科技通报》 网址: http://www.dzkjqbzz.cn/qikandaodu/2020/0909/338.html


上一篇:高校地质类专业“矿物岩石学”课程教学内容改
下一篇:航空科技情报研究与服务创新