期刊信息
Navigation

刊名:地质科技通报
曾用名:地质科技情报
主办:中国地质大学(武汉)
主管:中华人民共和国教育部
ISSN:1000-7849
CN:42-1904/P
语言:中文
周期:双月
影响因子:0
数据库收录:
文摘杂志;北大核心期刊(1992版);北大核心期刊(1996版);北大核心期刊(2000版);北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2014版);北大核心期刊(2017版);化学文摘(网络版);中国科学引文数据库(2011-2012);中国科学引文数据库(2013-2014);中国科学引文数据库(2015-2016);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);日本科学技术振兴机构数据库;文摘与引文数据库;中国科技核心期刊;期刊分类:地质学
期刊热词:
环境地质工程

现在的位置:主页 > 期刊导读 >

基于数据挖掘的科技情报采集分析平台设计与实(2)

来源:地质科技通报 【在线投稿】 栏目:期刊导读 时间:2020-10-04

【作者】网站采编

【关键词】

【摘要】:数据清洗环节用于对本地非结构化数据库的文件去重、文字提取、文本分词、去停止词、结构化等预处理功能。文件去重通过比对文件的URL链接、HD5值等属

数据清洗环节用于对本地非结构化数据库的文件去重、文字提取、文本分词、去停止词、结构化等预处理功能。文件去重通过比对文件的URL链接、HD5值等属性值实现。文字提取是将多媒体文件转换为文本文件,即对pdf、word、html、jpg等文件中的光学字符而非文本字符通过标签结构提取、光学字符识别(OCR)等方法提取为txt文本,对音频文件进行语音识别得到txt文本,对视频文件进行帧提取后将字幕和音频提取转化为txt文本。文本分词是对文本进行n-gram分词,并依据系统内设的常用停止词库或自定义停止词库去除停止词,得到向量文件。经过数据采集和数据清洗,系统实现对原始数据的结构化向量获取。数据采集和清洗流程如图2所示。

图2 数据采集和清洗流程图

2.2智能分类

智能分类环节用于对自动清洗后的结构化向量数据做面向不同主题的分类预测,将无序、无主题的数据库依据用户关注而变得有序,是平台的核心部分。为实现较好的分类预测性能,本文提出综合运用专家规则和机器学习两种模式共同组成智能分类引擎。专家规则分类的本质是正则运算,即由专家依据行业经验或统计结果设定显式规则,对于每一个情报主题分类及其下设的子类,通过前台操作定义该主题下的基本关键词库,利用与或非布尔逻辑和词集/词袋模型对分类规则进行明确配置,后台会根据此规则自动生成正则分类器,即专家规则分类器。机器学习分类,是依据用户提供的机器学习样本,基于某一种或几种机器学习算法(包括朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等),由后台自动训练,生成分类器代码,即为机器学习分类器。智能分类流程如图3所示。在本文中基于Java开源机器学习库WEKA实现机器学习分类功能。

图3 智能分类流程图

配置后的分类器能够依据测试样本给出性能评估,包括分类速度、准确率、召回率等。在生成分类器后,当用户需要启动分类任务时,可以设定条件(包括来源网站、发布时间、文件大小、文件类型等),筛选针对的文件和面向的主题。不被选择的文件和主题不会被执行分类任务,将保留历史分类结果不变。在执行分类任务后,平台还基于分类器计算结果为用户提供分类后的轻量级条件筛选,如依据分类预测概率阈值筛选、依据词频阈值筛选等。此外,平台支持专家规则和机器学习两种分类方法的交互:一方面,专家规则分类的结果可以通过用户在前台标记后成为机器学习分类的训练样本;另一方面,机器学习分类的结果中包含了此类别的词频统计,可辅助用户制定新的专家规则。 通过智能分类环节,用户能够得到一个符合用户兴趣、且主题有序的定制化科技情报数据库。

2.3数据呈现和汇编

情报呈现环节是应用接口之一,提供已分类数据库的操作接口,它与前述智能分类模块自动关联,根据用户在智能分类模块中定义的类别,对分类后的情报做有序呈现,支持条件排序,并提供浏览放大、批量下载、摘要提取、情报推送、人工标记等用户操作。批量下载功能可以使用条件检索,对分类后的情报资料做定制化的下载;摘要提取功能基于混合提取算法(包括模板提取算法、关键句段算法、开源提取工具等),对情报原文的主要内容做提炼;情报推送功能支持自动或人工推送邮箱、短信、微信,用户可以设定当有新的情报进入某分类时推送给预设的用户地址,也可以人工选定将哪些情报推送给用户;人工标记功能用于情报专家对分类后的结果做人工校准,平台可以依据人工校准的结果优化分类器参数,改进分类性能。

汇编报告模块用于按照应用层前台设定的主题和模板,自动生成某个主题的科技情报汇编报告。报告的主题、结构、格式、内容可由用户在前台自定义设置,颗粒度可以细化到各段落。段落内容的定义,既可以采用明确的专家规则,当分类情报数据库中有情报文本匹配该规则逻辑时,该条情报文本将被汇编;又可以采用机器学习,用户给出每段报告的例文,由平台学习例文并从情报数据库中判断匹配的情报文本后填入汇编报告。后台将自动按照前台配置生成报告引擎,该报告引擎基于已分类数据库,匹配规则、填充内容,生成定制化的科技信息汇编报告。

2.4系统管理和常用工具

系统管理模块用于对平台的账号权限、组织机构、硬软件资源、其他全局变量进行管理。其中账号管理功能用于设置不同用户的基本账号信息,以及该用户对平台的使用权限;组织机构管理功能用于设定账户所属的单位和部门信息,并通过设定不同的数据库源实现机构之间的数据隔离控制;硬软件资源管理功能用于监视和配置各个账号、各个机构允许使用平台的线程数量,及占用平台的处理器百分比、硬盘存储空间、网络带宽大小、代理IP数量等,便于系统维护和资费管理;其他全局变量还包括菜单管理,以及各个模块默认分配的线程数量、代理IP地址、访问限制、默认推送地址等。


文章来源:《地质科技通报》 网址: http://www.dzkjqbzz.cn/qikandaodu/2020/1004/404.html


上一篇:基于人工智能的科技情报需求自动感知研究<sup
下一篇:企业创新驱动下的科技情报服务模式研究<sup>①