![]() Computer Science and Application 计算机科学与应用, 2012, 2, 251-254 http://dx.doi.org/10.12677/csa.2012.25044 Published Online December 2012 (http://www.hanspub.org/journal/csa.html) The Feasibility Analysis Report of Data Mining Technology in the Secondary Device Status Evaluation Shishuang Wang, Bin Lu, Qingjie Zhou, Jianliang Wei, Mingzhu Yuan, Chengyong Yuan School of Computer Science and Technology, The North China Electric Power University, Baoding Email: chenshuang_1023@163.com Received: Oct. 19th, 2012; revised: Oct. 29th, 2012; accepted: Nov. 13th, 2012 Abstract: Face the characteristics o f power system data that mixed type, poor quality, high requirements, real-time, the extraction and processing of the valid data is becoming imperative research topic. For the state evaluation of the power system secondary equipment, the validity and accuracy of the data is more important, it will directly affect the evalua- tion results of the state evaluation, as well as the formulation of the overhaul plan. In this paper, through the analysis of the problem and inadequacy of basic data processing in existing equipment condition evaluation, and the feature of rough set and neural network algorithm of data mining, put forward a kind of ideas that combine the two algorithms for processing basic data, so as to achieve the purpose of more efficient and more objective for providing effective quantity of state for the state assessment. As there is currently no examples that using data mining technology in the secondary equipment condition evaluation, hope for providing a very good reference value for the research of data mining tech- nology in the secondary device status evaluation in the future. Keywords: Secondary Equipment; State Evaluation; Data Mining; Rough Sets; Neural Network 数据挖掘技术在二次设备状态评价中的可行性分析报告 王师霜,鲁 斌,周庆捷,魏建亮,袁明珠,袁成勇 华北电力大学计算机科学与技术学院,保定 Email: chenshuang_1023@163.com 收稿日期:2012 年10 月19 日;修回日期:2012 年10 月29 日;录用日期:2012 年11 月13 日 摘 要:面对电力系统数据种类混杂、数据质量差、要求高、实时性等特征,有效数据的提取和处理就成为了 势在必行的研究课题。而对于电力系统二次设备的状态评价来说,数据的有效性和准确性更加重要,将直接影 响到状态评价的评价结果以及检修计划的制定。本文通过分析现有对二次设备状态评价基础数据处理的方法存 在的问题和不足,以及数据挖掘算法中粗糙集与神经网络算法的特征,提出了一种将这两种算法结合用于处理 基础数据的思想,从而达到更高效、更客观的为状态评价提供有效状态量的目的。由于目前还没有将数据挖掘 技术运用于二次设备状态评价中的例子,因此希望能为今后在二次设备状态评价中的数据挖掘技术研究提供很 好的参考价值。 关键词:二次设备;状态评价;数据挖掘;粗糙集;神经网络 1. 引言 随着国民经济的不断发展,电网规模的不断扩 大,输变电设备在数量、质量上的迅速提升,以及用 户对供电可靠性要求的逐步提高,原先的周期性定 检,容易引起设备过度检修或检修不当,造成装置损 坏和拒动、误动,对电网安全带来了极大的影响,检 修工作量剧增和人员不足矛盾也日益突出,难以适应 精益化管理和电网发展的需要。为此国家电网公司提 Copyright © 2012 Hanspub 251 ![]() 数据挖掘技术在二次设备状态评价中的可行性分析报告 出了供电设备的状态检修,并制定了部分设备的状态 检修标准及评价导则。 为了做好二次设备状态检修工作,真正达到“应 修必修,修必修好”的目的,就必须规范和处理好状 态检修工作中的各个环节。二次设备状态检修的流程 主要包括以下几个环节:数据采集数据处理→对状态 量进行状态评价→检修计划制定→审核并实施检修。 可以看出,要想制定出合理的检修计划,就必须得出 正确的状态评价结果,而状态评价过程的第一步就到 数据采集及处理。因此,数据的采集和处理过程就显 得尤为重要。在现有二次设备状态检修系统中,状态 评价模块中状态量的确定是根据以往经验对基础数 据的分析判断人为敲定的,费时费力,当状态量信息 不够充分的时候,还需要以往经验人为的增加较为合 理的数据以确保最终评价结果的准确性,以上这些势 必会造成人为因素对结果的影响过大,降低了结果的 准确性。因此,急需寻求一种合理的数据处理方法来 弥补现有方法的不足,从而得到更加准确的状态评价 信息,提高状态检修的可靠性。 2. 数据挖掘算法在国内的应用现状 数据挖掘(Data Mining)是从大量数据中发现潜在 规律、提取有用知识的方法与技术[1]。因为与数据库 密切相关,因此又被成为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据库知识发现是在 1989年8月于美国底特律市举行的第十一届国际人工 智能会议上正式形成的。目前,KDD 国际研讨会的研 究重点逐渐从发现方法等理论研究转向系统应用研 究,注重多种发展策略和技术的集成,以及多种学科 之间的相互渗透[2]。近年来,数据挖掘技术在国内也 更加被重视、进行了进一步研究和实际应用。 目前,国内的数据挖掘技术应用主要集中在当前 数据挖掘应用主要集中在电信(客户分析)、农业(行业 数据预测)、零售(销售预测)、网络日志(网页定制)、 电力、银行(客户欺诈)、生 物 (基因)、天 体 (星体分类)、 医药、化工等方面[3]。它能解决的问题主要在于:数 据库营销(Database Marketing)、客户群体划分 (Customer Segmentation & Classification)、背景分析 (Profile Analysis)、交叉销售(Cross-Selling)等市场分析 行为,以及客户流失性分析(Churn Analysis)、客户信 用记分(Credit Scoring)、欺诈发现(Fraud Detection)等 等,并且在许多领域都得到了成功的应用。 然而,看似其涉及的领域非常广泛,但实际应用 的普及度还远远不够。就电力行业来说,数据挖掘技 术在作为现代化生产主力的工业部门的应用并不多, 只在电力部门火力发电方面有一些系统的应用,其他 领域只是少数零散的应用。图 1是数据挖掘在电力系 统方面应用的示意图。 通过这个图可以看出,对于电力系统这样一个数 据信息非常繁多复杂的、地域涉及非常广的系统来 说,数据挖掘技术的应用程度还远远不够。而本文所 要探讨的是其在二次设备状态评价中对基础数据处 理方面的一个应用。 3. 粗糙集及神经网络概述 粗糙集和神经网络是数据挖掘领域中最常用的 两种技术。本文所提到的方法就是将这两种技术有效 融合于二次设备状态评价的基础数据处理过程中,希 望通过这个方法更高效、更可靠的把基础数据处理成 状态评价所需要的状态量。 3.1. 粗糙集理论 粗糙集理论,是继概率论、模糊集、证据理论之 后的又一个处理不确定性的数学工具。它是由波兰数 学家 Z. Pawlak[4]在1982 年提出的。粗集理论与其他 处理不确定和不精确问题理论的最显著的区别是:它 无需提供问题所需处理的数据集合之外的任何先验 信息,所以对问题的不确定性的描述或处理可以说是 比较客观的。粗糙集可以实现对信息系统的知识约 简,去除冗余的信息,减少输入信息的空间维度,提 高处理效率。粗糙集理论有着许多显著的优点: Figure 1. Application of data mining in power system 图1. 数据挖掘在电力系统中的应用 Copyright © 2012 Hanspub 252 ![]() 数据挖掘技术在二次设备状态评价中的可行性分析报告 1) 粗糙集理论有一整套处理数据分类问题的数 学方法,当数据不确定、不完整和不精确的时候尤为 适用。 2) 基于粗糙集的计算方法非常适合并行处理,适 用于大量计算和编程。 3) 糙集理论和神经网络、模糊逻辑、概率推理、 信度网络、连接计算、遗传算法等一起形成了软计算 方法的基础,为问题的处理提供了鲁棒性强和成本较 低的解决方案。 4) 粗糙集的分析方法无须任何先验知识,仅利用 数据本身提供的信息即可。 5) 粗糙集理论的实用性非常强,具有较强的容错 能力。 6) 粗糙集理论能够发现数据中隐含的模式和关 系,从而对数据进行属性约简,评价数据的重要性, 从数据中产生易于理解的规则。 虽然粗糙集的优点很多,但是也存在一些缺陷和 不足,如抗干扰能力较差,对于噪声较为敏感,在噪 声较大的环境中表现得不尽如人意。 3.2. 神经网络 神经网络是在现代神经生物学研究成果的基础 上发展起来的一种模仿人脑信息处理机制的网络系 统[5]。1943 年McCulloch(心理学家)和Pitts(数理逻辑 学家)发表文章提出了 M-P 模型,提出了神经元的数 学描述和网络的结构方法,标志着神经计算时代的开 始。随后又有人提出了赫布规则、感知器等概念,掀 起了神经网络研究高潮。1986 年由 Rumelhart 和 McCelland 为首的科学家小组[6]提出了一种前项反馈 神经网络—— Back Propagation网络(简称:BP网),它 是一种按误差反向传播算法训练的多层前馈网络。BP 网络能学习和存贮大量的输入–输出模式映射关系, 而无需事前揭示描述这种映射关系的数学方程。它的 学习规则是使用最速下降法,通过反向传播来不断调 整网络的权值和阈值,使网络的误差平方和最小。BP 神经网络模型拓扑结构包括输入层(Input)、隐 层 (Hide Layer)和输出层(Output Layer)。 神经网络的特点就是通过训练和学习产生一个 非线性的映射,模拟人的思维方式,具有很好的自适 应性,可以实现有监督和无监督的学习,并能够对信 息进行并行处理;同时,它具有很好的抑制噪声的能 力。但是神经网络的缺陷是它无法对输入的信息进行 有用性或冗余性的判断,因此不能对输入的信息进行 简化,这使得它在处理空间维数较大的信息时会很困 难和低效。 通过以上对粗糙集和神经网络特征的分析可以 看出,两者在优缺点上具有非常良好的互补性。因此, 将粗糙集作为神经网络的前端处理器,去除冗余信 息,再根据需要设计多层神经网络,对处理过的数据 进行学习和训练,这样得到的结果将更加有效、合理, 更适用于实际工业生产。 4. 数据挖掘技术在二次设备状态评价中 的应用分析 近年来,很多学者采用不同的数学方法尝试建立 发电设备状态评估模型,但是这些方法多数用于一次 设备的状态评价,对于二次设备状态评价来说这一块 还是空白。 现有对二次设备状态评价基础数据的处理主要 是对从现场采集以及其他系统直接或间接获得的基 础数据,通过一定的分析方法和数据处理方式进行的 数据信息的处理过程。通过分析对象原始数据集,根 据评价业务需求进行必要的过滤、换算、组合等数据 的加工和处理过程,使其成为能够反映设备健康状态 的状态量数据,以供设备状态评价使用。数据处理过 程如图 2所示。 在整个的处理过程中,对基础数据进行加工的方 法都存放于方法库中。建立处理方法库是根据状态评 价要求,建立满足现有业务并具有可扩充性和可外挂 的方法库,以供数据过滤、换算、组合等数据加工和 处理过程使用。这些方法主要都是对每一个基础数据 处理判断得到一个分值从而得到信息点数据(例如: 数据处理配置管理 数据获取 数据处理 数据处理 数据预 处理 建立处理方 法库 处理加工 数据 数据处理缓存、归档 嵌套处理 状态量数据 Figure 2. The data processing 图2. 数据处理过程 Copyright © 2012 Hanspub 253 ![]() 数据挖掘技术在二次设备状态评价中的可行性分析报告 Copyright © 2012 Hanspub 254 温度是否符合要求 确定某一状态量 性的重要程度没有通 过科 先进行分 析得 类原始数据的处理算法都不同,需要 编写 所述,综合现有算法的不足之处以及对粗糙 集和 5. 结束语 电力系统的正常运转与对其可靠有效的保护息 息相 参考文献 (References) 模挖掘[J]. 中央民族大学学报 值),然后根据共同 的几个信息点的值得到一个状态量的分值,从而表征 该设备在这一阶段在此状态量上的性能好坏。该处理 方法主要存在以下几点问题: 1) 影响设备运行状态的属 学理论的方式得到认证,采集的某些设备属性或 环境状态属性对设备运行状态影响不大; 2) 每一次处理数据都是对每一条数据 到信息点,再通过处理得到状态量,运算步骤较 多,不能一步到位,并且当数据量很大的时候运算效 率较低; 3) 对于每一 多个算法程序,一旦算法有所改变程序就得相应 变化。 综上 神经网络算法的分析可知,粗糙集与神经网络的 互补性正好弥补了现有算法中存在的种种问题,既能 去除冗余信息提高算法效率,又能通过自学习能力一 步到位的将原始数据转化成所需要的状态量信息,而 且整个过程只需要最初对神经网络进行训练即可,无 需人为干预,无需过多的先验经验即可得到较为客观 的、合理的、准确的结论。因此,基于粗糙集与神经 网络的数据挖掘算法对于二次设备状态评价基础数 据的处理来说是可行的。 关,而对一次设备的保护目前已经做的比较完 善,二次设备保护方面还有很多欠缺的地方。为了保 障二次设备状态检修工作顺利进行,状态评价环节非 常关键。因此,本文通过分析现有的对二次设备状态 评价基础数据处理方法存在的问题,以及粗糙集和神 经网络两种数据挖掘算法的特征,提出了一种把数据 挖掘技术运用到二次设备状态评价中的思想。该方法 不仅能够解决现有方法中存在的不足,还能增强状态 评价结果的客观性和可靠性。在这个信息技术腾飞发 展的时代,作为与人们生活密切相关的庞大的电力系 统来说,数据挖掘技术的引入势必会成为二次设备状 态评价的一个创新点和突破点,也为二次设备状态评 价各类处理方法的改进和研究提供了一个较为合理 的理论依据。 [1] 高宁宁. 基于Excel 的数据建 (自然科学版), 2008, 1: 49-52. [2] 滕广青, 毛英爽. 国外数据挖掘应用研究与发展分析[J]. 统 计5, 12: 68-70. 研究, 200 [3] 数据挖掘技术在零售业领域中的应用[D]. 西南大学, 2007. 邹海. 基于属性重[4] 吴静, 要性的属性约简算法[J]. 计算机应 用与软件, 2010, 2: 255-257. [5] 李旭. 基于改进神经网络的 WEB数据挖掘研究[J]. 计算机仿 6: 99-102. 真, 2008, [6] 任国华, 白建云, 邵加晓, 侯鹏飞. BP神经网络在直接空冷 统中 应用[J] 电系 的. 站系统工程, 2011, 6: 16-18. |