摘要:智能电网是一个完整的自动化系统,现有的电网系统中嵌入了大量传感器,利用现代信息技术对其进行控制和监控。从这些传感器收集的数据量非常庞大,具备了大数据的所有特征,因此提出采用大数据手段对智能电网的电力数据进行处理、分析,从而使智能电网更加智能化。本文以Apache spark作为一个统一的集群计算平台,用于智能电网电力数据存储以及数据分析阶段,为电力企业、终端用户提供准确、实时的数据支持。
关键词:智能电网; 传感器; 电力大数据;Apache spark;
Smart Grid Power Big Data Analysis Technology Based on Cloud Computing
CHEN Qing-ming XU Huan YE Pei-shan
Southern Power Grid Media Co., Ltd. China Southern Power Grid Co., Ltd.
Abstract:Smart grid is a complete automation system. A large number of sensors are embedded in the existing grid system, which is controlled and monitored by modern information technology. The amount of data collected from these sensors is very large, and it has all the characteristics of big data. Therefore, it is proposed to use big data means to process and analyze the power data of the smart grid, so that the smart grid is more intelligent. This paper uses Apache spark as a unified cluster computing platform for smart grid power data storage and data analysis, providing accurate and real-time data support for power companies and end users.
1 引言
随着信息和通信系统新兴技术的不断发展,当今的电网运行正逐渐演变成以传感器嵌入式的网络(即智能电网),它能够控制电网运行的整个过程。各种类型的传感器部署在智能电网运行的各处,所有这些传感器产生不同类型的数据(异构数据),然后在电网专用数据中心进行数据的采集。造成在数据管理存在数据量大、数据类型繁杂等情况,按照传统的数据处理模式无法满足。因此提出采用大数据手段,对所收集的数据进行分析,以挖掘隐藏在大数据中并可用于制定战略、战术及运营决策的数据支撑,该过程的关键在于数据挖掘,常用的数据挖掘方法如下:
◆模式匹配和关联规则:涉及学习数据中经常出现的趋势,以便为将来的决策制定规则。模式匹配算法包括Eclat,FP-Tree等。
◆分类:一种监督机器学习方法,其中数据分为训练和测试集。然后,使用训练集来训练分类器模型,以预测给定测试数据的类标签。一些最广泛使用的分类算法是决策树,K-最近邻(K-NN),支持向量机(SVM)和朴素贝叶斯等。
◆聚类:这是一个无监督的学习过程。聚类的目标是将数据集中的数据点一起分为多个组,具体取决于其在更高维空间中的分布。集群数量的选择取决于数据和问题定义。一些最常用的聚类算法是k-均值,期望最大化和层次聚类。
◆回归:使用给定数据识别独立变量和因变量之间的关系模型的过程。然后,该模型用于预测即将到来的独立变量的值。这是一种有监督的机器学习方法。一些广泛使用的回归算法,包括Logistic回归,支持向量回归(SVR)和Gauss-Newton算法。
本文详细介绍了Apache Spark在大数据分析中的作用,主要从电网中各数据源、相关的数据处理技术以及在电网中的应用,并且以电网价格为应用背景,提出了统一处理应用的数据平台。
2 智能电网数据流分析
智能电网目前已成为数据科学家的一个有趣的研究领域。智能电网数据大致分为发电数据、传输/分配数据和消费者数据。以数据为中心的传感器网络视图和智能电网中的数据分布如图1所示。可以对这些数据进行大量数据分析,使智能电网更加智能化。
图1 智能电网数据分布图
(1)面向发电的数据
在发电厂中,发电方式不同,如水,煤,潮汐,风,核等.Swartz等。文献[1]中提出了一种利用无线传感器和行动者网络,可以在风电场上无缝地进行数据采集,如可提取有关风力涡轮机动态状态行为的数据。Li等人[2]提到了一种使用关联规则挖掘的煤电厂故障分析和诊断系统。通过对发电厂运行负荷的预测提供了技术手段,为未来的需求做好规划,该方法这有助为公用事业行业每年节省数百万美元。
(2)输电配电数据
通常,分布式控制系统(distributed control system,DCS)和监督控制和数据采集(supervisory control and data acquisition,SCADA)是用于输电和配电的专有控制和监测系统。近年来,已经征对电网输配电开发了许多电网监测技术,部分采集手段介绍如下:
◆电网监控系统:使用GPS(全球定位系统)的相量测量单元(Phasor Measurement Unit,PMU)测量来自所选电网位置的电压和电流的自发幅度。然后将其传输到具有时间戳的服务器,该系统开辟了电力系统的全域和动态视角。
◆反向散射无线电:为传输和分配组件失败的注意事项提供改进的数据。
从这些源收集的数据可用于分析电力系统状态估计,电力系统状态估计用于确保电网运行的稳定性并防止停电。文献[3]中利用加权最小二乘法计算电力系统状态预测,当网络的某些部分与网格分离时,将发生孤岛化,并且此类事件可能导致网格(电网)中的稳定性问题。文献[4]中使用SQL Server和OLAP开发了电能质量数据分析框架。在电力系统中,电网故障识别、故障原因识别是确保电网正常工作的核心问题。
(3)功耗数据
分布式电力将对来自各个区域的用户的消费进行分析,例如住宅(个人住宅和公寓),商业(例如:保险),工业(例如:工厂),运输(铁路),紧急服务(例如:医院)和政府公共服务,以上通过在服务对象端配备智能电表,以规则的时间间隔感测并向服务提供商通报利用数据。这些数据有两种类型,分解数据(分解单个定向电路中每个组件或众多组件的数据)或聚合数据(所有设备的集合数据)。这些数据首先在数据集中器处汇总,然后将其传输到云端处理。
对于巨大的经济和工业消费者而言,负荷预测在优化电力消耗以促进其未来发展方面发挥着重要作用。文献[5]比较了大规模工业和公寓负荷预测的流行数据挖掘方法的效率,客户分析有助于他们的行为预测和提供满足其要求的动态定价。
以上所讨论列出的各种各样的应用,其可以通过利用从电网产生的数据,应用各种机器学习技术来执行。随着数据变为“大数据”,存储和处理成为关键问题,这需要设计统一的智能电网数据处理框架,可提供智能电网数据处理分析所需的数据和处理能力。
3 智能电网上的大数据分析
根据电网生成和使用系统的传感器和运行数据,大数据分析和机器学习的性能是精确的。为了实现这一点,系统需要灵活地近实时地评估所有电力系统和消耗数据的收集。当聚合来自相量监测单元(Phasor Monitoring Units,PMU)、广域测量(WAM)、高级计量基础设施系统、基于IP的设备等系统的所有用电数据和运营网格系统数据时,数据集往往容易达到P字节比例范围,然后这些数据集将增加到每天数百GB的大小。因此采用大数据分析平台满足海量电力数据的处理要求,大数据分析中使用的主要处理技术类型是批处理,流处理和迭代处理。
3.1 批量处理
本文采用Hadoop Map-Reduce数据处理模型,通过将非常大的数据集分成许多小集合进行处理,计算在所有这些微小的数据单元上并行完成。例如,可以使用Map-Reduce作业来获得所有智能仪表中的最小读数,“地图”任务的每个实例都会获取一小部分智能仪表读数,并在其中找到最小值。这些较小的结果通过减速器工作“减少”到总体最小值。Map-Reduce可用于计算客户使用情况分析,因此,Map-Reduce专门用于定期批处理,但不适合频繁重新处理大量动态数据集。它不能用于实时传感器数据和流数据处理,因此,该模型不适用于许多智能电网实时分析流程,如需求响应、短期负荷预测、AMI(高级计量基础设施)运营、实时使用和定价分析、实时客户分析、在线网格控制和监控等领域。
除了传统的批处理技术(Map-Reduce)之外,无法执行在线和流数据分析是Apache Hadoop的主要缺点。Apache Hadoop提供的一组机器学习算法也不足以满足智能电网数据分析的要求,因此,Apache Hadoop不是智能电网系统上大数据分析的合适选择。Apache Spark[6]是另一个通用集群计算平台,它提供灵活性、可扩展性和实时性,以应对智能电网中大数据的挑战。除了通常的批处理之外,Apache spark还具有执行迭代和流处理的能力,Apache spark拥有更多有效的机器学习算法和增强的线性代数库。
3.2 流处理
流处理涉及在每个新数据实例上调用依赖逻辑,而不是等待下一批数据重新处理所有内容。在Apache Spark中,使用流处理而不是批处理来进行更多分析。这避免了不必要的重复处理数据,与批处理相比,流处理可提供及时且更准确的结果。此模型使Apache Spark能够使用动态行为对数据执行分析,当数据从众多数据源实时连续传输时,该机制的重要性可显而知。
例如,为了监测和预测整个电网的稳定性,使用PMU数据,需要计算并跟踪电网的稳定性指标。稳定性指标必须在没有任何延迟的情况下从PMU的可用数据计算,这些数据是实时安装在网格上的。这可以保护网格的潜在威胁,如孤岛,停电等。这使得流处理非常有用,可解决智能电网应用过程中存在的如实时定价、实时盗窃识别和电网网络安全相关问题[7]。
3.3 迭代处理
除了批处理和流处理方法之外,还存在许多大数据分析问题,这些问题不属于这些技术的范围,迭代处理是用于解决此类问题的另一类处理方法。迭代处理的主要特征是频繁处理各种数据类型。通常,迭代处理是耗时的,这是由于频繁的进行读取和写入操作(每次迭代),这涉及更多的I/O传输。Apache Spark是当前用于迭代处理的领先框架。它具有在群集中处理和保存内存中数据的能力,将数据加载到框架后,只有在完成所有迭代过程后才会写回数据[8]。这确保Apache Spark比Map Reduce框架快10倍至100倍。
4 Apache Spark在智能电网的实际应用介绍
在输电和配电中,诸如DCS、SCADA之类的系统适当用于控制和监控,电力系统本质上是非线性动态的,并且可以在几毫秒内发生干扰。传统的监控和测量基础设施能够在4-6秒内检测数据,无需任何时间同步,使用SCADA数据进行实时处理可能会导致错误的估算。
需要分析能够以更快的速率捕获实时网格信息的系统的功率系统动态并采取控制动作。PMU是一种利用GPS时间戳产生电压和电流信号的同步相量、频率和频率估计变化率的装置。
PMU主要用于测量电压和电流相量、电压和电流序列分量、频率、频率变化率和断路器状态等数据。从PMU传输的数据帧数量从每秒10-60帧不等,这比SCADA系统和部署的交叉传输和分配中心的默认数据速率快得多。PMU的使用是的电网运行数据收集的高速化成为现实,这些数据在相量数据集中器(Phasor Data Concentrators,PDC)中累积,并由能源管理系统进行存储和分析。数据收集和处理之间的微小延迟导致估计的错误,确保了需要平台来更快地处理数据。
图2 Spark系统的体系结构
同时,来自所有PMU的同步数据可以准确查看整个电力系统,可以对所收集的数据执行大数据分析,以获得有关系统状态,电网稳定性等的信息。PMU数据的实时处理有助于识别电网中任何类型的干扰存在,并且可以进一步采取行动。
Apache spark为处理PMU数据提供了数据处理平台,没有太多延迟,无法准确查看网格。PDC以分层结构排列,以收集来自PMU和其他PDC的相量数据、离散事件数据等。因此,每个阶段中的PDC可以执行适合于该级别的特定持续时间分析。
本文通过云端的方式搭建了大数据处理平台,并且以XXX区域电网数据进行模型验证,即同步相关网络获取来自不同地点的每小时PMU数据,使用Apache spark cluster对此时间序列数据进行流式分析。如图2所示为Spark系统的体系结构,其中Apache中的数据库用于数据存储。
以上数据库采用适用于时间序列数据管理的最佳NoSQl大数据数据库。Apache Kafka用于向Apache Spark引擎提供窗口化流数据,计算在集群机器上并行完成。
5 结束语
Apache Spark已成为智能电网大数据应用的主流集群计算平台。当今的智能电网实用程序需要广泛的大数据处理方法,像Map-Reduce这样的简单数据处理模式不足以解决智能电网的分析和数据处理要求的复杂性。智能电网的数据分析软件平台应该能够分析缓慢和快速变化的数据,可通过结合批量和实时数据处理技术的组合来完成。本文采用Apache Spark集成平台,可无缝地结合批量、实时和迭代数据处理要求,为电网提供高级分析和机器学习方法。可有效地用于实时价格预测,自动需求响应系统,高峰时间负载均衡,故障识别和在线电网监控等应用领域。
参考文献
[1] SWARTZ R A,LYNCH J P,ZERBST S,et al.Structural monitoring of wind turbines using wireless sensor networks[J].Smart Structures&Systems,2010,6(6):183-196.
[2] LI J Q,WANG S L,NIU C L,et al.Research and Application of Data Mining Technique in Power Plant[C]//International Symposium on Computational Intelligence&Design.IEEE,2008(2):250-253.
[3] CHEN Y,HUANG Z,LIU Y,et al.Computational Challenges for Power System Operation[C]//Hawaii International Conference on System Sciences.IEEE Computer Society,2012:2141-2150.
[4] TYUKILINA P M,MEL’NIKOV,V.N,TYSHCHENKO V A,et al.Use of Multidimensional Data Analysis Method for Developing High-Quality Road Asphalt Production Technology[J].Chemistry and Technology of Fuels and Oils,2015,51(5):444-453.
[5] EDWARDS R E,NEW J,PARKER L E.Predicting future hourly residential electrical consumption:A machine learning case study[J].Energy and Buildings,2012(49):591-603.
[6] ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al.Spark:Cluster Computing with Working Sets[C]//Usenix Conference on Hot Topics in Cloud Computing.2010:10.
[7]吴凯峰,刘万涛,李彦虎,苏伊鹏,肖政,裴旭斌,虎嵩林.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111-116,127.
[8]李亚.智能电网大数据在线分析与决策系统研究[D].北京:华北电力大学,2017.