﻿ 聚类算法在用户电力负荷分类中的应用 Application of Clustering Algorithm in User Power Load Classification

Smart Grid
Vol.08 No.02(2018), Article ID:24636,15 pages
10.12677/SG.2018.82022

Application of Clustering Algorithm in User Power Load Classification

Kangyu Li1, Qing’e Wu1*, Lei Liu2, Hu Chen1, Zhili Hua1

1College of Electric and Information Engineering, Zhengzhou University of Light Industry, Zhengzhou Henan

2School of Building Environment Engineering, Zhengzhou University of Light Industry, Zhengzhou Henan

Received: Apr. 6th, 2018; accepted: Apr. 21st, 2018; published: Apr. 28th, 2018

ABSTRACT

With the advent of electric power system big data era, the power load test data clustering analysis is particularly important; it is the whole electric power system modeling, demand side management, and the foundation of overall planning, etc., to power system security, economy and stable operation is of great significance. The clustering analysis of power load can accurately extract the commonness and difference of load. The load clustering analysis on the user side can extract the user’s electricity usage and power mode, and accurately grasp the user’s power law, thus optimize the power dispatching and regulating the operation of the entire power grid. As the main work of this paper, firstly the complex high-dimensional original sample data are reduced dimensionally, and then the cluster analysis is performed. By comparing the results of several commonly used clustering algorithms, the optimal algorithm is used to classify the user power load attributes.

Keywords:Big Data, User Power Load, Dimensionality Reduction, Clustering Algorithm

1郑州轻工业学院电气信息工程学院，河南 郑州

2郑州轻工业学院建筑环境工程学院，河南 郑州

1. 引言

2. 负荷聚类基础理论

2.1. 聚类分析理论

2.1.1. 定义和过程

(2-1)

(2-2)

(2-3)

2.1.2. 性能要求

1) 可伸缩性。

2) 处理多样化属性值。

3) 可以发现任何簇。

4) 输入参数的限制。

5) 抗噪能力。

6) 处理高维数据的能力。

7) 聚类评价。

2.1.3. 常见聚类算法

2.2. 两种聚类算法

2.2.1. k-means算法

k-means [10] 是一种无监督式学习算法，它是将M个数据集合按照某种特征划分为N个子集的过程。其基本原理如下：首先通过经典的统计学分析方法选取合适的聚类数目K；然后随机地选取K个初始值聚类中心，计算所有数据对象和K个聚类中心的距离，将其划分到就近的类中；接下来分别各个类中所

Figure 1. Common clustering algorithm

k-means算法的优点包括适合发现球状簇，聚类准确高，运行时间快。

2.2.2. DBSCAN算法

DBSCAN [11] 是一种基于密度的聚类算法，是通过观察点的密度来识别不同的类别。一般在密度点比较高的区域会存在一个簇，而在低密度的区域也表示了噪声数据或者数据的离群值，它可以在高密度集群和噪声的数据库中发现任意形状的簇。DBSCAN总共需要两个参数：一个是邻域半径Eps，一个是MinPts，邻域半径的选择决定了聚类结果的好坏，如果邻域设置太大，会将异常值归到类别中，如果邻域设置太小，会将同一个类中的数据对象划分到别的类中。而同样MinPts如果选择太大，会导致样本点比较少的类消失，如果选择太小，就会导致一个类被划分到别的类中。其相关定义如下：

1) 邻域e：给定对象半径e内的区域称为该对象的e邻域。

2) 核心对象：假如给定对象e邻域内的样本点数大于等于MinPts，则称该对象为核心对象。

3) 直接密度可达：给定对象集合D，如果p在q的e邻域内，且q是一个核心对象，则规定对象p从对象q出发是直接密度可达的。

4) 密度可达：对于样本集合D，假如存在对象链，则是从关于e和MinPts直接密度可达，则可以得出对象p是从对象q关于e和MinPts密度可达的。

DBSCAN算法对异常值不敏感，可以发现任意形状的簇，还可以识别出异常噪声点。但是需要设置邻域半径e和MinPts两个参数，其主要的缺点有如下几个方面：

Figure 2. Algorithm flowchart

1) 时间复杂度。DBSCAN的时间复杂度高，在面对高维数据集时显得异常困难。

2) 邻域半径Eps和MinPts的选取。对于在一个类中的所有点，这些点的第k个最近邻大概距离是相同的，所以要保证噪声点的第k个最近邻的距离较远，然后依据每个点和它的第k个最近邻之间的距离来选定。

3) 当空间聚类的密度不均匀时，聚类质量较差。某些簇内距离很小，相反某些些簇内距离很大，但Eps是可以确定的，那么大的点可能被误判为边界点或离群点，如果Eps过大，会导致小距离的簇内含有一部分便捷点或离群点。

2.2.3. 两种算法比较

3. 用户负荷聚类分析

3.1. 数据相关说明

3.1.1. 数据来源

3.1.2. 数据预处理

1) 异常数据修正

(3-1)

Table 1. Summary and comparison of clustering algorithm performance

Table 2. User voltage level distribution

2) 数据归一化处理

(3-2)

3.2. 经典聚类算法对比

3.2.1. 有效性评价指标

Table 3. Various types of classical clustering algorithms

Figure 3. CHI index curve

Figure 4. SSE index curve

Figure 5. DBI index curve

3.2.2. 常用算法对比

3.3. 样本数据降维

Figure 6. Single, FCM, k-means three algorithms run time required

Figure 7. DBSCAN and EM two algorithms run time required

3.4. 聚类结果分析

3.4.1. 聚类结果

Figure 8. The dimensionless accumulation variogram

Figure 9. User load curve clustering center diagram

3.4.2. 用户负荷构成及用电行为分析

1) 晚高峰型用户

Table 4. The number and proportion of users in each category

Table 5. Users of different power users in each category

Figure 10. Late peak user center load curve

Figure 11. Late peak user clustering center envelope

2) 单峰型用户

Figure 12. Unimodal user center load curve

Figure 13. Unimodal user clustering center envelope

3) 平稳型用户

3.5. 小结

4. 结论

Figure 14. Stationary user center load curve

Figure 15. Stationary user clustering center envelope

2) 在用户电力负荷研究方面，应用聚类分析方法对电力用户的构成进行分析，但是负荷建模以及负荷预测等方面的精确度还有待提升。

3) 负荷聚类算法的改进方面，本质上来讲，聚类算法是一个优化的过程，聚类算法求解的过程是经过多次迭代，所以其全局收敛性不能得到精确的把握；一些算法可能取得的聚类效果较好，但是所需参数会过多，计算时间过长，从而拉低了运算效率，面对实际问题时可用价值不高。

Application of Clustering Algorithm in User Power Load Classification[J]. 智能电网, 2018, 08(02): 189-203. https://doi.org/10.12677/SG.2018.82022

1. 1. 李欣然, 姜学皎, 钱军, 陈辉华, 宋军英, 黄良刚. 基于用户日负荷曲线的用电行业分类与综合方法[J]. 电力系统自动化, 2010, 34(10): 56-61.

2. 2. Zheliznyak, I., Rybchak, Z. and Zavuschak, I. (2017) Analysis of Clustering Algorithms. Advances in Intel-ligent Systems and Computing, Springer International Publishing.

3. 3. Wang, X., Zhang, J., Xue, H., et al. (2016) K-Means Clustering Algorithm Based on Bat Algorithm. Journal of Jilin University.

4. 4. Alsayat, A. and El-Sayed, H. (2016) Social Media Analysis Us-ing Optimized K-Means Clustering. IEEE International Conference on Software Engineering Research, Management and Applications, 61-66.

5. 5. Meng, J.N., Deng, L.L., Yu, H.Y, et al. (2011) An Improved K-Means Clustering Algorithm. Journal of Dalian National-ities University, 13, 1-3.

6. 6. 李智勇, 吴晶莹, 吴为麟, 宋保明. 基于自组织映射神经网络的电力用户负荷曲线聚类[J]. 电力系统自动化, 2008(15): 66-70, 78.

7. 7. Kwac, J., Flora, J. and Rajagopal, R. (2014) Household Energy Consumption Segmentation Using Hourly Data. IEEE Transactions on Smart Grid, 5, 420-430. https://doi.org/10.1109/TSG.2013.2278477

8. 8. Chicco, G., Napoli, R. and Piglione, F. (2006) Comparisons among Clustering Techniques for Electricity Customer Classification. IEEE Transac-tions on Power Systems, 21, 933-940. https://doi.org/10.1109/TPWRS.2006.873122

9. 9. Albert, A. and Rajagopal, R. (2013) Smart Meter Driven Segmentation: What Your Consumption Says about You. IEEE Transactions on Power Systems, 28, 4019-4030. https://doi.org/10.1109/TPWRS.2013.2266122

10. 10. Frigui, H. (2007) Advances in Fuzzy Clustering and Its Applications.

11. 11. 王兵. 密度聚类算法的研究与应用[D]: [硕士学位论文]. 西安: 西安电子科技大学, 2012.

NOTES

*通讯作者。