基于模糊因果聚类预测法预测污水净化程度的研究 Research on Prediction of Sewage Purification Degree Based on Fuzzy Causal Cluster Prediction Method

doi:10.12677/ORF.2021.111005

Operations Research and Fuzziology
Vol. 11 No. 01 ( 2021 ), Article ID: 40195 , 6 pages
10.12677/ORF.2021.111005

基于模糊因果聚类预测法预测污水净化程度的研究

蒋莹莹

●How to Cite this Article

宿州学院数学与统计学院，安徽宿州

收稿日期：2020年12月28日；录用日期：2021年1月26日；发布日期：2021年2月2日

摘要

研究污水净化程度处理规律，改进静态模糊预测中因果聚类分析模糊特征的提供方式，建立新的模糊特征集，构造对应的正态模糊数预测模型；通过实例实测数据进行因果聚类分析，验证模型。

关键词

静态模糊预测，因果聚类分析，模糊特征集，正态模糊数

Research on Prediction of Sewage Purification Degree Based on Fuzzy Causal Cluster Prediction Method

Yingying Jiang

School of Mathematics and Statistics, Suzhou University, Suzhou Anhui

Received: Dec. 28^th, 2020; accepted: Jan. 26^th, 2021; published: Feb. 2^nd, 2021

ABSTRACT

In order to study the law of the sewage purification degree treatment, this paper improves the fuzzy feature supply method of causal cluster analysis in the static fuzzy prediction. Typically, a new fuzzy feature set is established and the corresponding normal fuzzy number prediction model is proposed. In the empirical part, a causal compact class analysis based on the actual measured data is conducted to verify the model.

Keywords:Static Fuzzy Prediction, Causal Cluster Analysis, Fuzzy Feature Set, Normal Fuzzy Number

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

自1965年Zadeh [1] 定义了模糊集及运算法则，开辟出了信息不确定的模糊数据处理的方法，先后出现直觉模糊数 [2]、三角模糊数、梯形模糊数 [3] 型等不同的模糊信息量化的形式，并得到广泛研究。为避免隶属函数线性突变点本文选取正态模糊数 [4]，利用正态模糊数的期望与方差刻画模糊决策值。方欢 [5]，麻兴斌 [6] 分别对因果聚类分析进行研究，本文采用模糊聚类与模糊模式识别的方法对静态模糊预测中模糊特征集的提取进行改进，利用因素变量去推测预测值空间。

2. 备用知识

2.1. 正态模糊数

定义1 [4]： $\tilde{A} = (a, σ^{2})$ 为正态模糊数，其中， $x, a \in R$ , $σ > 0$ 。其隶属函数

$\tilde{A} (x) = \exp (- \frac{{(x - a)}^{2}}{σ^{2}})$ .

正态模糊数运算法则：

设 $\tilde{A} = (a, σ_{a}^{2})$ ， $\tilde{B} = (b, σ_{b}^{2})$ ，则

1) $\tilde{A} + \tilde{B} = (a + b, σ_{a}^{2} + σ_{b}^{2})$ ；2) $λ \tilde{A} = (λ a, λ^{2} σ_{a}^{2})$ ， $λ \in [0, 1]$ ；3) $\frac{1}{\tilde{A}} = (\frac{1}{a}, \frac{1}{σ_{a}^{2}})$ ，其中 $a \neq 0$ 。

2.2. 数据均值规格

特性指标矩阵U的第j列数据均值规格化 [7]，计算

$σ^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(u_{i j} - {\bar{u}}_{j})}^{2}$ , ${\bar{u}}_{j} = \frac{1}{n} \sum_{i = 1}^{n} u_{i j}$ , $j = 1, 2, \dots, m$

作变换

${u^{'}}_{i j} = \frac{u_{i j}}{σ_{j}}$ , $i = 1, 2, \dots, n$ ; $j = 1, 2, \dots, m$ .

3. 静态模糊预测模型

模糊因果聚类

设有T期数据 $w_{t} = (x_{t}, v_{t})$ ， $(t = 1, 2, \dots, T)$ ，其 $x_{t} = (x_{t 1}, x_{t 2}, \dots, x_{t n}) \in X_{1} \times X_{2} \times \dots \times X_{n}$

$v_{t} \in V$ 。X为因素状态空间，V为预测空间。

数据矩阵为

$W = (\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{T} \end{matrix}) = (\begin{matrix} x_{1} & v_{1} \\ x_{2} & v_{2} \\ ⋮ & ⋮ \\ x_{T} & v_{T} \end{matrix}) = (\begin{matrix} x_{11} & x_{12} & \dots & x_{1 n} & v_{1} \\ x_{21} & x_{22} & \dots & x_{2 n} & v_{2} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ x_{T 1} & x_{T 2} & \dots & x_{T n} & v_{T} \end{matrix})$

利用夹角余弦法 $r_{i j} (h) = \frac{| x_{i} \cdot x_{j} |}{‖ x_{i} ‖ \cdot ‖ x_{j} ‖}$ ， $‖ x_{i} ‖ = {(\sum_{k = 1}^{m} x_{i k}^{2})}^{\frac{1}{2}}$ ，求得模糊相似矩阵 $R (h) = {(r_{i j} (h))}_{T \times T}$ ，利用多目标综合决策法求出最优的模糊相似矩阵 $R = {(r_{i j})}_{T \times T}$ ，根据置信区间选出最佳聚类 $U_{1}, U_{2}, \dots, U_{m}$ 。

4. 新模糊特征提取

将 $U_{i}$ 向因素轴X投影，得 $Y_{i} = {x_{t} : w_{t} \in U_{i}}$ ， $i = 1, 2, \dots, m$ 。对应 $Y_{i}$ 构造原因特征模糊集 $A_{i} \in F (X)$ 。

$Y_{i} = {x_{t 1}, x_{t 2}, \dots, x_{t k}}$ ，计算 $Y_{i}$ 的几何均值：

${\bar{x}}_{i} = \frac{1}{k} \sum_{s = 1}^{k} x_{t_{s}}$ , ${\bar{x}}_{i} = ({\bar{x}}_{i 1}, {\bar{x}}_{i 2}, \dots, {\bar{x}}_{i n})$ , (1)

$δ_{i j}^{p} = \frac{1}{k} {\sum_{s = 1}^{k} (x_{t_{s j}} - {\bar{x}}_{i j})}^{p}$ , $j = 1, 2, \dots, n$ , $p \in N^{+}$ . (2)

根据 ${\bar{x}}_{i}$ 和 $δ_{i j}$ 构造 $Y_{i}$ 的模糊原因特征集 $A_{i}$ 。

$A_{i} (x) = \sum_{j = 1}^{n} α_{i} \exp {- \frac{1}{4 δ_{i j}^{2}} {(x_{j} - {\bar{x}}_{i j})}^{2}}$ , (3)

其中 $(α_{1}, α_{2}, \dots, α_{n})$ 为一组给定的权重。

将 $U_{i}$ 向预测轴V投影，得 $Z_{i} = {v_{t} : w_{t} \in U_{i}}$ , $i = 1, 2, \dots, m$ 。对应 $Z_{i}$ 建立模糊数 $r_{i} \in \tilde{R}$ 。

$Z_{i} = {v_{t 1}, v_{t 2}, \dots, v_{t k}}$ ，计算 $Z_{i}$ 的几何均值:

${\bar{v}}_{i} = \frac{1}{k} \sum_{j = 1}^{k} v_{t_{j}}$ , (4)

$δ_{i}^{p} = \frac{1}{k} {\sum_{j = 1}^{k} (v_{t_{j}} - v_{i})}^{p}$ . (5)

(构造以 $(v_{i}, 2 δ_{i})$ 为参数的正态模糊数 $r_{i} (i = 1, 2, \dots, m)$ )。

综上得对应分类 ${U_{1}, U_{2}, \dots, U_{m}}$ 的特征模型为

$(\begin{matrix} U_{1} & U_{2} & \dots & U_{m} \\ A_{1} & A_{2} & \dots & A_{m} \\ r_{1} & r_{2} & \dots & r_{m} \end{matrix})$

进行预测若已知第T期的因素状态，对 ${U_{1}, U_{2}, \dots, U_{m}}$ 和 $x_{t}$ 应用 $r_{i}$ 选出相应特征数对应正态模糊数作为v的预测值。

5. 实例分析

污水处理厂处理黑臭水，选取以下五个因素预测污水净化程度 $C = {c_{1}, c_{2}, c_{3}, c_{4}, c_{5}}$ ，其中 $c_{1}$ ：产量——每天污水处理量(千吨/天)， $c_{2}$ ：质量——每天生化需氧量 $B O D_{5}$ 去除率(%)， $c_{3}$ ：质量——悬浮物SS去除率， $c_{4}$ ：气水比——处理每吨污水消耗的氧气量(米³/千克)， $c_{5}$ ：单耗——去除每千克 $B O D_{5}$ 的耗电量(千瓦时/千克)。数据参见表1。

Table 1. Information of the contamination of sewage purification

表1. 污水净化处理数据信息

上述表中数据为 $w_{t} = (x_{t}, v_{t})$ , $(t = 1, 2, \dots, 7)$ ，其 $x_{t} = (x_{t 1}, x_{t 2}, \dots, x_{t 5}) \in X_{1} \times X_{2} \times \dots \times X_{5}$

$v_{t}$ 是污水净化程度。

$W = (\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{T} \end{matrix}) = (\begin{matrix} x_{1} & v_{1} \\ x_{2} & v_{2} \\ ⋮ & ⋮ \\ x_{T} & v_{T} \end{matrix}) = (\begin{matrix} 56 & 0.14 & 0.25 & 19 & 0.36 & 0.86 \\ 64 & 0.20 & 0.08 & 8 & 0.20 & 0.64 \\ 44 & 0.28 & 0.11 & 14 & 0.03 & 0.77 \\ 28 & 0.50 & 0.17 & 26 & 0.11 & 0.81 \\ 50 & 0.20 & 0.14 & 6 & 0.10 & 0.69 \\ 35 & 0.26 & 0.13 & 11 & 0.15 & 0.68 \\ 41 & 0.26 & 0.21 & 14 & 0.17 & 0.66 \end{matrix})$

对初始数据进行规格化 [7] 得矩阵 $W^{'}$ ， $W^{'} = (\begin{matrix} 4.91 & 1.31 & 3.41 & 3.02 & 3.74 & 11.10 \\ 5.61 & 1.88 & 1.09 & 1.27 & 2.08 & 8.26 \\ 3.85 & 2.63 & 1.50 & 2.22 & 0.31 & 9.94 \\ 2.45 & 4.69 & 2.32 & 4.13 & 1.14 & 10.45 \\ 4.38 & 1.88 & 1.91 & 0.95 & 1.04 & 8.90 \\ 3.07 & 2.44 & 1.77 & 1.75 & 1.56 & 8.77 \\ 3.60 & 2.44 & 2.87 & 2.22 & 1.77 & 8.52 \end{matrix})$

利用多元分析方法来确定各对象间的相似度，夹角余弦法 $r_{i j} (h) = \frac{| x_{i} \cdot x_{j} |}{‖ x_{i} ‖ \cdot ‖ x_{j} ‖}$ ， $‖ x_{i} ‖ = {(\sum_{k = 1}^{m} x_{i k}^{2})}^{\frac{1}{2}}$ ，求得模糊相似矩阵 $R (h) = {(r_{i j} (h))}_{T \times T}$ ；

$R (h) = (\begin{matrix} 1 & 0.96 & 0.95 & 0.92 & 0.97 & 0.97 & 0.98 \\ 0.96 & 1 & 0.96 & 0.89 & 0.98 & 0.96 & 0.96 \\ 0.95 & 0.96 & 1 & 0.97 & 0.98 & 0.99 & 0.98 \\ 0.92 & 0.89 & 0.97 & 1 & 0.93 & 0.97 & 0.97 \\ 0.97 & 0.98 & 0.98 & 0.93 & 1 & 0.99 & 0.98 \\ 0.97 & 0.96 & 0.99 & 0.97 & 0.99 & 1 & 0.99 \\ 0.98 & 0.96 & 0.98 & 0.97 & 0.98 & 0.99 & 1 \end{matrix})$

根据置信区间 $[0.89, 1]$ ， $λ = 0.97$ 选出最佳聚类 $U_{1}, U_{2}, U_{3}, U_{4}$ 的分类。

$U_{1} = {I_{2}, I_{3}}$ , $U_{2} = {I_{5}, I_{7}}$ , $U_{3} = {I_{1}, I_{6}}$ , $U_{4} = {I_{4}}$

求分类 $U_{1}, U_{2}, U_{3}, U_{4}$ 中各属性状态特征值的平均值，得

${\bar{x}}_{1} = (4.73, 2.26, 1.30, 1.75, 1.20)$ ; ${\bar{x}}_{2} = (3.99, 2.16, 2.39, 1.59, 1.41)$

${\bar{x}}_{3} = (3.99, 1.88, 2.59, 2.34, 2.65)$ ; ${\bar{x}}_{4} = (2.45, 4.69, 2.32, 4.13, 1.14)$

并求这4个分类的属性状态特征值的均值方差，得

$σ_{11}^{2} = 0.77$ , $σ_{12}^{2} = 0.14$ , $σ_{13}^{2} = 0.04$ , $σ_{14}^{2} = 0.23$ , $σ_{15}^{2} = 0.78$ ;

$σ_{21}^{2} = 0.15$ , $σ_{22}^{2} = 0.08$ , $σ_{23}^{2} = 0.23$ , $σ_{24}^{2} = 0.40$ , $σ_{25}^{2} = 0.13$ ;

$σ_{31}^{2} = 0.85$ , $σ_{32}^{2} = 0.32$ , $σ_{33}^{2} = 0.67$ , $σ_{34}^{2} = 0.41$ , $σ_{35}^{2} = 1.19$ ;

$σ_{41}^{2} = 0.00$ , $σ_{42}^{2} = 0.00$ , $σ_{43}^{2} = 0.00$ , $σ_{44}^{2} = 0.00$ , $σ_{45}^{2} = 0.00$ .

带入实测污水净化程度接近4个分类中污水净化程度的平均值的 $I_{2}, I_{7}, I_{1}, I_{4}$ ，取权重 $(α_{1}, α_{2}, α_{3}, α_{4}, α_{5}) = (0.1, 0.2, 0.35, 0.2, 0.15)$ ，带入(3)式求得各分类的特征模糊集为：

$\begin{matrix} A_{1} (x) = \sum_{j = 1}^{5} α_{i} \exp {- \frac{1}{4 δ_{i j}^{2}} {(x_{j} - {\bar{x}}_{i j})}^{2}} \\ = 0.1 e^{- \frac{{(x_{1} - 4.73)}^{2}}{3.08}} + 0.2 e^{- \frac{{(x_{2} - 2.26)}^{2}}{0.56}} + 0.35 e^{- \frac{{(x_{3} - 1.30)}^{2}}{0.12}} + 0.2 e^{- \frac{{(x_{4} - 1.75)}^{2}}{0.92}} + 0.15 e^{- \frac{{(x_{5} - 1.20)}^{2}}{3.12}} \end{matrix}$ ,

$A_{2} (x) = 0.1 e^{- \frac{{(x_{1} - 3.99)}^{2}}{0.6}} + 0.2 e^{- \frac{{(x_{2} - 2.16)}^{2}}{0.32}} + 0.35 e^{- \frac{{(x_{3} - 2.39)}^{2}}{0.92}} + 0.2 e^{- \frac{{(x_{4} - 1.59)}^{2}}{1.6}} + 0.15 e^{- \frac{{(x_{5} - 1.41)}^{2}}{0.52}}$ ,

$A_{3} (x) = 0.1 e^{- \frac{{(x_{1} - 3.99)}^{2}}{3.4}} + 0.2 e^{- \frac{{(x_{2} - 1.88)}^{2}}{1.28}} + 0.35 e^{- \frac{{(x_{3} - 2.59)}^{2}}{2.68}} + 0.2 e^{- \frac{{(x_{4} - 2.34)}^{2}}{1.64}} + 0.15 e^{- \frac{{(x_{5} - 2.65)}^{2}}{4.76}}$ ,

$A_{4} (x) = 0.00$ .

根据(4~5)式取 $p = 2$ 求污水净化程度的平均值，得

${\bar{v}}_{1} = 9.1$ , ${\bar{v}}_{2} = 8.71$ , ${\bar{v}}_{3} = 9.94$ , ${\bar{v}}_{4} = 10.45$ ;

$δ_{i}^{2} = \frac{1}{k} \sum_{j = 1}^{k} {(v_{t_{j}} - v_{i})}^{2}$ ，则 $δ_{1} = 0.84$ ， $δ_{2} = 0.19$ ， $δ_{3} = 1.16$ ， $δ_{4} = 0.00$ 。

构造正态模糊数为 $r_{1} = (9.1, 1.68)$ ， $r_{2} = (8.71, 0.38)$ ， $r_{3} = (9.94, 2.32)$ ， $r_{4} = (10.45, 0.00)$ 。

取 $I_{2}, I_{7}, I_{1}, I_{4}$ 实测数据获得4个模糊特征集为

$A_{1} (x) = 0.7643$ , $A_{2} (x) = 0.7796$ , $A_{3} (x) = 0.7732$ , $A_{4} (x) = 0.00$

由最大隶属度原则，应选择 $r_{2}$ 作为模糊预测，与实测值规范化处理后8.52较接近。类似比较其他3个编号预测值与实际值其误差范围在0.19~1.16，误差范围满足要求，此预测模型可行。

6. 结论

基于因果聚类模糊预测采用夹角余弦法对数据进行回归分析，改进模糊特征集的提取方式获得模糊特征集规避了直接映射强线性；污水净化处理中选取的因素具有可控性，通过对预测目标影响因素的选择可对预测目标空间值进行控制，本文通过实例验证了静态模糊预测模型具有可行性，预测得目标值与实际值误差在允许范围内。

基金项目

安徽省高校自然科学重点研究项目(KJ2020A0731)，安徽省自然科学重大教学改革研究项目(2020zdxsjg390)，安徽省自然科学研究项目(2020szsfkc0998)。

文章引用

蒋莹莹. 基于模糊因果聚类预测法预测污水净化程度的研究
Research on Prediction of Sewage Purification Degree Based on Fuzzy Causal Cluster Prediction Method[J]. 运筹与模糊学, 2021, 11(01): 29-34. https://doi.org/10.12677/ORF.2021.111005

参考文献

1. Zadeh, L.A. (1965) Fuzzy Sets. Information and Control, 8, 338-353. https://doi.org/10.1016/S0019-9958(65)90241-X

2. Atanassov, K. (1986) Intuitionistic Fuzzy Sets. Fuzzy Sets and Systems, 20, 87-96. https://doi.org/10.1016/S0165-0114(86)80034-3

3. 李荣均. 模糊多属性决策理论及其应用[M]. 北京: 科学出版社, 2002.

4. 彭祖赠, 孙韫玉. 模糊数学及其应用[M]. 武汉: 武汉大学出版社, 2007.

5. 方欢, 金朋朋, 方贤文, 等. 基于因果行为轮廓的流程变体聚类挖掘方法[J]. 计算机集成制造系统, 2020, 26(6): 1538-1547.

6. 麻兴斌, 孟祥君, 刁柏青. 基于因果聚类分析理论的维修成本控制体系研究[J]. 科技和产业, 2018, 18(6): 96-100.

7. 陈水利, 李敬功, 王向公. 模糊集理论及其应用[M]. 北京: 科学出版社, 2005.

期刊菜单