随着人工智能技术的火爆与不断成熟,人们越来越倾向于用神经网络的方式去解决现有的问题。同时随着城市化的推进,建筑的拆毁与重建过程中产生了大量的建筑垃圾。现有的建筑垃圾回收装置回收工序复杂,效率低下,导致回收成本远远高于资源本身价值,因此探索高效率,低成本的建筑垃圾回收设备尤为重要。然而现在几乎不存在针对建筑垃圾的专有数据集,且大多数数据质量都不高,导致神经网络无法应用于建筑垃圾领域。为了解决上述问题,提高神经网络在建筑垃圾方面的应用,本文提出了一个新的建筑垃圾数据集,通过手工采集与清理的方式形成初始数据集,在通过WGAN-GP模型对其完成高质量的样本扩充,从而填补建筑垃圾数据集的空白。 With the explosion and continuous maturity of artificial intelligence technology, people are increasingly inclined to use neural networks to solve existing problems. Meanwhile, with the advancement of urbanization, the process of building demolition and reconstruction has produced a large amount of construction waste. The existing construction waste recycling devices have complicated recycling processes and low efficiency, resulting in recycling costs much higher than the value of the resources themselves, so it is important to explore high-efficiency and low-cost construction waste recycling devices. However, there are almost no proprietary data sets for construction waste, and most of the data are of low quality, which makes it impossible to apply neural networks to the construction waste field. In order to solve the above problems and improve the application of neural networks in construction waste, this paper proposes a new construction waste dataset, the initial dataset is formed by manual collection and cleaning, and then it is expanded with high quality samples by WGAN-GP model to fill the gap of construction waste dataset.
随着人工智能技术的火爆与不断成熟,人们越来越倾向于用神经网络的方式去解决现有的问题。同时随着城市化的推进,建筑的拆毁与重建过程中产生了大量的建筑垃圾。现有的建筑垃圾回收装置回收工序复杂,效率低下,导致回收成本远远高于资源本身价值,因此探索高效率,低成本的建筑垃圾回收设备尤为重要。然而现在几乎不存在针对建筑垃圾的专有数据集,且大多数数据质量都不高,导致神经网络无法应用于建筑垃圾领域。为了解决上述问题,提高神经网络在建筑垃圾方面的应用,本文提出了一个新的建筑垃圾数据集,通过手工采集与清理的方式形成初始数据集,在通过WGAN-GP模型对其完成高质量的样本扩充,从而填补建筑垃圾数据集的空白。
数据增强,生成对抗网络,建筑垃圾数据集
Xinnuo Wu
School of Electronics and Information Engineering, Tongji University, Shanghai
Received: Dec. 28th, 2022; accepted: Jan. 24th, 2023; published: Jan. 31st, 2023
With the explosion and continuous maturity of artificial intelligence technology, people are increasingly inclined to use neural networks to solve existing problems. Meanwhile, with the advancement of urbanization, the process of building demolition and reconstruction has produced a large amount of construction waste. The existing construction waste recycling devices have complicated recycling processes and low efficiency, resulting in recycling costs much higher than the value of the resources themselves, so it is important to explore high-efficiency and low-cost construction waste recycling devices. However, there are almost no proprietary data sets for construction waste, and most of the data are of low quality, which makes it impossible to apply neural networks to the construction waste field. In order to solve the above problems and improve the application of neural networks in construction waste, this paper proposes a new construction waste dataset, the initial dataset is formed by manual collection and cleaning, and then it is expanded with high quality samples by WGAN-GP model to fill the gap of construction waste dataset.
Keywords:Data Augmentation, Generative Adversarial Network, Construction Waste Dataset
Copyright © 2023 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着互联网技术的不断发展 [
当前,加强环境保护已经成为国家的基本政策 [
为了解决上述问题,越来越多的研究者提出了更多的网络结构企图让模型训练更稳定 [
综上所述,为了扩充建筑垃圾的样本数量以及多样性,以及尽量保持训练过程的稳定以降低训练成本,本文采用了Wasserstein GAN (WGAN)这种网络结构来生成建筑垃圾。本文的主要贡献如下:
1) 我们收集了一个由建筑垃圾组成的新数据集,该数据集主要包括木材、红砖、塑料、织物、泡沫、混凝土等多种建筑垃圾,采用2D高速工业相机对现场物料进行实时检测获取位置、颜色以及纹理等信息;
2) 采用了WGAN去生成建筑垃圾样本,WGAN抛弃了之前模型采用的Kullback-Leibler散度(KL散度)以及Jensen-Shannon散度(JS散度),采用Wasserstein距离衡量两个分布之间的距离,彻底解决了GAN以往的训练不稳定的问题;
3) 由于直接求解Wasserstein距离是很难做到的,采用Lipschitz约束函数的最大上界,从而转化为更节约计算代价的问题,然后通过神经网络的方式去优化该问题。
GAN [
关于积分概率度量现在已经有很多相关工作了,不同类别的函数可以得到完全不同的度量结果。通常情况下都由KL散度、JS散度去衡量。KL散度和JS散度是突变的,要么最大要么最小,要用梯度下降法优化这个参数时,两者很难提供梯度,高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL散度和JS散度更反映不了远近。Energy-based GANs (EBGANs)可以被认为是衡量虚假分布与真实分布之间的总体距离的生成方法,采用Total-Variation距离(TV距离)。判别器将最大化这个距离,而它的唯一限制就是处于一个特定常数下。因此,当判别器到达最优时,生成器的成本将接近虚假分布与真实分布之间的总体距离。由于EBGANs衡量的变化距离与JS散度显示出相同的规律性,不难看出,EBGANs将遭受与经典GANs同样的问题,即无法训练判别器直到最佳状态,从而将其限制在非常不好的梯度上。
对于机器学习来说,数据的重要性是不言而喻的 [
本文采用的模型框架是Wasserstein GAN (WGAN) [
· The Earth-Mover (EM) 距离(Wasserstein-1)
W ( ℙ r , ℙ g ) = inf γ ∈ Π ( ℙ r , ℙ g ) E ( x , y ) ∼ γ [ ‖ x − y ‖ ] , (1)
其中 Π ( ℙ r , ℙ g ) 表示所有联合分布 γ ( x , y ) 的集合,他们的边界分别为 ℙ r 和 ℙ g 。不难看出,EM距离表示的是将一个分布转化成另一个分布的最小成本。图1展示了模型的整体框架。
图1. 模型整体框架
我们可以通过对EM距离进行梯度下降来学习低维流形上的概率分布。其他距离和散度不能做到这一点,因为它们产生的损失函数甚至不是连续的。这个结论不止在真实分布与虚假分布之间是完全不相交的这种情况之中,当有一个非空的交点包含在一个度量为零的集合中,同样的结论也是成立的。当两个低维流形在一般位置相交时,就会出现这种情况。由于Wasserstein距离引发的拓扑结构比JS距离要弱很多,对于我们的问题,EM是一个比至少Jensen-Shannon散度更合理的损失函数。EM距离是连续的和可微的,这意味着我们可以训练判别器直到最优。我们越是训练判别器,我们得到的Wasserstein梯度就越可靠。而对于JS来说,因为它是局部饱和的,我们得到的梯度是消失的。在其中KL最强,其次是JS和TV,EM最弱。事实上,当学习低维流形支持的分布时,KL、JS和TV距离不是明智的成本函数。然而,EM距离在这种情况下是明智的。
由上一节的定理我们得出,EM距离对于优化模型具有更好的特性。但观察其公式以及定义,不难看出,EM距离的下界的求得方法是很难实现的。所以我们通过Kantorovich-Rubinstein的理论把问题转化为:
W ( ℙ r , ℙ θ ) = sup ‖ f ‖ L ≤ 1 E x ∼ ℙ r [ f ( x ) ] − E x ∼ ℙ θ [ f ( x ) ] (2)
sup是指整个1-Lipschitz函数f的最上界。不难看出,如果我们将1-Lipschitz函数换成k-Lipschitz函数(这里的k指任意常数),最终结束时会收敛到 K ⋅ W ( ℙ r , ℙ g ) ,因此,如果我们有一个参数化的函数族 { f w } w ∈ W ,对于某个K都是K-Lipschitz函数约束,我们可以考虑转成解决这个问题:
max w ∈ W E x ~ ℙ r [ f w ( x ) ] − E z ~ p ( z ) [ f w ( g θ ( z ) ) ] (3)
现在的问题变成了寻找能解决上述最大值问题的函数。为了大致上接近这个问题,我们可以做的是
训练一个神经网络,其参数是位于紧凑空间 W 中的权重,然后通过 E z ~ p ( z ) [ f w ( g θ ( z ) ) ] 进行反推,正如
我们对一个典型的GAN所做的那样。 W 空间是紧凑的这一事实意味着所有的函数 f w 都是符合在特定的常数k的取值下的k-Lipschitz约束,且 f w 只取决于 W 这个空间而并不取决于某个单独的权重。为了使参数w位于一个紧凑的空间中,我们可以在每次梯度更新后将权重夹在一个固定的区间范围内。权重剪裁显然是执行Lipschitz约束的一种最简单的方式。但是如果剪切参数很大,那么任何权重都需要很长的时间才能达到极限,从而使训练批判者到最佳状态变得更加困难。如果剪切参数较小,当层数较多或未使用批量归一化时,这很容易导致梯度消失,使WGAN的判别器经常不能收敛。
在判别器中,希望loss尽可能的大,才能来尽可能区分真假样本,这样会导致在判别器中通过loss计算梯度会沿着loss越来越大的方向变化,然而经过截断后,每个网络参数又被独立的限制了取值范围。这种结果使得所有参数走向极端,要么取最大值,要么取最下值,判别器没能充分利用自身的模型能力,经过它传给生成器的梯度也会跟着变差。WGAN-GP [
L = E x ˜ ~ ℙ g [ D ( x ˜ ) ] − E x ~ ℙ r [ D ( x ) ] ︸ Originalcriticloss + λ E x ^ ~ ℙ x ^ [ ( ‖ ∇ x ^ D ( x ^ ) ‖ 2 − 1 ) 2 ] ︸ Ourgradientpenalty . (4)
本文采用的模型将传统GAN的判别器的将真实图片与生成图片的分类任务转化成衡量真实数据与生成数据分布之间的距离问题。判别器的任务希望二者距离变大,所以对L的前半部分取反。生成器希望生成结果的分布越来越靠近真实数据的分布,所以希望通过训练让距离L最小化,因为生成器与第一项无关,所以生成器的loss可以简写为:
G ( loss ) = − D ( G ( x ) ) (5)
本文采用Adam算法进行梯度下降训练,在训练阶段采用我们自己收集的建筑垃圾数据集去训练。
针对目前没有质量高的垃圾数据集,且目前专门适用于建筑垃圾的数据集几乎没有,难以支撑基于机器学习方法的任务。我们去建筑工地实地手工采集样本,大致分为织物、砖头、塑料、木材这四类,将它们批量裁剪为128 × 128的格式。然后,我们通过手动筛选清洗图片的方式来过滤低质量的、出现错误的和低光照的图片。最后我们获得了约400张的可用样本,形成了我们的建筑垃圾数据集。
为了验证本模型的有效性,本文采用Fréchet Inception Distance (FID)来衡量生成的图像质量,来作为主要的评价指标。
在本文方法中,为了保证生成质量,对每个种类垃圾单独使用WGAN做图像生成。一些基本的参数设置如下。噪声空间的维度为100,训练epoch设置为60,000,batch size设置为100,训练过程中采用Adam算法进行优化,采用激活函数leaky relu来增强模型的非线性表达能力。
本文采用WGAN-GP模型生成的结果如下图2所示:
图2. 基于每个垃圾类别生成的样本图像
生成的图像模拟了原始数据特征分布规律与颜色信息,并在此基础上增加了不同的纹理组合,融入了其他图像颜色或纹理上的特点,从而生成了多特征的样本图,保证样本相似性的同时增强了样本的多样性。
DCGAN | WGAN | WGAN-GP | |
---|---|---|---|
FID | 70.2 | 35.6 | 24.1 |
表1. 主要实验结果
从表1中可以看出,WGAN-GP的性能在我们的建筑垃圾数据集上超越了其他的模型,是最优的。且收敛所需的epoch较少,模型更倾向于在更少的迭代中收敛。且实现简单,效果稳定,不需要根据具体的数据集来调整超参数,也不需要精心设计网络结构来保证GAN的稳定性,且生成的图片对比其他方法而言质量要高。综上,WGAN-GP能够高质量、高效率、低成本的完成对现有的建筑垃圾数据集的扩充。
本文针对现有的垃圾数据集不存在专门针对建筑垃圾、以及图片质量低、噪声高的问题,无论从数量和质量上都难采用神经网络的模型和方法对建筑垃圾这个领域开展一些如实例分割、降噪等任务 [
邬欣诺. 基于WGAN-GP的建筑垃圾数据集的优化与扩充Optimization and Expansion of Construction Waste Dataset Based on WGAN-GP[J]. 计算机科学与应用, 2023, 13(01): 136-142. https://doi.org/10.12677/CSA.2023.131014