Advances in Applied Mathematics
Vol. 13  No. 04 ( 2024 ), Article ID: 86002 , 15 pages
10.12677/aam.2024.134172

随机微分博弈模型中的库存管理问题: 马尔可夫链近似和最优策略

欧君恒,卢相刚

广东工业大学数学与统计学院,广东 广州

收稿日期:2024年3月28日;录用日期:2024年4月23日;发布日期:2024年4月30日

摘要

本文研究了在随机参考价格影响下,两个垄断厂商竞争下的生产和定价策略。设定的库存管理系统包括随机参考价格和随机需求。在随机微分博弈模型的框架下研究了库存管理问题,我们给出该背景下支付函数的定义。为了得到最优生产和定价,我们采用动态规划原理的方法,博弈的上下值满足一个耦合的非线性积分微分Hamilton-Jacobi-Isaacs (HJI)方程组。本文还证明了该对策问题鞍点的存在性,由于很难得到封闭形式的解,我们采用马尔可夫链近似来近似值函数和最优控制,并给出了收敛性分析。最后,我们进行了数值实验,并且根据实验结果,提出了相应的管理建议。

关键词

库存控制,随机需求与参考价格,马尔可夫链近似,随机微分对策

Inventory Management Problems in Stochastic Differential Game Models: Markov Chain Approximation and Optimal Policies

Junheng Ou, Xianggang Lu

School of Mathematics and Statistics, Guangdong University of Technology, Guangzhou Guangdong

Received: Mar. 28th, 2024; accepted: Apr. 23rd, 2024; published: Apr. 30th, 2024

ABSTRACT

This paper investigates the production and pricing strategies employed by two monopolies in a competitive environment, considering the influence of random reference prices. The inventory management system incorporates both random reference prices and random demand. The problem of inventory management is examined within the framework of a stochastic differential game model, with the payment function defined accordingly. To obtain optimal production and pricing decisions, dynamic programming principles are utilized, and coupled nonlinear integral differential Hamilton-Jacobi-Isaacs (HJI) equations that govern the upper and lower values of the game are established. Furthermore, the existence of saddle points for this game problem is proven. Due to challenges in obtaining closed-form solutions, Markov chain approximation is employed to approximate functions and optimal controls while providing convergence analysis. Finally, numerical experiments are conducted to validate our findings, leading to corresponding managerial recommendations.

Keywords:Inventory Control, Stochastic Demand and Reference Price, Markov Chain Approximation, Stochastic Differential Game

Copyright © 2024 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

库存管理在供应链中起着至关重要的作用,直接塑造了公司的运营效率和财务业绩。随着市场竞争的日益激烈,有效地管理和优化库存已成为企业获得竞争优势不可或缺的因素。自从Whitin发表了关于库存问题的稳定需求曲线模型以来,众多学者一直致力于探索如何更有效地降低公司的管理成本,以实现利润最大化 [1] 。Bertsimas和De Boer研究了一个周期性的多产品定价和库存控制问题,考虑了生产和定价收入的影响作为影响因素,进一步深入研究了库存控制的利润模型,得出了更符合实际的结果 [2] 。Chen等人将这个问题扩展到动态定价和动态生产环境中的库存控制,考虑了可变条件对最大化预期长期利润的影响 [3] 。值得注意的是,在上述研究中,参考价格效应作为影响消费者购买意愿的关键因素并未得到足够的重视,这在研究动态定价和生产问题时显然是不合理的。

Greenleaf强调了参考价格效应对公司盈利能力的重要影响 [4] 。这种现象表现为,如果销售价格低于参考价格,买家会感觉利润并增加购买欲望;相反,如果销售价格高于参考价格,买家会感觉亏损,导致购买欲望下降。Hu等人从长期角度关注动态销售定价的整体收入,考虑消费者囤积行为,但没有探讨库存方面 [5] 。Chen等人进一步考虑了库存的影响,系统地将参考价格效应引入动态库存控制问题 [6] 。通过一种新的转移方法,得到了一个凹形的长期期望收益函数,解释了最优基本库存水平和目标参考价格对当前参考价格的依赖性。Chen等人假设参考价格是一个固定值;然而,将参考价格的可变性视为随机和客户感知的波动似乎更现实 [6] 。因此,在此基础上,我们引入了随机参考价格的概念。

参考价格受顾客的主观感受影响,受商品平均价格、折扣、品牌效应等因素影响,具有明显的记忆性。Chen等人认识到参考价格的随机性和无限连续时间演化下的最优定价,推导出明确表达的最优定价策略 [7] 。受此启发,Cao和Duan首次将随机参考价格引入库存问题,分析了基于不确定需求和参考价格的随机最优库存控制 [8] 。最优定价与库存水平负相关,与参考价格水平正相关。制造商利用参考价格效应,根据客户记忆参数确定价格,调整库存水平以控制运营成本,同时确保正常出货水平被视为最佳控制。

在上述研究中,研究人员经常假设制造业处于垄断地位;然而,在现实中,涉及两家或两家以上公司的竞争是普遍存在的。寻求更低的经营风险和占领更多的市场份额已成为企业的重点。公司必须考虑降低其运营风险,同时最大限度地减少竞争对手风险的影响。Pang和Fukushima提出了一个多领导者和追随者的竞争市场模型,其中不存在合作,建立了风险变化下的奖惩机制 [9] 。Elliott和Siu考虑了在零和博弈背景下进行风险预测的必要性,通过有限马尔可夫链预测市场变化下的消费者选择变化 [10] 。Adida和Perakis将上述研究应用于更现实的情景,设想两个公司在市场上竞争,寻求获得对方的市场份额以获得垄断优势 [11] 。一家公司的决策影响另一家公司的市场决策,遵循纳什均衡。随着时间的推移,两家公司都寻求通过动态定价和库存控制来提高竞争力,从而实现利润最大化。尽管研究人员试图尽可能真实地模拟该模型,但他们没有考虑参考价格对消费者购买意愿的重大影响。考虑到参考价格和消费者购买意愿之间的密切相关性,理解公司产品的市场竞争力应该包括考虑消费者的看法。为了获得更真实的结果,将随机参考价格的影响纳入博弈模型是必要的。

这个模型福尔斯一个追逐–逃避博弈,是一种定性微分博弈。Berkovitz和Dresher使用变分方法显式求解了战争模型中的追逃博弈的最优解问题,提供了一种使用微分方程求解最优控制的方法 [12] 。Fleming专注于有限连续时间微分对策的收敛性,进一步描述了在预定初始条件下的对策解 [13] 。Elliott和Kalton提出用微分方程组来求解零和动态对策,并分析了微分对策中值的存在性 [14] 。Jin等人引入了两家保险公司之间利润再投资的博弈场景,使用状态转移模型来捕捉环境不确定性的变化 [15] 。它们之间的竞争,可以用微分方程来分析。考虑到Hamilton-Jacobi Isaacs (HJI)方程组很难得到封闭解,利用马尔可夫链近似观察盈余变化,预测动态规划中鞍点的存在性。

马尔可夫链方法在博弈模型中的应用,显著地强调了近似结果在决策预测中的关键作用。采用马尔可夫链近似有助于处理模型中的非均匀可分析分段函数所带来的挑战。最初,Pan和Basar研究了状态跳跃下的不完美测量方案,提出了一种当系统函数呈现分段特征时使用离散时间马尔可夫链进行近似的方法 [16] 。Yin等人继续了Pan和Basar的方法,通过研究奇异摄动马尔可夫链来解决离散时间中大规模复杂系统的控制优化问题,显着降低了系统的复杂性 [17] 。

受Jin等人的启发,他们使用马尔可夫链近似来构造离散时间控制的马尔可夫链以获得最优解,我们将马尔可夫链近似应用于解决企业中库存控制和产品运营的博弈问题 [15] 。建立了考虑参考价格影响的定价与库存控制模型。在该模型中,企业的初始品牌价值和利润收入不相等,市场需求不确定,消费者对两家企业产品的记忆参数不同,初始参考价格也不同。企业可以在连续的时间内随时调整自己的经营策略,寻求挤压竞争对手的市场份额,直到它们之间的利润差距扩大或缩小到一定值。这表明一家公司无法再挑战另一家公司的市场地位,该模式停止。

本文的主要贡献如下:

(1) 本文首次利用马尔可夫链近似方法求解了两个公司在参考价格作用下的联合生产定价模型的随机最优控制问题。

(2) 进行了数值实验,我们对得到的结果给出分析和管理的见解。

其余的工作组织如下:在第2节中,我们提出了两个制造商公司竞争下的随机微分对策的一般形式和假设。在第3节中,我们讨论了马尔可夫链近似方法的数值算法。用近似马尔可夫链很好地逼近了博弈的上、下界,并给出了动态规划方程。在第4节中,我们讨论了近似格式的收敛性。证明了鞍点的存在性。最后,在第5节中,我们进行了数值实验,并给出了我们的结果。在此基础上,对数值模拟结果进行了合理的分析和讨论,并给予相应的管理意见。

2. 模型

我们使用一个随机微分方程来表示公司1的参考价格:

d R ( 1 ) ( t ) = β ( p 1 ( t ) R ( 1 ) ( t ) ) d t + ϵ ( 1 ) R ( 1 ) ( t ) d Y ( 1 ) ( t ) (1)

平方根扩散项 ϵ ( 1 ) R ( 1 ) ( t ) 表示随机参考价格的波动性。这里, ϵ ( 1 ) 为参考价格的波动性参数。参考价格的内存参数或调整速度用 β 表示。制造公司1的累积消费者需求 D ( 1 ) ( t ) 是一个随机过程,由:

(2)

潜在需求的波动性参数用 σ ( 1 ) 表示,维纳过程 W ( 1 ) ( t ) 仍然与 Y ( 1 ) ( t ) 保持不相关。库存的连续时间动态受生产率和需求率之间的相互作用的控制,遵循一个随机微分方程:

d X ( 1 ) ( t ) = u 1 ( t ) d t d D ( 1 ) ( t ) (3)

考虑到公式(2),上述库存动态变为:

d X ( 1 ) ( t ) = ( u 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) ) d t + σ d W ( t ) , X ( 1 ) ( 0 ) = x ( 1 ) , t 0. (4)

假设连续时间公司盈利过程包括价格 p 1 ( t ) 、需求率 D 1 ( t ) 、生产成本 C ( u 1 ( t ) ) 和库存成本 H ( X ( 1 ) ( t ) ) ,它满足随机微分方程:

d Z ( 1 ) ( t ) = [ p 1 ( t ) d D ( 1 ) ( t ) ( C ( u 1 ( t ) ) + H ( X ( 1 ) ( t ) ) ) ] d t (5)

考虑到(2),制造公司1的剩余过程可以写为:

d Z ( 1 ) ( t ) = [ p 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) + p 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) ( C ( u 1 ( t ) ) + H ( X ( 1 ) ( t ) ) ) ] d t p 1 ( t ) σ 1 d W ( 1 ) ( t ) , Z ( 1 ) ( 0 ) = z ( 1 ) , t 0

同样,与制造公司1竞争的制造公司2也出现了随后的盈余

d Z ( 2 ) ( t ) = [ p 2 ( t ) ( a b p 2 ( t ) + γ ( R ( 2 ) ( t ) p 2 ( t ) ) ) + p 2 ( t ) ( a b p 2 ( t ) + γ ( R ( 2 ) ( t ) p 2 ( t ) ) ) ( C ( u 2 ( t ) ) + H ( X ( 2 ) ( t ) ) ) ] d t p 2 ( t ) σ 2 d W ( 2 ) ( t ) , Z ( 2 ) ( 0 ) = z ( 2 ) , t 0.

在本研究中,我们将描述两家制造企业之间的竞争。这两家公司的表现是通过其盈余 Z ( 1 ) Z ( 2 ) 的差值来衡量的。在不失一般性的前提下,我们假设 Z ( 1 ) > Z ( 2 ) 。盈余越大的公司努力扩大盈余差距,而盈余越小的公司则努力减少盈余差距,使差距最小。因此,这两家公司之间的竞争形成了一个双人游戏,每个参与者都可以根据其生产和定价策略来响应其竞争对手的策略。设 Z ¯ ( t ) = Z ( 1 ) Z ( 2 ) 。因此,两个盈余 Z ¯ ( t ) 的差异由以下动态控制:

d Z ¯ ( t ) = [ p 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) ( C ( u 1 ( t ) ) + H ( X ( 1 ) ( t ) ) ) p 2 ( t ) ( a b p 2 ( t ) + γ ( R ( 2 ) ( t ) p 2 ( t ) ) ) ] p 1 ( t ) σ 1 d W ( 1 ) ( t ) + p 2 ( t ) σ 2 d W ( 2 ) ( t ) , Z ¯ ( 0 ) = z ¯ , t 0. (6)

其中 z ¯ = z ( 1 ) z ( 2 ) 。为了更好地研究公司1和公司2的需求过程之间的关系,我们假设公司1和公司2的累积需求过程之间存在相关性。设 α W ( 1 ) ( ) W ( 2 ) ( ) α ( 1 , 1 ) 之间的相关系数。通过这种方式,我们可以将 W ( 2 ) ( ) 重写如下:

d W ( 2 ) ( t ) = ν d W ( 1 ) ( t ) + 1 ν 2 ( t ) d W ˜ ( 2 ) ( t ) (7)

W ˜ ( 2 ) ( ) 是一个标准的布朗运动,并且独立于 W ( 1 ) ( ) 。我们允许将盈余以价格投资于金融市场上的资产 M ( t ) μ 为资产的收益率, σ 3 为相应的波动率, W ( 3 ) ( t ) 为标准布朗运动。并且我们假设它满足以下形式:

d M ( t ) M ( t ) = μ d t + σ 3 d W ( 3 ) ( t ) (8)

因此,结合(7)和(8),我们可以将等式(6)改写如下:

d Z ( t ) = [ μ Z ( t ) + p 1 ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) C ( u 1 ( t ) H ( X ( 1 ) ( t ) ) ) p 2 ( t ) ( a b p 2 ( t ) γ ( R ( 2 ) ( t ) p 2 ( t ) ) + C ( u 2 ( t ) ) + H ( X ( 2 ) ( t ) ) ] d t + ( p 2 ( t ) σ 2 ν p 1 ( t ) σ 1 ) d W ( 1 ) ( t ) + p 2 ( t ) σ 2 1 ν 2 d W ˜ ( 2 ) ( t ) + σ 3 Z ( t ) d W ( 3 ) ( t ) (9)

为了简化过程,我们将在下面用6维的形式来表示它:

d L ( t ) = f ( L ( t ) , θ ( t ) ) d t + σ ( L ( t ) ) d W ¯

L ( t ) = ( Z ( t ) , X ( 1 ) ( t ) , X ( 2 ) ( t ) , R ( 1 ) ( t ) , R ( 2 ) ( t ) ) f = ( f 1 , f 2 , f 3 , f 4 , f 5 ) T

σ = ( p 2 ( t ) σ 2 ν p 1 ( t ) σ 1 p 2 ( t ) σ 2 1 ν 2 0 σ 3 Z ( t ) 0 0 σ 1 0 0 0 0 0 0 0 σ 2 0 0 0 0 0 0 0 ϵ 1 R ( 1 ) ( t ) 0 0 0 0 0 0 ϵ 2 R ( 2 ) ( t ) )

W ( t ) = ( W ( 1 ) ( t ) , W ˜ ( 2 ) ( t ) , W ( 3 ) ( t ) , Y ( 1 ) ( t ) , Y ( 2 ) ( t ) ) ,和 f 1 f 2 f 3 f 4 f 5 具有以下形式

f 1 = μ Z ( t ) + p 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) ( C ( u 1 ( t ) ) + H ( X ( 1 ) ( t ) ) p 2 ( t ) ( a b p 2 ( t ) + γ ( R ( 2 ) p 2 ( t ) ) ) + ( C ( u 2 ( t ) ) + H ( X ( 2 ) ( t ) ) ) f 2 = u 1 ( t ) ( a b p 1 ( t ) + γ ( R ( 1 ) ( t ) p 1 ( t ) ) ) f 3 = u 2 ( t ) ( a b p 2 ( t ) + γ ( R ( 2 ) ( t ) p 2 ( t ) ) ) f 4 = β ( p 1 ( t ) R ( 1 ) ( t ) ) f 5 = β ( p 2 ( t ) R ( 2 ) ( t ) )

L ( 0 ) = l = ( z , x ( 1 ) , x ( 2 ) , r ( 1 ) , r ( 2 ) ) ,对于所有 t < τ τ = inf { t 0 : Z ( t ) ( a , b ) } 表示退出游戏的时间, a b 是满足一个 a < b 的常数。我们假设,如果盈余之差的绝对值太大,游戏就会停止。无论是积极的还是消极的方向,巨大的差异意味着一家公司主导市场并赢得游戏。

我们根据两个公司在到达下势垒之前的盈余差的可能性,建立了值函数。在这个游戏中,公司1努力最大化这个概率,而公司2则努力最小化相同的概率。随后,我们确定了值函数。用 ρ > 0 表示折扣系数。设 Γ 11 Γ 21 分别是所有生产策略的集合,假设它们是紧集。 Γ 12 Γ 22 分别是定价策略,它们也被假定为紧凑集。让 θ = ( θ 1 , θ 2 ) θ k = ( u k , p k ) , k = 1 , 2 θ 1 Γ 1 = Γ 11 × Γ 12 , θ 2 Γ 2 = Γ 21 × Γ 22 ,以及 θ Γ = Γ 11 × Γ 12 × Γ 21 × Γ 22

假设当剩余差异的大小变得过于重要时,游戏就会停止。无论是在积极的还是消极的领域,巨大的差距意味着一家公司的市场主导地位的游戏和胜利。我们将收益函数建立为两个参与者在达到5个下阈值之前达到上阈值的盈余差的可能性。因此,在这个游戏中,公司1的目标是最大化概率,而公司2则寻求最小化相同的概率。用 ρ > 0 表示折扣系数。让 θ = ( θ 1 , θ 2 ) θ i = ( u i , p i ) , i = 1 , 2 , θ Γ = Γ 1 × Γ 2 。对于任何可接受的控制 θ ,支付函数是

J ( l , θ ) = { Z ( τ ) = b | L ( 0 ) = l } = E z [ 0 τ e ρ t K ( L ( t ) , θ ( t ) ) d t ] (10)

如果 u 1 , p 1 , u 2 , p 2 满足以下条件,则控制 θ = ( θ 1 , θ 2 ) 被认为是可接受的。

(1) u 1 ( t ) , p 1 ( t ) , u 2 ( t ) , p 2 ( t ) 对于任何 t 0 都为非负值;

(2) 对于任何 t τ Z ( t ) ( a , b )

(3) u 1 ( t ) , p 1 ( t ) , u 2 ( t ) , p 2 ( t ) 是对至少包含 σ { W ( s ) , 0 s t } F t 是可适的;

(4) J ( l , θ ) < 对于任何 l G 和容许对 θ = ( u 1 , p 1 , u 2 , p 2 ) ,其中 J 是在(10)中定义的函数。

假设 Γ 是可能的保留级别 θ ( t ) 的集合。在本文中,我们假设 Γ 是一个给定的紧集,并且函数 K ( t ) 相对于 ( θ 1 , θ 2 ) 是凹凸的。

对于 k = 1 , 2 ,设 B ( Γ k × [ 0 , ) ) Γ k × [ 0 , ) 的Borel子集的 σ 代数。对于每个 t 0 ,有一个可接受的松弛控制 m k ( , ) 是对 Γ k × [ 0 , ) 的一个度量,这样的 m k ( Γ k × [ 0 , t ] ) = t 。在给定的概率空间下,如果 m k ( ) W ( ) ( m ( ) , W ( ) ) 的,并且 m k ( , , ω ) 是所有的 n k ( A × B × [ 0 , t ] ) 的确定性松弛控制。有一个导数 m t , k ( , ) ,使得 m t , k ( , ) 对于所有的 A × B B ( Γ k ) F t 可适的。给定 θ k ( ) 的放松控制 m k ( , ) ,其中 k = 1 , 2 。我们定义导数 m t , k ( , ) 使得

m 1 ( A , B ) = Γ 11 × Γ 12 [ 0 , ) I { ( θ 1 , t ) B ( Γ 1 × [ 0 , ) ) } m t , 1 ( d ϕ 1 ) d t

对于所有有界的Borel集 A × B B ( Γ 1 × [ 0 , ) ) 和对于每个 t m t , 1 ( , ) 是对满足 m t , 1 ( Γ 1 ) = 1 B ( Γ 1 ) 的测度。例如,我们可以用任何方便的方式定义 t = 0 m t , 1 ( , ) ,并定义为 t > 0 的左导数,

m t , 1 ( A , B ) = lim δ 0 n 1 ( A × B × [ t δ , t ] ) δ , A × B B ( Γ 1 )

要注意的是 m k ( d ϕ 1 d t ) = m t , 1 ( d ϕ 1 ) d t ,自然可以定义 m 1 ( , ) 的松弛控制表示 θ 1 ( , )

m t , 1 h ( A ) = I { θ 1 ( , ) A × B } , A × B B ( Γ 1 )

类似地,当 k = 1 , 2 时,我们有

m 2 ( A , B ) = Γ 2 × [ 0 , ) I { ( θ 2 , t ) B ( Γ 2 × [ 0 , ) ) } m t , 2 ( d ϕ 2 ) d t

用导数 m t ( , , , ) = ( m t , 1 ( , ) × m t , 2 ( , ) ) 来定义松弛控制 m ( , , , ) = ( m 1 ( , ) × m 2 ( , ) ) 。因此 m ( , , , ) ( Γ 11 × Γ 12 × Γ 21 × Γ 22 ) × [ 0 , ) 的Borel集上的一个测度。基于 [18] 的方法和假设,我们开始定义上值、下值和鞍点。设 Υ k θ k 的可接受的普通控制。对于 Δ > 0 ,用 Υ k ( Δ ) 表示分段常数控制 θ k = ( u 1 , k ( ) , p 1 , k ( ) ) 上的区间 ( [ n 1 Δ , ( n 1 + 1 ) Δ ] , [ n 2 Δ , ( n 2 + 1 ) Δ ] ) n 1 = 0 , 1 , 2 , ... , n 2 = 0 , 1 , 2 , ... , 其中 θ k ( n 1 Δ , n 2 Δ ) F n Δ 测度,并且 Υ k ( Δ , Δ ) Υ k 。我们设 A 1 Γ 1 的Borel子集, R 1 ( Δ , Δ ) Υ 1 ( Δ , Δ ) 表示由 R 1 ( Δ , Δ ) Υ 1 ( Δ , Δ ) i = 0 , 1 , 2 , ... , j = 0 , 1 , 2 , ... 所表示的分段常数控制集的条件概率类型:

P { θ 1 ( i n 1 , j n 2 ) A 1 | W ( s 1 , s 2 ) , θ 2 ( s 1 , s 2 ) , s 1 < i n 1 , s < j n 2 ; θ 1 ( n 1 Δ , n 2 Δ ) , n 1 < i , n 2 < j } (11)

在此 F 1 , i j ( A 1 , , ) A 1 B ( Γ 1 ) 的可测函数。如果控制规则 θ 1 ( θ 2 ) 由(11)给出,则我们表示 θ 1 ( θ 2 ) 来强调 θ 1 θ 2 的依赖性。类似地,我们定义了 R 2 ( Δ , Δ ) 和相关的控制规则 θ 2 ( θ 1 ) 。为了继续,我们定义上值和下值。上面的值被定义为

V + ( l ) = lim Δ 0 inf θ 1 R 1 ( Δ , Δ ) sup θ 2 Γ 2 J ( l , θ 1 ( θ 2 ) , θ 2 )

同样的,我们可以定义下值为

V ( l ) = lim Δ 0 inf θ 2 R 2 ( Δ , Δ ) sup θ 1 Γ 1 J ( l , θ 2 ( θ 1 ) , θ 1 )

如果下值和上值相等,那么我们说存在一个鞍点。

V ( l ) = V + ( l ) = V ( l ) (12)

对于任意的 θ Γ V ( , , , , ) C 5 ( ) ,定义一个操作符 L θ

L θ V = V z [ μ z + p 1 ( a b p 1 + γ ( R ( 1 ) ( t ) p 1 ) ) ( C ( u 1 ) + H ( X ( 1 ) ) ) p 2 ( t ) ( a b p 2 + γ ( R ( 2 ) p 2 ) ) + ( C ( u 2 ) + H ( X ( 2 ) ) ) ] + V x ( 1 ) [ u 1 ( a b p 1 + γ ( R ( 1 ) ( t ) p 1 ) ) ] + V x ( 2 ) [ u 2 ( a b p 2 + γ ( R ( 2 ) ( t ) p 2 ) ) ] + V r ( 1 ) [ β ( p 1 r ( 1 ) ) ] + V r ( 2 ) [ β ( p 2 r ( 2 ) ) ] 1 2 σ 1 2 p 1 V x ( 1 ) z 1 2 σ 1 2 p 1 V z x ( 2 ) + 1 2 σ 2 2 p 2 V x ( 2 ) z + 1 2 σ 2 2 p 2 V z x ( 2 ) + 1 2 σ 1 2 V x ( 1 ) x ( 1 ) + 1 2 σ 2 2 V x ( 2 ) x ( 2 ) + 1 2 ϵ 1 2 r ( 1 ) V r ( 1 ) r ( 1 ) + 1 2 ϵ 2 2 r ( 2 ) V r ( 2 ) r ( 2 ) + 1 2 ( σ 1 2 p 1 2 + σ 2 2 p 2 2 + σ 3 2 z 2 ) V z z

其中 V i = V / i 以及 V i i = 2 V / i 2 i = z , x ( 1 ) , x ( 2 ) , r ( 1 ) , r ( 2 ) 。另一方面,鞍点 V ( l ) l = ( z , x ( 1 ) , x ( 2 ) , r ( 1 ) , r ( 2 ) ) 满足HJI方程

inf θ 1 Γ 1 sup θ 2 Γ 2 ( L θ ( V ( x ) ) ρ V ( x ) + K ( l , θ ) ) = sup θ 2 Γ 2 inf θ 1 Γ 1 ( L θ ( V ( x ) ) ρ V ( x ) + K ( l , θ ) ) = 0 , l ( a , b ) V ( x ) = h ˜ ( l ) , l = a , b . (13)

3. 数值算法

现在,我们寻找一个对 L ( t ) 的有限状态的马尔可夫链近似,并且这个马尔可夫链的形式有利于离散化的模拟计算。利用弱收敛理论证明了我们构造的马尔可夫链收敛于 L ( t ) 。设 h > 0 为离散步长,边界点a,b为h的整数倍, e i 为第i个坐标方向上的单位向量, i = 1 , 2 , 3 , 4 , 5 。近似受控马尔可夫链具有五维晶格的状态空间, n i 为整数, i = 1 , 2 , 3 , 4 , 5

L h 5 = { l = h i = 1 5 n i e i }

G h 表示 G 上的有限差分网格,其中 G = [ a , b ] G 0 = ( a , b ) 。也就是说,如果 l L h 5 ,那么它存在非负整数 n 1 , n 2 , n 3 , n 4 , n 5 使得 l = i e i h n i ,定义 G h = L h 5 G 。现在,对于一些函数 Δ t h ( y ) ,它是 h 0 ,我们假设马尔可夫链满足以下要求:

E l [ ξ n + 1 h ξ n h | ξ n h = y ] = f ( y ) Δ t h ( y ) + o ( Δ t h ( y ) ) cov l [ ξ n + 1 h ξ n h | ξ n h = y ] = 2 a ( y ) Δ t h ( y ) + o ( Δ t h ( y ) ) P l { | ξ n + 1 h ξ n h | ϵ | ξ n h = y } = o ( Δ t h ( y ) ) 2 a ( y ) = σ ( y ) σ ( y )

θ h : = θ n h , n > 0 为控制动作的顺序。如果 θ n h = ( θ 1 , n h , θ 2 , n h ) σ { ξ 0 h , , ξ n h , θ 0 h , , θ n 1 h } 可适的,那么序列 θ h 可以被认为是允许的。由于我们考虑的是连续时间情况,控制离散时间马尔可夫链改写为

ξ h = ξ k h θ h = θ k h

对于 t [ t n h , t n + 1 h ) ,其中 t 0 h : = 0 , t n h = k = 0 n 1 Δ t h ( ξ k h , θ k h ) ,让 η h : = inf { n : ξ n h G } 。那么 ξ h G 的第一次是 τ h = τ η h h 。让 ξ 0 h = l G h ξ 0 h = l G h 是容许控制,将受控马尔可夫链的收益函数定义为

J h ( l , θ h ) = z h { Z h ( τ h ) = b | Z h ( 0 ) = z h } = E l k = 1 η h 1 e ρ t k h [ K ( ξ k h , θ k h ) Δ t k h ]

我们用 θ n h = ( θ 1 , n h , θ 2 , n h ) Γ 表示随机变量,即链在n时刻的规则控制作用。设 θ h : = { θ n h , n 0 } 为控制动作的顺序。此外,设 Γ 1 , k h 表示公司 k 为首发的控制集合,它由一系列可测函数 F n h ( ) 决定,使得

θ k , n h = F n h ( ξ i h , i n )

Γ 2 , k h 表示播放 k 随后进行的普通控制的集合,该策略由一个可测函数 F ˜ n h ( ) 的序列定义

θ k , n h = F ˜ n h ( ξ i h , i n ; θ i h , i n ; θ j , n h j k )

O t h 定义为由 { ξ h ( s ) , θ h ( s ) , s < t } 生成的最小 σ 代数。此外, Γ k h = Γ 1 , k h × Γ 2 , k h 等价于关于 O t h 的所有分段常数容许控制的集合。现在,我们可以用 J h ( ) Γ h 有来定义上下值

V h , + ( l ) = inf θ 1 h Γ 1 , 1 h sup θ 2 h Γ 2 , 2 h J h ( l , θ 1 h , θ 2 h )

而下值也可以被定义为

V h , ( l ) = sup θ 2 h Γ 1 , 2 h inf θ 1 h Γ 2 , 1 h J h ( l , θ 1 h , θ 2 h )

如果存在一个鞍点, V h ( l ) = V h , + ( l ) = V h , ( l ) 。可以很容易地验证了 V h ( l ) 满足以下动态规划方程

V h , + ( l ) = inf θ 1 Γ 1 { sup θ 2 Γ 2 y e ρ h p θ ( ( x , y ) | θ ) V h ( y ) } V h , ( l ) = sup θ 2 Γ 2 { inf θ 1 Γ 1 y e ρ h p θ ( ( x , y ) | θ ) V h ( y ) } (14)

f 1 ( l ) = μ z + p 1 ( a b p 1 + γ ( r ( 1 ) p 1 ) ) ( C ( u 1 ) + H ( x ( 1 ) ) ) p 2 ( a b p 2 + γ ( r ( 2 ) p 2 ) ) ( C ( u 2 ) + H ( x ( 2 ) ) ) f 2 ( r ( 1 ) ) = u 1 ( a b p 1 + γ ( r ( 1 ) p 1 ) )

f 3 ( r ( 2 ) ) = u 2 ( a b p 2 + γ ( r ( 2 ) p 2 ) ) f 4 ( r ( 1 ) ) = β ( p 1 r ( 1 ) ) , f 5 ( r ( 2 ) ) = β ( p 1 r ( 2 ) ) (15)

以及 f i + = max ( f i , 0 ) , f i = max ( f i , 0 ) 。其中,我们称 f i + f i 分别为 f i 的正负部分, i = 1 , 2 , 3 , 4 , 5 。对V的一阶导数和二阶导数使用以下近似值:

Δ 2 V l i = V ( l + h e i ) + V ( l h e i ) 2 V ( l ) h 2 Δ 2 V l i = V ( l + h e i ) + V ( l h e i ) 2 V ( l ) h 2 Δ + 2 V l i l j = 2 V ( l ) + V ( l + h e i + h e j ) + V ( l h e i h e j ) 2 h 2 V ( l + h e i ) + V ( l h e i ) + V ( l + h e j ) + V ( l h e j ) 2 h 2 Δ 2 V l i l j = 2 V ( l ) + V ( l + h e i h e j ) + V ( l h e i + h e j ) 2 h 2 + V ( l + h e i ) + V ( l h e i ) + V ( l + h e j ) + V ( l h e j ) 2 h 2 (16)

接下来,我们使用上面给出的有限差分来近似 V ( l ) i = 1 , 2 , 3 , 4 , 5

V ( l ) V h ( l ) , V l i ( l ) Δ + V l i h ( l ) , f i > 0 , V l i ( l ) Δ V l i h ( l ) , f i < 0 , V l i l j ( l ) Δ + 2 V l i l j h ( l ) , a i j ( l ) 0 , i j V l i l j ( l ) Δ 2 V l i l j h ( l ) , a i j ( l ) 0 , i j

通过将(15)和(16)代入(12),并重新排列这些项,我们得到了动态规划的等价形式为

ρ V h ( l ) = f 1 + ( l ) V h ( l + h e 1 ) V h ( l ) h f 1 ( l ) V h ( l ) V h ( l h e 1 ) h + f 2 + ( l ) V h ( l + h e 2 ) V h ( l ) h f 2 ( l ) V h ( l ) V h ( l h e 2 ) h + f 3 + ( l ) V h ( l + h e 3 ) V h ( l ) h f 3 ( l ) V h ( l ) V h ( l h e 3 ) h + f 4 + ( l ) V h ( l + h e 4 ) V h ( l ) h f 4 ( l ) V h ( l ) V h ( l h e 4 ) h + f 5 + ( l ) V h ( l + h e 5 ) V h ( l ) h f 5 ( l ) V h ( l ) V h ( l h e 5 ) h + σ 1 2 p 1 [ 2 V h ( l ) + V h ( l + h e 1 h e 2 ) + V h ( l h e 1 + h e 2 ) 2 h 2 ] σ 1 2 p 1 [ V h ( l + h e 1 ) + V h ( l h e 1 ) + V h ( l h e 2 ) + V h ( l + h e 2 ) 2 h 2 ]

+ σ 2 2 p 2 [ 2 V h ( l ) + V h ( l + h e 1 + h e 3 ) + V h ( l h e 1 h e 3 ) 2 h 2 ] σ 2 2 p 2 [ V h ( l + h e 1 ) + V h ( l h e 1 ) + V h ( l + h e 3 ) + V h ( l h e 3 ) 2 h 2 ] + 1 2 ( σ 1 2 p 1 2 + σ 2 2 p 2 2 + σ 3 2 z 2 ) V h ( l + h e 1 ) + V h ( x h e 1 ) V h ( l ) h 2 + 1 2 σ 1 2 V h ( l + h e 3 ) + V h ( l h e 2 ) 2 V ( l ) h 2 + 1 2 σ 2 2 V h ( l + h e 3 ) + V h ( l h e 3 ) 2 V h ( l ) h 2 + 1 2 ϵ 1 2 r ( 1 ) V h ( l + h e 4 ) + V h ( l h e 4 ) 2 V h ( l ) h 2 + 1 2 ϵ 2 2 r ( 2 ) V h ( l + h e 5 ) + V h ( l h e 5 ) 2 V h ( l ) h 2 + K ( x ( 1 ) , x ( 2 ) , r ( 1 ) , r ( 2 ) , θ ) (17)

简化(17),并将结果与(14)进行比较,我们得到了一步转移概率的具体表达式如下:

p θ ( l , l ± h e 1 ) = ( σ 1 2 p 1 2 + σ 2 2 p 2 2 + σ 3 2 z 2 ) / 2 ( σ 1 2 p 1 + σ 2 2 p 2 ) + h f 1 ± ( l ) Q h p θ ( l , l ± h e 2 ) = σ 1 2 / 2 σ 1 2 p 1 + h f 2 ± ( r ( 1 ) ) Q h p θ ( l , l ± h e 3 ) = σ 2 2 / 2 σ 2 2 p 2 + h f 3 ± ( r ( 2 ) ) Q h p θ ( l , l ± h e 4 ) = ( ϵ 1 2 r ( 1 ) ) / 2 + h f 4 ± ( r ( 1 ) ) Q h p θ ( l , l ± h e 5 ) = ( ϵ 2 2 r ( 2 ) ) / 2 + h f 5 ± ( r ( 2 ) ) Q h p θ ( l , l + h e 1 h e 2 ) = p θ ( l , l h e 1 + h e 2 ) = ( σ 1 2 p 1 ) / 2 Q h p θ ( l , l + h e 1 + h e 3 ) = p θ ( l , l h e 1 h e 2 ) = ( σ 2 2 p 2 ) / 2 Q h p θ ( l , y ) = 0 , a l l o t h e r , l , y G h (18)

Q h = ( σ 1 2 p 1 2 + σ 2 2 p 2 2 + σ 3 2 z 2 + σ 1 2 + σ 2 2 + ϵ 1 2 r ( 1 ) + ϵ 1 2 r ( 2 ) ) ( σ 1 2 p 1 + σ 2 2 p 2 ) + h i = 1 4 | f i ( l ) | + h 2

为了满足非负性,我们需要做出一些假设

( σ 2 p 2 ϱ σ 1 p 1 ) 2 + σ 2 2 p 2 2 ( 1 ϱ 2 ) + σ 3 2 Z 2 | σ 1 σ 2 p 2 σ 1 2 p 1 | 0 σ 1 2 | σ 1 σ 2 p 2 σ 1 2 p 1 | 0 (19)

基于之前的零售价格假设,零售价格p有一个上界 p ¯ 和一个下界 p _ 。然后,利用零售价格p的上界和下界进行简单的尺度计算,我们可以得到满足公式(19)的条件如下

σ 1 2 σ 2 ( 1 ϱ ) p 1 σ 1 σ 1 + σ 2 ρ σ 1 2 σ 2 ( 1 ϱ ) p 2 σ 1 σ 1 + σ 2 ρ (20)

此外,动态规划方程组是对(14)的修正。对于 l G h

V h ( l ) = sup θ 2 Γ 2 { inf θ 1 Γ 1 y e ρ h p θ ( x , y | θ ) V h ( y ) + K ( l , θ ) } (21)

4. 收敛性分析

在本节中,我们给出了连续时间马尔可夫链 { ξ n h , n = 1 , 2 , , n } 的收敛性分析,使马尔可夫链可行地逼近连续时间过程 L ( t ) ,包括我们定义的控制 θ h ( )

τ h = t η h h ξ h ( ) 的第一个退出时间 G h D n h { ξ k h , θ k h , k n } 的最小 σ -代数。当然, τ h 是一个 D n h 停止时间。在连续时间插值的情况下,我们可以改写(10)为

J h ( l , θ h ) = E l [ 0 τ h e ρ t k h K ( ξ h ( t ) , θ h ( t ) ) d t ] (22)

定义 ξ 0 h = l 并使用 E n h 表示基于时间 n 的信息的期望,即基于 D n h 的期望。结合局部一致性,我们有

ξ n = l + k = 0 n 1 Δ ξ k h = l + k = 0 n 1 E k h Δ ξ k h + k = 0 n 1 ( Δ ξ k h E k h Δ ξ k h ) = l + k = 0 n 1 f ( ξ k h , θ h ) Δ t h ( ξ k h ) + M n h (23)

定义

M n h = k = 0 n 1 ( Δ ξ k h E k h Δ ξ k h )

我们试图表示类似于(2.10)中的扩散项的 M h ( t ) 。定义 W h ( )

W h ( t ) = k = 0 n 1 Δ ξ k h E k h Δ ξ k h σ ( ξ k h ) = 0 t σ 1 ( ξ h ( s ) ) d M h ( s ) (24)

结合(23)和(24),我们将(23)重写为

ξ h ( t ) = l + 0 t f ( ξ h ( s ) , θ h ) d s + 0 t σ ( ξ h ( s ) ) d W h ( s ) + ϵ h ( t ) (25)

其中 ϵ h ( t ) 是一个可以忽略的误差,满足 lim h sup 0 t T E | ϵ h ( t ) | 0 对于任何 0 < T <

我们也可以将(24)改写为

L ( t ) = l + 0 t f ( L ( t ) , θ ) d s + 0 t σ ( L ( t ) ) d W ( s ) (26)

F t h 是一个过滤,它表示度量的最小 σ -代数

{ ξ h ( s ) , m s h ( ) , W h ( s ) , N h ( s ) , s t }

使用 Θ h 表示关于 W h ( ) 的允许松弛控制的集合 m h ( ) ,这样 m t h ( ) 在给定 F t h 的区间内是一个固定的概率测度。那么 Θ h = Θ 1 h × Θ 2 h 是一个包含 Γ h 的大控制空间。用上面给出的松弛控制的符号,我们可以将(25)写为

ξ h ( t ) = l + 0 t Θ 1 h × Θ 2 h f ( ξ h ( s ) , n ) × m s h ( d n 1 × d n 2 ) d s + 0 t σ ( ξ h ( s ) ) d W h ( s ) + ϵ h ( t ) (27)

引理4.1 假设让 { L n ( ) } C m [ c , d ] 上有一个连续的路径,并且和 { L n ( ) } 是紧的,当且仅当 η > 0 , N h < ,使得 P { L n ( c ) N h } η ,对于所有 n ,当且仅当存在 k a > 0 b > 0 ,使得 E | L n ( t ) L n ( s ) | 2 k | t s | 1 + b

证明:该证明与 [17] 类似,在此省略。

定理4.2让近似链 ( ξ n h , n < ) 由转移概率定义, n h ( ) { θ n h , n < } ξ h 是连续时间插值, { τ ˜ h } F t h 停止时间的序列,则 { ξ h ( ) , n h ( ) , W h ( ) , τ ˜ h } 是紧的。

证明:使用一点紧化的证明, τ ˜ [ 0 , ) 。让 T < v ˜ h 是一个 F t 停时。对于 δ > 0 ,我们有

E v ˜ h θ h ( W h ( v ˜ h + δ ) W h ( v ˜ h ) ) 2 = δ + ϵ ˜ h

其中 ϵ ˜ h 0 一致收敛于 v ˜ h ,取 lim sup h 0 lim δ 0 ,其紧密性为 { W h ( ) } 。一个类似的论点产生了 M h ( ) 的紧密性。序列 { m h ( ) } 是紧凑的,因为它的范围空间是紧凑的。这些结果以及 c ( ) θ ( ) 的有界性暗示了 { ξ h ( ) } 的紧密性,则 { ξ h ( ) , n h ( ) , W h ( ) , τ ˜ h } 是紧的。

定理4.3 让 { ξ ( ) , θ h ( ) , W ( ) , τ ˜ } 是一个弱收敛序列, F t 是由 { L ( s ) , θ ( s ) , W ( s ) , s t } 生成的 σ 代数,那么 W ( ) 分别是一个标准的 F t -维纳过程, τ ˜ 是一个 F t 停时, θ ( ) 是一个允许的控制,让索赔时间用 v n 表示,则(27)是成立的。

证明:该证明与 [15] 类似,在此省略。

定理4.4在上一节中分别定义的值函数。然后我们有

lim h 0 V h , + ( l ) = V + ( l ) (28)

lim h 0 V h , ( l ) = V ( l ) (29)

证明:该证明请参考 [15] ,在此省略。

引理4.5 设 G 1 G 2 为紧致空间。假设一个连续函数 K ( l , y ) G 1 × G 2 满足凹凸条件,即对于所有 y G 2 f ( , y ) 是凸的,而对于所有 l G 1 K ( l , ) 是凹的。然后

inf l G 1 sup y G 2 K ( l , y ) = sup y G 2 inf l G 1 K ( l , y ) (30)

定理4.6 对于 l S h ,一个在(18)中定义的马尔可夫链,如果满足(20),则存在一个鞍点

V h , + ( l ) = V h , ( l ) (31)

证明:该证明请参考 [15] ,在此省略。

定理4.7 假设满足定理4.6中的条件,则鞍点存在为

V + ( l ) = V ( l ) (32)

证明:因为对于在(27)中定义的近似马尔可夫链,我们可以实现

lim h 0 V h , ( l ) = V ( l )

lim h 0 V h , + ( l ) = V + ( l ) (33)

通过在定理4.6中使用类似的方法。根据定理4.7,我们得到存在一个鞍点

V + ( l ) = V ( l ) (34)

5. 数值结果

在本节中,我们使用给定的数值格式和证明的收敛结果对模型进行了数值实验。数值实验中涉及的参数值见 [8] [15] [19] 和 [20] 。

数值模拟示例

示例5.1:让我们假设总生产成本为 C 1 ( u 1 ) = 5 u 1 + 5 u 1 2 , C 2 ( u 2 ) = 3 u 2 + 3 u 2 2 。我们假设总库存持有成本和总积压成本为 H 1 ( x 1 ) = 2 x 1 + x 1 2 , H 2 ( x 2 ) = 2 x 2 + 0.5 x 2 2 。我们设置了参考价格 β = 2 的调整速度,参考价格的波动性参数 ϵ 1 = 0.1 , ϵ 2 = 0.2 。平均市场潜力为 a = 7 ,价格敏感性为 b = 0.3 ,资产的回报率为 μ = 0.4 ,参考价格效应的大小为 γ = 0.5 。同时,我们假设波动率参数 σ 1 = 0.25 , σ 2 = 0.45 , σ 3 = 0.75 。最后,我们假设贴现因子 ρ = 0.1

为了简单起见,我们考虑离散事件有两个状态的情况。也就是说,连续时间马尔可夫链有两个给定索赔额分布的状态。此外,我们假设索赔额分布是相同的,在每个政权。利用数值迭代方法,数值求解了最优控制问题。我们将支付函数作为两个参与者之间的盈余差在到达下障碍之前到达上障碍的概率。因此,在博弈中,公司1想要最大化概率,而公司2想要最小化相同的概率。

(a) (b)

Figure 1. Optimal retail price under some fixed parameters

图1. 某些固定参数下的最优零售价格

图1(a)~(b),我们知道当其他参数保持不变,当公司1的库存水平与公司2一样,两家公司的定价策略是公司1设置价格高于公司2,定价差异是最大之间的三个曲线。可能,公司1和公司2有相同的库存水平,也就是说,相同的库存过剩压力。这类似于我们生活中大品牌公司和小品牌公司之间的商业竞争。同时,在公司1的库存水平大于公司2的情况下,当公司2与公司1的利润差迅速达到下限时,公司1的定价低于公司2。这是因为当两家公司的竞争相等时,公司1的库存压力很大,只能以利润小、营业额快的形式保持竞争力;当公司2与公司1具有相同的库存水平时,无论达到什么竞争水平,公司2的价格总是低于公司1,以增加赢得竞争的可能性。

(a) (b)

Figure 2. Optimal production rate under some fixed parameters

图2. 某些固定参数下的最优生产速率

图2(a)~(b)可以看出,当公司1的库存水平超过公司2,两家公司之间的利润差迅速接近下界时,公司1的生产率下降。这是由于在平等竞争的情况下,公司1的高库存水平导致了货物的积累和成本的增加。因此,公司1采取了降低生产速度、减少库存的战略,通过降低成本来提高盈利能力。当公司1的库存水平超过公司2,两家公司的利润差迅速接近上限时,最优策略表明公司1的生产力提高,公司2的生产力下降,公司1的价格上升,公司2的价格下降。这意味着当公司1在高库存水平的条件下能够获得巨大的利润时,最优策略意味着利润小,快速周转对公司2不再可行,最好的利润策略是减少生产和定价,通过降低成本提高竞争胜率。在现实的环境中,一个类似于公司2的策略往往是失败的,这就足以基本上结束公司1的胜利。

数值例子提供了动态策略和库存水平分析,为决策者在减少错误决策造成的重大损失的风险方面提供了实用的指导。虽然在扩散模型中包含跳跃过程在捕捉市场转变方面更为现实,但它也给开发有效的数值算法带来了更大的复杂性和计算挑战。此外,在一个随机博弈框架内,公司可以根据对手的行动,灵活地调整其最优策略,以最大化他们成功的机会。

6. 结论

本文研究的是基于随机参考价格的库存管理问题,在随机博弈的框架下,每个公司都可以根据自己的对手调整最优再保险策略。根据问题的背景条件给出支付函数和马尔可夫链逼近方法来解决随机博弈的最优控制问题。这两个保险公司之间的竞争看作是随机微分博弈。两个公司给出两公司的支付函数,各个公司都设法找到一个最佳策略,其中一个公司以最大化支付函数,而另一个公司试图最小化相同的支付函数。利用动态规划原理,我们证明了该背景的博弈模型的上限值和下限值满足一个耦合的非线性积分微分HJI方程组。而因为HJI方程组非常难以求得封闭解,所以我们使用一个可行的数值方法去求解,即使用马尔可夫链近似方法来获得数值解。同时我们还证明了该对策问题鞍点的存在性,证明了逼近序列收敛于跳扩散过程,逼近序列分别收敛于对策上值和下值。最后的数值例子提供了动态策略和库存水平分析,为决策者在减少错误决策造成的重大损失的风险方面提供了实用的指导。

另外,本文存在以下不足,只考虑了两家公司间的竞争关系,不适用于多公司博弈的情况。同时没有考虑跳跃的情形。若扩散模型中包含跳跃过程则在捕捉市场转变方面更为现实,但它也给开发有效的数值算法带来了更大的复杂性和计算挑战。

文章引用

欧君恒,卢相刚. 随机微分博弈模型中的库存管理问题:马尔可夫链近似和最优策略
Inventory Management Problems in Stochastic Differential Game Models: Markov Chain Approximation and Optimal Policies[J]. 应用数学进展, 2024, 13(04): 1827-1841. https://doi.org/10.12677/aam.2024.134172

参考文献

  1. 1. Whitin, T.M. (1955) Inventory Control and Price Theory. Management Science, 2, 61-68. https://doi.org/10.1287/mnsc.2.1.61

  2. 2. Bertsimas, D. and De Boer, S. (2005) Special Issue Papers: Dynamic Pricing and Inventory Control for Multiple Products. Journal of Revenue and Pricing Management, 3, 303-319. https://doi.org/10.1057/palgrave.rpm.5170117

  3. 3. Chen, L., Chen, Y. and Pang, Z. (2010) Dynamic Pricing and Inventory Control in a Make-to-Stock Queue with Information on the Production Status. IEEE Transactions on Automation Science and Engineering, 8, 361-373. https://doi.org/10.1109/TASE.2010.2071865

  4. 4. Greenleaf, E.A. (1995) The Impact of Reference Price Effects on the Profitability of Price Promotions. Marketing Science, 14, 82-104. https://doi.org/10.1287/mksc.14.1.82

  5. 5. Hu, Z., Chen, X. and Hu, P. (2016) Technical Note—Dynamic Pricing with Gain-Seeking Reference Price Effects. Operations Research, 64, 150-157. https://doi.org/10.1287/opre.2015.1445

  6. 6. Chen, X., Hu, P., Shum, S., et al. (2016) Dynamic Stochastic Inventory Management with Reference Price Effects. Operations Research, 64, 1529-1536. https://doi.org/10.1287/opre.2016.1524

  7. 7. Chen, X., Hu, Z.Y. and Zhang, Y.H. (2019) Dynamic Pricing with Stochastic Reference Price Effect. Journal of the Operations Research Society of China, 7, 107-125. https://doi.org/10.1007/s40305-018-0227-1

  8. 8. Cao, Y. and Duan, Y. (2020) Joint Production and Pricing Inventory System under Stochastic Reference Price Effect. Computers & Industrial Engineering, 143, Article ID: 106411. https://doi.org/10.1016/j.cie.2020.106411

  9. 9. Pang, J.S. and Fukushima, M. (2005) Quasi-Variational Inequalities, Generalized Nash Equilibria, and Multi-Leader-Follower Games. Computational Management Science, 2, 21-56. https://doi.org/10.1007/s10287-004-0010-0

  10. 10. Elliott, R.J. and Siu, T.K. (2010) On Risk Minimizing Portfolios under a Markovian Regime-Switching Black-Scholes Economy. Annals of Operations Research, 176, 271-291. https://doi.org/10.1007/s10479-008-0448-5

  11. 11. Adida, E. and Perakis, G. (2010) Dynamic Pricing and Inventory Control: Uncertainty and Competition. Operations Research, 58, 289-302. https://doi.org/10.1287/opre.1090.0718

  12. 12. Berkovitz, L.D. and Dresher, M. (1959) A Game-Theory Analysis of Tactical Air War. Operations Research, 7, 599-620. https://doi.org/10.1287/opre.7.5.599

  13. 13. Fleming, W.H. (1961) The Convergence Problem for Differential Games. Journal of Mathematical Analysis and Applications, 3, 102-116. https://doi.org/10.1016/0022-247X(61)90009-9

  14. 14. Elliott, R.J. and Kalton, N.J. (1972) The Existence of Value in Differential Games of Pursuit and Evasion. Journal of Differential Equations, 12, 504-523. https://doi.org/10.1016/0022-0396(72)90022-8

  15. 15. Jin, Z., Yin, G. and Wu, F. (2013) Optimal Reinsurance Strategies in Regime-Switching Jump Diffusion Models: Stochastic Differential Game Formulation and Numerical Methods. Insurance: Mathematics and Economics, 53, 733-746. https://doi.org/10.1016/j.insmatheco.2013.09.015

  16. 16. Pan, Z. and Başar, T. (1995) H∞-Control of Markovian Jump Systems and Solutions to Associated Piecewise-Deterministic Differential Games. In: Jan Olsder, G., Ed., New Trends in Dynamic Games and Applications, Birkhäuser, Boston, 61-94. https://doi.org/10.1007/978-1-4612-4274-1_4

  17. 17. Yin, G., Zhang, Q. and Badowski, G. (2003) Discrete-Time Singularly Perturbed Markov Chains: Aggregation, Occupation Measures, and Switching Diffusion Limit. Advances in Applied Probability, 35, 449-476. https://doi.org/10.1239/aap/1051201656

  18. 18. Kushner, H.J. (2002) Numerical Approximations for Stochastic Differential Games. SIAM Journal on Control and Optimization, 41, 457-486. https://doi.org/10.1137/S0363012901389457

  19. 19. Herbon, A. and Kogan, K. (2014) Time-Dependent and Independent Control Rules for Coordinated Production and Pricing under Demand Uncertainty and Finite Planning Horizons. Annals of Operations Research, 223, 195-216. https://doi.org/10.1007/s10479-014-1616-4

  20. 20. Maimon, O., Khmelnitsky, E. and Kogan, K. (1998) Optimal Flow Control in Manufacturing Systems: Production Planning and Scheduling. Springer Science & Business Media, Berlin. https://doi.org/10.1007/978-1-4757-2834-7

期刊菜单