Statistics and Application
Vol.05 No.01(2016), Article ID:17053,8 pages
10.12677/SA.2016.51001

Analysis of the Influencing Factors of Price Determinants in Online Auction Based on Truncated Regression Models

Shuang Wang1,2, Yanke Wu1, Maozai Tian1,3*

1Center for Applied Statistics, School of Statistics, Renmin University of China, Beijing

2Department of Economics, The Chinese University of Hong Kong, Hong Kong

3School of Statistics, Lanzhou University of Finance and Economics, Lanzhou Gansu

Received: Feb. 8th, 2016; accepted: Feb. 28th, 2016; published: Mar. 2nd, 2016

Copyright © 2016 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

With the development of Internet financial, online auction has become a new way of online shopping and auction. Clinching a deal or not and the final auction price are important indices. The influencing factors of auction price have significant influence to both sellers and buyers. In this article, we collected data from specific books on http://www.kongfz.com/, and screened finally eight factors which have significant influence on the transaction price. Based on truncated regression model, we predict the transaction price in March 2015, which is a success and will be helpful to both sellers and buyers.

Keywords:Online Auction, Transaction Price, Influencing Factor, Truncated Regression Model

基于截断回归模型的网络拍卖成交价格 影响因素分析

王爽1,2,吴延科1,田茂再1,3*

1中国人民大学统计学院,应用统计科学研究中心,北京

2香港中文大学经济系,香港

3兰州财经大学统计学院,甘肃 兰州

收稿日期:2016年2月8日;录用日期:2016年2月28日;发布日期:2016年3月2日

摘 要

随着互联网金融的不断发展,网络拍卖已经成为一种新型的网络购物方式和拍卖方式,与其有关的研究已经成为大数据分析的一个有趣的研究课题。拍卖的成交与否以及成交价格是人们关注的重要指标,而研究拍卖成交价格的影响因素对卖家和买家来讲都有着极其重要的意义。本文选取孔夫子旧书网上特定的拍卖数据,筛选出对拍卖成交价格影响最大的8个因素,并分析了其潜在的原因。基于此建立了截断回归模型,较为成功地预测出了2015年3月同类拍品的拍卖价格,并对卖家提供了较为有效的信息帮助。

关键词 :网络拍卖,成交价格,影响因素,截断回归模型

1. 研究背景

网络拍卖,也称在线拍卖或基于互联网的拍卖,是通过网络技术实现的一种新的物品拍卖交易方式。网络拍卖不仅包括拍卖公司集中举办的拍卖,也包括大型网站为个人用户提供的C2C,B2C等交易平台。随着网络交易迅速发展,网络拍卖逐渐为人们所熟悉。网络拍卖的创始者美国易趣公司(eBay)于1995年成立,经过了近20年的发展,已经成为目前世界上最大的网上拍卖站。中国的淘宝网等网购平台也纷纷新增了网络拍卖,使得越来越多的人能参与其中。和传统拍卖相比,网络拍卖的优点在于其不受时间地点的限制,降低了拍卖成本和进入门槛,而且信息更加具有公开性。传统拍卖大多为艺术收藏品,而网络拍卖尤其是C2C网络拍卖的类别十分广泛,从各类藏品书籍,到电子数码产品、生活用品,涵盖了网络交易中的大部分产品。与二手市场不同的是,网络拍卖由于其商品具有潜在的升值可能,因此拍卖者更希望通过竞价的方式让购买意愿最高的买家获得物品,获取最大的利润,实现资源的最优配置。但是,由于无法见到实物,了解全面的信息,买家承担的风险也将增大,这些也都会影响成交与否与成交价格。为此,卖家会尽可能提供更多的信息,图片以及对拍卖物品的介绍,增加其可信度和价值,从而促进交易的顺利完成。研究网络拍卖成交价格的影响因素,对买卖双方都具有一定的参考价值。

国外研究者关于网络拍卖的研究,主要集中在价格影响因素,价格的预测以及网络拍卖的动态过程,其中大多研究者将ebay作为网络拍卖的研究对象。Reiley等[1] 通过对eBay上硬币拍卖的数据进行样本限制回归分析,发现卖家的信誉评级、起拍价、保留价格以及拍卖时间长度对最终拍卖价格有明显的影响。Depken等[2] 选取了一段时间ebay中iPhone手机的拍卖数据,通过分析发现成交价格受卖方信誉影响,且网页的美感和物品的图片质量对成交价格有正的影响。Hou [3] 选取了ebay在中国和美国液晶显示屏的拍卖数据,探究文化差异下影响拍卖价格的因素异同。研究发现两国在起拍价和卖方信誉上有相似的效果,而图片数量仅对中国拍卖有正的影响,投标者的经验和拍卖时间对美国的拍卖有更大的影响。Kauffman & Wood [4] 通过跟踪个人竞拍者对同种商品出价记录,探究影响竞价者支付意愿的因素,发现周末结束的拍卖、带图片的竞拍物和信用度较高的卖家商品会得到更高的价格。Ghani & Simmons [5] 研究了预测网上拍卖的最终价格机制,将卖方的文本信息作为属性之一,运用二元分类方法预测价格。文中运用了PDAs方法,可将诸如内存,屏幕类型及操作系统等“硬特征”进行描述和比较。Wang等[6] 则构造了动态预测模型,对正在拍卖的拍品不断更新信息,使用泛函数据分析对预测的价格不断调整。国内的研究者研究此方面的文章较少,且主要集中影响因素的研究上。吕彦儒等[7] 选择从eBay入手,研究MP3竞拍数据,运用因子分析法发现:信息、卖家信用、交易安全、价格以及买家信用是衡量网上竞拍成交的关键因子。褚荣伟和拱晓波[8] 也采集了ebay中国上拍卖交易的数据,用多元回归的方法,验证得出卖家信誉评级对拍卖价格有十分显著的影响。吉吟东等[9] 通过研究英式网络拍卖,发现起拍价显著地影响了拍卖品是否能成交以及最终的成交价格。黄丹[10] 收集了eBay上的佳能单反相机的拍卖交易数据,用多元回归分析方法研究了网络拍卖成交价格的影响因素,结果表明,网络参考价格、拍卖结束时间段、竞标人数对成交价格有正影响,而卖家负面信用和邮费具有负影响。谢文容和陈宏民[11] 比较了网络拍卖和固定价格卖家收益的差别,发现只有当消费者人数很多时,固定价格卖家收益才有可能超过拍卖卖家收益。并且交易商品数量越多,网络拍卖的收益优势越明显。许爽[12] 分析了网络拍卖的定价机制和影响因素,并提出了网络拍卖定价的几种基本策略。

综上所述,国内的研究多集中在理论方面,实证分析时收集的样本量也不够大,并且多以eBay的数码产品为例。数码产品由于淘汰性和更新性,大多不具有收藏价值,并不是特别适合拍卖,而更应该作为二手产品来研究。国外的研究内容相对广泛,但旧书籍依然没有文献进行研究。旧书籍具有很高的收藏价值,因此很适合作为拍卖品进行交易。首先因为纸质书籍不会像数码产品一样价格下跌严重,很多普通版本有一些折旧,但很多珍贵稀少的版本反而会随时间推移而越来越有收藏价值。并且,选取书籍用作统计分析时,不像字画奢侈品一样,由于唯一性且很难量化其价值,所以很难得到大范围的较为统一的数据进行对比研究。因此本文对旧书籍的拍卖展开研究,探讨影响拍卖的因素,并尝试对拍卖价格进行预测。

本文剩余内容的结构安排如下:第2部分对截断回归模型作了介绍,第3部分详细说明了数据来源及数据的预处理过程,第4部分建立模型并报告了计算和预测结果,最后给出了结论。

2. 截断回归模型

截断数据是指收集到的全部观察数据中,某些观测值被压缩在一点。Tobin [13] 提出的截断回归模型(也称为Tobit模型)属于受限响应变量回归模型,可以很好地对这一类型的数据进行回归建模。当因变量存在截断时,因变量的概率密度变为混合分布。假设真实情况下,为不可观测的变量,,则响应变量为:

,其中为上下截断点。

这种情况下运用最小二乘法,参数估计是有偏的。比如,在本文的案例中是左截断,假设左端截断点为,则的概率密度仍为:

被挤到一点上,即:

继而,得到此混合分布的概率密度函数:

上述公式中,是指示函数。最后,可以使用最大似然估计法对整个样本进行参数估计。可以看出截断回归模型的似然估计的误差也需要服从正态分布,或者至少需要知道误差项的边缘分布。但是,误差项的分布与假设不一致时,估计量有偏。并且误差项如果不满足方差齐性,也会使参数估计有偏。

因此,出现了截断回归模型的半参数法。Powell [14] 提出了截断回归模型的SCLS法,假定误差项是对称分布的,可以修剪截断分布使不对称的因变量成为对称分布,然后运用最小二乘法估计。当截断的比例不是很大时,此方法十分有效。

3. 样本选取和数据预处理

孔夫子旧书网是目前全球最大的中文古旧书交易网站,截止2015年4月,网站上共有书店近一万家,图书超过六千多万种,在线拍卖区每天平均有一万多件图书拍卖。在线拍卖区是孔夫子旧书网的重要部分,共有三个板块:低价拍卖区,大众拍卖区和珍本拍卖区,根据拍品的大致价格进行区分。孔夫子旧书网的拍卖属于英式拍卖,即拍主开始拍卖时,需要设定拍卖的起始时间、结束时间、起拍价和加价额度,并且要对拍卖物品的名称、年代、品相、版本等提供详细的文字说明和实际图片。竞拍规则中,拍卖结束时间后有5分钟的延时期,如有人在延时期竞价,拍卖一直进行,直到5分钟内无人出价宣告结束。之前的研究者大多选取淘宝等,但我们更倾向于针对孔夫子旧书网中的书籍拍卖做研究。不仅是基于孔夫子旧书网的拍卖资料更健全,可以搜到往期所有的拍卖结果,更重要的是,孔夫子旧书网上的拍卖与传统拍卖更加相似,具有专业性和公开公平的竞价方式,并且一般注册孔夫子旧书网并在其上参与拍卖的人,极大多数都具备一定的对书籍的了解和判断力,更加注重于书籍本身的质量和价值,所以竞价和买下都更加理性。而淘宝等网站,因为注册人数十分多且注册目的广泛,所以参与拍卖的很多人都是盲目地进行拍卖,甚至是好奇性质居多,这样就给影响因素的分析带来了很多不理性的因素。

《红楼梦》是中国典籍中极其重要并且广为流传的经典名著。建国之后,由于中国的政治和文化等等原因,红学一度成为显学,几乎引领了半个世纪中国学术以及文化的潮流,一大批优秀的学者都投入到红学研究中,由此改编的各种戏曲影视作品让更多人们的关注和喜爱《红楼梦》一书。由于数据量化原因,本文没有选择清代手抄本这样极其珍惜以至于很难量化的版本,而是选取了人民文学出版社从1952年开始出版的47个版本的红楼梦作为样本。这样选取能够使数据更加具有普适性,方便收集和整理。并且,从1950年至今,人民文学出版社一向在红楼梦出版中具有最高的权威性,且由于之后的政治和文化原因,也一直以很高的频率和质量推出新的版本和再版,因此选取这样的数据很具有代表性。本文用EXCEL VBA编程技术,从网站上抓取了符合条件的3039个数据,涵盖了孔夫子旧书网从2008年1月到2015年2月的所有人民文学出版社出版的《红楼梦》一书的拍卖数据,导入到表格中进行分析处理。由于数据是从网站上抓取的,所以有很多地方需要后续处理以方便之后建立回归模型。例如,出版年份等明细如果按月份算则过于琐碎,所以统一截断年份,比如出版年份和注册年度。品相将其量化为数量,将一到九品量化为数字1到9,七五品等有半数的则量化为7.5,以此类推。装订样式则根据一般的装订贵重程度,将未描述和描述为其他的装订版本定为0,平装定为1,硬精装和软精装定为2,毛边版定为3,线装定为4。其中出版年份有86份未填写,但考虑到可以根据描述和照片内容判断版本,将其近似为所有数据的平均出版年份1979年,以提高数据的利用率。由于希望研究成交价格的影响因素,所以将当期价格(即成交价格)选取为自变量,标记为Y。根据之前的研究经验以及所能收集到的数据,本文选取了18个自变量,如表1所示。从这18个变量里通过回归,选取对价格影响大的变量,建立回归方程并进行预测。由于本文不涉及文本的分析处理,所以所有的文字描述统一处理为描述字数,因为字数很大

一部分程度能反映出卖主的描述详细程度,以及竞价者对拍品的了解程度,比如标题字数,图片数,品相字数以及描述的详细字数。由于卖家信誉的星级数是由卖家和买家信誉评分直接计算出,所以本文将卖家和买家信誉评分及其好评率作为自变量。

4. 回归模型的建立和解释

4.1. 建立模型

本文采用R语言编程来处理数据,加载tobit回归包,将预处理之后的数据导入R中进行回归分析。由于变量较多,采取后退式回归,逐个剔除影响因素小的自变量,将回归控制在较好的拟合优度上。

首次回归可以看出,浏览天数(DayNum),卖家好评率(SellerPro)以及买家好评率(BuyerPro)对因变量几乎无影响,所以先剔除。再次做回归剔除卖家信誉(SellerCre),装订(Version),出版年份,品相字数描述,图片数,标题字数,卖家注册年度等,最终回归结果如表2。整个模型卡方的值为0,因此建立回归方程如下:

Table 1. Response and the selected 18 variables

表1. 响应变量及选取的18个变量

Table 2. Results of the truncated regression model

表2. 截断回归模型结果

其中,为:

最后的回归模型表明,8个变量对拍卖价格有显著的影响,其中,浏览次数,最小加价幅度,起拍价,品相,出价次数,卖家担保金,详细字数以及买家信誉对拍卖价格有十分显著的影响。另外,起拍价和买家信誉对买卖价格的影响为负。这可以用一定的经济学原理和常识来解释。比如,拍品的浏览次数越多,出价次数越多,拍卖成交价格就越要越高,这不仅说明该拍品有更多的买家感兴趣,则拍卖价格越高,也反映了买家关注越多,竞价的行为也相应增多,最终使拍卖价格上升。这与之前文献和研究中得出的结论是一致的。品相、卖家担保金和详细字数则反映出卖家提供的信息和担保对拍卖价格的影响。品相越高,说明拍品的保存程度越好,则拍卖价格自然越高;卖家担保金的多少反映了卖家的可信度,以及出现拍卖问题时降低风险的程度。卖家担保金越多,说明卖家越可信,拍卖如果出现问题,买家能得到更好的补偿,风险更小,因此买家更倾向选取担保金多的卖家的拍品;详细字数则反映了买家对拍品的了解程度。可以看出,详细字数越多,买家对拍品了解程度越高,则会花更多的价格拍下。对于价格影响为负的两个变量,也有很好的解释。比如,起拍价越高,则最终拍卖价格越低。由于此模型是截断回归模型,因此这个可以解释为起拍价越高之后,可能已经超过了买家心目中该拍品应有的价值,所以没有买家愿意出价购买,所以难以拍卖成功,即流拍,此时价格为0,所以与拍卖价格负相关。而买家信誉对拍卖价格有负影响,说明买家信誉越高,拍卖成交价格越低。因为买家信誉跟购买次数是极其相关的,除了极少部分态度不好以至于使买家打低分的买家,绝大多数买家的信誉的都是与其购买次数正相关。而购买次数越多的买家越有经验,越能够运用策略和方法,用更少的价格买到同等质量的拍品。而对于一些刚刚起步,还不是很熟悉拍品的买家而言,有的时候就会因为经验不足,用更多的钱购买了同等质量的拍品。

4.2. 预测

用该回归模型预测2015年3月的拍卖数据。共收集3月拍卖数据26条,根据模型估计出成交价格,然后与实际成交价格对比如表3所示。26个数据中有16个差距在5元以内,直观上可以看出该模型具有不错的拟合效果。

由于数据和经验的限制,该模型存在很多不足。首先,由于数据的选取原因,有些因素无法被衡量。比如前文提到的拍卖天数对拍品价格的影响,由于孔夫子旧书网的绝大多数拍品的拍卖天数都在3天左右,差距几乎为0,模型分析出来也很早就排除了天数的影响。但其实对于大多数拍卖而言,天数确实会对拍品价格产生影响。因此可以选取其他网站的数据来对此进行分析,可能会得出不一样的结论。其次,由于本文将图文全部转化成数字来进行分析,损失了很多有用的信息。之后的研究,可以利用文本挖掘等技术,近一步对卖家描述的文本内容,字体排版以及图片清晰度等更为具体的信息进行进一步研究,会得到更优更科学的模型。

4.3. 模型改进

将拍卖结果不为0的数据做条件回归,用SPSS的逐步回归法,得出表4的结果。可以看出,在成功拍下拍品的条件下,拍卖价格的影响因素依次为:浏览次数,最小加价幅度,起拍价,出价次数,详细字数,品相和买家好评率,这与截断回归下的影响因素有相同亦有不同。其中,前三个影响因素占据了极其重要的影响因素,不管是对拍卖是否成交以及拍卖成交之后的价格都依次有最显著的影响。之后,出价次数,详细字数,品相都依然对价格有显著的影响,而详细字数比品相更多地影响了拍卖成功交易

Table 3. The prediction for March 2015

表3. 预测2015年3月的结果

Table 4. The coefficients of the modified model

表4. 改进模型的系数

之后的价格。唯一不同的是,买家信誉更多地影响了拍卖是否成交,而买家好评率则更多的影响了拍卖成功成交之后的价格。

5. 结论

本文的分析结果可以对卖家如何更成功地拍卖出自己的拍品有指导意义。例如:

1) 浏览次数对拍卖成功以及价格有最重要的影响,所以可以适当地增加自己拍品的浏览量,比如增加拍卖天数,以及购买广告位。

2) 鉴于起拍价对拍卖成交有负的影响,所以建议卖家尽量将自己拍品的价格控制在比较合适的范围内,尽量不要提价抬高,以免导致流拍。

3) 由于详细字数对拍卖成交价格有正的影响因素,卖家可以更加详细地描述自己的拍品,增加买家对拍品的了解,从而促使自己的拍品更加成功地拍出。

基金项目

本文为“中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)”项目成果,(15XNL008)。

文章引用

王爽,吴延科,田茂再. 基于截断回归模型的网络拍卖成交价格影响因素分析
Analysis of the Influencing Factors of Price Determinants in Online Auction Based on Truncated Regression Models[J]. 统计学与应用, 2016, 05(01): 1-8. http://dx.doi.org/10.12677/SA.2016.51001

参考文献 (References)

  1. 1. Lucking-Reiley, D., Bryan, D., Prasad, N. and Reeves, D. (2007) Pennies from eBay: The Determinants of Price in Online Auctions. The Journal of Industrial Economics, 55, 223-233. http://dx.doi.org/10.1111/j.1467-6451.2007.00309.x

  2. 2. Depken II, C.A. and Gregorius, B. (2010) Auction Characteristics, Seller Reputation, and Closing Prices: Evidence from eBay Sales of the iPhone. International Journal of Electronic Business, 8, 170-186. http://dx.doi.org/10.1504/IJEB.2010.032094

  3. 3. Hou, J. (2007) Price Determinants in Online Auctions: A Comparative Study of eBay China and US. Journal of Electronic Commerce Research, 8, 172-183.

  4. 4. Kauffman, R.J. and Wood, C.A. (2006) Doing Their Bidding: An Empirical Examination of Factors That Affect a Buyer’s Utility in Internet Auctions. Information Technology and Management, 7, 171-190. http://dx.doi.org/10.1007/s10799-006-9181-4

  5. 5. Ghani, R. and Simmons, H. (2004) Predicting the End-Price of Online Auctions. Proceedings of the International Workshop on Data Mining and Adaptive Modelling Methods for Economics and Management, 1-11.

  6. 6. Wang, S., Jank, W. and Shmueli, G. (2008) Explaining and Forecasting Online Auction Prices and Their Dynamics Using Functional Data Analysis. Journal of Business & Economic Statistics, 26. http://dx.doi.org/10.1198/073500106000000477

  7. 7. 吕彦儒, 吕巍, 周颖. 网上一元竞拍成交价格影响因素相关性研究: 基于ebay网络mp3竞拍的实证[J]. 生产力研究, 2006(4): 84-85.

  8. 8. 褚荣伟, 拱晓波. 网络拍卖市场中成交价格的决定因素研究——卖家评级真的重要吗?[J]. 中大管理研究, 2007, 2(1): 76-96.

  9. 9. 吉吟东, 李平, 邵培基. 起始价格在英式网上拍卖中的作用与最优设置分析[J]. 信息系统学报, 2009(2): 39-48.

  10. 10. 黄丹. 基于ebay的网络拍卖价格影响因素的实证研究[J]. 西南农业大学学报(社会科学版), 2012(12): 28-29.

  11. 11. 谢文容, 陈宏民. 网络拍卖和固定价格交易卖家收益的比较分析[J]. 软科学, 2012, 26(9): 50-55.

  12. 12. 许爽. 网络拍卖定价策略探析[J]. 福建电脑, 2012, 28(4): 49-51.

  13. 13. Tobin, J. (1958) Estimation of Relationships for Limited De-pendent Variables. Econometrica: Journal of the Econometric Society, 24-36. http://dx.doi.org/10.2307/1907382

  14. 14. Powell, J.L. (1986) Symmetrically Trimmed Least Squares Estimation for Tobit Models. Econometrica: Journal of the Econometric Society, 1435-1460. http://dx.doi.org/10.2307/1914308

期刊菜单