今年以来,国家统计局、各科研单位对大数据的研究和应用空前重视。国家统计局局长马建堂多次强调,要充分认识大数据给政府统计带来的历史机遇和重要挑战,按照“总体设计、牵头攻关、先易后难、专业突破”的工作思路,积极主动利用海量电子化数据,加快推进统计现代化。本文试图利用商品零售电子信息,探讨改革CPI调查方法,以期获得更加高效、准确、科学的CPI。
国内外CPI编制现状简析
编制CPI最主要的工作是搜集代表规格品的可比价格数据。目前,世界各国在价格采集的过程中,普遍采用的方式还是传统的人工采价。人工采价方法简单、可操作性强,但该方式也存在成本较高、时效性差、数据内容单一等缺陷。人工采价过程产生的误差主要有:规格品的选取和替代时产生的误差,采价员获取实际成交价格时的技巧性误差,采价员人工记录数据产生的工作误差,货架或包装标记的错误价格造成的误差等。
随着全球信息技术的发展,各国统计部门都在试图利用信息化手段采集源头数据。信息化采集能够有效地降低调查成本,提高数据采集效率,为改进CPI的编制、计算方法提供条件,实现提高CPI数据质量的目标。英国、瑞典、荷兰等欧洲国家利用扫描数据技术实现CPI数据的信息化采集。所谓扫描数据,即消费者在购物结算时,收银员通过扫描设备对商品EAN码(European Article Number,商品用条码)扫描时所记录的数据信息。由于扫描数据提供了诸如产品销量、产品特性和产品价值等相关信息,为编制CPI基本分类指数提供了权重信息,扩大了编制CPI的数据来源。这种方法为利用国内连锁超市的海量价格交易信息编制CPI提供了思路,同时避免了采用固定权重进行指数计算产生的误差。
全面搜集商品交易信息,用所有商品交易的海量数据替代代表规格品价格数据,可以有效解决代表规格品对总体的代表性问题,也可以消除代表规格品替代时产生的误差。2012年,国家统计局在全国推行PDA(CPI手持数据采集系统)采价,有效地提高了采价的工作效率和数据的时效性。但是,CPI手持数据采集系统依然无法摆脱人力成本的投入,从本质上来讲,只是对传统采价方式的信息化改进,而不是由信息化所导致的调查方式的根本性改革。
值得一提的是,现行的价格采集制度没有将网络销售纳入价格采集范围,在一定程度上弱化了价格调查的代表性。据中国互联网络信息中心(CNNIC)发布的《2012年中国网络购物市场研究报告》显示,截至2012年12月底,我国网络购物用户规模为2.42亿,网民使用网络购物的比例提升至42.9%。2012年,我国网络购物市场交易金额达到12594亿元,较2011年增长66.5%。2012年网络零售市场交易总额占社会消费品零售总额的6.1%。将网络交易商品纳入CPI调查内容,是顺应消费者消费心理和消费习惯变化的一种必然趋势。
从编制方法看,目前采用固定权重加权平均的方式进行计算,未考虑产品质量改进、替代偏误和新产品推出的影响,僵化的固定权重设计,不能灵敏地反映当年消费结构特点,也掩盖了季节性的消费结构变化,影响了CPI的数据质量。
应用大数据技术进行CPI调查改革的原则
以射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备为数据采集媒介的物联网技术,大大提高了数据采集的智能化水平。在大数据时代,CPI调查数据主要来源于信息技术记录下的原始数据,依赖于数据采集终端(如商场超市收银管理系统、网络实时交易系统、税务发票实时机打系统、住户电子记账系统等),还能改进和完善限额以上批发零售贸易业一套表网上直报系统,从中获取可靠的信息,而不需要采价员长期、连续地直接采价。云计算技术的运用日趋成熟,为海量数据提供了强大的计算能力和数据存储能力,这些都为应用大数据技术编制CPI提供了条件。加强CPI调查改进工作的研究,启动试点并适时推广,正逢其时。
与发达国家相比,我国存在不容忽视的特殊情况和困难。以英国、荷兰为例,目前英国市场上4家大型连锁超市占据了76.8%的市场份额,消费者日常购物一般都在连锁超市进行;荷兰连锁超市企业执行统一的全国定价策略,绝大多数规格品的价格在所有分店都是一样的。而我国存在着一个巨大的农村市场,信息化程度低,连锁超市的普及尚需时日。即使只考虑城镇市场,众多零售企业与网点,浓重的地域色彩与差异仍是我国的现实国情,与国外几家大型连锁企业控制大部分市场份额的经营状况不同。这些都会为我国大规模利用信息化手段进行CPI数据采集造成困难。因此,应用大数据技术改革CPI调查方法,应遵循以下原则。
其一,大胆实践,局部突破。虽然我国的信息化水平与发达国家有一定的差距,但是今年来有了长足的发展,并将进入更快的发展时期,为大数据理论和应用创造了基本条件,应当大胆实践,在个别地区(城市)进行试点,待取得成功并积累一定经验后,再逐步推广。
其二,方法先行,制度跟进。先从数据获取的方法入手,即从技术层面入手,充分利用电子信息,探索信息搜集方法和手段,逐步形成操作典范和统计制度,为全面推广打下基础。
其三,新旧并存,逐渐过渡。在试点工作初期,信息化数据采集只能起到主要作用,会有一些CPI调查源头数据难以全部用信息化手段进行数据采集,可以用人工采价作为补充。新方法编制的CPI可与传统CPI相互印证,共同促进数据质量的提高,并逐渐过渡,实现用大数据的方法计算CPI替代用传统方法编制CPI。
大数据为改进CPI调查制度方法提供新思路
利用超市、商场、网络交易平台等消费终端管理系统的实时交易数据,加权计算消费品分类价格指数,再结合本地区居民消费结构,计算消费价格指数的方法,是对现行CPI调查制度中人工采价方法和“同质可比”问题的突破。将不再花费大量的人力、物力进行规格品的选取、替代和采价等工作。运用大数据理论、技术解决CPI调查中的突出问题,为改进CPI调查制度和工作方法提供了新思路。
一是实现CPI数据从“人工采集”到“信息化采集”。随着我国城镇化和信息化的高速发展,大型国际连锁超市、区域连锁超市的兴起和普及,网络零售市场交易总额的不断扩大,住户电子记账系统的推广应用,将实时交易价格数据通过联网直报的方式上报至数据存储和处理中心,逐步实现CPI调查数据的信息化采集,解放统计生产力。
二是建立统一的商品分类方式。CPI统计采用固定权重的拉氏指数计算方法,包含8个商品分类。而阿里巴巴集团研究中心推出的ISPI(网络零售价格指数),是采用国际统计学界与宏观经济学界广为接受的链式加权拉氏(Laspeyres)指数法,下设有10个商品和服务分类(食品、烟酒及用品、衣着、家庭设备用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住、办公用品及服务、爱好收藏投资等)。商场、超市、网络交易平台的商品分类方式各不相同,与CPI统计的分类方式存在一定的差异。尝试建立商场、超市以及网络交易平台商品的分类方式和CPI统计的分类方式的对应关系,是实现商品零售数据信息联网直报的基础。在此基础上,可以实现终端商品信息数据库与数据处理中心数据库的对接,保持商品数据信息的实时更新状态,将更精准地反映价格变动趋势。
三是根据海量数据分析确定CPI权重和编制方法。全国不同地区经济发展水平不同,消费结构差异较大。ISPI(网络零售价格指数)采用链式加权,考虑了权重的动态变化,商品篮子和权重会适时作出调整。从2010年至今的数据走势看,ISPI与官方CPI环比指数呈现联动关系,在关键转折点上还呈现一定的领先态势,既能反映整体价格变化,又能体现季节性及消费结构特点。
四是建立CPI数据挖掘应用平台。在利用大数据编制CPI的同时,应当借鉴淘宝数据分析平台的成功做法,建立CPI数据挖掘应用平台,对海量商品交易信息进行挖掘分析,尽早发现消费趋势和价格走势的动态变化规律,对市场异动情况进行预警,为广大消费者和企业经营者提供代表性更强、涉及面更宽的数据服务,有效拓展服务领域。这也是在大数据背景下所独有的一种新型能力和优势。