近几年来,随着雾霾天气的频繁出现,空气净化器逐渐走入了家家户户,更是在整体疲软的家电市场上犹如一匹“黑马”,销售量和销售额都呈现出了爆发式增长。咱们今天的精品案例就来聊一聊空气净化器。
空气净化器起源于消防用途,最早被用在消防队灭火时避免烟雾侵袭。进入20世纪八十年代,空气净化器的重点已经转向空气净化,被用作去除空气中的恶臭、有毒化学品和有毒气体。而在我国,空气净化器普遍进入大众视野主要是由于雾霾天气的出现。
雾霾天中的PM2.5是一种直径小于或等于2.5微米的颗粒物,它们可以透过人体的鼻腔、咽喉,一路下行,进入整个血液循环系统,对人体的呼吸系统和心血管系统造成伤害。雾霾天的出现点燃了我国的空气净化器市场。
整个空净市场经历了2013年的爆发式增长、 2014年的稳步上升、2015年的增中有缓,直至2016年3月,新国标的正式实行使其更加规范成熟, 并将空气净化器的销售情况推向另一个高峰。展望2017,随着雾霾天气的频繁出现以及人们对空气净化器认识的加深,空气净化器市场仍然有着巨大的发展潜力。
与此同时,近几年来,空气净化器的线上销售快速崛起,很多国内品牌也逐渐壮大,这在丰富了消费者的购买渠道和产品选择的同时,也加剧了市场竞争的激烈程度。如何在众多品牌中独树一帜,让用户青睐有加呢?
下面,我们从空气净化器的性能指标和用户评论两方面来探索哪些因素能显著影响空气净化器好评率,从而为厂商进一步改善产品设计提供思路。
我们的数据是截止2017年1月31日,某知名电商在其自营平台上销售的空气净化器数据(共101部)以及能爬到的每台净化器的全部用户评论数据(共37,419条)。下表列出了两个数据中包含的变量名称和含义。
我们的因变量是每台空气净化器的好评率(好评数/总评论数),下图是所有空气净化器好评率的分布情况。我们可以看到,绝大部分空气净化器的好评率都超过了90%,但是也有个别的空气净化器好评率很低,仅有80%。
为什么空气净化器的好评率如此参差不齐?有哪些因素会影响到用户对空气净化器的评价呢?我们先从新国标入手来看看市场上空气净化器的配置情况。
2016年3月,空气净化器的新国标正式实施,这标志着我国空气净化器市场变得更加规范成熟。新国标的意义在于它对空气净化器的净化性能(CADR)、滤网寿命(CCM)、能效等级和噪音都进行了更为明确的规定。
我们仅在这里重点解释一下净化性能指标CADR。CADR表示洁净空气输出量,即空气净化器每运行一个小时为室内提供的洁净空气量。空气净化器的性能好坏,主要由CADR值决定,CADR值越大,净化空气的效率越高。
下图展示了数据中全部空气净化器的气态CADR值和固态CADR值的分布情况,我们可以看到,该自营平台上的空气净化器的气态CADR值还普遍处于较低的水平,绝大多数集中在50~100之间;固态CADR值的表现稍好一些,绝大多数集中在300~500之间;仅有个别空气净化器的气态CADR值和固态CADR值很高。
除了新国标之外,空气净化器还有很多的辅助指标。下图展示了空气净化器在净化方式、睡眠模式、滤网更新提醒功能和定时模式四个指标上的分布情况。从中可以看到,大部分的空气净化器都采用过滤式的净化方式,并且支持睡眠模式、定时模式,并能进行滤网更新提醒。
除了空气净化器的具体配置情况外,我们再从用户评论的角度出发,看看大家都关注空气净化器的哪些方面。在对用户评论进行了分词、去停用词、按词性筛选等一系列文本处理后,我们将全部用户评论中出现频数最高的前100个词绘制了词云图。这些高频词看起来杂乱无章,但我们还是从中发现了很多亮点,像“声音”、“外观”、“送货”、“显示”等这些描述服务特征或净化器特征的词。是不是正是这些大家普遍关注的地方影响了大家对空气净化器的评价呢?
为了深入探索,我们首先从高频词中提取了一系列描述【服务特征】和【净化器特征】的热评词,然后用两样本T检验对每个热评词进行初步判断。如果出现该热评词的评论得分与不出现的评论得分有显著差异,我们就保留该热评词。
最后,我们为每一个热评词,计算其在一台空气净化器的所有评论中出现的频率(也就是包含该热评词的评论数占该台净化器总评论数的比例),然后用该频率衡量热评词在这台净化器上的表现。
进一步的,我们以空气净化器为分析单位,使用线性回归模型来探索空气净化器的配置情况、该电商平台的促销情况,以及每个热评词出现的频率是否能显著影响空气净化器的好评率。在回归模型中,我们使用BIC进行变量选择,结果如下所示。我们发现,空气净化器的价格、品牌、固态污染物CADR值以及气态污染物净化能效都能显著影响净化器的好评率。
此外,我们选出了四个显著影响净化器好评率的热评词,分别为:送货、外观、功能和性价比。功能、外观在评论中出现的频率越高,净化器的好评率越高,说明这两点是净化器的加分项。送货、性价比在评论中出现的频率越高,净化器的好评率反而越低,说明这是净化器的减分项。
为什么每个热评词对净化器好评率的影响不同呢?每个热评词背后隐藏了什么,它好在哪,又差在哪呢?为了探究背后的原因,我们对每个显著的热评词进行深挖,找出它背后具体的“关注点”,并探索每个关注点的正负作用。
以“功能”为例,我们找出的关注点有:净化功能、加湿功能、操作情况、功能是否齐全、静音模式、显示功能和睡眠模式。下图左边的柱状图给出了“包含每个关注点的评论”在所有提到“功能”的评论中所占的比例,我们看到占比最高的是“净化”和“加湿”功能。进一步的,我们统计了包含各个关注点的评论的平均分,并将它们和行业均值(也就是所有净化器评论的平均分)进行对比,从中就能看到各个关注点扮演的角色是“好孩子”还是“坏孩子”啦。下图右边的柱状图展示了这一对比结果。其中,所有包含“功能”的评论平均分要高于行业均值,但不同关注点的情况又有很大差异。作为净化器最主要的功能,“净化”这一关注点表现平平,“加湿”、“静音”和“睡眠”的表现都高于行业均值,但“显示”略低于行业均值。
此外,面对众多关注点,我们还希望找出哪些关注点是最重要的。我们可以用找出的所有关注点替代之前显著的四个热评词,重新建立回归模型进行探究。最后,根据上面建立的得分体系,我们可以为每台净化器进行整体画像,判断它在“送货”、“外观”、“功能”和“性价比”四个方面的整体表现。其次,对于每个热评词,我们可以更细致的给出净化器在该热评词各个关注点的细节画像,通过对比,为每台净化器找到具体的改进方向。