大家都在钻戒上花多少钱?(数据分析)

[复制链接]
awdrgyjil 发表于 2023-9-28 03:12:17|来自:北京 | 显示全部楼层 |阅读模式
某个朋友的pyq内有人结婚花了很多钱买钻戒,也有条件还不错的朋友买了相对平价的钻戒。那么问题来了,钻石本身是一堆碳原子,储量也不低,没太多价值,大众接受的价格范围是什么样的,什么是常规操作,什么是高玩操作?大家先想一想这个问题,我们接下来分析它。
一、数据源
分析这个问题,我们要用数据说话,第一步就是获取数据。为了方便的获得数据,网购平台是第一选择。我是在天猫查询钻戒的价格,发现很多商品价格不高,显然不太适合作为结婚时购买的钻戒,于是在天猫进行了第一步删选——价格>5k,一共有80页,每页60个商品。Ok,接下来就是爬取数据,由于还没达到随意写爬虫爬天猫数据的level,我这里采用的是八爪鱼(非广告)帮助我半自动采集——先在八爪鱼输入网址,输入账号密码,到达预定界面,选择爬取的数据,保存操作,再运行程序让八爪鱼执行之前的操作爬取数据。程序很快爬起了数据,但是在420条数据,即第6页停止了,原因是出现了阿里的滑条验证,程序无法智能验证,不得不停止。而我尝试在停止页面多跑几次程序,依然不行,数据是重复的,也就是说想把数据拼接起来,必须重新录入操作,更换网址,这并不够智能。这里暂且放下,日后再战。
二、数据处理
将爬到的数据导出csv,观察数据,确实是预期的数据,那么就可以进行下一步操作了。


这步之后用到python,读取csv文件,数据无缺失、无重复。我们关注价格问题,于是dataframe选取了价格、店铺、状态(成交量)三列数据。


显然,要对数据进行处理,将dataframe转换为np.array形式,对每行list内的string数据进行分割(split),取出数据,如价格:6685,成交量:110。取数完成后,再转换为dataframe,同时将数据由str格式转换为int,这样我们才能分析数据。
三、描述性统计
转换完成后,我们看一下数据描述性统计。


平均价格11712,一倍标准差8939,假设正态分布,那有60%的价格在11712-8939(实际为5k)到11712+8939(=20651)之间;而前四分位数价格是13888,说明高价的商品并不多,这一点似乎可以预见,毕竟我们是因为低价商品太多,才筛选价格>5k的;最高价格57699,emmm,肯定不低,但也不是特别高,可能数据量不够,没爬到更高的钻戒。
接下来利用cut函数根据价格对商品分组,分组如下:
label=['8k以下','8-10k','10-12k','12-15k','15-20k','20-25k','25-30k','30k以上']
分组后结果一览:


然后就可以根据分组的结果查看商品的分布情况啦。这里直接贴直方图。


很明显,5-8k的商品数遥遥领先,这并不意外。而8-10k、12-15k数量次之。考虑到婚戒大背景和了解到的周边朋友一些信息,我觉得可以将10k以下数据再略去,重复上述处理操作。


这次只剩下153条商品数据,价格均值达到了19678元,符合事前预期。碰巧的是之前的四分位数价格13888变成了这里的中位数。


从直方图来看,在>10k的钻戒里,12-15k的商品数最多,10-12k、15-20k次之,这个结果应该是符合我们大部分人预期的。那么我们是不是可以认为大部分人接受的价格就是在12-15k附近呢?
No!
除了商品记录数,我们还有成交量数据,groupby之后,可以用价格区间内成交量之和除以商品数,得到区间内单个商品的平均销量。


平均销量似乎和前面直方图的结论不完全一致。首先,低价位的商品平均销量遥遥领先,这并不意外。我们再看>10k的数据,销售情况最好几个区间依次是10-12k、20-25k、15-20k,然后才轮到12-15k,意不意外?商品数最多的12-15k区间的销量出现了断层。用成交量>=2的数据绘制价格-成交量散点图,也证实了这一点,12-15k之间出现了空白。20k以上数据点较少,20-25k商品少,个别店铺销售情况好,拉高了平均水平,而25k以上的商品,成交量为0的很多,拉低了平均水平。


四、数据分析
10-12k以及10k以下销量很高,说明天猫上成交的大多数人还是普通工薪阶层,明显偏向于平价商品,满足需求即可。
而为什么12-15k区间销量低,15-25k区间销量高呢?我的观点如下:普通工薪阶层满足需求即可,天猫上有足够多的商品供他们挑选,不用跳到更高的价格区间。而对于有较强消费能力的群体来说,12-15k的商品不能满足他们的需求,既然花钱了,他们宁愿再加一些钱,购买到bulingbuling的大钻戒,所以出现了12-15k区间成交量空白,与12-15k商品数最多产生矛盾。对店铺管理者来讲,显然不应该继续大力推12-15k的钻戒,而是应该综合考虑战略、销量以及各区间产品的利润,转向12k以下的平价区间或者15-25k的轻奢区间。
再看高价区间的钻戒,商品数并不是很少,而销量很低,这是为什么呢?钻戒属于一次性购买的奢侈品,一辈子不会买多次(maybe,手动狗头),而网店并不能够实际体验产品,人们在决策的时候,可能更加审慎,偏向于去实体店购买,即使实体店有溢价也不影响。所以,商家考虑退出这个区间是有意义的,除非是o2o模式的店铺。
五、总结
12k以下,以及15-25k这两个区间是大部分人的接受范围。
而本次数据分析存在这样的不足:
1.数据样本不够多,只有6页,是实际数据的6/80,这会给分析带来偏差。也许全量的数据会给我们不一样的结论吧。
2.数据来源是天猫用户,那么数据分析只能代表天猫用户这个群体,去实体店购买的群体能接受什么样的价位?我们不得而知。也许截然不同。
全部回复4 显示全部楼层
颜容 发表于 2023-9-28 03:12:29|来自:北京 | 显示全部楼层
其实并不是我们想这样,可能商家定价就是这样
为爱 发表于 2023-9-28 03:12:38|来自:北京 | 显示全部楼层
这个肯定不是和消费者完全无关,价格、销量是供给和需求同时决定的。不管商家用什么策略控制供给,但是当前的均衡也是有消费者投票的
小新技术 发表于 2023-9-28 03:13:05|来自:北京 | 显示全部楼层
你的回答比其他人根据自己周围经验随便说说更令人信服啊,怎么可以点赞这么少!!不开心[思考]
h27454440t 发表于 2023-9-28 03:13:23|来自:北京 | 显示全部楼层
感谢认可~因为是自己发布的文章,不是在某个问题下的回答,加上没什么关注者,点赞少是自然的(摊手)。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则