[IT技术] 有没有互联网大厂的大数据分析实例?

[复制链接]
Brian 发表于 2023-10-26 23:25:13|来自:北京 | 显示全部楼层 |阅读模式
有没有互联网大厂的大数据分析实例?
全部回复3 显示全部楼层
陈晓 发表于 2023-10-26 23:25:52|来自:北京 | 显示全部楼层
物联网、云计算和移动技术的普及,让数据量呈现井喷式增长,同时随着企业业务规模的不断扩大,数据分析处理的准确性和实时性要求也逐步提高。因此,建设兼顾效率和质量的大数据体系成为了业界的共同课题。
为此,dbaplus社群携手爱奇艺三位大数据专家,围绕“爱奇艺复杂场景下的大数据体系建设与实践”这一主题开展线上直播分享,针对实时计算、数据湖、数据治理、平台化建设等议题进行深入探讨,给大家提供企业级大数据体系建设管理经验参考。





  • 观看方式:线上直播间
  • 直播日期:2023年8月18日(周五)
  • 直播时间:14:30-17:00
  • 直播地址:

爱奇艺复杂场景下的大数据体系建设与实践

活动议程




分享嘉宾及议题





议题要点及收获:

  • 分享爱奇艺大数据实时计算技术的演进路径,以及实时计算、实时分析平台建设经验;
  • 大数据体系如何从离线计算向实时计算过渡?
  • 如何使用数据湖技术更好地支持实时计算?
  • 如何进行实时计算相关的平台化建设?

嘉宾介绍:爱奇艺大数据计算组负责人,负责爱奇艺大数据计算服务、实时计算平台、实时分析平台、机器学习平台等系统的建设工作,拥有丰富的大数据领域实战经验。





议题要点及收获:

  • 在愈发复杂的业务发展过程中,大数据应用及对应的体系架构会遇到哪些痛点?
  • 数据湖适用哪些场景?数据湖技术如何在业务中应用并升级技术架构?
  • 数据湖应用过程中会碰到哪些问题?有哪些解决方法?
  • 使用数据湖可能会产生哪些收益?

嘉宾介绍:目前在爱奇艺从事数据中台相关工作,在数据体系建设、数据仓库、大数据平台、数据应用、数据治理相关领域有丰富经验。




议题要点及收获:

  • 分享爱奇艺在数据投递、生产、开发、运维等环节的数据治理尝试与实践,及保障爱奇艺数据的质量和时效性的经验;
  • 如何从源头控制投递的质量?
  • 如何定位数据的异常?
  • 如何快速评估数据异常的影响范围?
嘉宾介绍:初期主要负责爱奇艺流量反作弊和渠道反作弊工作。随着爱奇艺数据的爆发式增长,开始参与并推进爱奇艺数据治理的部分工作,覆盖内容包括Pingback质量评估、数据质量平台、数据链路治理等。





  • 直播地址:

爱奇艺复杂场景下的大数据体系建设与实践
romi 发表于 2023-10-26 23:26:43|来自:北京 | 显示全部楼层
抖音收藏功能数据分析实例

以下文章转载字节前数据中台分析师普朗克,对抖音收藏功能项目优化做的数据分析工作,所有文章均来自渭河的数据分析社区,已获得转载权限,严禁抄袭:
写在前面

前言

大家好,我是普朗克。之前收集了大家的一些想法和反馈,很多同学都提到想要了解数据驱动业务的具体实践、实际工作场景中真实分析案例等内容,我会努力的把自己过往的经历和经验整理成相对应的信息展示给大家。同时为了让大家有一个更好的阅读体验,能从中学习到一些有用的思想和知识,我会在渭河的知识星球中以系列文章的形式,尝试把内容层次分明有递进的进行展开阐述;另外如果大家有任何的疑问或者对文章撰写不清楚的地方都可以在评论或讨论群里提出来,我看到后会尽量的去回复大家,以期能对大家真正起到哪怕一丁点儿的帮助,那也是我个人莫大的荣幸,在此先行拜谢
为什么要选择这个内容

相信大家都能深切体会到分析思维、产品思维在数据分析师能力模型中的重要性,同时大家也会觉得这个方向的提升是比较困难的,因为它不像SQL、Python或其他工具类的学习,它们是能够一步一步去练习提高并在学习过程中能较快给到你正反馈的内容;分析思维这种软性技能相对会给人感觉比较虚,经常让大家不知如何去学习提升,但它在实际工作中的重要性却可能是最高的,这难免会让大家倍感压力
所以和渭河沟通约稿商量后,打算文章可以更多的从实际工作中结合一个具体的Case去剖析分析师如何结合产品思维去做有价值的分析帮助大家理解分析师在业务中到底该如何产生对业务的价值,进而让自己在职业发展道路上迈向中级、高级分析师,升职加薪,迎娶白富美,嫁给王一博
拉开帷幕:功能上线的每个节点分析师该做什么

概述:
以抖音收藏功能外放为例,简单介绍一下大厂产品功能上线常见的工作流程,来帮助大家理解分析师在这个过程中的角色定位和在流程中起到的作用
预期要做的效果图:


1、产品功能立项

一句话概述:产品经理需要调研思考清楚这个功能预期解决哪些用户在使用时的什么痛点
在这个阶段分析师该做什么:可以给产品同学提供一些数据摸底,像这个Case我们想要把收藏功能和点赞、评论功能并列,相当于给收藏功能一个很大的流量入口,培养用户使用收藏功能的心智



2、产品功能的评审

一句话概述产品经理结合前期数据摸底明确这个功能的重要性和优先级,输出完成的PRD文档并在产品内部进行内审、外审明确这个功能方案是否通过,需求优先级等
在这个阶段分析师该做什么:在这个阶段分析师参与的相对偏少,可以不参加或者略微听听,主要了解一下产品同学对这个功能的思考和大家对这个功能核心看重的结果以及潜在的顾虑等,可以方便我们在后续对功能进行效果评估时能够更加清楚重点方向是什么,对应核心看哪些数据指标更能说明问题
3、功能开发和准备实验

一句话概述产品评审通过后就会进入开发阶段准备上线
在这个阶段分析师该做什么:在这个阶段分析师参与度会比较高,主要体现在两方面,一是需求涉及到埋点部分的改动,比如客户端埋点和服务端埋点是否有新增或者需要调整的,分析师需要给出埋点设计方案并与业务方、开发同学沟通对齐;另一方面,分析师需要给出该需求后续上线的实验方案,需要明确给出实验开设的流量大小、流量层的选用、各组的相关配置等信息
4、线上数据的跟进与实验效果评估

一句话概述是骡子是马,该拉出来溜溜看了,亮相吧,我的小宝贝儿!
在这个阶段分析师该做什么:在这个阶段分析师就是绝对的主力和参与者首先在功能上线初期分析师要从数据层面上要明确功能是否如预期的生效成功,相应的埋点改动是否正常上报,搭建相应的数据看板;其次当实验进行了一定周期,达到回收数据的条件时,分析师就要开始作为公正客观的裁判对这个功能给出一个结论:到底是骡子还是马
5、推动结论同步对齐并明确to do

一句话概述:就是从数据表现层面结合业务逻辑给出核心结论与相关方对齐,沟通讨论明确to do并推动下去
在这个阶段分析师该做什么:在这个阶段非常考验分析师的沟通表达能力与推进项目的能力,也是最体现分析师价值的关键步骤因为如果没有推进改变任何事情的分析是毫无价值的!功能是否达到了上线标准?我们必须给出答案;功能是否需要继续迭代?我们应该给出答案;功能可以有哪些改进方向?我们要努力给出答案
走向高潮:分析师如何评估收藏功能

经典情景模拟剧场

在座的各位,请先给自己三分钟的时间思考一下,这个问题如果是你来回答,你会如何作答呢,是否也会像下面那些同学这样思考


思绪万千:如何有体系的思考问题

很多同学在遇到一个命题时总是会快速的蹦出几个相关的指标,然后就没有了头绪,不知道该如何去思考,因此就会特别寄希望于有什么方法论或者分析模型来拯救自己所以经常能见到有同学把5W2H、RFM、人货场等方法或模型奉为宝典。当然不是说这些方法本身有什么问题,而是说这些方法模型本质是给我们提供一些切入点和想法,但现实是有些同学往往做什么都想去套模型,反而给自己思考加上了枷锁,得不偿失
那我们该如何体系的思考呢?笔者以为所有的分析和思考都可以从业务逻辑出发,比如在抖音短视频这个行业,大家容易想到的一个简单业务逻辑是:消费者、创作者、平台三者之间相互关联的关系

  • 消费者:消费者来抖音消费视频,通过点赞、评论、观看时长、关注等行为表达自己对视频的喜好
  • 创作者:创作者生产视频在上传到抖音平台,创作者收获播放量和粉丝,后续可以通过流量变现
  • 平台:通过推荐机制,将平台的各种内容分发给可能感兴趣的消费者
这个业务逻辑应该说是非常朴素且容易想到的,没有太大的复杂度。那接下来笔者就基于这个业务逻辑来思考抖音收藏功能的价值,帮助大家更好体会如何从业务逻辑出发去思考问题

  • 从消费者角度:用户A看到自己感兴趣、或者有价值、有实用性的视频时,会考虑通过收藏功能把视频收藏起来,甚至A还可以收藏喜欢的BGM、喜欢的旅游景点打卡等;当A后续有需要使用时,A就可以去收藏夹找到相应的内容这个逻辑和b站的一键三连、知乎帖子的收藏、小红书的收藏用户心理基本是一致的,大家非常好理解
  • 从创作者角度:就拿渭河作为对象,渭河若要进军抖音,肯定希望自己作品在抖音平台上收获更多的点赞、关注,进而能获得更大的流量;那么渭河可能就需要考虑不断打磨自己的作品,因为如果渭河的内容如果都是一些营销、带有标题党的欺骗性质的内容,消费者收藏的意愿自然会更低,不会利于作品在后续的分发。因此可能收藏功能出来后,有些垂类的创作者能够意识到自己的作品需要有更强的内容性、有用性才能让更多的用户买单,继而让自己能够变得更好这个逻辑成立的话,那么平台的内容生产和内容生态应该会有正向收益;另一方面我们也观察到像网易云音乐我们也会看到收藏功能的另一种使用方式,即有些用户会整理一些华语五十大歌单、华语的神的歌单等,他们也会获得很多的流量,同理在抖音平台上,当用户有了更强的收藏心智时,是否也可能有同类型的创作做类似的事情呢
  • 从平台角度:平台的推荐机制本质上是实时接收用户对分发内容的反馈,这里的反馈包括了正反馈和负反馈。当收藏功能外放到和点赞、评论功能并列后,自然会有很大的流量进来,同时可能会有正反馈行为的转移,比如用户从之前的点赞转移到收藏;那么我们的推荐机制相应肯定也需要做出调整,比如在召回、粗排、精排等关键环节上是否需要加上收藏相关的信息。举个例子:是否可以给用户召回通道加一个用户可能会收藏的视频通道呢?再比如在粗排和精排算推荐得分时是否需要加入收藏这个正反馈行为,收藏行为的相关参数如何调整,其他行为的参数是否需要跟着调整?所以我们可以看到新增收藏功能后,推荐机制是可能有很多可做的策略调整或者模型本身的迭代,推荐机制的变动自然会带来平台内容生态的变化,可能某些垂类的视频内容分发就会增多,这对平台来说是好事还是坏事尚未可知
总结,从上面业务逻辑所涉及到的三个主要主体出发,我们思考了当我们做了收藏这个功能后,对每个主体可能造成的变化和影响,这三个主体自然都是非常关键,都需要我们去重点关注和评估的对象,那么接下来我们从我们梳理的业务逻辑切换到数据思维,思考如何把对应的业务逻辑用量化的数据形式给它表现
心中有数:如何更好的搭建分析框架





落笔无悔:如何更好的撰写结论


通过上面的思考和分析框架,我们会去验证很多问题,对应着看很多的数据指标,甚至需要去拆解各种维度来理解各种数据表现是否符合预期和业务逻辑,找到潜在的数据规律,那我们如何在最后去撰写结论,给分析报告做一个完美的收尾工作呢?笔者认为分析报告的结论撰写应该有几点要求

  • 结论的书写应尽可能避免仅在描述数据现状,如xx指标相对提升xx%
  • 好的结论书写应是合理给出数据结果出现的可能原因,并把支持你推理逻辑的数据指标放在数据结论下方
  • 结论如果有多条,那就分开写,每条结论建议长度不要超过三行
  • 分析师的结论书写应尽量避免带有主观因素的词语,比如:我认为,我觉得等词语
  • 结论书写应避免使用绝对性的词语,比如:肯定,绝对,必然等词语
日常工作中,绝大多数看你报告的人只会看你结论部分,越牛的人只希望你告诉他最核心的结论因此我们分析报告结论的书写可以多花一些时间去打磨,可以反复尝试针对一篇报告的结论反复推翻和重写,从不同角色出发去考虑对结论看重的部分是哪些,如何书写是更优的方式
在这里以抖音收藏功能价值评估这个例子,给大家一个范例如何来书写对应的结论。假设最终抖音收藏功能上线后的数据表现是:平台用户收藏和复访的行为大幅提升,平台有用性的内容占比有提高,最终大盘LTV收益正向

核心结论的Case



  • 1.收藏功能外放后,用户在平台的收藏心智得到成长,用户的收藏行为以及后续的复访行为均有显著提升平台用户打开抖音30S内进入收藏列表的转化率+xx%一定程度上反应用户有了更多打开抖音的动机:对收藏内容的拔草
收藏列表的渗透+xx%、收藏视频的渗透+xx%、人均收藏视频的个数+xx%
音乐、道具等内容收藏的渗透表现
次日活跃留存+xx%

  • 2.对平台生态的影响:收藏功能外放后,用户对视频内容的反馈多了一种表现形式,对推荐机制也有较大影响当前看平台有用性内容的流量占比是有显著提高的,A垂类的内容流量占比提升比较明显,低质营销内容占比略有下降;用户消费视频数量和播放时长最终有提升,推测当前生态的变化对用户的整体消费体验在向好发展
人均播放视频数量+xx%、播放时长+xx%
有用性内容占比+xx%、A垂类流量变化、哪些低至营销内容流量变化

  • 3.对其他业务有显著负向影响当前对抖音社交有显著负向影响,其主要原因是收藏功能外放后对用户注意力是有一定的分流分享功能的渗透有显著下降进而导致用户社交行为有降低同时也发现用户在推荐页有了更沉浸的消费,导致朋友tab的渗透有下降,进而最终抖音整体社交业务核心指标双关用户交互有显著负向
分享按钮渗透-xx%、推荐页消费视频数量占比+xx%,朋友tab的渗透-xx%
双关用户交互行为-xx%

  • 4.对其他业务有显著正向影响:用户在平台收藏心智得到成长后,明显发现用户对生活服务团购内容、相关视频、相关地址的种草行为也有了显著的提升,同时观测到用户在后续的拔草表现也有了较大的提升,整体对生活服务的GMV贡献+xx%
在这里就先简单的给大家展示到这里,这里的结论都是自己根据对这个功能的预期定位和可能的数据表现做的一些推断,旨在给大家演示一下结论如何书写可能会更好,如果大家有哪些疑问或想法,可以在评论区comment,有针对性的交流效果肯定会更好一些

<hr/>
落幕:分析师的价值凸显


作为分析师,我们经历了前面的九九八十一难,最终客观、公正、科学的给出了相应的数据结论,那到了最后自然要去体现我们分析师的价值:推进改变事情

  • 1.功能是否可以上线:我们到底是否建议功能可以全量上线?如果可以全量上线,那我们就应该去推动这个事情发生,像上面我们提到对社交业务有一定的负向,那我们就需要去推进相应的沟通,说服对方上线的理由以及对他们业务影响的业务逻辑,进一步沟通判断这种负向是否有止损的空间,交互想法同时需要进一步规划推动上线的方式,是直接全量,还是逐步放量,是否需要留小流量反转实验等。我们要尝试去推动项目的发展进程,去提升分析师和我们团队在公司的影响力
  • 2.功能是否有进一步的优化空间:当我们做完一个命题的分析时,我们不妨问自己一个问题:如果再给我一周的时间做这个分析,我还能如何进一步的深入分析哪些内容。自然就衍生出了我们还有哪些分析专题可做,分析规划是如何的,潜在的收益会有哪些。往往资深分析师和高级分析师的很大区别就是是否能够为团队找到有价值的地方去深耕,如果你不仅自己能做好一个问题的研究,还能为自己团队找到更多的研究方向,发现问题,那你就能更上一个台阶
  • 3.思维的延伸性:我们把收藏功能外放出来,最根本的本质是多了一种获取用户反馈的方式,那从此延伸思考一下,我们是否可以把不喜欢按钮也外放出来?是否可以取消掉点赞按钮?侧边栏的规范该如何去思考,功能是越多越好吗?...
故事还在继续,当我们能通过一件事去不断的延伸开来,你可能就会发现我们其实有很多有价值的问题去思考,通过不断的思考,结合我们分析师特有的对数据的敏感性、对数据的分析能力,或许我们就能打开更大的一片天地,去理解业务,尝试成为业务,超越业务,成为业务负责人,一号位
kevinnest 发表于 2023-10-26 23:26:52|来自:北京 | 显示全部楼层
简单分享两个数据分析案例,虽然不是大厂,但有大厂的质量:
贵州省可视化数据管理平台方案展示demo-山海鲸工厂运营驾驶舱方案展示demo-山海鲸智慧医院综合管理平台方案展示demo-山海鲸

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则