[其他] 作为数据分析师,如何能把AI工具和数据分析工作更好的结合?

[复制链接]
robyluo 发表于 2023-11-3 00:48:08|来自:中国 | 显示全部楼层 |阅读模式
作为数据分析师,如何能把AI工具和数据分析工作更好的结合?
全部回复5 显示全部楼层
yizhou 发表于 2023-11-3 00:48:28|来自:中国 | 显示全部楼层
从2023年开始,chatgpt等生成式人工智能的出现对数据分析这个行业有很大的冲击。一个是它能学会我现在对你们的分点叙述,我的语气,我的表述方式,而不再是一个被各种规则约束的刻板机器人。另一个是当下数据分析这类知识和相关的岗位,在商业应用上正好到一个转折点,叠加工具变化的影响,职位和行业的变化也就顺理成章。
在过去我所看过的,使用AI去做数据分析的内容和论文,主要停留在【数据处理】、【数据可视化】和【数据解读】几个层面,这几个层面属于数据分析师的工作流程,但还未触及核心。大众认为,他无法取代数据分析师的逻辑推理能力和创新力,也就是它没办法直接创造商业价值,那么这篇文章会颠覆你的认知。
当然,要想让chatgpt获得更顺畅的,能把问题从0~1解决的能力,需要大量的工作,本文基于我个人的能力和视角给出了一个解题思路,未来希望更多小伙伴也可以参与进来。
在继续深入之前,我们需要提前约定好:
这里所指的生成式人工智能是一种可用于内容与消费的人工智能的算法,包括chatgpt所属的大语言模型(LLM)。其它的AI知识,包括计算机视觉,知识图谱,这里不展开讨论。
数据分析指的是广义的数据分析,也就是如上文所说的,对数据进行解释、处理、可视化等行为,都属于数据分析的环节。涉及数据建模、调优、数据科学算法等相关知识,这里不作高深的要求。
在这个定义的基础上,我个人认为生成式人工智能对数据分析的影响主要集中在下面四点:
完全取代基础的工作需求,包括sql、python的编写
完成基础的信息提炼和同步,减少人为传递带来的误差,提高效率
极大的提高了学习效率,降低学习门槛
能够对商业问题有一定的深入分析,提供分析灵感
再概括一下,就是:做数据分析变得更简单了,过去专业的数据分析岗的存在更受质疑。
接下来我会通过如何使用生成式AI来学习和应用数据分析,来给大家更好的理解上述问题。但学习之前需要注意的是,你或许能通过AI软件更高效的达到【过去】对数据分析师的要求,但随着大家都能达到这个门槛,新的要求也会涌现。
站在我个人的角度,不断探索新事物,不被过去的观念束缚,减少重复性工作,提升创新力、自驱力和其它的软实力,才是不断成长的关键。
备注:以下案例采用chatgpt4来完成,未来如有更好的模型再更新。请注意,不同模型之间的差异较大,文章无法代表所有模型的结果。
如何正确提问-不要相信chatgpt的话

在开始任何学习之前,相信很多同学已经开始要对chatgpt发问,例如我们最常见的问题
你觉得数据分析的前景如何
如何开始从0~1学习chatgpt
数据分析师的工资有多高
我该如何走上人生巅峰
这类问题,不仅是大家去问chatgpt的,也是来问我们的。每个初学者在一开始的时候会有很多问题,迷茫,不知道从何入手,所以这些问题通常是大家一开始问的问题。可能大部分同学是为了要一条路径,但是在chatgpt眼里,你可能希望它写一本武林秘籍。
但这是不可取的,例如我们来直接对它提问:




这些内容在从业者眼中是不可信的,看似很标准的,规范的答案,但是这种【缺乏背景输入】的主观答案,大多是【正确的废话】甚至是【胡编乱造的内容】。这些话或许在某个帖子里那么说过,但是chatgpt无法判断正误,也无法了解当事人的写作背景,得出了错误的结论。
那有背景输入的情况又如何呢?可以来看下面的例子:




所以你会发现,chatgpt并非带有主观意志的上帝,在面对主观问题的时候,他的观点是可以变的,因为所有的观点都来自于网络,它并不能带给你一个【符合你需求的观点】。
这是开始chatgpt的一个误区,大多数人止步于这一步,因为他们发现问题回答的不如自己的期望,觉得chatgpt无法解决问题。但如果对它使用“魔法”——提示词以后,你能明显感觉到区别:




这个回答的背后是数千字的提示词,这些提示词带着我个人的理解,如果换一个人效果就可能不同。从这个角度看,你会发现chatgpt似乎又有一些东西不能取代,例如说我们每个从业者的经验,灵感,细小的经验差异可能会带来的完全不同的体验。但毫无疑问的是,chatgpt能快速帮你抵达我们每个人的思维深处,我们的经验无法照顾到所有人,但有chatgpt在,相当于我把大脑放在这里,供你们查阅。
总结一下,我们AI学数据分析的第一课,一个是希望大家【学会提问】,同等级别的问题才能换来同等级别的答案,这要求你选会第一层才能问出第二层,而非在一开始的时候就想看到第一百层。第二个是,对于客观的【常识】,他大概率不会回答错误,但是对于主观题,他的能力受训练者的能力影响,你依然要去追求更厉害的大师或者更专业的知识库训练出来的模型。
上述结论也会导致一个结果:【信息搜索】形成的知识壁垒在减弱,但【经验】的壁垒却更高深。通俗点说就是,粗糙的土路变成了高速公路,原来开车和走路的差距不大,但现在开车和走路的差距天壤之别。看起来它在短时间抹平了信息差,你可以参与任何领域的学习,但是要想步入最深的殿堂会越来越困难,竞争也会更激烈。
【会提问】的能力会比被动的【接受信息】的能力要重要,如果你过去是一个别人说什么就学什么的人,那么很难适应AI环境下的竞争。
开始数据分析-收罗工具

当我们在思想上统一之后,需要把工具先准备好。就像开始准备一个厨房,如果说统计学是菜谱,是切菜煮菜的千万种方式,那么工具就是各种厨具和装备。
在学习任何工具和装备之前,不管是不是用AI学的,都需要注意以下的问题
所有的工具为思想和业务服务,你用高科技烤箱做出来的鸡蛋始终是鸡蛋
所有的工具都会从复杂到简单演变,如果你觉得越学越复杂,方向大概率就是错了
同类工具之间大概率是相通的,学会一个很容易学会其它的工具
然后你可以开始问AI:我需要什么工具,他会给到:




这样的工具依然很多,而且你很难确定哪些是你需要学习的内容,所以涉及这种学习安排和带有主观答案的问题,依然要寻求提示词的帮助,例如添加提示词后:






PS:对于主观问题,有提示词的回答可以说是天壤之别,请记住一定不要直接提问,直接提问不如谷歌搜索
此时你的问题已经来到了,我知道数据分析师是如何工作的,我也知道他们要做什么,我也知道要学什么,这样就回到我们一开始说的,你是一步一步的走到新的问题,距离你一开始提问的总目标【如何从零开始学习数据分析】就走了很多步。
在这个基础上,你可以通过AI来更快速的学习工具的使用方法,以最常用的python来举例:




如果你的提示词写的很到位的话,例如我就会要求chatgpt按一个数据分析的教学思路来帮你往下做推荐,你会看到:




如果你在里面触发一些关键词,就可以直接收获对应的代码,这些代码的编写习惯、格式和案例内容,均由我的提示词来引导说明:








并且按照我的要求,他会按照表格的方式展示初始数据和结果,方便你自己运行做参考:




一直到这里,你会发现你已经毫无阻碍的通过python完成了一次数据分析,包括软件如何下载,代码如何编写,结果如何验算。
更复杂的代码由你自己提问,通过对提示词的修改,他会不断的提示你还有哪些没有学会,给你推荐新的问题。但最核心的还是要自己知道如何提问,根据他输出的大纲一点点的深入挖掘,最终完成学习。
同时,chatgpt支持你输入图片和文件来进行数据分析工作,包括截图问他软件的功能,也可以上传excel数据案例让他完成分析。
但我个人的建议是,由他提供灵感,人类操作完成的效率是最高的。
到此,你已经准备好了工具,并且使用工具进行基本的数据分析(记得学完python的基础语法,能够完成递归、排序等算法最好)。对于过去市场上的要求而言,此时已经达到了应届生在技能层面的标准,这也是大部分市面上的培训班能达到的水平,这也回应了一开始说的,chatgpt能够快速抹平信息差,这些信息差指的是过去通过人工搜索收集整合出来的公开内容,它大大简化了搜索的部分,而方便你能够直达我们的经验深处。
但是在下面这个环节,才是竞争的最激烈的地方,给到它的输入多达三千字,才能够按照我一开始的设想回答问题:

让chatgpt有数据分析思维-精准输入

数据分析思维是数据分析的核心竞争力,就像菜谱一样。
一个好的菜谱不仅有标准的规范,例如盐放多少克,糖放多少克,这就类比规范的统计学教案,知道当分析一个问题的时候,我们应该从哪些角度开始拆解;另一方面,千变万化的食材和饮食风格也是食谱吸引人的地方,这些类比实际的业务场景。同样一个订单变动的问题,电商行业和交通行业就有明显的差距。
在这个环节,学习者必须清楚的认识到,过去从某个人的身上学习一个行业的知识,在数据分析领域一定是错误的。每个分析师都有其个人的经验和经历,他们脑海中有针对某个行业或者某个问题的解决灵感,这些灵感输入提示词,最终形成一个更合格的分析思路。
在开始学习之前,对数据分析思维这类问题,同样也基于以下前提:
思维的学习没有标准的答案,解决问题,不断钻研甚至挑战权威才是最好的学习方式
思维的学习过程是碰撞的过程,输入比输出更重要,对提问能力的要求也更高
思维的学习没有最终的结果,它更像是当你遇到新问题后能够产生源源不断的分析思路,最终解决,要保持终身学习的观念
基于此,我们开始通过AI学习数据分析思维的过程:
首先来个简单的,在没有提示词的前提下,我们问一个常规的数据分析面试问题:
在一个共享出行行业的业务背景下,如果我本月的订单比上个月下降了20%,应该如何做数据分析?




如果用这样的回答去应付面试,或者去学习数据分析,效果是非常差的。差就差在它“看似”回答了你很多问题,但并没有回答到点上。
以及,初学者如何自己评价这些答案呢?你觉得这个回答好吗?
这就回到了我们一开始的那个问题,你希望通过AI抹平信息差,但是缺少点评的环节,看似你获得了信息,但是信息的质量无从校验。
而且这个问题并不是由于你不会提问,这个问题是标准的面试题,无数应届生面试数据分析师的第一个问题就是这个,甚至出现了很多标准答案。但即使是对标标准答案,这个回答也不尽人意,更不用说在面试中脱颖而出了。
如果解决不了提问,那么chatgpt也就只能在工具层面取代一些工作流程,例如做一些可视化,数据处理等。它没办法解决网友提出的:通过数据分析洞察商业结论的目的
通俗点说,我如果是老板,他没办法直接帮我赚钱啊。
基于这个想法,我开始往提示词里填入足够多的分析思路,这个过程类比“我在教gpt我是如何做分析的”。在这个环节,我开始认为chatgpt不应该是一个神级大脑的概念,他就是我们大脑的复制品,你的能力决定了chatgpt的能力。
于是请看下面的结果:




在这个结果里,你需要关注几个细节
1、虽然看起来和上面的分点答题差不多,但其实是我拒绝了口语化的表述方式,希望在分析输出的层面更规范,更像一个专家,所以采用了相对正式的语气。
2、它的回答里多了一些细节和指标,例如新用户的增长放缓,通过频次反推是用户下单频次下降还是总数下降
3、它所选择的几个角度,和这个行业的情况高度相关
文字内的整个过程已经近似于我们思考的过程,也就是如果有一天,老板问你订单为什么下降的时候,你也会开始从这些角度思考。
所以如果仅仅是用于面试的话,上面的东西也算是够用了。
但我们的目标是,我希望它完全取代我,也就是当老板问出这个问题时,我坐在这里喝咖啡,结论由它给我出,我仅仅做最后的校验工作。
那么,我们需要在提问上下一点功夫:




他会给到具体的分析过程,可以用来做检验:




最后生产可以用来汇报的分析报告,可以取代一些日常分析需求,经过人工审查后,如果觉得没什么问题,可以删除没用的部分,然后提交给领导。




并且,如果给到他具体的库表,他可以直接生成用于验证的sql逻辑或者python代码,你只需要进行简单的修改。
结语

到这个环节,作为初学者的你,还会觉得数据分析这件事情困难吗?事实上,如果你无法追上chatgpt的分析能力,说明企业有更多理由使用chatgpt而不是你。并且拥有数据分析思路的他可以给你提供更多灵感,或者发现你发现不了的细节,如果数据集更复杂的话,或许会有更多的信息,这个就留到后面更新了~
感谢大家阅读此文,如果对AI+数据分析感兴趣的同学,可以联系bzwh321,加入我们的社区一起共建和讨论资料。我认为当前chatgpt的水平是超过市面上90%的培训班的,未来对数据分析的学习一个是像对待excel那样对待它,另一个是更关注专家脑海中的经验,把它沉淀下来,通过AI交互的方式获得更多的分析思路。
<a data-draft-node="block" data-draft-type="edu-card" data-edu-card-id="1702475946299285504">
山东大牛 发表于 2023-11-3 00:49:01|来自:中国 | 显示全部楼层
从数据分析师的角度,我觉得最重要的是如何将自己过去的分析方法和问题解读更好的整合到GPT的模型中去,当然整合有不同的层次。第一层是如何整合到prompt中去,这个也是可以发挥其中60%左右价值的地方,主要是基于不同的问题,使用不同的模型,和不同的验证规则,量化评估策略等。第二层是如何整合到AI Agent中,估计能发挥出20%左右的价值吧,即如何设计一个数据分析小组的agents,让这些agents各司其职,互相帮助,提高分析结果的质量,有懂业务的,有懂模型的,有懂商业分析/经营分析的。 第三层是如何融会贯通商业/运营和分析之间的关联性,在分析思路上enlight大模型,这个应该是最后的20%的数据分析师的专业知识,当然也有可能很多的分析师自己还没有到这个层次。
dingke5488 发表于 2023-11-3 00:50:01|来自:中国 | 显示全部楼层
作为GPT4重度的用户,我现在都是用ChatGPT绘制各种图形,然后让做分析,结果输出很亮眼,很多时候输出的内容,都是专业级。
如下是我经常用一些提示词
打开插件Advanced data analysis可以完成各种任务,可以将文件上传到ChatGPT,并要求ChatGPT研究数据并创建不同类型的图表。
1.作为一个专业的数据分析员,请遵循标准的数据分析程序。让我们一步一步来,上传文件CSV or ZIP
2. 建议先数据清洗,缺失值填写为 “未知”,或者并删除。。。失值的行
探索性数据分析 (EDA)

3.  探索性数据分析(EDA)。在这一步,我们将深入研究数据集,了解数据的分布,不同变量之间的关系,并确定任何有趣的模式或见解。
4作为一个专业的数据分析师,请自己做出决定
5.分析XX和它们的数量之间的关系
自然语言处理

6. 分析标题中最频繁的词。
时间序列分析

7.XX和XX 如何随着时间的推移而变化
统计推断

8.执行相关性检测以查看“XX”和“XX”之间是否存在显着的线性关系
数据挖掘

9. 发现XX和XX之间的关联
机器学习建模

10,你可以为此数据集构建哪些机器学习模型
11利用文本数据(如标题和描述)和分类数据(如xxx)构建基于内容的推荐系统
12我们再来让它建一个模型:

如下是我用GPT如何绘制的图形的一篇文章指南,感兴趣的小伙伴可以看一下。
AI不仅仅是聊天:ChatGPT的图表绘制功能让打工族工作更轻松!
yoki1366 发表于 2023-11-3 00:50:26|来自:中国 | 显示全部楼层
数据清洗和预处理

   - 使用自然语言处理(NLP)技术来处理文本数据,例如文本清洗、分词、命名实体识别等,以便更好地理解文本内容。


   - 利用图像处理技术来处理图像数据,例如图像压缩、特征提取和对象识别,以提取有用的信息。


   - 使用机器学习模型来自动检测和纠正数据中的异常值和缺失值。


数据探索和可视化

   - 使用机器学习算法来识别数据中的模式和趋势,以便更好地理解数据。


   - 利用自然语言生成(NLG)技术生成可解释的文本摘要或报告,以便与非技术人员分享分析结果。
   - 使用AI生成的图像识别工具帮助你更好地理解和可视化图像数据。


预测和建模

   - 利用机器学习和深度学习模型进行数据建模,以预测未来趋势和行为。


   - 使用自动特征选择和超参数优化工具来提高模型的性能。


   - 使用AI生成的数据生成工具来合成更多数据,以扩展模型的训练集。
自动化和批量处理

   - 开发自动化脚本和工作流程,以便定期运行数据分析任务,而无需手动干预。


   - 使用自动化决策系统来根据模型的预测结果自动执行操作或建议决策。
持续学习和改进

   - 跟踪最新的AI技术和数据分析方法,以确保你的工作始终保持在前沿。
   - 不断优化模型和工作流程,以提高准确性和效率。
   - 参与在线课程、培训和社区,与其他数据分析师和AI从业者分享经验和知识。
综上所述,将AI工具与数据分析工作结合需要不断学习和实践,以找到最适合你特定需求的方法。这样,你可以更好地利用AI的潜力来提高数据分析的质量和效率。
z2587 发表于 2023-11-3 00:50:55|来自:中国 | 显示全部楼层
这是一个很好的问题。在AI发展如此迅猛的当下,数据分析师的很多工作确实可以通过AI来进行提效。
比如AI可以帮助我们形成分析思路。刚拿到一个问题是很多时候我一筹莫展,我们可以将问题输给俺,让他给我们提供一些分析师,我们再通过甄别筛选,就可以搭建比较系统的分析的框架。
然后有了思路之后,我们还可以让AI帮我们携写代码,我们需要获取哪些数据?计算的的逻辑是怎样的?我们只需要把这些告诉AI,他就可以帮我们生成特定的SQL或者Python的代码。
最后更主要的一点,我们获取到结果数据之后,AI还可以帮助我们解读数字背后的业务含义,这一点非常方便,可以帮助我们快速的总结。
所以综上所述,AI可以在数据分析的工作中的各个流程都扮演着很重要的角色,可以帮助我们快速的提效。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则