ChatGPT3.5和4.0真的使用差距很大吗?
我说的不是功能层的差别,而是使用体验上和回复质量上,什么情况差别比较大? 在推理方面差距很大,用下面这个脑筋急转弯一测便知:树上有十只鸟,猎人开枪打死一只,现在树上还有几只鸟?
GPT3.5的回答
让你搁这儿做减法呢……
再看看GPT4的回答
果然聪明、严谨多了。
多说一句,截图里的这个指令:Let's think step by step,估计很多人都不知道,它的意思是让我们一步一步的思考。
很多提问场景,都可以加上这个指令。加和不加这个指令,差异非常明显。具体的用法和效果,可以我写的这篇:
四猿外:两个神奇的ChatGPT指令,95%的人都不知道 差距是有的,但是对我们普通人来说都够用了。
而且其实现在一些网站已经走通了ChatGPT的接口服务了,而且很多都是:
免费
免费
免费
没错,就是lintcode平台上自带的ChatGPT,刷题的时候,遇到不会的或者不理解的就可以直接使用,不要太方便~
chatgpt使用入口下面就是我用ChatGPT帮我写代码,真的太香了,而且还不用挂梯子,国内手机号就行了!
我身边好多码农已经开始用ChatGPT来模拟面试了,能告诉我们面试官想要的“标准答案”长啥样~
当程序员们学会合理利用ChatGPT,它简直就是面试神器:刷题、预测面试、修改简历,ChatGPT简直无所不能!免费的ChatGPT还不赶紧用起来! 先摆结论,差距真的很大!ChatGPT4.0已经牛逼到可以教我写论文代码了!!
对于一个计算机二级都没有通过的人来说,这简直是救了我的命啊啊啊!!毕竟再也不用看让人头疼的编程书籍简直是太感人了呜呜呜,直接告诉ChatGPT你的需求,一秒钟就出代码不要太香!!
有的小伙伴可能会担心ChatGPT输出代码准确性的问题,我也咨询过专业人士且亲自实践过,ChatGPT在代码生成这方面还是拿捏死死的,作为大量互联网文本数据训练的产物,人家在编程方面可是拥有绝对的实力。所以,大家不用特别担心,大胆使用,谨慎求证就好!!
不夸张的说,只要捋清论文模型,再调教好咒语,就必然会形成一场“零基础学习编程”的颠覆性革命!!
从此,学编程写代码不需要死板看书,只要提问+复制粘贴就妥妥搞定,代码不是学来的,而是问来的,一秒钟从“不会”到“会”的感觉实在太奇妙!
如果你也像我一样,写论文饱受看不懂模型公式、又不会编程的痛苦,相信我,一定要往下看!
如果你对编程一窍不通,找不到学习和应用的思路,那全网的文章,只看这篇文章就够了!
因为,ChatGPT来也!!
我会在这篇文章中梳理一套从公式理解,到建模数据分析,再到编写代码、结果解释,最后撰写论文数据分析部分的ChatGPT使用方法,手把手带大家看看ChatGPT是如何帮助“编程菜鸡”搞定写代码和论文数据分析的!
本文是我爆肝三周、费尽心力整理出来的,全篇都是干货,是ChatGPT加速科研领域应用的又一力作!目的只有一个,那就是让更多的人认识ChatGPT,并通过它极大提高工作效率!
如果对您有帮助,请千万不要吝啬点赞!关注!收藏哦!码字不易, @武幺六相信知识分享的力量!
废话不多说,直接进入正题。大家准备好了吗?“零基础”学会编写数据分析代码,是不是一整个期待住了!!
http://pica.zhimg.com/50/v2-94274ad1ccb9a4fdabf647805c78ee9b_720w.jpg?source=1940ef5c
在正式开始之前呢,让俺先来介绍一下文章的整套逻辑,免得大家在阅读时,头脑杂乱无章。
咱就是说,为了达到手把手教的效果,我们直接以案例形式,带大家走一遍数据分析的全流程。
这里需要强调两点哈:
第一,因为社科领域的数据分析软件很多,例如spss、R、stata、MATLAB等,考虑到篇幅问题和代码编写量,本文只选择使用编程量较大的stata作为数据分析工具,其他工具后续还会出,主打一个细水长流!!
第二,为了确保数据分析方法的普适性和数据的真实性,本文选取《中国工业经济》杂志中的《连锁股东与企业投资效率:治理协同还是竞争合谋》作为案例(链接:http://ciejournal.ajcass.org/Magazine/show/?id=71561),大家也可以同时下载论文对应的附件,这里面会包括原始数据和对应的stata代码。
言归正传,本文的行文逻辑是:ChatGPT识别并解释公式-建模数据分析(包括描述性统计分析、回归分析、内生性检验及全套stata代码)-数据分析部分撰写。
让ChatGPT帮你实现从理解公式到数据分析再到论文撰写的端到端全流程服务,是不是帅呆了,酷毙了!!
一、ChatGPT识别并解释公式
在文章一开始就已经强调,使用这一套方法的前提是,我们自己已经想明白搭建怎样的数据模型,即脑海中已初具公式模型的雏形!!这还是需要大家通过阅读大量经典文献、创新思考才能得到的。
所以,此处省略思考过程,NNNN多字。
咱就假设,现在的模型已经形成,以《连锁股东与企业投资效率:治理协同还是竞争合谋》为例,假设模型是文中的:
下一步,为了让ChatGPT能够理解公式内容,为后续撰写代码服务,我们必须先将其转化为ChatGPT可以识别的内容哦~牢牢记住,上述格式的公示它是看不懂的哈哈哈!!
这里就需要用到一个宝藏神器,敲黑板啦啦啦啦~
http://pica.zhimg.com/v2-279521ce547d4525119d8c67e6fb5db9_r.jpg?source=1940ef5c
我这里使用的是quicker(下载链接:http://www.getquicker.net/)里面的公式识别插件,如下图。或者也可以使用mathpix软件(效果较好,但是需要付费哦),这俩都可以达到一样的效果啦啦啦。
第三,就是用上述识别软件小工具将公式转化成ChatGPT熟悉的内容。以论文中的公式1为例,待俺一步一步操作昂:
将公式复制粘贴至右侧框框里,就可以看到左侧框框里分分钟就出现识别内容啦,怎么样,是不是很神奇!!
好咧,现在我们已经得到了ChatGPT可识别的公式内容,下一步就让它结合论文摘要,试着对公式进行解释吧。
这一步其实并不是必须的哦,因为一般来说,论文中都会解释模型中的各类变量,我做这一步操作的目的就是为了向大家展示一下,ChatGPT结合上下文情景,解释文本的超强实力!!
铛铛铛铛,直接在ChatGPT中输入咒语就可,like this!
这里需要强调两点,为了保证对公式解释的精准性,第一是需要把论文摘要提供给它当做参考哦,一定要记得啊啊啊,调试了N遍之后效果非常不错!!第二是要将论文中的公式替换成ChatGPT可识别的内容,也就是识别工具左侧框框出现的内容哦!!
咒语如下所示:
下面让我们来看看ChatGPT输出的内容:
从输出文本来看,ChatGPT可以很好地结合论文摘要对公式进行解释,而且大多会考虑公式本身的含义,例如能准确表明i、t等含义,刚好与论文中的解释形成互补。
所以说呢,同时考虑ChatGPT和论文中对公示的解释,能让我们更加深刻地理解模型含义,麻麻再也不用担心我看不懂论文模型啦!!
这种感觉不要太爽哈哈哈哈。
http://picx.zhimg.com/v2-266f0a8606f1c2068dcf142cc961099e_r.jpg?source=1940ef5c
二、描述性统计分析
既然理解了公式,接下来我们要做的当然就是,按步骤进行数据分析咯!!众所周知,数据分析最基础、也是最必要的就是描述性统计分析。
那么,如何在“零基础”情况下,借助ChatGPT实现stata描述性统计分析呢?
来来来,咱们一步一步来说哦。是时候拿出我们在论文官网上下载好的源数据啦啦啦啦~
第一步,将数据.dta导入stata。
第二步,将数据集的前5行复制出来,之后包装成咒语。
为什么要这么做嘞?目的是为了让ChatGPT了解源数据的数字结构、字段组成等,以便更好对数据进行处理和分析!
咒语如下,还是老规矩,这些咒语都调教过N次,尽管拿出去直接套用!
咒语:需要对Abs_INE Under Cross三个变量进行描述性统计分析,请根据示例表格生成相应的stata代码,这个是示例数据表格:XXXXXX此处添加数据集前五行
然后,ChatGPT大法好啊,分分钟就生成了用于描述性统计分析的精准代码,如下图:
第三步,Ctrl C+Ctrl V一键式将生成好的代码粘贴至stata,获得结果如下:
这时候,有的童鞋可能会说,学姐学姐,这个表格我看不懂啊啊啊。
别慌啊,去找ChatGPT问问吧?
第四步这不就来了吗,输入咒语,并将表格粘贴至ChatGPT,剩下的就交给ChatGPT吧!
咒语:我执行上面的操作之后,stata返回了以下信息,请解释一下:此处粘贴结果表格。
从上图中可以看出,ChatGPT不仅对各个变量的含义进行解释,还对每个数字的含义进行精准叙述,让我们想不理解都难啊,怎么样,是不是很简单?零基础都可以hold住没问题!
那么,到现在为止呢,我们就得到了描述性统计分析的所有结果及解释,接下来,如果我还想提高效率的话,完全可以一步到位,让ChatGPT玩儿个cosplay,扮演一名学者,结合数据分析结果,撰写描述性统计分析部分!
我们只需要进行咒语调教,并将输出结果稍加润色就足够啦。可以随意给它提要求都难不倒哦,什么语言简洁啦、学术风格啦,统统都不在话下!
咒语:你现在是一名学术论文作者,请根据上述结果,撰写论文中的描述性统计分析段落,要求语言要有学术性、用词简洁严谨。
哼哼,看看这输出的结果,不知道作为科研狗的宁,还满意不?
反正我不管,我已经跪服了。
三、回归分析
除了描述性统计分析以外,另一个社科领域必须掌握的分析方法就一定是回归分析了!
同理,ChatGPT也可以让零基础编程的你,在stata回归分析中秒杀旁人。
当然,具体操作方法都是一样的哦。我只好再碎碎念一遍,加深记忆。都给我把操作步骤深深地植入大脑中啊啊啊啊啊啊。
这里强调一下,这篇论文分别使用Abs_INE和Under作为因变量进行OLS回归分析。
第一步,将数据.dta导入stata。
第二步,依然要把数据集的前5行复制出来,之后包装成咒语,如下图所示:
这里需要强调的是,由于控制变量一般涉及到多个,为便于ChatGPT进行数据处理,需要在咒语中明确控制变量的名称和字符,这些文字论文中均会提到,所以只需要复制粘贴就好~
ChatGPT生成的stata代码如下:
http://pica.zhimg.com/v2-ead1b64cdfdd5c834fe70135f2dbe823_r.jpg?source=1940ef5c
由于图片比例限制,截图中并没有展示出全部代码,我把代码又复制粘贴了一遍,供大家参考哈。
* 设定数据格式
xtset comid year
* 运行OLS回归模型
* 以Abs_INE作为因变量
reg Abs_INE Cross Size Lev ROA PPE Cash TQ Top1 PIS Bsize Indep Comte i.dindu* i.dyear*
* 以Under作为因变量
reg Under Cross Size Lev ROA PPE Cash TQ Top1 PIS Bsize Indep Comte i.dindu* i.dyear*
纯文本
第三步,还是将上述代码直接复制粘贴到stata界面,就可以得到以下的回归分析结果:
. xtset comid year
panel variable:comid (unbalanced)
time variable:year, 2007 to 2016, but with gaps
delta:1 unit
. reg Abs_INE Cross Size Lev ROA PPE Cash TQ Top1 PIS Bsize Indep Comte i.dindu* i.dyear*
note: 1.dindu45 omitted because of collinearity
note: 1.dyear10 omitted because of collinearity
Source | SS df MS Number of obs = 17,444
-------------+---------------------------------- F(65, 17378) = 57.48
Model |64.9646298 65.999455843 Prob > F = 0.0000
Residual |302.184931 17,378.017388936 R-squared = 0.1769
-------------+---------------------------------- Adj R-squared = 0.1739
Total |367.149561 17,443.021048533 Root MSE = .13187
------------------------------------------------------------------------------
Abs_INE | Coef. Std. Err. t P>|t|
-------------+----------------------------------------------------------------
Cross | .0155452 .0043996 3.53 0.000 .0069215 .0241689
Size |-.0018009 .0012517 -1.44 0.150 -.0042544 .0006526
Lev | .0507982 .0066657 7.62 0.000 .0377328 .0638636
ROA | -.00633 .0213502 -0.30 0.767 -.0481786 .0355186
PPE | .0557416 .0075966 7.34 0.000 .0408514 .0706318
Cash | .2178008 .0103102 21.12 0.000 .1975919 .2380097
TQ | .0140548 .0008904 15.78 0.000 .0123095 .0158002
Top1 | .0141526 .0075186 1.88 0.060 -.0005847 .0288898
PIS |-.0343548 .0053816 -6.38 0.000 -.0449033 -.0238063
Bsize |-.0003471 .0006571 -0.53 0.597 -.0016351 .0009408
Indep | .0799658 .0214039 3.74 0.000 .0380121 .1219196
Comte | .0027584 .0021578 1.28 0.201 -.0014712 .006988
1.dindu1 | .0022937 .011968 0.19 0.848 -.0211647 .0257522
1.dindu2 | .136814 .0109395 12.51 0.000 .1153715 .1582564
1.dindu3 | .0172389 .0125445 1.37 0.169 -.0073496 .0418274
1.dindu4 | .013306 .0132476 1.00 0.315 -.0126606 .0392725
1.dindu5 |-.0058846 .0118874 -0.50 0.621 -.0291851 .0174159
1.dindu6 | .0019768 .0119774 0.17 0.869 -.0215001 .0254537
1.dindu7 | .0059152 .0144599 0.41 0.682 -.0224276 .034258
1.dindu8 |-.0080349 .0266029 -0.30 0.763 -.0601793 .0441095
1.dindu9 | .0233164 .0184472 1.26 0.206 -.0128419 .0594747
1.dindu10 | .0069597 .0257729 0.27 0.787 -.0435578 .0574773
1.dindu11 | .0159295 .0132914 1.20 0.231 -.0101229 .0419819
1.dindu12 |-.0132652 .021143 -0.63 0.530 -.0547077 .0281772
1.dindu13 | .0493988 .0223794 2.21 0.027 .005533 .0932647
1.dindu14 | .0629893 .01518 4.15 0.000 .033235 .0927435
1.dindu15 | .0261803 .0100034 2.62 0.009 .0065726 .0457881
1.dindu16 | .1662763 .0100829 16.49 0.000 .1465127 .1860398
1.dindu17 | .0128863 .0137368 0.94 0.348 -.0140393 .0398119
1.dindu18 |-.0007119 .0123033 -0.06 0.954 -.0248277 .0234039
1.dindu19 | .0262394 .0109819 2.39 0.017 .0047138 .0477651
1.dindu20 | .0235254 .0124285 1.89 0.058 -.0008358 .0478865
1.dindu21 | .016141 .0112397 1.44 0.151 -.0058899 .038172
1.dindu22 | .0242925 .012498 1.94 0.052 -.0002048 .0487899
1.dindu23 | .0224417 .0107368 2.09 0.037 .0013964 .043487
1.dindu24 | .016565 .0104263 1.59 0.112 -.0038716 .0370017
1.dindu25 | .0170088 .0108481 1.57 0.117 -.0042545 .0382722
1.dindu26 | .0383601 .0123395 3.11 0.002 .0141733 .0625468
1.dindu27 | .0098326 .0101155 0.97 0.331 -.0099948 .0296599
1.dindu28 | .0211681 .0098591 2.15 0.032 .0018433 .040493
1.dindu29 | .0762808 .0164905 4.63 0.000 .0439578 .1086038
1.dindu30 | .0516323 .016656 3.10 0.002 .0189849 .0842797
1.dindu31 | .0363743 .0296244 1.23 0.220 -.0216926 .0944411
1.dindu32 | .0333906 .0105522 3.16 0.002 .0127071 .0540741
1.dindu33 | .0372395 .011104 3.35 0.001 .0154747 .0590044
1.dindu34 | .0092114 .0099709 0.92 0.356 -.0103325 .0287554
1.dindu35 | .0422317 .0107266 3.94 0.000 .0212064 .063257
1.dindu36 | .0464355 .0172077 2.70 0.007 .0127068 .0801643
1.dindu37 | .0398768 .0102821 3.88 0.000 .0197228 .0600308
1.dindu38 | .0544146 .0101606 5.36 0.000 .0344989 .0743303
1.dindu39 | .0683745 .0124578 5.49 0.000 .0439559 .092793
1.dindu40 | .0173029 .0171938 1.01 0.314 -.0163987 .0510045
1.dindu41 | .1152595 .0133407 8.64 0.000 .0891104 .1414086
1.dindu42 | .025461 .0309716 0.82 0.411 -.0352465 .0861685
1.dindu43 | .0222347 .0210286 1.06 0.290 -.0189834 .0634528
1.dindu44 | .1290123 .012678 10.18 0.000 .1041622 .1538624
1.dindu45 | 0(omitted)
1.dyear1 | .0716832 .0052374 13.69 0.000 .0614173 .0819491
1.dyear2 | .0063982 .0050838 1.26 0.208 -.0035666 .016363
1.dyear3 |-.0327554 .0046984 -6.97 0.000 -.0419647 -.0235461
1.dyear4 |-.0267852 .0045695 -5.86 0.000 -.0357418 -.0178286
1.dyear5 |-.0123755 .0045104 -2.74 0.006 -.0212164 -.0035347
1.dyear6 |-.0215132 .0042408 -5.07 0.000 -.0298257 -.0132007
1.dyear7 |-.0210967 .0040327 -5.23 0.000 -.0290013 -.0131921
1.dyear8 |-.0154031 .0039167 -3.93 0.000 -.0230802 -.007726
1.dyear9 |-.0076725 .0039194 -1.96 0.050 -.015355 9.95e-06
1.dyear10 | 0(omitted)
_cons | .0135096 .028781 0.47 0.639 -.0429041 .0699233
纯文本
reg Under Cross Size Lev ROA PPE Cash TQ Top1 PIS Bsize Indep Comte i.dindu* i.dyear*
note: 1.dindu45 omitted because of collinearity
note: 1.dyear10 omitted because of collinearity
Source | SS df MS Number of obs = 17,444
-------------+---------------------------------- F(65, 17378) = 174.06
Model |1681.97837 6525.8765904 Prob > F = 0.0000
Residual |2583.47697 17,378.148663653 R-squared = 0.3943
-------------+---------------------------------- Adj R-squared = 0.3921
Total |4265.45534 17,443.244536797 Root MSE = .38557
------------------------------------------------------------------------------
Under | Coef. Std. Err. t P>|t|
-------------+----------------------------------------------------------------
Cross | .0484972 .0128642 3.77 0.000 .0232822 .0737123
Size | -.188283 .00366 -51.44 0.000 -.1954568 -.1811091
Lev | .0143333 .0194899 0.74 0.462 -.0238689 .0525355
ROA |-.7007419 .0624264 -11.23 0.000 -.823104 -.5783799
PPE | .2569075 .022212 11.57 0.000 .2133697 .3004452
Cash | .8345179 .0301461 27.68 0.000 .7754285 .8936073
TQ | .0030135 .0026036 1.16 0.247 -.0020898 .0081168
Top1 |-.0029888 .0219838 -0.14 0.892 -.0460793 .0401017
PIS |-.0401799 .0157354 -2.55 0.011 -.0710229 -.0093369
Bsize |-.0001639 .0019212 -0.09 0.932 -.0039298 .0036019
Indep |-.0579925 .0625833 -0.93 0.354 -.180662 .064677
Comte |-.0099882 .0063093 -1.58 0.113 -.0223551 .0023788
1.dindu1 | .0744973 .0349934 2.13 0.033 .0059066 .1430879
1.dindu2 | .6943896 .0319862 21.71 0.000 .6316936 .7570857
1.dindu3 | .2040785 .0366792 5.56 0.000 .1321837 .2759734
1.dindu4 | .2971261 .0387349 7.67 0.000 .2212017 .3730504
1.dindu5 | .1240078 .0347578 3.57 0.000 .055879 .1921367
1.dindu6 | .1195795 .035021 3.41 0.001 .0509348 .1882242
1.dindu7 | .0274489 .0422795 0.65 0.516 -.0554232 .1103211
1.dindu8 |-.0789198 .0777849 -1.01 0.310 -.2313861 .0735464
1.dindu9 | .0612285 .0539381 1.14 0.256 -.0444955 .1669526
1.dindu10 | .1377301 .075358 1.83 0.068 -.0099792 .2854395
1.dindu11 | .2594535 .0388629 6.68 0.000 .1832783 .3356287
1.dindu12 | .172106 .0618206 2.78 0.005 .0509314 .2932805
1.dindu13 | .0863817 .0654356 1.32 0.187 -.0418786 .2146421
1.dindu14 | .2147287 .044385 4.84 0.000 .1277296 .3017278
1.dindu15 | .3444611 .0292493 11.78 0.000 .2871296 .4017927
1.dindu16 | .5552224 .0294817 18.83 0.000 .4974352 .6130095
1.dindu17 | .3409911 .0401655 8.49 0.000 .2622628 .4197195
1.dindu18 | .1778464 .035974 4.94 0.000 .1073337 .2483591
1.dindu19 | .1923908 .0321103 5.99 0.000 .1294513 .2553302
1.dindu20 | .520612 .03634 14.33 0.000 .4493818 .5918421
1.dindu21 | .297454 .032864 9.05 0.000 .2330372 .3618707
1.dindu22 | .2306963 .0365432 6.31 0.000 .1590678 .3023247
1.dindu23 |-.0650516 .0313937 -2.07 0.038 -.1265864 -.0035168
1.dindu24 | .1814024 .0304857 5.95 0.000 .1216473 .2411575
1.dindu25 | .237571 .031719 7.49 0.000 .1753986 .2997433
1.dindu26 |-.0367012 .0360799 -1.02 0.309 -.1074213 .034019
1.dindu27 | .1819823 .0295769 6.15 0.000 .1240087 .239956
1.dindu28 | .1238185 .0288273 4.30 0.000 .0673142 .1803228
1.dindu29 | .0368835 .0482169 0.76 0.444 -.0576264 .1313935
1.dindu30 | .2781692 .0487008 5.71 0.000 .1827107 .3736278
1.dindu31 | .1407528 .0866195 1.62 0.104 -.0290302 .3105358
1.dindu32 | .3813345 .030854 12.36 0.000 .3208577 .4418114
1.dindu33 | .2708207 .0324671 8.34 0.000 .207182 .3344595
1.dindu34 | .1559287 .0291541 5.35 0.000 .0987838 .2130737
1.dindu35 | .3713398 .0313639 11.84 0.000 .3098634 .4328161
1.dindu36 | .0542691 .0503138 1.08 0.281 -.044351 .1528893
1.dindu37 | .0396884 .0300642 1.32 0.187 -.0192404 .0986173
1.dindu38 | .1718457 .0297087 5.78 0.000 .1136137 .2300777
1.dindu39 | .2528029 .0364257 6.94 0.000 .1814049 .3242008
1.dindu40 |-.0683854 .0502734 -1.36 0.174 -.1669263 .0301555
1.dindu41 | .4382985 .0390072 11.24 0.000 .3618406 .5147565
1.dindu42 | .1849702 .0905587 2.04 0.041 .007466 .3624743
1.dindu43 |-.0639517 .0614859 -1.04 0.298 -.1844702 .0565668
1.dindu44 | .4285663 .0370694 11.56 0.000 .3559065 .5012261
1.dindu45 | 0(omitted)
1.dyear1 | .1438636 .0153139 9.39 0.000 .1138469 .1738803
1.dyear2 | .0200863 .0148647 1.35 0.177 -.00905 .0492226
1.dyear3 |-.2243168 .0137377 -16.33 0.000 -.2512441 -.1973895
1.dyear4 |-.1869021 .0133608 -13.99 0.000 -.2130906 -.1607137
1.dyear5 |-.2250222 .0131881 -17.06 0.000 -.2508722 -.1991722
1.dyear6 |-.1714343 .0123999 -13.83 0.000 -.1957393 -.1471292
1.dyear7 |-.2193631 .0117914 -18.60 0.000 -.2424754 -.1962507
1.dyear8 |-.1036851 .0114521 -9.05 0.000 -.1261324 -.0812378
1.dyear9 |-.0031603 .0114601 -0.28 0.783 -.0256232 .0193027
1.dyear10 | 0(omitted)
_cons | 4.236741 .0841535 50.35 0.000 4.071792 4.401691
------------------------------------------------------------------------------
纯文本那么,究竟ChatGPT生成的结果是否准确呢?为方便大家对比,我特意做了一个对比图,是骡子是马,还得拉出来看看不是吗?等着,咱分分钟就能见分晓!
http://picx.zhimg.com/v2-3797eb21186f444195fcfecc7ab91e5b_r.jpg?source=1940ef5c
但由于OLS结果具有一定随机性,所以有些变量的回归系数也存在一定偏差。
第四步,还是老规矩,把输出结果粘贴至ChatGPT让它解释一下,再也不用担心看到表格就懵圈啦啦啦。
咒语:我执行上面的操作之后,stata返回了以下信息,请解释一下:此处粘贴ChatGPT返回结果。
当然,在得到ChatGPT的解释结果后,如果想要根据此撰写论文的回归分析部分,参考文章第二部分的最后一个步骤就可以啦啦啦。
由于咒语相同,咱在这里就不做过多赘述啦,很简单,大家都辣么聪明,自行操作解决就完全OK!!
四、内生性检验
按照案例论文里的分析顺序,接下来我们就用ChatGPT搞定内生性检验!哈哈怎么忽然有一种,打怪升级不断进阶的感觉。
先来简单说几笔,什么是内生性检验。通俗来讲,就是检验变量是否与误差项相关,如相关,则为内生变量,不相关,则为外生变量。
由于论文中内生性检验方法是heckman二阶段回归,所以我们也使用相同方法进行操作和检验哈。
第一步,上咒语!告诉ChatGPT我们需要对 Abs_INE进行heckman二阶段回归。
咒语:结合要求与表格数据编写stata代码实现heckman二阶段法进行内生性检验,具体要求如下:Probit回归模型以考察企业在上一期的财务变量和公司治理变量与其下一期是否有连锁股东(Cross Dum)之间的相关性,具体模型如下,此处输入ChatGPT可识别的论文模型。再次强调,一定要告知ChatGPT控制变量中包含哪些具体变量哦,重要的话反复说三遍!!
另外,需要说明的一点是,相比于描述性统计分析和回归分析,内生性检验相对比较复杂,ChatGPT在理解时可能会出现偏差,所以咒语还需要结合实际情况进行调整哦!
经过几次调教,得到ChatGPT的输出结果:
第二步,迫不及待把代码输入stata中,得到如下结果:
probit Cross_Dum LagSize LagLev LagROA LagGrowth LagPPE LagCash LagTop1, robust
Iteration 0: log pseudolikelihood = -6648.4605
Iteration 1: log pseudolikelihood = -6159.0504
Iteration 2: log pseudolikelihood = -6154.0526
Iteration 3: log pseudolikelihood = -6154.0497
Iteration 4: log pseudolikelihood = -6154.0497
Probit regression Number of obs = 16,339
Wald chi2(7) = 883.62
Prob > chi2 = 0.0000
Log pseudolikelihood = -6154.0497 Pseudo R2 = 0.0744
------------------------------------------------------------------------------
| Robust
Cross_Dum | Coef. Std. Err. z P>|z|
-------------+----------------------------------------------------------------
LagSize | .2683171 .0116756 22.98 0.000 .2454333 .2912009
LagLev | .001324 .1304301 0.01 0.992 -.2543143 .2569623
LagROA |-1.260223 .2635308 -4.78 0.000 -1.776734 -.7437123
LagGrowth |-.0502643 .0246734 -2.04 0.042 -.0986232 -.0019054
LagPPE |-.0110801 .0696215 -0.16 0.874 -.1475358 .1253756
LagCash | .3514571 .1202711 2.92 0.003 .11573 .5871842
LagTop1 | .0696224 .0814632 0.85 0.393 -.0900426 .2292874
_cons |-6.786095 .2330356 -29.12 0.000 -7.242836 -6.329353
------------------------------------------------------------------------------
.
. predict xb, xb
(1105 missing values generated)
.
. gen mills = normalden(xb)/normal(xb)
(1,105 missing values generated)
. reg Abs_INE Cross_Dum Size Lev ROA PPE Cash TQ Top1 PIS Bsize Indep Comte mills i.dindu* i.dyear*, robust
note: 1.dindu45 omitted because of collinearity
note: 1.dyear10 omitted because of collinearity
Linear regression Number of obs = 16,339
F(65, 16272) = .
Prob > F = .
R-squared = 0.2103
Root MSE = .12726
------------------------------------------------------------------------------
| Robust
Abs_INE | Coef. Std. Err. t P>|t|
-------------+----------------------------------------------------------------
Cross_Dum | .0097633 .0028689 3.40 0.001 .00414 .0153866
Size | .0942001 .0053537 17.60 0.000 .0837062 .1046939
Lev | .0640838 .0077987 8.22 0.000 .0487974 .0793701
ROA |-.2839478 .0293148 -9.69 0.000 -.341408 -.2264875
PPE | .0566704 .0086428 6.56 0.000 .0397296 .0736112
Cash | .3015205 .0128879 23.40 0.000 .2762588 .3267821
TQ | .0161668 .0010825 14.93 0.000 .0140449 .0182887
Top1 | .0294949 .0079756 3.70 0.000 .0138619 .0451279
PIS | -.037084 .005808 -6.39 0.000 -.0484683 -.0256998
Bsize | .0000202 .0006299 0.03 0.974 -.0012144 .0012549
Indep | .0742218 .0216834 3.42 0.001 .0317199 .1167236
Comte | .001696 .0023409 0.72 0.469 -.0028925 .0062845
mills | .4443452 .0251463 17.67 0.000 .3950557 .4936346
1.dindu1 | .0042064 .0102558 0.41 0.682 -.0158962 .0243089
1.dindu2 | .117958 .0108297 10.89 0.000 .0967307 .1391854
1.dindu3 | .015852 .0112163 1.41 0.158 -.0061333 .0378372
1.dindu4 | .011023 .0119708 0.92 0.357 -.0124411 .034487
1.dindu5 |-.0022638 .0096075 -0.24 0.814 -.0210956 .016568
1.dindu6 | .0077451 .0093214 0.83 0.406 -.0105258 .026016
1.dindu7 | .0043999 .0126468 0.35 0.728 -.0203892 .0291891
1.dindu8 |-.0063852 .0161152 -0.40 0.692 -.0379728 .0252023
1.dindu9 | .0353721 .0180592 1.96 0.050 -.0000258 .0707701
1.dindu10 |-.0064973 .0198782 -0.33 0.744 -.0454608 .0324662
1.dindu11 | .0196255 .0103105 1.90 0.057 -.0005841 .0398352
1.dindu12 | -.018816 .013429 -1.40 0.161 -.0451382 .0075063
1.dindu13 | .0449192 .0271307 1.66 0.098 -.0082599 .0980983
1.dindu14 | .0581072 .0129327 4.49 0.000 .0327577 .0834567
1.dindu15 | .0236705 .0085103 2.78 0.005 .0069894 .0403516
1.dindu16 | .1518393 .0087963 17.26 0.000 .1345977 .169081
1.dindu17 | .0142409 .0115247 1.24 0.217 -.0083487 .0368305
1.dindu18 |-.0014086 .0097353 -0.14 0.885 -.0204908 .0176735
1.dindu19 | .0217271 .0093642 2.32 0.020 .0033721 .040082
1.dindu20 | .0196455 .0102051 1.93 0.054 -.0003577 .0396486
1.dindu21 | .0142454 .0092495 1.54 0.124 -.0038845 .0323754
1.dindu22 | .0218441 .0115234 1.90 0.058 -.0007431 .0444312
1.dindu23 | .0198072 .0094616 2.09 0.036 .0012613 .0383531
1.dindu24 | .0129453 .0091697 1.41 0.158 -.0050283 .030919
1.dindu25 | .0139905 .0092794 1.51 0.132 -.0041981 .0321791
1.dindu26 | .038099 .0124852 3.05 0.002 .0136265 .0625714
1.dindu27 | .002079 .0085707 0.24 0.808 -.0147205 .0188784
1.dindu28 | .016377 .0086235 1.90 0.058 -.000526 .03328
1.dindu29 | .0673907 .019944 3.38 0.001 .0282983 .1064831
1.dindu30 | .0265332 .0199039 1.33 0.183 -.0124807 .0655471
1.dindu31 | .0435381 .0231345 1.88 0.060 -.0018081 .0888843
1.dindu32 | .0270348 .0094169 2.87 0.004 .0085768 .0454929
1.dindu33 | .0305596 .0102328 2.99 0.003 .0105022 .050617
1.dindu34 | .0079993 .0085922 0.93 0.352 -.0088424 .024841
1.dindu35 | .0369336 .0094378 3.91 0.000 .0184345 .0554327
1.dindu36 | .0490119 .0190864 2.57 0.010 .0116004 .0864233
1.dindu37 | .0265561 .0099662 2.66 0.008 .0070213 .0460908
1.dindu38 | .0417273 .009082 4.59 0.000 .0239256 .0595291
1.dindu39 | .0581538 .0136449 4.26 0.000 .0314083 .0848994
1.dindu40 | .0074069 .0179207 0.41 0.679 -.0277197 .0425335
1.dindu41 | .1015176 .0127754 7.95 0.000 .0764764 .1265589
1.dindu42 | .0103777 .0364605 0.28 0.776 -.0610889 .0818443
1.dindu43 |-.0339365 .0185242 -1.83 0.067 -.0702459 .0023729
1.dindu44 | .1116709 .0136102 8.20 0.000 .0849934 .1383483
1.dindu45 | 0(omitted)
1.dyear1 | .0489658 .0062884 7.79 0.000 .0366399 .0612917
1.dyear2 | .0016436 .0051521 0.32 0.750 -.008455 .0117422
1.dyear3 |-.0296601 .0046836 -6.33 0.000 -.0388405 -.0204798
1.dyear4 |-.0221439 .0045851 -4.83 0.000 -.0311313 -.0131566
1.dyear5 |-.0157613 .0046459 -3.39 0.001 -.0248677 -.0066549
1.dyear6 |-.0234367 .0042364 -5.53 0.000 -.0317405 -.0151329
1.dyear7 |-.0165923 .0041045 -4.04 0.000 -.0246377 -.008547
1.dyear8 |-.0138954 .004031 -3.45 0.001 -.0217966 -.0059943
1.dyear9 |-.0137661 .0043226 -3.18 0.001 -.0222389 -.0052933
1.dyear10 | 0(omitted)
_cons |-2.751197 .1537113 -17.90 0.000 -3.052488 -2.449906
------------------------------------------------------------------------------
纯文本第三步,将上述代码粘贴至ChatGPT,让它来解释一下吧。
从上图中看到,ChatGPT没有告诉我们,在控制选择偏差后,原结论是否成立。只是对Heckman的每个步骤和结果进行分析,并表明模型结果显示存在内生性问题。
所以,我们还需要对ChatGPT进行直接提问。
咒语:控制了选择偏差之后,原结论还成立吗?
这次,ChatGPT给出了明确的回复,即在控制选择偏差后,原结论仍然成立。
好啦,内生性检验到这里也完美收官咯。如果想让ChatGPT帮助撰写论文的内生性检验部分,仍然参考文章第二部分的最后一个步骤哦!搞定起来还是妥妥的!
分析了这么多,咱再回顾一下具体分析流程,毕竟熟能生巧不是吗?
首先,一定要想清楚变量间的关系,在脑海中形成数据建模的雏形!这一点很重要,如果雏形没有形成,怕是ChatGPT也无能为力啊啊啊。 其次,将公式转化为ChatGPT可以识别的内容,结合源数据中的数据示例与具体需求,用咒语让ChatGPT生成stata代码! 第三,将代码复制到sata并一秒执行!然后将结果返回至ChatGPT,让它好好地解释一番! 第四,根据解释内容,通过咒语让ChatGPT生成论文内容,我们只需要对其进行微调就可!最后再叨叨一句,看的过瘾不等于操作过瘾,如果想要体验ChatGPT加速科研的魅力,大家一定要亲自操练起来啊啊啊啊,如果有什么好的建议或认为非常需要的,欢迎在评论区留言讨论~!
<hr/>前段时间出了几篇用ChatGPT进行论文精读、制作PPT和润色论文的文章,收到了很多评论和私信,都是关于ChatGPT使用方法细节的,个性化很强。
其他几篇关于ChatGPT的文章也收获了大波知友的喜欢,相信也会对你有帮助,还不快来看看~
ChatGPT 有哪些神奇的使用方式?ChatGPT真有很多人在用吗? 不知道还有没有朋友没有听过GPT的,也正是GPT加速了我们进入AI时代,以前总觉得AI跟我的距离很远,如今我却利用AI为我工作提升效率,刚开始接触GPT的时候只有3.5版本,我原本以为3.5版本的已经非常牛了,直到4.0的出现,让我彻底“爱”上了GPT!
现在的我每天都会使用到GPT,因为在提升工作效率方面真的太香了!
如果你也想学会如何使用AI工具做自己想做的事,可以点击下面⬇️⬇️⬇️链接,内附详细教程获取方式(都是我个人实操技巧和心得)!
新手小白必看AI创作秘籍,看完它能轻松学会!好了,废话不多说,现在回归主题,此内容会持续更新,建议点赞收藏,方便随时查阅!为了那些没听过GPT的朋友,我首先给大家讲讲什么是GPT!
http://pica.zhimg.com/v2-495ed35bf2c9c3b884f4d03409464d7b_r.jpg?source=1940ef5c
一、什么是GPT?
GPT的全名缩写是chatGPT,它是国外公司openai研发出的对话式聊天机器人程序,22年11月末正式上线,它可以理解学习人类的语言,来跟人类进行对话,可以帮我们撰写文稿,视频脚本,宣传文案,写代码等等,如果搭配其他工具,还可以帮我们做excel表格,ppt,还有生成视频,图片等等,它的应用场景非常多,基本上每个行业都可以用上它!
目前GPT分为3.5版本(目前免费)和4.0版本(每月20刀),接下来我们看看3.5版本和4.0版本有哪些不同!
二、3.5版本和4.0版本的区别
(一)模型规模不同
GPT3.5版本有175B的参数,而4.0比它却多很多,高达3.3T参数,很多人不懂这个参数是干嘛的,这里涉及很多专业知识,就算写出来估计大家也看的很懵,所以这里就不写了,你们只需要知道,4.0版本比3.5更牛就行了!
(二)模型能力不同
4.0版本是使用的树形推理来建成的模型,所以4.0版本比3.5版本更稳定更精确,让它能更有效的解决语言交互和语言理解等复杂的NLP任务!比如:我们在某些学术考试中,GPT都能表现出和人类旗鼓相当的能力,在对话中,4.0能更加准确的跟人类实现对话交流!
(三)模型输入不同
GPT4.0是个多模态的模型,它可以接受图像输入,也可以接受文本输入,而3.5版本只能接受文本输入,4.0版本能处理非常复杂的视觉信息任务,比如:图像问答,图像识别转文字等等!
(四)费用不同
3.5版本目前仍然是免费使用的,而4.0版本每个月是需要支付20刀的,目前4.0版本3个小时限制回答25条,但最近4.0版本开放了GPT内置插件商店,里面包含了数学类插件,联网搜索类插件等等,以前的GPT回答有字数限制,很容易出现上下文衔接不是,现在官方也优化了,只需要点击对话下方的按钮,就可以接着续写下去!至于大家需不需要付费使用,那就自己看情况而定,虽然国内很多类似的AI工具,但是相比4.0,差距还是蛮大的!
三、实测3.5 VS 4.0差距
(一)回答能力方面
这里我会分别让3.5和4.0对“2023年大学生就业”做预测,我们来看看他们的回答有什么不一样!
http://picx.zhimg.com/v2-0334b68dace462f7e57a48778c5d6f2f_r.jpg?source=1940ef5c
很明显,4.0版本的答案实用更有指导性,而且它还会给我们一些热门行业的看法!
(二)深度改写能力
这里我给3.5和4.0的版本素材和训练指令都是一模一样的,我们可以看看它们改写的内容有哪里不同?
可以看出,4.0版本明显改写的比3.5好很多,这估计是很多自媒体朋友梦寐以求的工具,就算不能直接搬,也非常具有参考意义!
(三)编程方面
1.技术概念回答
我分别让3.5和4.0给我解释“JavaScript中闭包是什么意思”,从这两个版本的回答我们可以直接看出,4.0版本比3.5版本回答更加全面和详细!4.0版本会给我例举出示例,而3.5仅仅只有解释,从回答结构上看,4.0版本的回答更加有逻辑性,而且给出例子让我更加能看懂“闭包”是什么!
3.5:
4.0:
http://pica.zhimg.com/v2-9941a72707fcd6a7e0398f689475d24e_r.jpg?source=1940ef5c
2. 代码写作
从这两个版本的回答中,我们很容易就看出来两个版本写代码的风格不一样,4.0版本的会更加规范和清晰,从输出格式上看,4.0版本的输出代码更容易让人阅读,从变量命名上来看,4.0版本的变量命名更加有描述性!
3.5:
http://pica.zhimg.com/v2-eb29c19e532456161fb1580feb6634fc_r.jpg?source=1940ef5c
4.0:
3. 代码调试
从这两个版本的代码调试的回答中,我们可以看到,3.5版本和4.0版本都能找出代码中的问题,而给出的修复建议也相差不大,所以,在代码调试方面,4.0版本和3.5版本的差距还是非常小的!
3.5:
4.0:
好了,今天的测试到这里就结束了,GPT需要测试的方面还很多,所以这篇内容我也会持续更新我的测试结果,建议你点赞收藏,方便随时查阅。
如果你对AI非常感兴趣,可以看看本文开头的详细教程获取方式,开启你的AI学习之旅! 结论:差距很大,并且是全方位的差距。ChatGPT在GPT-4面前就是“小学生”对“大学生”一般的差距。
先看一些官方的测试结果,再给一些自己测的典型用例。
在本文介绍的所有测试中,ChatGPT都明显弱于GPT-4。
官方测试所涉及的能力:
[*]视觉能力
[*]代码能力
[*]数学计算能力
[*]工具使用能力
[*]与人的交互能力
[*]人类专业考试的能力
自己测的一些能力:
[*]作为推荐算法的能力
[*]实体抽取的能力
1. 微软的测试结果
这部分测试结果来自于微软针对GPT-4的研究论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4 》。这篇论文测的是GPT-4的一个早期版本,它在训练阶段仍只用了文本数据,没有图像。所以从训练数据的类型来看,它和ChatGPT是一致的。
1.1 视觉能力
GPT-4的一个强大能力是它从纯文本中产生了视觉概念,但ChatGPT没有这种能力。
第一个测试方法是让模型用SVG(一种简易的图像格式)生成“汽车”、“卡车”、“猫”和“狗”。GPT-4和ChatGPT生成的图像如图1和图2所示。
图1 GPT-4生成的汽车、卡车、猫和狗
http://pica.zhimg.com/v2-bf12ed81a195a3323334eb4a3f25a279_r.jpg?source=1940ef5c
图2 ChatGPT生成的汽车、卡车、猫和狗
要注意,GPT-4和ChatGPT在训练中都没有使用图像。但GPT-4能够较为准确地理解了一些基础图像的概念,而ChatGPT完全不行。
第二个测试方法是让模型用英文字母来画火柴人:用字母O作为头,用Y作为身体和手臂,用H作为腿。
图3 GPT-4用字母画火柴人。左图:让GPT-4用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;中图:告诉GPT-4身子太长了,头太歪了后,GPT-4做出的调整;右图:让GPT-4画上衣服和裤子。
GPT-4画出来的火柴人如图3中最左侧图所示。当告诉GPT-4身子太长了后,GPT-4对火柴人进行调整后的图如图4中图所示。这个新的火柴人基本正确。最后让GPT-4对火柴人加上衣服和裤子,如图4中右图所示。
而ChatGPT画出来的火柴人是这样:
图4 ChatGPT用字母画火柴人。左图:让ChatGPT用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;右图:让ChatGPT画上衣服和裤子
显而易见,ChatGPT对图像基本没有概念。
1.2 代码能力
论文中有很多复杂的例子,比如让GPT-4按照文字描述写一个PyTorch的优化器;让GPT-4对一段代码进行单步运行;让GPT-4对一段伪代码进行单步运行并分析等等。在所有这些测试中,GPT-4都明显优于ChatGPT。这里挑一个简单一点的示例,代码也比较短,如下图所示。
图5 给定两个结构体,让GPT-4和ChatGPT分析它们的内存占用量。图中黄色区域为非常深刻的分析;红色区域为错误分析。
结构体x和结构体y的成员变量相同,但它们的顺序不同。GPT-4准确地知道结构体占用内存量与对齐规则有关,并给出了一个具体地示例。该示例假设以4-byte进行对齐。那么对于结构体x,它的第一个char a虽然只占1-byte,但因为int b需要对齐地址,所以char a实际占用了4-byte。同理,虽然char c也只占用1-byte,但因结构体的大小必须为4的倍数,所以char c也要占4-byte。
对于结构体y,int b占4-byte,char a占1-byte(因为char a的开销为1-byte,小于对齐的4-byte,所以按1-byte对齐即可),char b占1-byte,总共6-byte。但因结构体大小必须为4的倍数,所以总开销为8-byte。
而ChatGPT显然在胡说八道。
1.3 数学计算能力
先看一道应用题,原文如下:
图6 应用题
题目大致如下。有一群兔子,在每年年初时,它们的数量为变为原来的a倍。在每年年底时,这群兔子中有b只兔子会被抓走。假设最开始有x只兔子,三年后兔子总数时27x - 26,求a和b。
GPT-4和ChatGPT的解答分别如下:
图7 GPT-4和ChatGPT对“兔子问题”的解答
很容易看到,GPT-4答的非常好。而ChatGPT基本没理解到题目的意思。
然后再看一个没什么实际意义,但还是比较考验计算、信息整合能力的问题:估计一下全球共有多少A100显卡?
图8 GPT-4和ChatGPT对A100数量的估计
GPT-4的逻辑能力对ChatGPT就是碾压性的优势。整个回答中,GPT-4首先说明了它的假设。然后根据假设和公开可查阅的数据,一步一步进行推算。最终得出了一个看起来还行的结论。
而ChatGPT基本就是在敷衍了。
1.4 工具使用能力
不论是GPT-4还是ChatGPT,它们的缺陷都非常明显:
[*]无法获取及时信息;
[*]数值计算容易出错;
[*]一些简单且偏常识类的任务容易出错。
论文作者们通过一个例子来说明了GPT-4和ChatGPT存在的上述三个明显问题,如下图所示。
图9 GPT-4和ChatGPT均出错的三个简单示例
第一个问题关于及时信息:美国现在总统是谁?
GPT-4的回答明显错误(特朗普),而ChatGPT表现地更合理,直接回答说它的知识只到2021年。
第二个问题关于数值计算:34324 * 2432的平方根。
正确答案是9136.51。GPT-4和ChatGPT都错的离谱。
第三个问题关于简单的尝试性逻辑:单词supralapsarian的第13个字符是什么?
正确答案是a,但GPT-4和ChatGPT都“数”错了。
正因为GPT-4和ChatGPT有如此明显的一些缺陷,所以作者们才考虑能否通过一些三方工具来辅助GPT,让它的能力更强。于是就有了针对一些工具使用能力的测试,如下图所示。
http://pica.zhimg.com/v2-9458b36c83ce6be77405f8a781933c35_r.jpg?source=1940ef5c
图10 GPT-4对工具使用能力的测试
这个测试其实很简单。作者们首先告诉GPT-4,在回答问题时,有以下工具可以使用(以API的形式):
[*]在需要获取及时信息时,可以使用搜索引擎,API形式为SEARCH(&#34;query&#34;);
[*]在需要进行数值计算时,可以使用计算器,API形式为CALC(expression);
[*]在需要寻找字符串指定位置字符时,可以使用CHARACTER(string, index)。
然后,作者们重新问了图9所示的三个问题。这一次,GPT-4能够准确使用相应的工具得到正确答案。“准确使用”意味着GPT-4知道它:1)在什么时候应该用工具,而不是自己作答;2)什么时候应该使用什么工具;3)准确写出API的参数。
例如,当这一次回答问题“美国现在总统是谁”时,GPT-4首先使用搜索引擎执行查询SEARCH(&#34;current US president&#34;),然后根据搜索引擎返回的搜索结果(图10中列出了三条结果),给出了正确答案“Joe Biden”。
类似的,计算“34324 * 2432的平方根”这一问题也通过计算器回答正确;从字符串中找字符也正确。
而ChatGPT完全不会使用这些工具,它始终坚持自己输出答案(答案同图9)。
1.5 与人类交互的能力
这一部分主要是指“理解人类行为、情感、心理所想”等诸如此类的能力。
先看一个例子,如下图:
图11 根据场景让GPT-4和ChatGPT理解人的意图
图中场景很简单,他们的对话翻译过来大致意思如下:
Mark:我不喜欢你昨晚对Jack的方式。
Judy:你没看到做了什么?他打了他兄弟的头!
Mark:但那不是你对他大吼大叫的理由。
Judy:那你希望我怎么做?让他痛打他的兄弟而我什么都不说?
Mark:不是。
Judy:那你为什么替他说话?
问题:Mark的意图可能是什么?
GPT-4的回答是:Mark的意图是表达他对Judy处理Jack方式的不满。他希望Judy能够更加冷静和礼貌。
ChatGPT的回答是:Mark的意图是为Jack的行为辩护,并表达他对Judy处理方式的异议。
容易看出,GPT-4理解的更为准确。而ChatGPT认为Mark的意图是“辩护”。
针对上述场景,第二个问题如下:
图12 问题二:Judy是如何接纳Mark意见的?
第二个问题是:Judy是如何接纳Mark意见的?
GPT-4的回答是:Judy认为Mark抨击了对她教养小孩的方法和缺少同理心。她很生气,并且质疑Mark的动机。
ChatGPT只回答了:Judy不同意Mark的观点。
剩下的不贴了,总之,在理解人类行为这方面,GPT-4几乎也是碾压性的优势。
2. OpenAI的测试结果
这一部分结果来自OpenAI的GPT-4论文。
第一个测试是人类参与的专业考试,测试结果如下图所示。
图13 人类专业考试测试
图中的柱状表示百分位数。比如,第六列的Uniform Bar Exam(律师资格考试),ChatGPT(GPT3.5)大概是垫底的10%(蓝色柱子),而GPT-4是最高的10%(绿色柱子)。图中浅绿色表示没有视觉能力的GPT-4(没有用图像数据训练),深绿色表示有视觉能力的GPT-4。
第二个测试结果是传统的“刷榜”:在一些标准的数据集上测试GPT-4的能力。结果如下。
图14 GPT-4和ChatGPT的刷榜表现
最左侧是数据集和任务的描述。结果的第一列和第二列分别是GPT-4和ChatGPT(GPT3.5)的结果。非常明显,GPT-4的能力强太多。
3. 测试用例
这部分列举两个自己写的测试用例,这些用例涉及的场景GPT可能会比现有方法更优。
3.1 推荐
GPT对场景、上下文的理解非常深刻,因此想到的第一个场景就是让它代替推荐算法来做推荐。当然推荐本身的范畴非常大,这里以商品为例,测一下GPT对场景的理解能力。
用例设计:小明购买了新房,所以他在过去一段时间里购买了很多居家用品。测试GPT能否推测出小明当前的生活状态(即将入住新家或准备搬家)。
ChatGPT的结果如下:
图13 ChatGPT的推荐结果
图14 GPT-4的推荐结果
GPT-4显然对场景的理解更加深刻。但它仍然过于强调了3月8日这一天的鲜花(更可能是妇女节送花)。
虽然还不完美,但GPT-4一定会使现有的推荐算法、模式(电商、短视频等等)发生巨大变化。
3.2 实体抽取
实体抽取指从文本中抽取人名、地址、机构名等等使用者感兴趣的内容。实体抽取是NLP领域一项非常基础且重要的任务,具有广泛的实际用途。
下面是从今日头条上随便贴了一段新闻(侵删):
大家都知道,美国之所以能肆意收割世界财富,最主要的原因就是其拥有美元、军事和科技三大霸权。这些霸权让美国在全球范围内拥有巨大的影响力,也让其成为了国际舞台上的主角。不可否认,手握三大霸权的美国确实会让很多国家和地区甘愿臣服。但同时也会有个别国家会做出反抗,就比如俄罗斯和中国。尤其是中国,在经历了改革开放的大浪淘沙之后,近几年来我国在科技领域迎来了新一轮的爆发。无论是在航空航天方面,还是在5G通讯、人工智能等方面,我国都处于领先地位。与此同时,我国还涌现出了一大批高科技企业,比如华为、大疆、龙芯中科、长江存储等。其中华为在5G通讯领域的强势崛起,动摇了美“科技霸权”的根基。为了继续收割世界财富,美国对华为等中企进行了毫无底线的制裁,可结果却得不偿失,我们的企业非但没有倒下,反而越战越勇,打赢了一场又一场漂亮的“攻坚战”。反观美国半导体市场可谓是一片狼藉,可以说到处都是“断壁残垣”。高通、苹果、AMD等美科技企业不是面临市值腰斩,就是面临利润和营收双双下滑,甚至还开启了上万规模的裁员浪潮。我的输入是这样:
图15 实体识别能力测试
ChatGPT的输出:
图16 实体识别ChatGPT的输出
ChatGP没有理解到我希望的输出格式。并且成语这一部分不太理想。
图17 实体识别GPT-4的输出
GPT-4完全理解输出格式,并且回答的比较好。(注:如果在输入中把“包括国外公司”去掉,GPT-4会漏掉高通、苹果和AMD,但ChatGPT没有这个问题)
最后
光是在推荐和实体抽取这两类任务上的优异表现,就可以设计出很多GPT-4可用的场景。这里补充一些,写抽象一点,大家可以自行脑补:
任务编排、数据关联、图文理解、极为个性化的推荐(别说千人千面了,现在的这些方法百人百面都做不到)、垃圾信息过滤、网络安全、真正意义上在open-set设定下的信息识别(分类、聚类、相似、蕴含等等)。
页:
[1]