[其他] 推特限制每日浏览量,未验证账户最多浏览 800 条,马斯克称数据被极端抓取、系统操纵,如何看待此事?

[复制链接]
ybhl 发表于 2023-8-29 02:01:17|来自:中国 | 显示全部楼层 |阅读模式


推特所有者埃隆·马斯克宣布了浏览推文的条数限制。

澎湃新闻消息,推特正在限制用户可以阅读的推文数量,该公司所有者埃隆·马斯克称,这只是一项“临时紧急措施”。“我们的数据被窃取如此之多,以至于降低了普通用户的服务质量!”他在回复用户的推文时写道。
当地时间7月1日,数以万计的用户抱怨推特没有发布他们的新推文,用户会收到“超出限制”的错误提示。
在一条推文中,马斯克详细介绍了修改后的使用配额。经过验证的账户每天最多可以浏览6000条推文,而未经验证的账户则最多浏览600条推文。新注册的未经验证的账户面临着更严格限制,每天最多发300条推文。
随后,马斯克又发布一条推文称,很快,已验证的账户浏览推文数量的限制将增加到8000条,未验证的账户将增加到800条,新注册的未验证用户将增加到400条。
马斯克表示,推特正在努力应对“极端程度的数据抓取”和“系统操纵”。他说,这些新的限制是遏制这些紧迫问题的重要措施。他没有透露谁在抓取推特的数据,也没有说明这个问题持续了多长时间和详细解释系统如何被操纵。
全部回复5 显示全部楼层
hython 发表于 2023-8-29 02:01:23|来自:中国 | 显示全部楼层
当知乎上的各位都在认真讨论问题的时候,已经有营销号帮马一龙赢麻了:
Twitter 崩了,高尚的马斯克
后来,我突然想到了前一段时间马斯克的采访,仔细一琢磨,马斯克还真高尚,用户不要骂街,老马这是为了大家好。
马斯克在采访的时候,提到了一个概念叫:无悔用户时间
什么意思呢?就是用户在某个软件上花费了时间之后,用户不会感到后悔。
一个主持人问马斯克:你如何看待政府要禁止和强制出售 tiktok ?
马斯克说:我经常听到有用户说,自己在使用 tiktok 之后,用户会后悔在上面浪费时间了,但是,以后还会忍不住再玩。我希望 twiiter 是有价值的,用户在使用 twitter 之后,做一个无悔用户。虽然,禁止 tiktok 对 twitter 有利,但是,我也反对禁止的形式。
所以,马斯克限制用户访问量的事情,可能是想让 Twitter 回归价值。
毕竟,在算法推荐的数字媒体时代,人人都像是吸了大麻一样,在数字媒体平台上一发不可收拾。
算法推荐就像是新时代的鸦片一样,基于人性进行投其所好,沉浸在网络当中不能自拔,说实话,确实浪费时间。但是,对于大多数人来讲,即使知道这样浪费时间,还是忍不住去的去打开,去观看,一旦进去,不刷个 1 小时,可能都不想出来,出来之后,一看,一个小时过去了,心里有无比后悔,用这个时间做点事,提高个人能力,挣点钱不香吗?
Twitter限制流量是回归价值,赢!
抖音不限流量是浪费用户时间,输!
Llg 发表于 2023-8-29 02:01:36|来自:中国 | 显示全部楼层
转一个很有趣的说法,不明真假,大家谨慎吃瓜
昨天晚上(美中时间),Twitter更新了一个版本的网页版前端,导致一个component不断反复刷新,只要你用浏览器点开一条推文,就会每秒钟给Twitter server带来近100次的request压力,整个div肉眼可见地在抖。
然后Twitter压力巨大,Elon Musk官宣自家被爬虫们DDoS攻击了, 为了对抗爬虫,全面限制访问数。  然后昨天晚上大家发现Twitter不能打开了,所有的request都被limit了。
今天早晨,这个前端的bug偷偷被修好了,那个div已经不抖了,但是全球Twitter用户来骂Elon Musk。然后Elon Musk又在找借口,"你们应该放下手机"、"这些已经够用了",开始在推特上胡言乱语,为这个决策买单负责。Elon Musk被手下人逐级上报,真的认为是DDoS攻击,坚决咬死不松口,后来在舆论的压力下,提升了一点点request limit。
再后来,因为整个问题在今天早晨被偷偷全部解决了,所以Twitter官方也把这个limit偷偷彻底放开了。  但是Elon Musk不懂,非程序员不懂,非前端不懂——如果你是前端,昨天晚上那一阵子没上Twitter,没把那个版本的烂前端cache到你浏览器里,你也不会懂。
最后附上原帖:https://twitter.com/lidangzzz/status/1675423624977690624?s=20
cgbbs 发表于 2023-8-29 02:02:07|来自:中国 | 显示全部楼层
reddit 为了增加营收,对 API 调用收费,最流行的 reddit 第三方客户端 Apollo 一年 API调用费用都要两三千万,开发者只好宣布放弃产品,子吧吧主抗议,导致  reddit 的大量子吧关闭(设置为私有)。
马斯克为了防止爬虫,直接限制所有未登录账户 600 条推文,后来吐槽太多调整到下面这个:
已验证的账户浏览推文数量的限制将增加到8000条,未验证的账户将增加到800条,新注册的未验证用户将增加到400条。
真是简单粗暴。
类似发文限制其实大家都有,不信你可以试试知乎一天最多能发多少,似乎是 50 还是多少?只是正常用户大部分碰不到,以及平台一般也不会直接讲出来。
而限制浏览量这个国内基本不会搞,爬虫的基本上是反作弊或安全团队的事情,比如通过 IP、抓取特征、加验证码、加限制提醒,普通用户不会看到限额,因为对于普通用户,更多的浏览量其实是有更多而 ADLoad 、更多的活跃时长、更多的在线用户和其他销售机会,对产品是正向的数据。
Twitter 为了对付爬虫,把普通用户也直接当做爬虫对待了。其实 Twitter 可以直接加上宽泛的限制,碰到问题自己调调参数就行了,现在直接粗暴的来一个方案,很埃隆马斯克风格,简单粗暴,碰到啥想到方法就干,只要有效就好。
国内的企业至少从用户体验角度习惯让用户看到简单,哪怕底层实现的更复杂。
现在到底谁进步、谁退步...
有钱就是任性,祝马斯克大佬玩得开心。
(完)
ajlm 发表于 2023-8-29 02:02:22|来自:中国 | 显示全部楼层
这种措施堪称最严格也最搞笑的「防沉迷措施」…在我看来挺扯淡的。




虽然马一龙已经明说了是为了防止数据抓取/爬虫,不过外网网友大多是在吐槽他想卖出去更多的推特会员。不过我倒是觉得,卖会员不完全是他的初心,大概率的确是防止数据爬取。
不过这里的出发点也分两种情况:一是爬虫已经显著影响到了推特的服务器性能;二是推特不想让做 AI 的竞争对手获取推特上的用户数据。


如果是前者,尚可勉强接受。对于任何一个网站而言,爬虫流量都是百害而无一利的,消耗了服务器资源,影响了正常用户使用。
但如何是后者,恕我直言,老马和推特有点司马昭之心了。社交平台的核心资产其实是用户,而不是 UGC 数据,用户的数据还是归用户的,不过之前 Reddit 也有卖付费 API 的前例…


而且在我看来,推特有很多更好的办法可以解决这个问题,正常的反爬是不应该牺牲用户体验的。如果不想被爬数据,可以识别高频访问的 IP、账号,有针对性的去做 block 或者 limit,而不是去限制所有用户的使用,去同时恶心用户和对手。
更何况,限制账号的浏览频率,也只是增加了对方的成本而已,如果爬数据的人真觉得推特的数据价值很高,也可以用更多的账号,更慢的频率去进行抓取。
<hr/>也不知道推特还能经得起多少折腾…(经评论区提醒,这张图是马斯克转发了自己的高仿号…

bluestardm 发表于 2023-8-29 02:02:59|来自:中国 | 显示全部楼层
别的网站都巴不得用户每天从睁开眼睛开始就长在自己的平台上,推特倒好,直接对用户做出了限制每日浏览量的规定。看起来似乎很奇怪,毕竟这直接关乎到平台的广告收入。可事实也并没有那么简单。
马斯克发布这个消息到现在不到20个小时,已经有4.4亿的访问量,几十万的互动,连他自己都惊呼创下了记录。


虽然大多数回复都是对他阴阳怪气。





根据马斯克的说法,这个限制措施是临时的,随时可能改动或取消。
至于原因,他提到是因为“数百个组织(也许更多)正在非常频繁地抓取Twitter数据”,使得服务器受到了巨大的负担,不得不经常在紧急情况下上线大量服务器以保证平台正常运行。
他指的其实是一些人工智能公司为了训练大型语言模型的在推特上抓取大量推文(对话)作为训练数据。因为LLM需要从大量真实的人类对话中学习。但训练数据的质量对于AI模型的表现非常重要。像Twitter和Rdt美版贴吧(这个网站全名打出来貌似会被屏蔽)这样的社交平台上,有数十亿的帖子,对话质量都很高,被认为是优质UGC(用户生成内容),因此常被人工智能公司用来训练AI模型。像OpenAI、谷歌等公司的大模型早已将这些平台的公开数据用于自家AI语言模型的训练之中。
但是这些平台也希望用户能为这些数据付费,谁也不想看着自己平台上生产的优质内容被别的公司白白拿去使用,同时还要承受着频繁的API访问带来的服务器维护压力和额外成本,颇有一番给别人做嫁衣的意味。所以,一边是平台想着收钱,另一边是用户想着白嫖,矛盾就这样产生了。
上个月美版贴吧就因为其公司CEO决定要提高API接口的使用费用而遭到大量版主的抵制,还发起了“灭灯”运动——关闭板块访问,超过8000个板块被设置为“私人板块”,外人无法访问,但是最后,平台也没有妥协。
推特此前也调整过API的收费策略。此次又整出来一个限制每日浏览量,基本上也证实了这些平台的态度——想白嫖数据,难了

另外,也有人分析这次事件其实是因为推特和谷歌云的合同在6月30号到期了[1],传言称,马斯克一直在努力将所有内容迁出,以避免支付10亿美元(据报道)的费用。合同到期后,谷歌云可能对Twitter的数据进行了速率限制。而马斯克此番限制用户访问数量,也是试图减轻损失或协商降低使用费用,并通过这种限制保持网站运行正常,直到数据迁移完成,或达成与Google Cloud的账单合同。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则