[其他] 如何解读新研究:海鲜市场非新冠病毒始发地,11 月或已开始人传人?

[复制链接]
nankong2000 发表于 2023-10-26 14:43:50|来自:中国 | 显示全部楼层 |阅读模式
中国科学院西双版纳热带植物园、华南农大、中国脑科学研究所等机构的研究人员发表预印文章,研究显示:据1月6日之前的22个新冠病毒基因组重组分布,较早的一次新冠病毒种群扩张发生在2019年12月8日,病毒可能在12月初,甚至11月下旬即已经开始人际传播,随后在华南海鲜市场加快了人际传播。(财新网)
论文原文:Decoding evolution and transmissions of novel pneumonia coronavirus using the whole genomic data
相关问题武汉称最早的患者发病为去年 12 月 8 日,否认去过华南海鲜市场,新冠源头究竟来自哪里?
全部回复5 显示全部楼层
isyi.com 发表于 2023-10-26 14:44:15|来自:中国 | 显示全部楼层
先上结论:按照病毒目前的突变率和种群规模,用4%差异距离的蝙蝠病毒外类群来定根溯源,根本就是扯淡。除非找到更近的中间宿主类型,或者所谓的零号病人。不然基于目前有限数据做出的这种推论完全不可信,只能为阴谋论提供温床,徒增普通大众的烦扰。

详细说下核心问题,进化树定根。目前得到的进化树其实都是无根树,只是纯粹反应各种病毒单倍型之间的距离,而只有确定了根部,才能知道各种类型之间谁早谁晚。一般定根的方法,就是找一个进化上最近的外类群做参照,来确定种内的发生关系。
然而不当的外类群选择会严重影响结果。具体到这篇文章中,使用了最近的蝙蝠病毒做外类群,按4%的序列差异,病毒基因组全长30K,那就是1200个碱基差异。而目前发现的主要单倍型之间只有几个突变,说白了就是看这几个突变的情况。实际上,穿山甲病毒和蝙蝠病毒在这几个点上就能有差异,用穿山甲病毒做外类群定根,结果就不一样,所以按实验室同僚的话讲,这个就是用红毛猩猩来对照确定父子关系。。。
从外类群选择衍生而来的另一个问题是突变率。从RNA病毒突变率看,大概10e-2到10e-4,不同区域差异会比较大,相比人线粒体DNA(全长16K,突变率也较高),按mt高变区算10e-6到10e-7,数量级也要高出了100-10000倍。当然这是按绝对时间算,按世代算可能差不多,人20-30年一代,病毒传一次算一代,复制效率远高于人,所以拉回来差不多一个量级。根据人mt高变区较高突变率的经验看,不得不考虑突变饱和的问题,也就是同一区域的碱基都发生过突变,有些看上去没变,其实可能发生了回复突变。这是进化分析上最头疼的问题之一,同样的序列,蝙蝠病毒的明明看上去一样,实际上却可能经历了回复突变,那就不能用最简模型。因为明面上看到的突变其实不是线性发生的,突变关系做不出进化上的最简树,这种情况在人线粒体中相对常见。
还有一个麻烦问题是重组,一般做系统发育重建用的是非重组区域,因为不同来源的片段有不同的进化路径,只有相同来源的片段能共用一个最简模型。目前看新冠病毒极有可能是蝙蝠病毒在中间宿主上发生了重组事件,从其他近似病毒获得了S蛋白等重要的编码序列,所以从最初的蝙蝠病毒基因组上看编码突变差异,这不是缘木求鱼么。。。
其实,不管突变饱和还是重组,对晚近的进化分析影响都不大,但是蝙蝠病毒这么远的外类群,这么高的突变率,鬼知道它经历了什么。。。一个很好的例子就是,穿山甲病毒在S蛋白上和新冠病毒的趋同进化(管轶文章),只是蛋白序列相似,而DNA序列不同,因此判断是趋同不是同源。突变是没有方向的,但进化是有方向的,选择压(比如更易感染宿主并长期共存)会导致趋同,也有导致趋异的情况。因此种内的群体遗传分析通常用中性区域,不受选择稳定的随机变化,种间系统发生通常用保守区域,受强烈负选择不敢乱变。总之一句话,进化分析要考虑时间框架,不同尺度要用不同区域、遗传标记和分析方法。

还有普遍的测序质量问题,在序列中观察到的某些差异可能只是测序错误,比如基因组末端的插入、缺失和更广义的核酸差异,而不是实际的突变。例如,已发表的上百例测序数据中,发现基因组头尾可能普遍存在测序错误导致的6个假阳性SNP,以及部分样本存在明显超出正常数量的突变。当然这跟早期使用的测序方法相关,宏基因组测序,就是把样本中人的、各种微生物包括其他病毒的一股脑的全测了,直接导致的后果就是有效数据量偏低,其中能有0.2%是新冠病毒的都算高的。有效数据占比低,如果总测序深度还不高,后果就是覆盖不全,甚至要用多个样本的数据才拼成一个基因组,比如华大最早上报的病毒基因组就是用5个样本的序列拼成的。
当然早期需要靠宏基因组的方法,才能发现一种全新的病毒,但是已经拿到基因组的情况下,中后期甚至未来很长时间,作为一种可能长期共存的病毒,需要一种兼顾性价比、比RT-PCR灵敏且能得到高质量完整序列的方法。设计探针精确捕获病毒的目标序列并测序,就是一个很好的选择。这里悄悄透露一下,我们团队已开发出相关试剂盒,正在加紧测试,希望能早日应用,用所学为抗疫出一份力。

3.7更新:相关文章评论
如何看待中国科研团队发现新冠病毒已突变,演化出两个亚型,且传染力或有差异?发生了哪些变化?“On the origin and continuing evolution of SARS-CoV-2”一文已经被国外同行打脸了,“鉴于这些缺陷,我们认为唐等人应该撤回他们的文章,因为其中的说法显然是没有根据的,并有可能在疫情的关键时刻散布危险的错误信息。”关键词:遗传漂变奠基者效应蝙蝠病毒外类群测序错误,唉,最近蹭热点的研究错误还真一致呵。。。
flyren 发表于 2023-10-26 14:45:00|来自:中国 | 显示全部楼层
其实这篇文章揭开一个很尴尬的事情,那就是,我们当前关于病毒的溯源完全受制于了早期提交的武汉本地病毒基因数据(偏倚性太高了)。
1,华南海鲜市场依然是最大的引爆点,超级传播病毒就是从这里出去的
2,有武汉旅行史的广东人和美国人感染了进化上更加靠前的病毒,而这个病毒却在武汉提交的数据里没发现,这说明当时武汉提交的数据实在是过于特殊,不具有普遍性,而理论上,可能当地存在更多的被感染者,他们更早接触了病毒,但是和华南海鲜市场没有直接交集。
3,加大对武汉当地的一些数据广泛性查找,可以更好地定位到相对更早的病例,也就是很多人一直追问的0号病人,只有找到这个人,或者这一些人,我们才能真正找到武汉病毒的源头,然后彻底掐断传染源。这一点武汉是有能力的,他们有样本,有强大的二代测序能力。
文章解读在后文,重点分析在前。
—————外地起源论?no,依然是武汉。—————
估计很多人看到题目,已经浮想联翩了,比如美国的和广东的竟然比华南海鲜市场的病毒还古老等等,但是我要说,别着急。

  • 美国和广东的病毒,依然是来自武汉
尽管从进化上分析,我们发现美国的和广东的病例说携带的病毒属于较为古老的病毒,但是,这并不能说明病毒是其他地方的,事实上,这两个患者,他们的旅行记录表明 2019 年 12 月底至 2020 年 1 月初都来过武汉,然后他们都是1月份发病的。所以,他们是在武汉被感染的。上面的研究,只能佐证他们并不是被华南海鲜市场病毒感染的,而是来自武汉其他地方的病毒。而这也引出了一个本研究的根本上缺陷——病毒样本不完善
广东首例:
They had no history of contact with animals, visits to markets including the Huanan seafood whole sale in Wuhan, or eating game meat in restaurants.——柳叶刀[1]
美国首例:
Although the patient reported that he had not spent time at the Huanan seafood market and reported no known contact with ill persons during his travel to China——新英格兰[2]
2。研究存在的缺陷
事实上,尽管整个研究选择了93个样本的基因组,是迄今为止发表的关于新型冠状病毒疫情最大规模群体基因组研究,但是,这个研究样本还是不够全面。武汉样本样品采集时间局限于 2019 年 12 月 24 日和 2020 年 1 月 5 日。而那个时候,当地对于疫情的排查集中在了华南海鲜市场,而样本来自几家定点医院,换句话说,样本取样地不具备统计学上的无偏性,这导致最终的数据分析也必然受到了影响,也就是garbage in,garbage out。事实上,我们根据广东和美国的病例,完全可以推测出,武汉本地存在更古老的单倍型H13 和 H38。因此,要想完整的溯源,事实上对武汉后续发病例进行更广泛的基因组检测,这样才能更好地确定真正的源头。
3. 即使不是华南海鲜市场,也依然是武汉或者湖北
基于上述分析,其实我们可以看到,尽管大概率排除了华南海鲜市场为首发地,但是也不尽然,因为可能华南海鲜市场存在一些病例自愈了而没有被排查到。但是,即便抛开这个小概率事件,整个病毒的溯源来看,这个病毒集中爆发地,依然是存在于武汉或者湖北。
下图是文章里提到的路线,




简单地说,某些未知来源的病毒出现在了武汉,不过这个病毒应该存在于华南海鲜市场和其他地方,然后不断扩散到全世界。
而到目前为止,所有的病例,源头都可以追溯到武汉上,所以,武汉必然是当前疫情的第一个出发点。
至于武汉的病毒从哪里来?我们不得而知。它们究竟是如何出现在武汉,也不得而知,所以我们需要更多的、更全面的数据,而这些,就要期待研究人员和科研机构来贡献了。
有两种猜测:

  • 早期的病毒不会引发非冠症状
早期只是轻微传播,至少从目前来看,连祖先型的H13等都会感染人,那么,这个更古老的未知病毒,经历了一次重大的变异才忽然爆发出如此强大的杀伤力
2.早期的病毒是在宿主身上,它在武汉第一次感染了人
这个可能更靠谱一些,就是病毒可能一直在动物宿主身上并不断进化,然后在武汉的时候,这个病毒第一次传播到了人身上,然后从人传到了更多的人身上。
,一些额外的期待
目前病毒已经发生了许多突变,下图是截至今天为止所有已经报道的病毒身上的突变,我们可以看到均匀的分布在全部基因组上[3]



而这些突变,可能引发一些潜在的威胁。
以中科院这篇文章为例,他们研究的120个突变的核苷酸关联了119个氨基酸密码子,其中79个密码子 (65.83%)改变了氨基酸类型,并有42个(53.17%)氨基酸理化性质都被改变。这是不容小觑的,蛋白是生物体内发挥生命理化作用的主要分子,氨基酸的改变,往往会引发蛋白质本身理化性质的改变,而这些改变,是否会影响新型冠状病毒的传染性、致病性等问题,都是值得重视的。
—————原文解读部分———————
一、华南海鲜市场是不是真正的病毒源头?
2月19日,中国科学院西双版纳热带植物园的研究人员在预印网站上分享了一篇对新型冠状病毒肺炎的溯源研究,在该研究中,作者提出了一个看法:华南海鲜市场并不是病毒的源头[4]。
这篇研究是怎么做的呢?
研究人员首先从公共数据库GISAID EpiFluTM里下载了来自亚、欧、澳和北美四个州12个国家的93个新型冠状病毒的全基因组数据,通过全基因组分析来进行溯源传染源和扩散路径的研究。依据其基因组上的变异位点对这些病毒进行分类,最后得出了58种单倍型,他们可以归纳成五大类,如下图所示



进一步,他们发现,这些单倍型中并不是完全平行,而是存在一个进化上的先后顺序,比如单倍型H3是比较古老的病毒,而H1则是相对较新的病毒。此外,这些病毒的扩散也不是均衡的,比如H1就是一个超级传播单倍型,它衍生出了几十个单倍型。
比较意外的是,他们发现,从武汉华南海鲜市场提取的病毒属于H1类型,就是上图中的下面那个大圈的中心病毒,这个病毒并不是最古老的病毒。从图上大家可以直观的看到,这个H1病毒,并不是很古老的病毒,它源于H3,而H3是H13病毒和H38病毒的后裔,而H38,理论上是蝙蝠病毒RaTG13直系后裔,通过一个未知的中间宿主mv1后形成的。
这意味着,来自华南海鲜市场的病毒并不是最早的病毒,比如更古老的病毒单倍型H13是在广东首例患者-一个来自深圳的病患发现的,而另一个H38病毒则是在美国首例患者——一个来自华盛顿州的病患身上发现。换句话说,这些外地出现的病毒,比华南海鲜市场本身的病毒版本还古老,这意味着,华南海鲜市场并不是最早的源头。
二、其实很早就有人推测华南海鲜市场并不是最早的源头
其实,这个结论并不新鲜,因为,很早的时候,就有研究提到了这个问题。2020年1月24日,顶级医学杂志柳叶刀发表了一篇关于武汉新型冠状病毒疫情的回溯性文章[5],在这篇文章中,我们首次发现了疫情早期来源并不是华南海鲜市场。
最早报道的病例是12月1日,这个病例并没有华南海鲜市场暴露史,接下来12月10日新增的3例患者,有2例无华南海鲜市场暴露史。换句话,在早期爆发的4例中,有3例都是没有华南海鲜市场暴露史的,这就意味着,最早的源头,应该不是华南海鲜市场。




无独有偶,同样另一篇来自新英格兰医学的报道,也佐证了这个事实,如下图所示,浅色的柱状图表示无华南海鲜市场暴露史,而早期病例柱转图,都是浅色的[6]。




对此,science在1月17日刊发评论,指出,当时对于华南海鲜市场为疫情爆发地点的认识是错误的,疫情应该另有源头[7]。
至此为止,无论是来自病例的溯源,还是来自基因组学的证据,都佐证了一个事实,华南海鲜市场应该不是最早的源头。
1 Chan JF-W, Yuan S, Kok K-H, et al. A familial cluster of pneumonia associated with the 2019 novelcoronavirusindicatingperson-to-person transmission: a study of a family cluster. Lancet 2020
2 HolshueML,DeBoltC,LindquistS,etal.FirstCaseof2019NovelCoronavirusinthe United States. N Engl J Med 2020
3 https://nextstrain.org/ncov
4 WB Yu  et al.Decoding  the  evolution  and  transmissions  of  the  novel  pneumonia coronavirus (SARS-CoV-2) using whole genomic data
5 Chaolin Huang et.al. Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China, The Lancet, 2020
6 Li Q, Guan X, Wu P, et al. Early transmission dynamics in Wuhan, China, of novel coronavirus–infected pneumonia[J]. New England Journal of Medicine, 2020.
7 Cohen J. Wuhan seafood market may not be source of novel virus spreading globally[J]. Science, 2020.


版权声明:本文系腾讯较真(微信ID:qqjiaozhen)独家约稿,如需转载,请联系较真平台。
较真丨研究发现新冠病毒的源头不是华南海鲜市场,这意味着什么?
twinsbbs 发表于 2023-10-26 14:45:34|来自:中国 | 显示全部楼层
2月24日更新:如何获得更准确的结论?(正在做的工作的简要思路)
1.补充样本,尤其是早期的样本。如果能够拿到11月份诊断为“不明原因肺炎”的样本是最好的(虽然希望渺茫),退而求其次12月所有早期病例的样本要尽可能完善,肯定不止现在公开的那几个。
2. 参考流行病学的数学模型(例如SEIRS)进行分析,而不是仅仅用谱系生物地理学的方法。原始的SEIRS的偏微分方程组过于简单,容易欠拟合,考虑适当提高模型复杂度。
3. 计算病毒的进化速率。这个还需要补充后期的病毒基因组数据,包括来自日韩的数据。我们想知道跟扩散以及致死相关的基因是否发生了快速进化。根据现在在日韩的爆发情况,推测病毒的传播力可能已经有所提高,而毒力尚未看到明显减弱。
4. 重建病毒扩散过程。需要补充全国各地的基因组样本,建立系统发育树并修订时间,查看随着时间的变化扩散和隔离的函数是如何变化的。一方面可以溯源,另一方面可以看到隔离措施的有效性。
5. 使用病例数据进行辅助验证。考虑使用机器学习的方法建模。因为数据实在有点少,随机森林或者神经网络类的方法怕是不太稳健,做个网格搜索筛一下。其中比较重要的参数是潜伏期,可以用一个泊松分布模拟。
===============
不评价结论,这篇文章的方法有些缺陷,先简单的写下:
1.排序时直接使用了全基因组,而没有分成基因片段/orf,分开排序建树会好些。
2.在进行单倍型分析时,密码子的不同位点也应当分开,病毒的变异速度太快,混在一起会有误导性的结论。
3.用Network的时候只使用了median-joining方法,换种方法可能会得到不同的网络结构。事实上使用Network分析病毒的传播可能会得到误导性的结论,应慎重使用。
当然,最大的缺陷还是早期样本不齐(但这个恐怕无法解决了),如果样本齐了,就能确定早期的传播链,再用mcmctree算下不同orf的进化速率,用RASP做个分布重建,再检测下不同orf构建的系统发育树的一致性,能够回答很多问题。
zhenghuifu 发表于 2023-10-26 14:45:55|来自:中国 | 显示全部楼层
用奇点网的图说的比较清楚


有一种技术可以看出来病毒的进化谱系。相同的冠状病毒 存在爷爷孙子之间的进化过程。A组是爷爷 B是儿子 C是孙子
样本中最早的新冠肺炎感染者(12月24日)并不是被最初的原始爷爷病毒感染。
而论文中的H13跟H38 既深圳一家五口(广东第一批确诊者 有武汉就医史 应该是伽马刀手术)跟美籍华人(有武汉旅游史) 他们才是被爷爷病毒感染的。注意他们都没有海鲜市场接触史 而且发病时间都在一月中上旬。
综上 先发病的是被孙子病毒感染 后发病的反而被爷爷病毒感染。
考虑病毒的进化时间 那么唯一逻辑上说的通的就是这个病毒其实在12月之前就海鲜市场之外的某个地方开始传播 美籍华人跟深圳患者是被爷爷病毒传染。而海鲜市场爆发的可能是经过某患者把儿子病毒带到海鲜市场传染给人或者动物 再变成孙子病毒才开始爆发。
jeanefu 发表于 2023-10-26 14:46:04|来自:中国 | 显示全部楼层
我来更新了~这个论文的使用的病毒样本量只有90多,按着我的理解,这个样本量偏低,小伙伴们要带着辩证的精神来阅读啊。
给大家讲一讲我以前看论文的经验,1区,尤其是CNS的paper要仔细看(讲啥的都值得看看,就当拓宽视野),2,3,4区的paper就搜着看(看你需求啊,找资料用),预印本的paper就凑合看(所有的预印本都是没经过同行评审的,可以理解为暂时还没有被认可的文章)。
至于为什么是以前的经验呢,最近每天都最少被逼看一篇预印本啊,没办法啊。
以下是原文
<hr/>

中科院的科学家怎么判断出华南海鲜市场不是病毒的起源地的?
昨天(2月21日)中国科学院西双版纳热带植物园与华南农业大学以及北京脑科中心的科研人员在中科院论文预印本平台(chinaxiv)发布了一篇论文,其主要使用了基因组学数据来追踪病毒在传播过程中的突变。[1]
其得的主要结论有:
1. 在武汉大范围传播新型冠状病毒之前,在11月下旬应该就有部分患者被感染,可能因为是轻症患者所忽略。
2. 华南海鲜市场并不是最原始的病毒传播地点。
3. 病毒在传播的过程中只产生了突变,没有发生重组的现象。
那么我来不太科学的给大家解释下这个结论是怎么得出来的。
论文使用了基因组学的分析方式,来分析和判断的病毒的进化走向。
大家通俗的理解,就是如果有的病毒都是像电影里的情节那样,有一个最初的感染源,也就是说0号患者,那么其他所有人都将是被他所感染,也就是所有的病毒都会有个共同的祖先。
那么论文的作者收集了包含中国以及全球各地的96个病毒的完整基因组,用基因组学的方式来逆推这些病毒的共同祖先。论文中假设病毒的一个祖先叫mv1,它可能来自中间宿主(比如穿山甲)或者是0号患者。那么从它开始,病毒在传播的过程中会产生自然突变,因为大家是基于一个祖先进行突变的,所以这个过程是有迹可循,或者是有规律的。
那么经过那96个病毒的基因序列进行分析,论文作者发现,华南海鲜市场并不是最古老的病毒起源地,而广东(深圳)的发现的患者携带的病毒版本H13以及来自美国华盛顿患者采集到的病毒版本H38,他们的病毒版本都要比海鲜市场爆发的H1版本要老。而这两组患者都曾经去过武汉,他们从武汉感染的病毒更古老一些。
但这里有一点要注意,感染的晚不代表着病毒版本更新,比如你是被0号感染者感染,那么你即便是1月份感染的,那你感染的病毒版本也是很古老的。所以在整个病毒传播期间,是混杂着很多版本的病毒的。


上边这个图显示了作者对于这些病毒样本的分析,大家可以把这些编号理解为软件版本。比如说蝙蝠身上的最原始版本RaTG13,那么中间宿主版本就是mv1,从mv1更新到了H38,在从H38更新到了H3,H3更新到H1,而H1才是在华南海鲜市场大规模流行的病毒版本。
而经过流行病学的分析可以得到一些确认信息,如下图。



目前已经确认H3(图中被蓝色圈起来的三角形)是没有海鲜市场的相关史的,而H1(图中被红色圈起来的大圆点)是确认有海鲜市场相关史的。而刚才我们看的哪个更新路线能看出来是先有的H3后有的H1.也就是说,华南海鲜市场并不是病毒最早出现的地方。最少H3,以及H13和H38这3个版本都比它早。
那么追踪最早的病毒版本要怎么办?目前来看要追踪更多的H13和H38这两个病毒版本的来源。
至于结论1可以从病毒版本的时间上推断,11月可能是个保守数字,也够可能会更早(比如10月底)
结论3算是唯一的好消息了,检测了全球90多个样本的测序结果,发现病毒只是在复制过程中老老实实的突变,没有产生和其他病毒重组以至于大范围的变异。这样我们最少还是在面对一种病毒。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则