[IT技术] 国内有哪些研究数据库的高校和团队?

[复制链接]
jik1756 发表于 2023-10-6 17:36:35|来自:湖北 | 显示全部楼层 |阅读模式
如题,目前人工智能越来越火,但计算机领域一些底层技术,如数据库相关技术却很少在知乎看到大面积讨论,楼主考虑未来从事本方向的研究,恳请各位知友告知国内有哪些高校、研究团队、老师做这个方向的研究?
全部回复5 显示全部楼层
flyren 发表于 2023-10-6 17:37:34|来自:湖北 | 显示全部楼层
不请自来。本人是数据库行业的从业者,刷过一些课程看过一些论文也做过一些工程。总结一下我了解到的国内的研究数据库比较强的高校和团队。
高校。以下这些提到的高校老师我都看过他们的论文:

  • 清华大学张焕晨老师。Huanchen Zhang。张老师的实力非常非常强,具体大家去看他的论文就知道了,代表作有Surf,是sigmod2018 best paper。张老师还是第一个获得Jim Gray奖的华人,这个奖基本上可以说是近15年来数据库领域的学生的最高荣誉了,他同时也是cmu历史上第二个获得该奖项的人(第一个是Joy Arulraj,nvm领域的首屈一指的专家,著名教授Andy Pavlo的第一个博士生,Andy本人也曾获此荣誉)。张老师现在在清华叉院,据我了解到他基本上是将全部精力都放在了学校,为此放弃了很多外面的机会。而且张老师非常年轻,现在完全在学术一线上。我个人认为这里是国内数据库研究的最佳去向之一。
  • 清华的李国良老师。李老师的组每年都发不少sigmod&vldb,是国内高校为数不多能稳定输出这两大会的组,近几年也做了不少ai和db的交叉工作。李老师本人也在MIT的数据库组做过一年的学术访问,当时与数据库领域现如今唯一的图灵奖获得者Mike Stonebraker以及数据库领域现在的中流砥柱之一Sam Madden有密切合作。
  • 中科院的陈世敏老师。陈老师是cmu的博士,也有很多很有影响力的工作。两年前曾经有幸参加过一场陈老师也参加的论坛,印象非常深刻的是陈老师当时讲nvm的工作,能感受到他虽然早就功成名就了,但如今仍然在一线上写很多代码,这(在国内的大环境下)可以说是非常难得的。向陈老师学习。
  • 浙江大学的伍赛老师。比起上面几位老师,赛哥比较声名不显,但其实他的实力也非常强,人品也非常好,很为学生着想。想在浙大做数据库的话,赛哥是一个很好的选择。
  • 浙江大学的孙建伶老师。孙老师同样是在浙大做数据库的一个很好的选择。
  • 上海交通大学的ipads实验室。ipads主做系统,可以说无论是教育还是科研都是国内系统领域的一面旗帜。里面也有一些老师做数据库方向。
  • 北京大学崔斌老师。崔老师同样发了不少sigmod&vldb,应该说是在北大做数据库的很好的选择。
还有一些其他回答提到的老师,包括浙大的陈刚老师等老师,人大东北大学等学校的老师,这里我就不一一赘述了。
工业界:

  • 首先当然要厚着脸皮介绍一下我们的团队啦。DolphinDB是一家分布式时序数据库公司,CEO/CTO @Davis (Xiaohua Zhou)从12年开始就着手开发产品DolphinDB,并于16年回国创业至今。DolphinDB作为一款数据库产品我个人认为有以下几大亮点。首先,DolphinDB几乎所有组件都是纯自研的,包括不限于分布式文件系统(对时序/olap这样的场景做了特定的优化),raft(大量参考了etcd),mpp sql执行引擎,存储引擎olap(纯列存)、tsdb(基于lsm-tree的pax存储)和imoltp(内存oltp存储引擎),流数据引擎,底层文件系统网络协议,自己的编程语言,1500+常用的向量化计算函数,支持单机和分布式事务......纯自研的选择有很多原因,但最主要的有两个,一个是当年Davis做研发的时候这些组件基本都没有什么比较好的开源实现,第二个是为了做到自主可控,可以对我们在乎的场景做特定的优化。其次,DolphinDB计算引擎和脚本引擎强大,可在数据库里结合sql和脚本引擎直接写代码编程,支持条件判断、循环、异常处理、向量化编程、元编程等等,非常灵活,这些自定义的udf也可以直接应用在所有的存储引擎和流数据引擎中。第三,DolphinDB支持投研生产一体化,可支持批流一体。第四,DolphinDB深入业务提供非常多高效实现的常用函数等,落地和营收一直做得很好。我本人是我们公司的研发负责人之一,对我们团队感兴趣的同学可以参考知乎回答:https://www.zhihu.com/question/481846135
  • pingcap。pingcap可以说是国内数据库团队尤其是开源领域的一面旗帜。pingcap的介绍文章非常多,知乎上一搜一大把,我这里就不赘述了。我个人接触过在或者曾在pingcap的同学基本都很强。
  • OceanBase。这个也没啥好多说的,大家应该都了解。本来这里写了一点关于OceanBase的介绍,但是知乎要求我删掉,那就删掉吧。
  • 阿里的polardb等各种db团队。阿里的数据库团队还是很强的,各种数据库团队都有,实力也都算国内最顶级的。总得来说阿里的数据库团队氛围在阿里中也算首屈一指了。
  • 阿里达摩院团队。这个基本上是国内工业界做研究的最佳去处了,里面有很多大牛。
  • starrocks/selectdb 虽然前两年有一些争议,但这两家基本上都可以说是国内olap创业公司的佼佼者了。我有一些朋友在这两家,水平也相当不错。
  • nebula graph 同样在杭州的团队,做开源图数据库。和里面的一些前辈交流过,技术相当强,work life balance也做得比较好。 @闻棠 现在在这里工作。
  • risingwave。 @Yingjun Wu 的开源流数据库创业公司,里面大佬很多很强。
  • @雷鹏 的组。之前是做rocksdb fork的,做了很多很有用的工作。
公司这块也可以参考这个问题:https://www.zhihu.com/question/530189411国内还有非常非常多的数据库创业公司或者大厂的数据库组,其他的我就不太了解了,这里仅列举我有一些了解的以上公司。如果有错误,还请批评指正。
54sh54sh 发表于 2023-10-6 17:37:51|来自:湖北 | 显示全部楼层
蚂蚁金服OceanBase团队。

从 2011 年开始参战双十一到 2016 年双十一支付宝支付峰值 12 万笔/秒的世界纪录,再到 2017 年双十一支付峰值达到 25.6 万笔/秒,这背后,是一个由 OceanBase 研发和运维组成的团队。2016 年的世界互联网大会,蚂蚁金服分布式关系数据库OceanBase 入选世界互联网领先科技成果,其它获奖公司还包括特斯拉、IBM、微软、卡巴斯基等。

OceanBase是由蚂蚁金服、阿里巴巴完全自主研发的金融级分布式关系数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系数据库、低成本等特点。OceanBase 对传统的关系数据库进行了开创性的革新:在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了4200万次/秒处理峰值的纪录。OceanBase至今已成功应用于支付宝全部核心业务。除在蚂蚁金服和阿里巴巴业务系统中获广泛应用外,从2017年开始,OceanBase开始服务外部客户,客户包括南京银行、浙商银行、印度Paytm、人保健康险等等。
团队背景:
以下是OceanBase核心团队成员背景:
l 阳振坤:现任蚂蚁金服OceanBase团队高级研究员,OceanBase创始人。
l 冯柯:现任蚂蚁金服OceanBase团队首席架构师。
| 杨传辉:现任蚂蚁金服基础数据部(OceanBase 团队)研究员,目前负责数据库事务开发工作,著有《大规模分布式存储系统:原理解析与架构实战》一书。
l 陈萌萌:目前在蚂蚁金服OceanBase团队负责SQL相关方向的开发工作。

……

了解更多OceanBase的内容,可点击访问:https://tech.antfin.com/products/OB?chInfo=zx
yyp 发表于 2023-10-6 17:38:22|来自:湖北 | 显示全部楼层
PingCAP: 一家开源的新型分布式数据库公司,秉承开源是基础软件的未来这一理念,PingCAP 持续扩大社区影响力,致力于前沿技术领域的创新实现。
TiDB 是 PingCAP 研发的新一代开源分布式 NewSQL 数据库,模型受 Google Spanner / F1 论文的启发,实现了自动的水平伸缩,强一致性的分布式事务,基于 Raft 算法的多副本复制等重要 NewSQL 特性。TiDB 结合了 RDBMS 和 NoSQL 的优点,部署简单,在线弹性扩容和异步表结构变更不影响业务, 真正的异地多活及自动故障恢复保障数据安全,同时兼容 MySQL 协议,使迁移使用成本降到极低。

以下文字摘自 来 PingCAP 和我们一起出发~
接下来我们进入正题,先给各位看一下我们即将前往的大海:我们的目标是做最好的分布式关系型数据库。这个目标没有『东半球』之类乱七八糟的限定词,很有野心,也很有难度,希望你看到这里时候,会感觉到这个目标非常有趣,有去看一看的冲动。
面对这个目标,我们的团队已经日夜兼程奋斗了三年,去年推出了 1.0 版本,即将推出 2.0 正式版(备注:已发布 2.0 正式版, 并即将推出 2.1 rc 版),在国内近千家公司试用过,过百家已经在生产环境中运行。这是一件技术难度非常大的事情,我们已经走在了业界前沿,很多地方已经进入了无人区,需要我们去调研去想办法。数据库自身就是一个复杂的系统,那么如何让一个分布式数据库能正确、稳定、快速地跑在生产环境是一件非常难的事情。所以我们需要一群聪明且有野心的海盗和我们一起来构建并驾驶这艘船


官网:首页
项目地址:pingcap/tidb
知乎专栏:TiDB - 知乎 https://www.zhihu.com/topic/20062171
公众号:pingcap2015

欢迎投递简历至 xuhuaiyu@pingcap.com ^_^
moi7889 发表于 2023-10-6 17:38:55|来自:湖北 | 显示全部楼层
不邀自来,简单来说,国内研究数据库的团队可能不少,但是真正从底层到应用来完整做一个工业级的数据库产品团队不多。目前数据库正在往分布式、智能化方向发展,据我浅薄的了解,国内在这方面领先的团队有:
OceanBase:蚂蚁金服阳正坤老师的团队,分布式数据库,兼容MySQL协议,服务于蚂蚁金服各类产品,产品相对成熟;

TiDB:技术初创型公司PingCAP的分布式开源数据库产品,受谷歌的Spanner论文启发而创造的分布式数据库产品,在众多互联网公司内得到了较多应用,倡导开源精神;

X-DB:阿里巴巴集团新一代分布式数据库,前身是AliSQL,产品形态上也对标Spanner,其1.0版本已服务于阿里巴巴集团大多数耳熟能详的产品

PolarDB:阿里云团队开发的数据库产品,对标AWS的Aurora,与上述三者在产品定位上有所区别,不过了解不多。
刚加入X-DB,可以稍微展开说一下X-DB
产品定位:低成本、高性能的全球化通用数据库。支持全球化部署,并通过自研的数据复制技术在多地域进行数据同步,保证数据的高可靠和高可用。性能上追求水平和垂直扩展的双管齐下,压榨每一滴性能、压缩每一分成本;

技术栈:典型工程师文化,自研了X-Engine、X-PAXOS、X-RPC、GMS等组件,涵盖了高性能低成本存储引擎、高性能PAXOS协议、RPC、分布式集群管理、调度等范畴;

AI:数据库和人工智能的融合,这也是X-DB目前在发力探索领域,在不远的将来应该能够看到落地成果;

团队:全球化。目前在杭州、北京、深圳、美国四地同步研发,团队近50人,据不完全统计,博士比例接近1/3,压力山大;

商业化:在不久的将来大家能够在阿里云上体验X-DB了,我们正为此不懈努力。
最后,对X-DB技术感兴趣的同学可以关注微信公众号:XDBTech。同时也热忱欢迎各路英才加盟,私信于我。
fortop 发表于 2023-10-6 17:39:25|来自:湖北 | 显示全部楼层
再更:
2021年5月20日,OceanBase在数据分析型基准测试(TPC-H)中,以1526万QphH@30000GB的性能总分创造了新的世界纪录。同时,OceanBase也成为唯一在事务处理和数据分析两个领域测试中都获得过世界第一的中国自研数据库。同年,OceanBase 3.2发布,引入了向量化执行引擎和基于LSM存储引擎的计算下压,HTAP能力初露锋芒。
2021年6月1日,OceanBase正式开源,开放完整的内核源代码,使用木兰公共许可协议。欢迎用户和合作伙伴与我们共建社区。
更新:
OceanBase 2.2版本开始,正式在兼容MySQL的同时,提供Oracle兼容模式(Oracle模式租户,支持PL/SQL)。
2019-10-4 OceanBase以60880800 tpmC在OLTP数据库行业标准评测TPC-C中登榜第一。这不仅是国产数据库的第一次,也是分布式数据库的第一次!一步一个脚印。
OB的商业化正在起飞阶段,我们急需要完善商业工具产品,现在需要招聘各个层级的Java后端开发,欢迎加入我们,一起为国争光 私信我
原答:
OceanBase是一个由一群追求梦想追求极致的靠谱工程师一行一行码出来的,高可用,高性能,水平扩展,支持严格ACID事务,自动容灾(可多地部署城市级容灾),自动负载均衡,弹性资源调度,语法兼容MySQL,基于代价和复杂规则的SQL优化器,支持JIT编译执行PL,支持并行执行,原生多租户的,通用分布式关系数据库。是的,我们从每一个c++容器类型写起,没有基于任何开源数据库。八年来,已经支撑了全部支付宝核心业务数据库,一次次刷新双十一交易峰值。目前我们已经走出阿里巴巴和蚂蚁金服,服务于更广大的市场。无论市场还是技术,我们都在加速前进。
官网: https://oceanbase.alipay.com/
公众号: OceanBase ,有大量干货,欢迎关注。
我们热切期待有技术追求的你加入我们,欢迎私信简历。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则