新闻
坚定不移地做产业价值发现者,追求长期、可持续的竞争壁垒
累计融资145亿美金!a16z精选了数据产业50家代表性Startups
2022-04-09

文章来源于佩玻大街537号 ,作者JK


即使“大数据”概念已经诞生十多年,数据在今天仍然是各类企业中最重要、增长最迅猛的创新驱动因素之一。尤其是随着近几年“PLG”理念推动的“Metrics-Driven”方法论持续渗透,企业中早已不仅仅是只有数据科学家或者数据分析师在和数据打交道,从运营到产品的各个职能都将被卷入这波浪潮。

光是数据管理就已成为基础设施增长最快的领域之一,根据咨询机构Expert Market Research发布的报告统计,这已经是一块超过700亿美元的大蛋糕。

微信图片_20220522092002.png


超过了2021年所有企业基础设施支出(据Gartner统计)的20%

微信图片_20220522092100.png

数据科学产业同时借上了软件、AI和云计算迅猛发展的东风,催生了一批迅猛发展的新兴企业。

2021年,全球数据科学领域的初创企业也是融地飞起,合计获得了数百亿美元的风险投资,打破历史记录,2022年的这一趋势依然强劲。全球知名VC基金Andreessen Horowitz(简称a16z)编制了首批“DATA50”初创清单,收录了这一领域新兴小龙头。


Data50清单总览

清单的筛选逻辑参考了成立时间、融资额、团队规模、收入增长等多个维度的信息,收录了2008年之后成立的高速增长或表现出众的50家数据科学领域初创企业,总估值合计超过1000亿美元,总融资额多达145亿美元。

(清单暂时没有覆盖垂直场景解决方案,以及CockroachDBPlanetScale或者Yugabyte这样的事务性数据库公司,而是更主要关注于跨行业的分析性产品公司)

微信图片_20220522092230.jpg

覆盖七个热门板块

为了方便进一步研究分析,清单将这50分类为7个板块:

微信图片_20220522092333.png

  1. 查询和处理是访问、聚合和计算数据的核心引擎,主要涉及两大类:以DatabricksStarburst为代表的批处理,和以ClickHouseImply为代表的实时处理。前者曾是老大哥,但随着实时应用的需求不断增加,后者也越来越多的走到聚光灯下。

  2. 人工智能和机器学习包括算法建模应用和机器学习的大规模数据处理等工具。这一领域在经历了数年沉淀之后迎来了应有的繁荣。这批玩家八仙过海各显神通,有专注于自然语言处理的Rasa;有平台社区化的Hugging Face;专注于AI的产品化的ScaleTectonWeights and Biases;以及作为“计算层”加速AI应用的Anyscale等等。

  3. **ELT(Extract-Load-Transform) 和数据编排(Orchestration)**支持数据的流动。它是保证数据准确、准时到达目的地的传输层。传统的ETL供应商大多提供的是私有化部署的低代码产品,而这批新兴玩家大多是云原生(比如Fivetrandbt)、开发者友好型(比如AstronomerPrefect),跨数据环境处理更复杂的业务需求。

    微信图片_20220522092406.png

  4. 数据治理和数据安全随着数据堆栈变得越来越复杂、涉众越来越多,关键性日益凸显。尤其是在高度受监管的行业中,数据治理工具将是刚需,以确保数据安全并在整个生命周期中保持数据的一致性。OneTrustCollibra就是此类翘楚,服务于受监管的大型企业公司。

  5. 客户数据分析原本是由营销团队负责,但随着企业越来越重视,数据团队也正在越来越多地参与这部分数据的分析与整合。随之诞生了以RudderstackActionIQ这类客户数据集成工具,以及CensusHightouch这类将数据赋能于一线(运营和销售)业务的产品。

  6. BI 和 Notebook 都属于数据的应用层。尽管BI是一个略显红海的赛道,但像PresetMetabase这样的新玩家靠开源路线也成功开辟出了一席之地,有一批忠实的数据工作者用户;另一方面,数据应用需求的快速变化也催生了对Hex这类交互式笔记本的需求,以及Sisu这类自动化分析决策引擎也是类似。

  7. **数据可观测(Observability)**工具是从软件工程的******实践中获得灵感——随着数据科学的技术链越来越长,数据的准确性对结果的影响愈发明显,随即也诞生了BigeyeMonte Carlo这两个数据质量/可靠性平台,帮助用户监控、衡量错误数据,提升数据质量。

总的来讲,数据产品快速发展的大逻辑是因为数据量的飞涨和使用频率的提升,然而对于不同板块的驱动因素却各不相同。数据上云、存算分离和日益降低的算力成本推动了查询和处理的需求增长;越来越复杂的应用场景和工作流产生了数据治理和可观测性的产品需求;而数据驱动业务增长的理念渗透,则将更多的职能人员引入了数据科学协作流程中去,从而催生了新的BI和Notebook产品发展。


各板块融资热度

查询和处理类别只占Data50中公司的五分之一,但投资在这一类目的资金数额几乎占到一半。尽管这一数据受到了Databricks最近16亿美元融资的影响,但即使没有它,这一类别仍将占所有融资的37%,是第二名的两倍多。毕竟这一板块起步更早,需求更基础。

微信图片_20220522092532.png

从公司数量来看,分布就均衡多了。其中AI/ML是******的类别,这主要是因为该领域仍在发展,需要一套新的独立工具来培训、测量和生产模型。

微信图片_20220522092600.png

从每个类别的投资来看,最显著的趋势是,AI/ML公司越来越受市场关注,虽然大部分集中在早期阶段,但已经呈现出超速发展的势头。ELT和数据编排也是如此,尤其是Fivetrandbt这两个超级新星的巨额融资非常扎眼。

微信图片_20220522092631.png


AI/ML类目快速发展

这批初创企业大多成立于2014年之后,而在AI/ML工具快速发展的推动下,2019年的创办数量达到了顶峰。这个趋势大概率会持续下去,毕竟20年及以后创办的公司还都处于早期阶段,尚入不了a16z的法眼。我看到有大量2020年之后创立的新星也在持续创新,也顺利拿到了1-2轮VC的投资,后续会陆续为大家介绍,如果你有感兴趣的案例推荐,也欢迎文末留言。

微信图片_20220522092707.png


湾区仍是主力战场

在这50家公司中,47家(94%)位于美国,3家是跨国公司。其中33家公司位于旧金山湾区,9家位于华盛顿特区、费城、纽约和波士顿的I-95走廊沿线。其中两家位于西雅图,一家位于辛辛那提,还有一家位于亚特兰大。

这种分布受到大规模数据生态系统历史位置的重要影响(例如Oracle和Teradata都是在旧金山湾区创建的)。然而,也可以看到越来越多的数据公司(如FireboltMatillion)出现在全球各地,因为数据工程人才和对数据工具的需求几乎遍及每个大陆。

微信图片_20220522092800.png