首页>资讯 > 正文

环球新动态:现代数据栈是如何走向实时化的?

哈喽 小伙伴们 ,今天给大家科普一个小知识。在日常生活中我们或多或少的都会接触到现代数据栈是如何走向实时化的?方面的一些说法,有的小伙伴还不是很了解,今天就给大家详细的介绍一下关于现代数据栈是如何走向实时化的?的相关内容。

时代变了,企业越来越厌倦传统的数据基础架构。这些基础设施在回答关键的商业智能问题时速度很慢,而且它们经常是过时的,与当前的商业现实不同步,通常是一天或更长时间。

现代企业的需求和要求正在发生巨大的变化。因此,旧的“批处理”模式(每天一个大更新,查询速度慢)正在让位于更详细、更频繁的实时更新(每秒多次更新,查询速度快),从而带来更新鲜的数据和更快的洞察。


【资料图】

除了分析洞察力之外,实时数据基础设施正在推动一类能够响应数据变化的新应用。这涉及到数据堆栈的每个部分,从数据摄取到业务分析,再到机器学习和人工智能。

随着用例的发展,支持它们的基础设施也在发展。走向实时不是调整旧的数据系统那么简单。在许多情况下,基础架构已经从头开始重写,以实现实时工作负载。

在现代数据堆栈中,实时基础设施和工具可以采取多种形式:

高频大容量的从A到B的小数据包流(比如Apache Kafka,Redpanda,Apache Pulsar)。

通过流处理工具(如Apache Flink、Apache Samza、Decodable)过滤和转换对流数据。

实时分析,允许分析师以低延迟获得关于业务查询的最新反馈(例如Materialize、ClickHouse、Tinybird)。

实时或在线的机器学习模型,不断适应和学习数据,并生成实时预测(如Tecton)。

今天,将这些不同的系统结合起来仍然是一个棘手的问题。但是,进行这些投资的组织将获得丰厚的回报,主要是实现传说中的“实时企业”,成为一个能够感知和应对其业务中的事件和变化的组织。

对实时性感感兴趣却在寻找灵感?一些下一代组织已经成为早期采用者,并为新进入者开辟了采用途径。

我最喜欢的大规模实时数据基础设施案例研究包括:

网飞:在7年时间里,网飞将其流数据的用例从0增加到2000多个,同时在数据摄取、移动、分析和操作处理以及机器学习方面建立了实时能力。如今,网飞的实时基础设施每天处理数十万亿次事件。

优步:优步的实时基础设施每天产生数Pb的数据和数万亿条信息,这些数据和信息是从优步的司机、乘客和其他用户那里持续收集的。优步的移动应用、内部仪表盘、机器学习模型和临时数据探索工具都有实时用例。

现在是实时时代,这场革命发生的速度比你想象的要快。一眨眼的功夫,你可能就错过了。

作者:Nnamdi Iregbulem,光速创投合伙人

标签: 基础设施 机器学习 实时数据 基础架构

相关阅读