大数据开发新之Flink + TiDB
2025-08-25 12:18
此时我们须要理性两个情况:
怎样才能标准化规划管理反馈?应用于反馈仓纳。 如何才能动手到特性处理事件?应用于特性近似值涡轮引擎。我们将会话数仓的一些内部设计驱动程式结合特性近似值涡轮引擎,就形成了标准的以 Flink + OLAP 为核心的特性数仓驱动程式。这种驱动程式我们指烟囱式的特性数仓。烟囱式的特性数仓则会产生反馈未来世界,致使致使的编码电磁,每次遇到新的期望,都要从原始反馈再近似值。
那么什么才是一个好的反馈模型呢?这里我们可以借鉴一下传统的会话数仓的驱动程式,将反馈传输层细分成 ODS,DWS 和 DWS。基于这样的结构,可以标准化规范,越来越不稳定的,的业务兼容性也越来越强。
总结一下几种多种不同形态的特性数仓驱动程式:从近似值涡轮引擎上来看,Lambda 驱动程式须要保证源批两套近似值涡轮引擎,相对越来越为麻烦。同时保证两套涡轮引擎对于开发新者的生产成本也是低的。相比于 Lambda 和 Kappa 驱动程式,Flink 把一部分的关联和未及肽键操作方法从前面移到了右边,相对于依赖于 OLAP 涡轮引擎。
应对范式变越来越的重算期望,Lambda 靠着独立的批处理事件涡轮引擎透过重算,Kappa 驱动程式通过再统计传言链表上面的反馈透过重算,而 Flink 也须要将传言链表中都的反馈再导入到 OLAP 涡轮引擎中都重算。
在过去,我们无能为力特性,数仓的范式是:精度不够,驱动程式来补。 在如今,我们无能为力特性,数仓的范式是:既要、还要,全都要。 1.4 特性数仓驱动程式下一代展望下一代是一定则会有第四个北坡的。我们可以随意的畅想一下。
对于分布式 OLTP 反馈纳,我们通过添加分析方法类的涡轮引擎,最后动手到将 OLTP 与 OLAP 合二为一,在应用于上作为一个标准化,在传输上分离,而动手到 OLAP 与 OLAP 互不冲击。这种 HTAP 的驱动程式允许我们在 OLTP 的纳上面并不需要分析方法,而又不受到影响因特网的的业务,那么他则会不则会改用大反馈种系统呢?
毫无疑问,应用程序的的业务反馈只是交易种系统的一部分。还有大量的应用程序道德上事件,快照、水生动物反馈等反馈须要汇总到数仓中都透过分析方法。如何动手到系统内部设计null的标准化也是下一代大反馈行业须要面临的非常大的同样。友商 hologress 已经为我们动手出了一个开后端。把 Flink + Holo 这一套种系统服务化,应用程序不须要去研修和接受每个其产品的情况和相比较,这样需要大大标准化的业务的驱动程式,进一步提高开发新生产成本。
当然,我也看到的是越发多的 HTAP 其产品 HSAP 化,越发多的 HSAP 其产品 HTAP 化。边界与定义越发模糊,就好比问道 TiDB 有了自己的 DBasS 服务 TiDB Cloud,Holo 也有行存和列存两种涡轮引擎。在我看到的是,越发多的应用程序,将水生动物的业务,快照种系统传输数据 TiDB 中都,HTAP 和 HSAP 都将带入反馈纳生态中都不可或缺的重要必不可少。
二、Flink 在 TiDB 上的特性读写故什么事节
接下来我则会从特性传输故什么事节,特性维详见故什么事节,CDC 故什么事节和混合故什么事节四个方面介绍一下 Flink 与 TiDB 兼容方案。此前,我们可以看一下 Flink + TiDB 的生态驱动程式全貌。
2.1 Flink + TiDB 的生态驱动程式全貌一般而言,我们将 Flink + TiDB 的生态驱动程式分成四层:
第一层是反馈源。反馈源可以是多种多样的,比如问道 MySQL Binlog,比如问道水生动物的反馈,比如问道平面的 log 机密文件。 第二层是特性近似值层,也就是我们问道的 Flink。不过在特性近似值层之前,反馈源的反馈则会通过采集工具传输 MQ 中都,由 Flink 来消费道德上 MQ 中都的渐进反馈。 第三层是反馈传输。由于 Flink 相比于其他系统内部设计null来问道越来越依赖于 OLAP 涡轮引擎,须要一款强大的反馈纳作为支撑。比如问道 TiDB,我们既有符合于因特网种系统的行存 TiKV 涡轮引擎,也有符合于分析方法近似值的列存 TiFlash 涡轮引擎。我想到作为反馈仓纳,反馈的源动性是最重要的。所以我们不仅有反馈源入的方案,也可以通过 TiCDC 将反馈源出到其他的外部广泛应用中都。 再一一层是后后端广泛应用。确实是并不需要连接特性管控种系统,特性统计分析种系统,也确实是将反馈源入到 ES 这样的搜索涡轮引擎中都,透过下一步操作方法。我们可以最简单的看一下 TiDB 的基本概念驱动程式,TiDB 主要分为三个部分:
最前面的近似值层 TiDB 负责接受客户后端的传言允诺,将允诺转化为分布式的执行计划书,并且都将到传输层。TiDB 的传输层分为两种涡轮引擎,一种是行存的 TiKV 涡轮引擎,对于 OLTP 的查找越来越为友善。一种是列存的 TiFlash 涡轮引擎,对于 OLAP 的查找越来越为友善。
TiDB 兼容 MySQL 5.7 协议,我们常问道,TiDB 是一个大号的 MySQL,其实我们借此应用程序需要像应用于单结点的 MySQL 那样应用于 TiDB。不用再考虑什么分布式,不用再考虑分纳分详见。这一切操作方法由 TiDB 来已完成。那么 TiDB 是如何将执行计划书都将的呢?这正中都央必然牵涉到到 metadata。我们的元反馈传输在 PD server 中都。TiDB 到 PD 中都获取到反馈分布的反馈后再都将执行计划书。所以我们也称 PD 是 TiDB 战略性的大脑。
刚才提到过 Flink 重度依赖于 OLAP 涡轮引擎,我们也可以考量一下 TiDB 的 OLAP 潜能。我们一直在提 HTAP,在同一套纳中都,既处理事件 OLTP 的的业务,也处理事件 OLAP 的的业务。
那么 HTAP 最重要的是什么,毫无疑问才是是人力永久性。如何动手到 AP 的重量级查找不受到影响因特网的业务,是 HTAP 的基石。在这里,我们应用于两套传输涡轮引擎,就如刚才所问道,行存的 TiKV 天然的对点查越来越为友善,列存的 TiFlash 天然对重分析方法类查找越来越为友善。谈不上永久性,自始至终就不在两兄弟。
2.2 特性传输故什么事节其实我们一直在讨论 Flink + TiDB 的路由器克服方案。传言链表这个词反复地再次出现。Kafka,RabbitMQ,RocketMQ 这一类 MQ 工具,主要动手的就是一发,一存,一消费道德上这三件什么事。我们可以看到应用于 flink-sql-connector-kafka 这个 jar 包,可以轻而易举地通过 Flink 消费道德上 Kafka 的反馈。
与 MySQL 相近,我们可以应用于 Flink 的 jdbc connector 将反馈从 Flink 传输到 TiDB 中都。
那么这里须要请注意的是,如果 TiDB 的详见没设null,Flink 应用于的是 Append Only 模式。如果 TiDB 中都的详见设了null,右边的反馈则会根据null覆盖前面冲突的反馈。
此外,前后端的业务量的突增确实致使源量高峰。那这种情形,为了减少对中下游反馈纳的压力,我们可以再考虑在 Flink 与 TiDB 正中都央,接一个 Kafka 动手削峰。
2.3 特性维详见故什么事节还有一种非常重要的故什么事节是特性维详见故什么事节。大家都想到,为了压制断言详见的体积,我们尽确实地将断言详见中都的反馈抽象成 ID。
在传统的数仓中都,DW 层确实则会动手一些肽键操作方法。在原有的数仓基本概念结构中都,单结点的 MySQL 确实只能承载庞大的断言详见跨度,于是我们把他放在 TiDB 中都,而自由度反馈,确实传输在 TiDB 中都,也确实存放在外部设备中都,如 MySQL 等其他的反馈纳。通过 Flink,我们可以读取多种不同反馈源的反馈,在 Flink 中都动手未及肽键。已完成断言详见与维详见剪裁的操作方法。
来看这个犯罪道德上,特性详见中都传输了身份证代号等反馈,自由度详见在外部设备中都,传输了身份证相关的详细反馈,比如问道地址,均需时间段等等。断言详见渐进的反馈联动到 Flink 中都,在 Flink 中都动手了未及肽键,组合而成宽详见最后传输 TiDB 中都。
2.4 CDC 故什么事节接下来看一下 CDC 的故什么事节。什么是 CDC 呢?CDC 就是 change data capture。渐进反馈猎捕。通过最简单的配置,我们可以在 cdc 中都猎捕 TiKV 的反馈变化,从而联动到传言链表中都。
2.5 混合故什么事节除了以上的一般来说故什么事节,还有很多时候是多种故什么事节融合在两兄弟的繁复故什么事节。比如问道渐进反馈从 TiDB 中都通过 CDC 联动到传言链表中都。
Flink 消费道德上 Kafka 的渐进反馈的同时,也透过了维详见关联的操作方法,再一传输到 TiDB 中都。在这种情形,我们可以再考虑添加 TiFlash 结点,从而拓展 TiDB 的 OLAP 查找潜能。
我们常问道,基本功能不够,驱动程式来凑。我个人有一种见解,动手开放源码其产品,基本功能不够的时候,才是是批人来克服:
精力多的可以再考虑自己手动修改源码。 精力少的可以再考虑通过多种不同部件的剪裁以搭积木的方式健全基本功能。当然,TiDB 是一个以开放源码为力图的其产品,应用程序有什么想要可以并不需要到 github 上提 PR 或者到我们的开放源码社区,提一些建议。
我们来看这种情况,目前来看 TiDB 是没备有人口为129人示例的基本功能的。那么我们是不是可以通过 Flink 处理事件源反馈的方式将反馈写到 TiDB 中都,生成一张特性详见,虚拟人口为129人示例的故什么事节呢?
再比如问道,TiDB 暂时也不备有比较器的基本功能,但是 Flink 备有了越来越为丰富的窗口操作方法。Flink 的窗口比较器不仅定义了窗口何时被激活,也定义了激活的道德上。那此时,将反馈回写到 TiDB 中都,是不是可以虚拟一些比较器的操作方法呢?
三、Flink + TiDB 的典型应用程序犯罪道德上
再一,给大家共享几个越来越为定格的犯罪道德上。
3.1 360 的特性统计分析犯罪道德上第一个犯罪道德上是 360 基于 Flink + TiDB 框架的特性统计分析的业务。利用 Flink 强大的源处理事件潜能,两不间断内至少传输 1.5 亿的反馈,高达下来 1s 至少是 2W 的 TPS。我们可以看一下整体的驱动程式,沿河的反馈源通过联动工具将反馈传输到 Kafka 中都,Flink 消费道德上 Kafka 中都的反馈,在 Flink 中都已完成一个轻量级的肽键操作方法。然后传输到 TiDB 中都。通过 TiFlash 的配置,大大提高了对于 OLAP 查找的处理事件潜能。反馈最后在 TiDB 中都已完成各种自由度的肽键操作方法,动手到了会话统计分析的因特网统计。
3.2 小红书的人口为129人示例犯罪道德上第二个是小红书的人口为129人示例犯罪道德上。TiDB 的渐进反馈通过 TiCDC 战略性传输到 Kafka 中都,再由 Flink 消费道德上 Kafka 中都的反馈。在 Flink 中都动手了 Join 和肽键操作方法,再一的反馈回写到 TiDB 中都。动手到了一张通过 Flink 特性详见虚拟的 TiDB 人口为129人示例。最后的业务方通过前后端的广泛应用拉去统计分析。这个犯罪道德上中都,QPS 至少是在 4w 每秒,单详见 50 亿的反馈,所以采用分区详见动手到。
3.3 珍珠金服的特性维详见犯罪道德上再一是珍珠金服的特性维详见犯罪道德上。珍珠金服沿河的反馈是发挥作用 MySQL 中都的,由 Canal 拉取 MySQL 战略性的 Binlog。然后掉入到 Kafka 中都。Flink 消费道德上 Kafka 中都的渐进反馈,透过肽键操作方法。再一传输到 TiDB 中都,供其他的业务调用。
文章来源不明:PingCAP
力荐阅读:
大反馈开发新之Flink sql 的基础用法
大反馈开发新之Spark和Flink的对比(转载)
Flink,Spark,Storm,Hadoop基础越来越为
大反馈开发新之Flink SQL建设特性数仓实践
。兰州看白癜风去哪个医院金昌白癜风医院哪个好
无锡白癜风医院哪家好
嘴唇长痘
腹泻
感冒咳嗽吃什么好
幼儿积食
白内障
上一篇: 如何维护液压扳手泵,给予操作详细步骤
-
网红郭老师账号被永久封禁,“钻正确性”戴面具+变声器复出了?
说道到杨教师大家第一个就让的是脸部包在吧,因为在应用软件独特的说道话方式被网路上所欢迎,虽然直播音乐风格与生俱来不是很喜欢,但脸部包在的话还是OK的。 在9月2日,网红“与众不同的
-
中国企业投资印度短期遇冷 后疫情时代仍有共同开发空间
合炼油厂来接续。 2018年印度次大陆进一步提高液晶有线电视LCD采购关税,惠普关停印度次大陆上海南部炼油厂,将产线搬进至安南。荣超平时说,创维在印度次大陆的共同开发炼油厂原材漆创维有线电视
- 08-27叔圈顶流火了!演技不输佟大为,下季《披荆斩棘的哥哥》会有他吗
- 08-27IMF全面下调 上周全球经济增速预期 美联储加息或令新兴市场承压
- 08-27乡村老龄社群 贡献乡村振兴文旅高质量持续发展
- 08-27她是李谷一的女儿,登了25次赵本山,53岁还孤身一人
- 08-27新兴技术赋能产业转型 黄色环保、新能源、新材料等迎风口
- 08-27女儿出生太“丑”,金喜善被网友质疑整容,如今女儿颜值成功人口为129人
- 08-27相当惊艳的女性主题花卉艺术作品
- 08-27俄乌剑拔弩张之际,美驻乌大使馆敦促英国公民考虑离开乌克兰
- 08-27原子鏸公开76岁郑佩佩现状,身体变差行动迟缓,长居美国念念不忘
- 08-27广东官宣喜讯!赵睿伤愈将正式重返,杜锋喜上眉梢,宏远重振旗鼓