您的位置: 首页 > 新闻动态 > AG新闻

AG尊龙凯时- 尊龙凯时官方网站- APP下载基于Flink的实时数据仓库实践分享

发布日期:2025-09-05 07:13:05 浏览次数:

  尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载

AG尊龙凯时- 尊龙凯时官方网站- 尊龙凯时APP下载基于Flink的实时数据仓库实践分享

  FLink+实时计算引擎做一些加工处理,然后落地到存储层中不同存储介质当中。不同的存储介质是依据不同的应用场景来选择。框架中还有FLink和Kafka的交互,在数据上进行一个分层设计,计算引擎从Kafka中捞取数据做一些加工然后放回Kafka。在存储层加工好的数据会通过服务层的两个服务:统一查询、指标管理,统一查询是通过业务方调取数据接口的一个服务,指标管理是对数据指标的定义和管理工作。通过服务层应用到不同的数据应用,数据应用可能是我们的正式产品或者直接的业务系统。后面会从数据的分层设计和具体的实现两个方面介绍。

  ODS层来源两部分,一部分来自访问,这是来源于埋点数据,这种数据通常比较规范,通过一些简单加工,在DWD层形成一张商品访问明细表;交易数据来自交易明细表,在ODS层来源于订单表和订单购物车表。将两个表汇聚在DWD层形成一个交易域的交易明细表,因为统计需要统计到类目维度,所以从DWD层向DM加工需要从商品维度表做一个关联,这样就可以在DM层做一些汇总统计,就可以形成DM所需要的指标数据。这里的数据分为两类,一种是实时的,一种是准实时;如果维度比较复杂,如准实时弹幕做一些配置来做到同步,如果有一些关联关系比较简单的就做成实时维表。这样的好处是能实时统计,能比较直观观察。

  DWD层封装一些业务逻辑,快速应对一些业务调整。举例说明下,严选上线一个众筹业务,先前对交易定义都是以支付来算,但是众筹交易和支付相隔时间较长,对于离线只需要活动结束再进行统计,但是实时只关注于当天数据,这个时候统计就没有意义。因此需要将众筹数据剔除,实现时只需要在交易明细里面进行过滤,这样集市层所有指标数据都统一更改掉。第三个就是统一,数据都是按照业务域划分,管理和维护都比较方便,对于开发资源分配也比较便利。

  ODS层和DWD层都是存储的一些实时数据,选择的是Kafka进行存储,在DWD层会关联一些历史明细数据,会将其放到Redis里面。在DIM层主要做一些高并发维度的查询关联,一般将其存放在HBase里面,对于DIM层比价复杂,需要综合考虑对于数据落地的要求以及具体的查询引擎来选择不同的存储方式。对于常见的指标汇总模型直接放在MySQL里面,维度比较多的、写入更新比较大的模型会放在HBase里面,还有明细数据需要做一些多维分析或者关联会将其存储在Greenplum里面,还有一种是维度比较多、需要做排序、查询要求比较高的,如活动期间用户的销售列表等大列表直接存储在Redis里面。

  HBase中调用性能受限,因此将维度数据在本地task进行一次缓存。聚合去重用一些精度去重算法,如Hyperloglog,既能保证在一个可接受的数据统计误差,又能比较好的优化存储。存储方面主要针对MySQL和Greenplum两种场景,在大数据场景下MySQL写入压力比较高,在写入之前做一个窗口预聚合,实现延迟和负载均衡,较少MySQL的写入压力。对于明细数据写入Greenplum,明细数据不适合高并发写入,因此会对要写入的表依据主键做哈希,定位要录入的segment,直接到Slave节点,批量写入数据,这样也能有效提高写入的存储量。

  DWD层做到主题域与模型同步,按照业务过程来设计模型,这种方法对于实时和离线都是统一的。以交易域为例,在实时和离线都有订单、订单明细、组合装的交易明细,还有加购数据模型,由于开发成本原因实时模型大都是离线模型的子集。在DM层会统一定义指标和模型定义的方法,规范对于实时和离线都是适用的,定义模型会指定相应的指标和维度,指标通常是派生指标,通过原子指标+时间维度+修饰词完成派生指标的定义,再经过定义维度形成模型。