大数据高效挖掘的核心武器——数据仓库
时间:2020-10-28 17:17来源:北京理工新源 作者:BITNEI
北理新源大数据高效挖掘的核心武器是数据仓库。数据仓库是新能源汽车大数据分析基础平台。能够为客户提供整车、电机、电池的等多维度、多工况、多状态分析。实现数据的支撑和服务。
北理新源自2017年建立国标32960数据仓库以来,已经为多家合作企业提供数据支撑和数据服务。数据仓库在分层架构、治理标准化、主题、专题设计方面臻于完美。数据仓库在稳定性、复用性、扩展性有显著的提高。数据仓库已经成为数据分析师便捷工作的基础。
数据仓库底层与数据采集层对接实现以32960数据为核心的多源异构数据接入,数据集成及同步负责完成业务系统数据引入。数据仓库上层为数据服务层提供数据支撑。
数据仓库整体采用的分层设计,由下至上分为三层ODS层、CDM层、ADS层。其中CDM层又细分为DWD层和DWS层。详细参见下图:
(一)高效率:通过数据的逐层汇总,实现数据由PB级向MB的集聚。更精准快速的为数据分析人员提供服务。
(二)简单化:隔离底层数据变化,实现了顶层数据处理的简单化。
一、统一数据接入和统一数据存储规划。能够进行统一数据存储优化设计,最大程度利用有限的存储空间同时又保证数据存储安全。依据业务需求,冷热数据存储在不同的介质空间,不同安全性要求的数据设置不同的副本数等。统一接入和存储规划形成对数据的有序管理,是数据有效利用前提。
二、统一数据治理流程。从数据接入,数据解析,数据切分到数据统计分析整个流程进行统一。能够节省计算资源,避免重复计算,还能保证中间结果和最终结果的完整性,有效性和一致性。
三、统一数据仓库分层设计和数据标准化。首先是避免多次直接使用底层数据,可以更高效的访问数据;其次是把复杂问题逐步的简单化,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复;第三是便于处理业务的变化,随着业务的变化,只需要调整中间层的数据,对应用层对业务的调整可以做到零感知。数据标准化会统一所有指标计算口径,保证结果数据的一致性。举例来说,在保险核保领域,不同的保险公司根据他们自己的经验有不同的数据需求(不同标签),我们可以从不同的中间层去提取数据做简单的聚合运算就可以去支持不同需求。数据标准化之后将非常有利于数据搜索查找和内部业务沟通。
四、统一数据入口和统一数据出口。数据仓库实现了32960数据的统一接入和管理,实现了数据层对上层应用的统一支撑,在数仓上建立SaaS平台能够实现数据对外的统一出口服务于上层各种应用。
撰稿:王 乾
审核:刘 鹏