大数据平台技术解决方案「大数据的完整解决方案」
今天给大家普及一下大数据平台技术解决方案「大数据的完整解决方案」相关知识,最近很多在问大数据平台技术解决方案「大数据的完整解决方案」,希望能帮助到您。
第1章 华数大数据分析平台方案介绍
1.1 华数大数据平台总体架构
1.1.1 华数大数据平台应用架构
应用架构图
基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们将禾丰大数据平台实际为三层架构,其中:
l基础数据源层:目前禾丰牧业所应用的数据主要来源于业务系统(EAS)与平面文本文件(Excel)两种类型,结合未来信息化的发展,音频数据和视频数据等越来越丰富的数据类型也将陆续纳入到我们的大数据平台体系之中,因此为保证我们的大数据平台的先进性,要能支持多种类型的数据源;
l大数据处理层:由于数据源类型的多样性,传统关系型数据仓库架构或者分布式存储架构各有优缺点,单独使用都无法很好的满足对结构化和非结构化数据的存储和应用需求,因此我们建议采用传统数据仓库架构与大数据分布式数据仓库架构两者相结合的架构设计,两者紧密配合共同承担大数据处理任务,为大数据应用提供数据接口、数据交换、数据查询、数据分析和数据挖掘提供数据基础;l大数据应用层:随着信息化的发展,对大数据的应用方式也越来越多,大数据分析平台应用层需要满足诸如:固定报表、OLAP分析、KPI分析、指标监控、即席查询(自助式分析)、决策支持、邮件推送、office集成、移动BI、预警预测(数据挖掘)等多种展现方式。
1.1.2禾丰大数据平台技术架构
技术架构图
根据我们实施建设大数据分析平台多年的经验,结合禾丰牧业三层式数据分析平台系统构架,通过数据采集(包括数据源)、信息存储与管理(数据仓库和Hadoop)和信息共享三部分技术来实现。 l数据采集:
1)结构化数据采集:禾丰牧业现有的数据主要来自于EAS系统、青软系统、电商平台和文本文件都属于结构化数据,大数据分析平台采用ETL工具-kettle作为采集结构化数据的手段。ETL(Extract, Transform, Load)是建立大数据分析平台的重要组成部分,它将大数据分析平台中所需的数据按数据仓库建立的方法每天或定期从各个业务系统中采集详尽的业务数据,并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。当业务数据量过大,未避免Mysql数据仓库压力过大,亦可将业务数据通过kettle迁移到hadoop平台的数据库Hbase中。