蓝盟IT外包,阿里腾讯将其视为主要秘密的大数据平台架构的详细说明

发布者:上海IT外包 发布时间:2019/10/24 9:19:48来源:www.linemore.com

   对于大数据分析平台,Hadoop必须说Hadoop已有10多年的历史了,许多事情已经改变了。版本从0.x演变到当前的2.6。我定义了2012年之后Hadoop平台的时代。这并不意味着没有Hadoop,而是像NoSQL(不仅是SQL)一样,还有其他选项可以添加。
  Hadoop:开源数据分析平台解决了大数据的可靠存储和处理(无法将其存储到计算机中,计算机无法在所需时间内进行处理)。适用于处理非结构化数据,包括HDFS,MapReduce的基本组件。
  MapReduce:该技术提供了一种标准化的过程来检测数据的位置:读取数据,映射(映射)数据,使用键值对数据进行重组,然后对数据进行缩减以获取最终结果。
  Amazon Elastic Map Reduce(EMR):一种托管解决方案,在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)组成的网络规模基础架构上运行。如果您需要独特或不同寻常的大数据处理,EMR可以为您节省金钱。但是,EMR已高度优化以与S3中的数据一起使用,并且具有更高的延迟。 Hadoop还包括一组技术扩展,包括Sqoop,Flume,Hive,Pig,Mahout,Datafu和HUE。
  我不会在这里列出它们,有很多,有兴趣的人可以用我的私人信件讲话。
  大数据平台架构
  大数据计算通过将可执行代码分发到大型服务器集群以处理大规模数据来执行分布式计算,所谓的移动计算比移动数据更具成本效益。但是这种计算不可避免地不是很快。即使是在较小数据集中进行简单计算,MapReduce也可能需要几分钟,Spark会更快,并且至少需要几秒钟。
  网站必须以毫秒为单位响应用户请求,也就是说,要在1秒钟内完成计算,大数据计算不一定满足这些响应要求。但是,Web应用程序需要使用大数据来实现许多功能,例如统计分析,数据挖掘,关联建议和用户画像。因此,网站需要构建一个大数据平台,以整合网站应用程序与大数据系统之间的差异,将应用程序生成的数据导入大数据系统,然后再导出到应用程序中。处理和计算。网站大数据平台的典型架构如下:
  阿里腾讯将其视为主要秘密的大数据平台架构的详细说明
  大数据平台可以分为三个部分:
  1.数据收集
  应用程序生成的数据和记录与大数据系统同步。由于数据源的不同,此处的数据同步系统实际上是多个相关系统的组合。数据库同步通常使用Sqoop,记录同步可以选择Flume,收集的数据通过Kafka进行格式化,转换和传输。
  不同数据源生成的数据质量可能会有很大差异。可以将数据库中的数据直接导入大数据系统,并且必须清除并转换由日志和跟踪器生成的数据才能有效使用。因此,数据同步系统实际上承担了传统ETL数据仓库的工作。
  2.数据处理
  这是大数据存储和计算的核心。数据同步系统导入的数据存储在HDFS中。 MapReduce,Hive,Spark和其他计算任务会读取HDFS中的数据进行计算,然后将计算结果写入HDFS中。
  MapReduce,Hive,Spark等执行的计算处理这称为离线计算,HDFS存储的数据称为离线数据。相反,用户要求将数据实时地计算为在线数据,该数据是用户实时生成的,实时执行在线计算并将结果数据实时返回给用户。计算过程中涉及的数据主要是用户自己的请求和生成。所需的数据,数据的大小很小,并且可以在内存中处理线程上下文。
  在线数据完成并与用户交互后,数据同步系统会将其导入大数据系统。数据是离线数据,通常进行的计算是针对某个方面的所有数据,例如产品与所有订单的相关性。采矿,这次数据非常大,需要很长的执行时间,这种类型的计算是离线计算。
  除了脱机计算外,在某些情况下,数据大小较大,所需的处理时间较短。例如,淘宝希望统计每秒生成的用于监视和促销的订单数量。这种情况称为大数据传输计算。通常通过传输大型数据传输引擎(例如Storm和Spark Steaming)来完成。可以以秒甚至毫秒为单位进行计算。
  3.数据输出与显示
  大数据计算生成的数据仍被写入HDFS,应用程序无法读取HDFS中的数据,因此必须将HDFS中的数据导出到数据库。数据同步相对容易导出,并且计算生成的数据相对标准化。经过少量处理后,可以使用Sqoop这样的系统将其导出到数据库。此时,应用程序可以直接访问数据库中的数据,并将其实时显示给用户,作为向用户显示的关联推荐产品。淘宝卖家,例如Quantum Rubik's Cube,其数据来自大数据计算。
  除了提供供用户访问的数据外,大数据还必须向运营和决策层提供多个统计报告。这些数据也被写入数据库,并且相应的后端系统访问它们。许多运营和管理员工每天上班时都登录到后台数据系统,并查看前一天的数据报告,以查看业务是否正常。如果数据正常或什至在增加,则可能会容易一些。如果数据下降,那么忙碌的一天将很快开始。
  前三部分的集成是任务调度管理系统。当不同的数据开始同步时,如何正确地编程几个MapReduce和Spark任务以最合理地利用资源,并且等待时间不会太长,重要的时间可以尽快执行任务,一切这需要完成任务调度管理系统。有时,工作演示,进度跟踪,数据可视化和其他对分析人员和工程师开放的功能也已集成到该系统中。
  对于每个公司的大数据团队来说,主要的开发和维护就是该系统。大数据平台中的其他系统通常都有成熟的开源软件可供选择。作业计划的管理涉及许多自定义要求,通常需要一个团队。为自己发展。

 

上海IT外包服务网 链接:http://www.linemore.com

>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部