大数据01-大数据概述

大数据01-大数据概述

1. 什么是大数据

基本概念
总体来说就是数据处理,在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!
处理海量数据的核心技术
海量数据存储:分布式
海量数据计算:分布式
存储框架
HDFS——分布式文件存储系统(Hadoop中的存储框架)
HBase——分布式数据库系统
Kafka——分布式消息缓存系统(实时流式数据处理场景中应用广泛)
计算框架
要解决的核心问题就是帮用户将处理逻辑在很多机器上并行
  • MapReduce—— 离线批处理/Hadoop中的运算框架
  • Spark —— 离线批处理/实时流式计算
  • Storm —— 实时流式计算

辅助类的工具
:

  • Hive —— 数据仓库工具:可以接收sql,翻译成MapReduce或者Spark程序运行
    • Flume——用于数据采集
    • Sqoop——数据迁移,ETL工具
    • ElasticSearch—— 分布式的搜索引擎

大数据在现实生活中的具体应用
:

  • 数据处理的最典型应用:公司的产品运营情况分析
  • 电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐
  • 精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放

2. 什么是Hadoop

  1. Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构
  2. 主要解决,海量数据的存储和海量数据的分析计算问题。
  3. 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈

Hadoop 发展历史
:

  • Lucene–Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
  • 2001 年年底成为 apache 基金会的一个子项目
  • 对于大数量的场景,Lucene 面对与 Google 同样的困难
  • 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
  • 可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
    - GFS --->HDFS
    - Map-Reduce --->MR 
    - BigTable --->Hbase 
  • 2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting 等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升
  • 2005 年 Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入 Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
  • 名字来源于 Doug Cutting 儿子的玩具大象
    image_1cj9vhie62b641hnd467clpb9.png-25.9kB
    • Hadoop 就此诞生并迅速发展,标志这云计算时代来临
Hadoop 三大发行版本
Hadoop 三大发行版本: Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
  • Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html
    下载地址:https://archive.apache.org/dist/hadoop/common/
    • Cloudera Hadoop 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
      • 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持、咨询服务、培训。
      • 2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support
      • CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。
      • Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
      • Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
      • 2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建.
      • 公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。
      • 雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官。
      • Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统.
      • HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。 Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。
      • Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括Window Server和Windows Azure在内的 microsoft Windows平台上本地运行。定价以集群为基础,每 10 个节点每年为 12500 美元。

Hadoop 的优势
:

  • 高可靠性
    因为 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
  • 高扩展性
    在集群间分配任务数据,可方便的扩展数以千计的节点。
  • 高效性
    在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
    • 高容错性
      自动保存多份副本数据,并且能够自动将失败的任务重新分配。

Hadoop 组成
:

  • Hadoop HDFS
    一个高可靠、高吞吐量的分布式文件系统。
    • Hadoop MapReduce
      一个分布式的离线并行计算框架。
    • Hadoop YARN
      作业调度与集群资源管理的框架。
    • Hadoop Common
      支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
-------------本文结束感谢您的阅读-------------