大数据01-大数据概述
1. 什么是大数据
- 基本概念
- 总体来说就是数据处理,在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!
- 处理海量数据的核心技术
- 海量数据存储:分布式
海量数据计算:分布式
- 存储框架
- HDFS——分布式文件存储系统(Hadoop中的存储框架)
HBase——分布式数据库系统
Kafka——分布式消息缓存系统(实时流式数据处理场景中应用广泛)
- 计算框架
- 要解决的核心问题就是帮用户将处理逻辑在很多机器上并行
- MapReduce—— 离线批处理/Hadoop中的运算框架
- Spark —— 离线批处理/实时流式计算
- Storm —— 实时流式计算
辅助类的工具
:
- Hive —— 数据仓库工具:可以接收sql,翻译成MapReduce或者Spark程序运行
- Flume——用于数据采集
- Sqoop——数据迁移,ETL工具
- ElasticSearch—— 分布式的搜索引擎
大数据在现实生活中的具体应用
:
- 数据处理的最典型应用:公司的产品运营情况分析
- 电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐
- 精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放
2. 什么是Hadoop
- Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构
- 主要解决,海量数据的存储和海量数据的分析计算问题。
- 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈
Hadoop 发展历史
:
- Lucene–Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
- 2001 年年底成为 apache 基金会的一个子项目
- 对于大数量的场景,Lucene 面对与 Google 同样的困难
- 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
- 可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
- GFS --->HDFS - Map-Reduce --->MR - BigTable --->Hbase
- 2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting 等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升
- 2005 年 Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入 Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
- 名字来源于 Doug Cutting 儿子的玩具大象
- Hadoop 就此诞生并迅速发展,标志这云计算时代来临
- Hadoop 三大发行版本
- Hadoop 三大发行版本: Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
- Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/- Cloudera Hadoop 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
- 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持、咨询服务、培训。
- 2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support
- CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。
- Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
- Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
- Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/ 下载地址:https://hortonworks.com/downloads/#data-platform
- Hortonworks Hadoop
- 2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建.
- 公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。
- 雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官。
- Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统.
- HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。 Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。
- Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括Window Server和Windows Azure在内的 microsoft Windows平台上本地运行。定价以集群为基础,每 10 个节点每年为 12500 美元。
- Cloudera Hadoop 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
Hadoop 的优势
:
- 高可靠性
因为 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。 - 高扩展性
在集群间分配任务数据,可方便的扩展数以千计的节点。 - 高效性
在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。- 高容错性
自动保存多份副本数据,并且能够自动将失败的任务重新分配。
- 高容错性
Hadoop 组成
:
- Hadoop HDFS
一个高可靠、高吞吐量的分布式文件系统。- Hadoop MapReduce
一个分布式的离线并行计算框架。 - Hadoop YARN
作业调度与集群资源管理的框架。 - Hadoop Common
支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
- Hadoop MapReduce