hbase 简介

概述

HBase是一个构建在HDFS上的分布式列存储系统;

HBase是基于GoogleBigTable模型开发的,典型的key/value系统;

HBase是ApacheHadoop生态系统中的重要一员,主要用于海量结构化数据存储;

从逻辑上讲,HBase将数据按照表、行和列进行存储。

与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

Hbase表的特点

大:一个表可以有数十亿行,上百万列;

无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;

面向列:面向列(族)的存储和权限控制,列(族)独立检索;

稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏;

数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;

数据类型单一:Hbase中的数据都是字符串,没有类型。

·Hbase数据模型

Hbase逻辑视图

注意上图中的英文说明

Hbase基本概念

RowKey:是Bytearray,是表中每条记录的“主键”,方便快速查找,Rowkey的设计非常重要。
ColumnFamily:列族,拥有一个名称(string),包含一个或者多个相关列
Column:属于某一个columnfamily,familyName:columnName,每条记录可动态添加
VersionNumber:类型为Long,默认值是系统时间戳,可由用户自定义
Value(Cell):Bytearray

·Hbase物理模型

每个columnfamily存储在HDFS上的一个单独文件中,空值不会被保存。

Key和 Version number在每个 column family中均有一份;

HBase为每个值维护了多级索引,即:

物理存储:

1、Table中所有行都按照rowkey的字典序排列;

2、Table在行的方向上分割为多个Region;

3、Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region;

4、Region是Hbase中分布式存储和负载均衡的最小单元,不同Region分布到不同RegionServer上。

5、Region虽然是分布式存储的最小单元,但并不是存储的最小单元。Region由一个或者多个Store组成,每个store保存一个columnsfamily;每个Strore又由一个memStore和0至多个StoreFile组成,StoreFile包含HFile;memStore存储在内存中,StoreFile存储在HDFS上。

·HBase架构及基本组件

Hbase基本组件说明:

Client

ü包含访问HBase的接口,并维护cache来加快对HBase的访问,比如region的位置信息

Master

ü为Regionserver分配region

ü负责Regionserver的负载均衡

ü发现失效的Regionserver并重新分配其上的region

ü管理用户对table的增删改查操作

RegionServer

üRegionserver维护region,处理对这些region的IO请求

üRegionserver负责切分在运行过程中变得过大的region

Zookeeper作用

ü通过选举,保证任何时候,集群中只有一个master,Master与RegionServers启动时会向ZooKeeper注册

ü存贮所有Region的寻址入口

ü实时监控Regionserver的上线和下线信息。并实时通知给Master

ü存储HBase的schema和table元数据

ü默认情况下,HBase管理ZooKeeper 实例,比如, 启动或者停止ZooKeeper

üZookeeper的引入使得Master不再是单点故障

Write-Ahead-Log(WAL)

该机制用于数据的容错和恢复:

每个HRegionServer中都有一个HLog对象,HLog是一个实现WriteAheadLog的类,在每次用户操作写入MemStore的同时,也会写一份数据到HLog文件中(HLog文件格式见后续),HLog文件定期会滚动出新的,并删除旧的文件(已持久化到StoreFile中的数据)。当HRegionServer意外终止后,HMaster会通过Zookeeper感知到,HMaster首先会处理遗留的HLog文件,将其中不同Region的Log数据进行拆分,分别放到相应region的目录下,然后再将失效的region重新分配,领取到这些region的HRegionServer在Load Region的过程中,会发现有历史HLog需要处理,因此会ReplayHLog中的数据到MemStore中,然后flush到StoreFiles,完成数据恢复

HBase容错性

Master容错:Zookeeper重新选择一个新的Master

ü无Master过程中,数据读取仍照常进行;

ü无master过程中,region切分、负载均衡等无法进行;

RegionServer容错:定时向Zookeeper汇报心跳,如果一旦时间内未出现心跳,Master将该RegionServer上的Region重新分配

到其他RegionServer上,失效服务器上“预写”日志由主服务器进行分割并派送给新的RegionServer

Zookeeper容错:Zookeeper是一个可靠地服务,一般配置3或5个Zookeeper实例

Region定位流程:

寻找RegionServer

ZooKeeper-->-ROOT-(单Region)-->.META.-->用户表

-ROOT-

ü表包含.META.表所在的region列表,该表只会有一个Region;

üZookeeper中记录了-ROOT-表的location。

.META.

ü表包含所有的用户空间region列表,以及RegionServer的服务器地址。

·Hbase使用场景

storing large amounts of data(100s ofTBs)
needhigh write throughput
needefficient random access(key lookups) within large datasets
needto scale gracefully with data
forstructured and semi-structured data
don'tneed fullRDMS capabilities(cross row/cross table transaction,joins,etc.)

大数据量存储,大数据量高并发操作

需要对数据随机读写操作

读写访问均是非常简单的操作

·Hbase与HDFS对比

两者都具有良好的容错性和扩展性,都可以扩展到成百上千个节点;

HDFS适合批处理场景

不支持数据随机查找

不适合增量数据处理

不支持数据更新

时间: 2017-09-28

详解hbase与hive数据同步

hive的表数据是可以同步到impala中去的.一般impala是提供实时查询操作的,像比较耗时的入库操作我们可以使用hive,然后再将数据同步到impala中.另外,我们也可以在hive中创建一张表同时映射hbase中的表,实现数据同步. 下面,笔者依次进行介绍. 一.impala与hive的数据同步 首先,我们在hive命令行执行showdatabases;可以看到有以下几个数据库: 然后,我们在impala同样执行showdatabases;可以看到: 目前的数据库都是一样的. 下面,我们

shell 命令行中操作HBase数据库实例详解

 shell 命令行中操作HBase数据库 Shell控制 进入到shell命令行界面,执行hbase命令,并附加shell关键字: [grid@hdnode3 ~]$ hbase shell HBase Shell; enter ¨help¨ for list of supported commands. Type "exit" to leave the HBase Shell Version 0.90.5, r1212209, Fri Dec 9 05:40:36 UTC 2011

深入浅析hbase的优点

hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益.这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表.除去Hadoop的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力.总的来说,Hbase能够让你在大量的数据中查询记录,也可以从中获得综合分

基于HBase Thrift接口的一些使用问题及相关注意事项的详解

HBase对于非Java语言提供了Thrift接口支持,这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项.1. 字节的存放顺序HBase中,由于row(row key和column family.column qualifier.time stamp)是按照字典序进行排序的,因此,对于short.int.long等类型的数据,通过Bytes.toBytes(-)转换成byte数组后,必须按照大端模式(高字节在低地址,低字节在

python操作 hbase 数据的方法

配置 thrift python使用的包 thrift 个人使用的python 编译器是pycharm community edition. 在工程中设置中,找到project interpreter, 在相应的工程下,找到package,然后选择 "+" 添加, 搜索 hbase-thrift (Python client for HBase Thrift interface),然后安装包. 安装服务器端thrift. 参考官网,同时也可以在本机上安装以终端使用. thrift Ge

hbase shell基础和常用命令详解

HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务. 1. 简介 HBase是一个分布式的.面向列的开源数据库,源于google的一篇论文<bigtable:一个结构化数据的分布式存储系统>.HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase

Asp.Net Couchbase Memcached图文安装调用开发

安装服务端 服务端下载地址:http://www.couchbase.com/download 选择适合自己的进行下载安装就可以了,我这里选择的是Win7 64. 在安装服务端如果发生如下所示的错误,我在win7 64安装的过程中就遇到了. 这个时候可以先撤销安装.通过CMD命令运行regedit.展开HKEY_LOCAL_MACHINE\Software\Microsoft\ Windows\ CurrentVersion分支,在窗口的右侧区域找到名为"ProgramFilesDir"

Win2003安装IIS6.0不支持ASP的解决方法图文教程

ASP程序在Windows 2003 Server下无法正常运行,首页为.html格式的网页能够浏览,但是无法进入后台,点击链接出现:您访问的页面不存在或无法访问之类的错误.这是您在安装完2003后,没有经过一些必要的设置,请按照下面的说明一步步操作: 设置1: 让Windows 2003 Server支持ASP程序 默认安装的情况下,Win 2003 Server是不支持ASP程序的. [设置]-[控制面板]-[管理工具],打开INTERNET信息服务(IIS)管理器,再打开允许ASP环境的W

mysql安装图解 mysql图文安装教程(详细说明)

MySQL5.0版本的安装图解教程是给新手学习的,当前mysql5.0.96是最新的稳定版本. mysql 下载地址 http://www.jb51.net/softs/2193.html 下面的是MySQL安装的图解,用的可执行文件安装的,详细说明了一下!打开下载的mysql安装文件mysql-5.0.27-win32.zip,双击解压缩,运行"setup.exe",出现如下界面 mysql安装图文教程1 mysql安装向导启动,按"Next"继续 mysql图文

Asp.Net Core简介与安装教程

Asp.Net Core简介 ASP.NET Core 是一个全新的开源.跨平台框架,可以用它来构建基于网络连接的现代云应用程序,比如:Web 应用,IoT(Internet Of Things,物联网)应用和移动后端等.ASP.NET Core可以运行在 .NET Core 或完整的 .NET Framework 之上,其架构为发布到云端或本地运行的应用提供了一个最佳的开发框架,由开销很小的模块化组件构成,这就保持了你构造解决方案的灵活性.你可以跨平台地在Windows.Mac和Linux等设

使用asp.net mvc,boostrap及knockout.js开发微信自定义菜单编辑工具(推荐)

前言 微信的接口调试工具可以编辑自定义菜单,不过是提交json格式数据创建菜单,非常的不方便还容易出错.网上的工具不好用,所以就自己写了一个. 正文 先用bootstrap排个页面框架出来,调用自定义菜单接口需要用到AccessToken,放个输入框输入AccessToken.也不排除想直接输入AppId和AppSecret来获取AccessToken的用户,所以还需要下拉菜单来选择是输入AccessToken还是直接获取AccessToken.为了兼顾微信企业号应用创建菜单还需要AgentId

android sdk安装及开发环境部署

引言在windows安装Android的开发环境不简单也说不上算复杂,本文写给第一次想在自己Windows上建立Android开发环境投入Android浪潮的朋友们,为了确保大家能顺利完成开发环境的搭建,文章写的尽量详细,希望对准备进入Android开发的朋友有帮助.本教程将分为五个步骤来完成Android开发环境的部署. 第一步:安装JDK. 第二步:配置Windows上JDK的变量环境 . 第三步: 下载安装Eclipse . 第四步:下载安装Android SDK . 第五步:为Eclip

超详细的mysql图文安装教程

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司.MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性.MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言.MySQL软件采用了双授权政策(本词条"授权政策"),它分为社区版和商业版,由于其体积小.速度快.总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQL作为网站数据库.由于

LuManager图文安装使用教程和创建MysqL快速建站基本教程

LuManager也简称是LUM,是一套国产的Linux和Unix服务器管理软件,支持Nginx.Tengine.Apache,可以切换PHP5.2X和PHP5.3X,快速创建网站.MysqL数据库.域名绑定等建站功能齐全,程序还附带了一些PHP和服务器优化功能. LuManager支持FreeBSD.Debian.Centos.Ubuntu,选择快速安装整个过程不到十几分钟,特别适合那种刚刚接触Linux类VPS的朋友建站使用,至于LuManager在占用VPS内存和运行效率这一块,小内存的V

安装android开发环境原始版(windows版)

一.下载需要用到的工具:(1)下载JAVA的IDE开发工具– Eclipse到Eclipse官方网站下载Ecplise For Java EE的最新Windows版本(2)下载Java开发包 - Java SE Development Kit (JDK) JDK 6到Sun官方网站下载JDK6,选择JDK 6 Update 12(3)下载Android开发包 - Android SDK到Google的官方网站下载Android的开发包For Windows的 二.下载完需要的工具之后,开始安装(

asp.net动态添加js文件调用到网页的方法

本文实例讲述了asp.net动态添加js文件调用到网页的方法.分享给大家供大家参考.具体实现方法如下: HtmlGenericControl JsControl = new HtmlGenericControl("script"); JsControl.Attributes.Add("type", "text/javascript"); JsControl.Attributes.Add("src", url); page.He