学习Apache HAWQ有什么好书推荐一下

Sina Visitor System解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎_高可用架构_传送门
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
本文由常雷博士在高可用架构群所做的分享整理而来。转载请注明高可用架构公众号ArchNotes。常雷 博士,Pivotal中国研发中心研发总监,HAWQ并行Hadoop SQL引擎创始人,Pivotal HAWQ团队负责人,曾任EMC高级研究员。专注于大数据与云计算领域,在国内外顶级数据管理期刊和会议发表数篇论文,并拥有多项美国专利。分享主要分为以下五个部分:HAWQ基本介绍;HAWQ架构以及各重要组件的基本原理;HAWQ的中短期规划;如何贡献到HAWQ和成为Apache Committer;Q & A。一、HAWQ基本介绍HAWQ是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。主要如下:对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC支持,比其他Hadoop SQL引擎都要完善。具有MPP(大规模并行处理系统)的性能,比其他Hadoop里面的SQL引擎快数倍。具有非常成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很多,尤其是对复杂查询。支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。动态数据流引擎:基于UDP的高速互联网络。弹性执行引擎:可以根据查询大小来决定执行查询使用的节点及Segment个数。支持多种分区方法及多级分区:比如List分区和Range分区。分区表对性能有很大帮助,比如你只想访问最近一个月的数据,查询只需要扫描最近一个月数据所在分区。支持多种压缩方法:snappy,gzip,quicklz,RLE等。多种UDF(用户自定义函数)语言支持:java, python, c/c++, perl, R等。动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。多级资源或负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;方便的DDL管理接口。支持访问任何HDFS及其他系统的数据:各种HDFS格式(文本,SequenceFile,Avro,Parquet等等)以及其他外部系统(HBase等),并且用户自己可以开发插件来访问新的数据源。原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。与Hadoop系统无缝集成:存储、资源、安装部署(Ambari)、数据格式、访问等。完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。支持多种第三方工具:比如Tableau,SAS,较新的Apache Zeppelin等。支持对HDFS和YARN的快速访问库:libhdfs3和libyarn(其他项目也可以使用)。支持在本地、虚拟化环境或者在云端部署。下面我来谈一下HAWQ是原生Hadoop SQL引擎中“原生”的意思,“原生”主要体现在如下几个方面:数据都存储在HDFS上,不需要使用connector模式。高可扩展性:和其他Hadoop组件一样,高可扩展。并且具有高性能。原生的代码存取:和其他Hadoop项目一样。HAWQ是Apache项目。用户可以自由的下载,使用和做贡献。区别与其他的伪开源软件。透明性:用Apache的方式开发软件。所有功能的开发及讨论都是公开的。用户可以自由参与。原生的管理:可以通过Ambari部署、资源可以从YARN分配,与其它Hadoop组件可以运行在同一个集群。HAWQ提供的主要好处:HAWQ与同类开源和闭源产品比较,如图1:(图1)HAWQ与同类开源和闭源产品比较,如图2:(图2)HAWQ的历史和现状:想法和原型系统 (2011):GOH阶段(Greenplum Database On HDFS)。HAWQ 1.0 Alpha (2012): 多个国外大型客户试用,当时客户性能测试是Hive的数百倍。促进了HAWQ 1.0作为正式产品发布。HAWQ 1.0 GA (2013年初): 改变了传统MPP数据库架构,包括事务,容错,元数据管等。HAWQ 1.X版本 ( Q2):增加了一些企业级需要的功能,比如Parquet存储,新的优化器,Kerberos,Ambari安装部署。客户覆盖全球。HAWQ 2.0 Alpha发布并成为Apache孵化器项目:针对云环境的系统架构重新设计,数十个高级功能,包括弹性执行引擎,高级资源管理,YARN集成,秒级扩容等等。现在大家在Apache开源的是最新的2.0 Alpha版本。未来的开发都在Apache进行。二、Apache HAWQ系统架构下面我来介绍一下HAWQ的系统架构。图3给出了一个典型的HAWQ集群的主要组件。其中有几个Master节点:包括HAWQ master节点,HDFS master节点NameNode,YARN master节点ResourceManager。现在HAWQ元数据服务在HAWQ master节点里面,将来的版本会成为单独的服务。其他节点为Slave节点。每个Slave节点上部署有HDFS DataNode,YARN NodeManager以及一个HAWQ Segment。HAWQ Segment在执行查询的时候会启动多个QE (Query Executor, 查询执行器)。查询执行器运行在资源容器里面。(图3)图4是HAWQ内部架构图:(图4)可以看到在HAWQ master节点内部有如下几个重要组件:查询解析器(Parser/Analyzer),优化器,资源管理器,资源代理,HDFS元数据缓存,容错服务,查询派遣器,元数据服务。在Slave节点上安装有一个物理Segment,在查询执行时,针对一个查询,弹性执行引擎会启动多个虚拟Segment同时执行查询,节点间数据交换通过Interconnect(高速互联网络)进行。如果一个查询启动了1000个虚拟Segment,意思是这个查询被均匀的分成了1000份任务,这些任务会并行执行。所以说虚拟Segment数其实表明了查询的并行度。查询的并行度是由弹性执行引擎根据查询大小以及当前资源使用情况动态确定的。下面我逐个来解释这些组件的作用以及它们之间的关系:查询解析器:负责解析查询,并检查语法及语义。最终生成查询树传递给优化器。优化器:负责接受查询树,生成查询计划。针对一个查询,可能有数亿个可能的等价的查询计划,但执行性能差别很大。优化器的作用是找出优化的查询计划。资源管理器:资源管理器通过资源代理向全局资源管理器(比如YARN)动态申请资源。并缓存资源。在不需要的时候返回资源。我们缓存资源的主要原因是减少HAWQ与全局资源管理器之间的交互代价。HAWQ支持毫秒级查询。如果每一个小的查询都去向资源管理器申请资源,这样的话,性能会受到影响。资源管理器同时需要保证查询不使用超过分配给该查询的资源,否则查询之间会相互影响,可能导致系统整体不可用。HDFS元数据缓存:用于HAWQ确定哪些Segment扫描表的哪些部分。HAWQ是把计算派遣到数据所在的地方。所以我们需要匹配计算和数据的局部性。这些需要HDFS块的位置信息。位置信息存储在HDFS NameNode上。每个查询都访问HDFS NameNode会造成NameNode的瓶颈。所以我们在HAWQ Master节点上建立了HDFS元数据缓存。容错服务:负责检测哪些节点可用,哪些节点不可用。不可用的机器会被排除出资源池。查询派遣器:优化器优化完查询以后,查询派遣器派遣计划到各个节点上执行,并协调查询执行的整个过程。查询派遣器是整个并行系统的粘合剂。元数据服务:负责存储HAWQ的各种元数据,包括数据库和表信息,以及访问权限信息等。另外,元数据服务也是实现分布式事务的关键。高速互联网络:负责在节点之间传输数据。软件实现,基于UDP。查询执行了解清楚各个组件之后,我们来看一下一个查询的主要流程(请参见图5)。(图5)用户通过JDBC/ODBC提交查询之后,查询解析器得到查询树,然后优化器根据查询树生成查询计划,派遣器和资源管理器打交道得到资源,分解查询计划,然后派遣计划到Segment的执行器上面执行。最终结果会传回给用户。下面我来简单看一下并行查询计划长什么样。图6给出了一个具体的例子。(图6)这个查询包含一个连接,一个表达式和一个聚集。图中有两个查询计划。简单来看,并行查询计划和串行查询计划最不同的是多了一些Motion操作符。Motion负责在节点之间交换数据。底层是通过高速互联网络实现的。我们可以看到这里有三种Motion:Redistribution Motion: 负责按照hash键值重新分布数据Broadcast Motion: 负责广播数据Gather Motion: 负责搜集数据到一起。左边的查询计划表示了如果表lineitem和orders都使用了连接键进行分布的情况。在这个例子中,lineitem按照l_orderkey进行hash分布,orders表按照o_orderkey进行分布。这样的话两个表做连接的时候是不需要进行重新分布的。右边的查询计划表示了一个需要重新分布数据的例子。该查询计划和左边的查询计划相比多了一个Motion节点。弹性执行引擎弹性执行引擎有几个关键设计点:存储和计算的完全分离,无状态Segment以及如何使用资源。存储和计算的分离使得我们可以动态的启动任意多个虚拟Segment来执行查询。无状态Segment使得集群更容易扩展。要想保证大规模集群的状态一致性是比较困难的问题,所以我们采用了无状态的Segment。如何使用资源包括如何根据查询的代价申请多少资源,并且如何有效的使用这些资源,比如如何使得数据局部性最优。HAWQ内部针对每一个部分都进行了非常优化的设计。元数据服务元数据服务位于HAWQ Master节点。主要向其他组件提供元数据的存储及查询服务。对外的接口为CaQL(元数据查询语言, Catalog Query Language)。CaQL支持的语言是SQL的一个子集,包括单表选择,计数,多行删除,单行插入更新等。把CaQL设计为SQL语言的一个子集的原因是,在未来我们希望把元数据从主节点分离出去,作为一个单独的服务,支持一个简单的子集作为元数据服务来说已经够用了,并且容易扩展。高速互联网络高速互联网络的作用是在多个节点之间交换大量数据。HAWQ高速互联网络基于UDP协议。大家可能会问为什么我们不使用TCP。其实我们同时支持TCP和UDP两种协议。TCP协议早于UDP协议。就是因为我们遇到了TCP不能很好解决的问题,我们才开发了基于UDP的协议。图7展示了一个高速互联网络的例子。(图7)例子中各个节点上的执行器进程形成了一个数据交换的流水线。假设每个节点上有1000个进程。有1000个节点,这些进程需要相互交互,每个节点上就会有上百万个连接。TCP是没办法高效地支持这么多的连接数的。所以我们开发了基于UDP的互联协议。针对UDP传输,操作系统是不能保证可靠性的,并且不能保证是有序传递的。我们的设计目标需要保持以下特性:可靠性:能够保证在丢包的情况下,重传丢失的包有序性:保证包传递给接受者的最终有序性流量控制:如果不控制发送者的速度,接收者可能会被淹没,甚至会导致整个网络性能急剧下降性能和可扩展性:性能和可扩展性是我们需要解决TCP问题的初衷可支持多种平台(图8)图8展现了我们实现UDP高速互联网络的状态机。并且设计时还需要考虑死锁的消除。详细信息可以参考参考文献。事务管理事务是数据管理系统一个非常重要的属性。大部分Hadoop里面的SQL引擎不支持事务。让程序员自己保证事务和数据的一致性,基本上是非常困难的事。HAWQ支持事务的所有ACID属性,支持Snapshot Isolation。事务发生由Master节点协调和控制。采用的是一种泳道模型。比如并发的插入各个查询使用各自的泳道,互不冲突。在事务提交的时候通过记录文件逻辑长度的方式来保证一致性。如果事务失败的时候,需要回滚,删除文件末尾的垃圾数据。起初HDFS是不支持truncate的,现在HDFS刚支持的truncate功能是根据HAWQ的需求做出的。资源管理器HAWQ支持三级资源管理:全局资源管理:可以集成YARN,和其他系统共享集群资源。未来会支持Mesos等HAWQ内部资源管理:可以支持查询,用户等级别的资源管理操作符级别资源管理:可以针对操作符分配和强制资源使用现在HAWQ支持多极资源队列。可以通过DDL方便的定义和修改资源队列定义。下面是HAWQ资源管理器的主要架构图:(图9)资源管理器中的各个组件作用如下:请求处理器:接收查询派遣器进程的资源请求资源分配器:负责资源的分配资源池:保存所有资源的现有状态策略存储:保存所有的分配策略,将来会做到策略可定制。资源代理:负责与全局资源管理器交互存储模块 HAWQ支持多种内部优化的存储格式,比如AO和Parquet。提供MapReduce InputFormat,可以供外部系统直接访问。其他各种存储格式通过扩展框架访问。针对用户专有格式,用户可以自己开发插件。同时支持各种压缩,多极分区等各种功能。MADLib(图10)如上图所示。MADLib是一个非常完善的并行机器学习和数据挖掘库。支持多种各种机器学习和统计分析方法。HAWQ原生支持MADLib。现在MADLib是一个独立的Apache项目,基本包含了所有常用的机器学习方法。三、HAWQ中短期规划HAWQ团队短期内专注于2.0GA。长期来看我们会做以下几个方面的工作:跨数据中心的灾难恢复分布式索引支持快照支持与更多其他生态系统进行集成对新硬件的支持进一步提高性能:GPU等四、贡献到Apache HAWQ社区HAWQ是一个Apache开源项目,希望得到更多社区的人能够参与进来。来自社区的贡献不局限于贡献代码,也可以贡献测试,文档,提Bug JIRA,提供功能需求等等。现在国内对Apache开源社区的贡献还不是很多,希望大家能够一块推动国内开源社区的发展。对Apache项目做贡献方式的比较简单,在我们的Apache JIRA系统中()开一个JIRA。然后给出你的解决方法。如果是代码的话,可以使用github提交一个Pull Request。具具体步骤可以参见我们在Apache wiki网站上的流程(),在提交代码以后,HAWQ committer会和你一起合作把代码提交。如果你有足够多的贡献的话,并且也想成为Apache Committer,HAWQ PMC会有有一个投票过程表决,保证公平与公正。所有功能的开发讨论都发布在JIRA和邮件列表中。下面是Apache HAWQ主要网址以及大家可以订阅的邮件列表:Website: Wiki: Repo: JIRA: Mailing lists: dev@hawq.incubator.apache.org 和 user@hawq.incubator.apache.org 订阅方法: 发送邮件到 dev-subscribe@hawq.incubator.apache.org 和 user-subscribe@hawq.incubator.apache.org我们在国内有一个“大数据社区”会组织meetup讨论HAWQ以及其他生态系统的最新进展。网址为:“大数据社区”博客: (具有更多HAWQ及大数据相关技术文章)参考文献[1] Lei Chang et al: HAWQ: a massively parallel processing SQL engine in hadoop. SIGMOD Conference -1234[2] Lei Chang: Introducing The Newly Redesigned Apache HAWQ 2015[3] Apache HAWQ team, 大数据社区技术博客,http://blog.csdn.net/bigdatacommunity五、Q & AQ1:HAWQ的查询优化是采用了原来的MPP数据库的优化器,还是针对HDFS的读写特性进行改进?A: 基于MPP并行优化器,但是针对弹性执行引擎,资源管理以及HDFS的特性进行了很多改进。Q2:HAWQ的事务支持全部的隔离级别还是只支持其中的一部分?具体有哪些?A: 因为是Snapshot Isolation,除了可串行话,其他都支持。Q3:HAWQ的数据权限如何控制,影响效率如何?A: 通过标准SQL Grant语句控制。基本没有效率影响。因为查询通常是时间的大头。Q4:HAWQ与Hive,以及Impala等同类产品相比,性能表现如何,各自更适合哪种场景?A: HAWQ和Hive及Impala性能相比,标准化TPCDS性能测试要快数倍。而且Hive和Impala支持SQL标准有限,很多TPCDS查询执行不了。Q5:hawq是支持分布式事务吗?A: 是的。因为HAWQ是分布式的,支持分布式事务。Q6:跟Impala谁强?A: 我先来找一下TPCDS性能比较图,比Impala快多倍。(图11)Q7:HAWQ可以用作OLAP吗?性能有保障吗?分布式事务用什么方法保证一致性?A: 虽然HAWQ支持分布式事务,可以保证一致性,但不推荐用作oltp。因为我们是针对OLAP进行优化的。事务实现可以参见我们的SIGMOD论文[1] Lei Chang et al: HAWQ: a massively parallel processing SQL engine in hadoop. SIGMOD Conference -1234Q8:具体的数据可以说下吗?比如什么规模,具体性能数据。A: 数据规模应该在30T。大约20个节点。本次分享由尹雯玉@亚信策划、校对,内容由刘世杰@京东编辑、发布,其他多位志愿者对本文亦有贡献。更多关于架构方面的内容,读者可以通过扫码或点击页首的蓝字,关注"高可用架构"公众号,查看更多架构方面内容,获取通往架构师之路的宝贵经验。转载请注明来自"高可用架构 (ArchNotes)"微信公众号。
觉得不错,分享给更多人看到
高可用架构 微信二维码
分享这篇文章
11月15日 15:30
高可用架构 最新文章温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
PostgreSQL 高校实验室,企业,社区大联盟才是未来的方向.
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
安装指南Instruction for Building the Apache HAWQSeptember 2015Dependencies:Tested on Centos 6 with the following version.autoconf
2.63binutils
2.20.51bison
2.5.35gperf
5.10.1python-devel 2.6.2zlib-devel
1.2.3bzip2-devel
1.0.5readline-devel 6.0libevent-devel 1.4.6LibYAML
0.1.1boost
1.55snappy
1.1.1thrift
0.9.1json-c
0.9libcurl
7.21.7libhdfs3
2.2.30libyarn
code shipped with HAWQ&Build./configure --prefix=/somewhere/you/want/to/installmake -j8make installTestAfter setup a HAWQ cluster.make installcheck-good
阅读(1710)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
在LOFTER的更多文章
loftPermalink:'',
id:'fks_',
blogTitle:'HAWQ 开源了,现在Apache孵化器中',
blogAbstract:'
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}Hortonworks、Apache HAWQ团队、滴滴等九位资深大牛带你玩转大数据Hortonworks、Apache HAWQ团队、滴滴等九位资深大牛带你玩转大数据技术来自生活百家号5月18-19日,坐标北京朝阳门悠唐皇冠假日酒店,CSDN主办的CCTC2017将围绕最热门、最前沿的云计算技术与行业实践重磅登场。在这场技术大会上,Spark、Docker、Mesos、Tensorflow等云计算核心技术话题全部囊括。在19日的大数据核心技术与应用实战峰会上,来自Hortonworks、滴滴出行、科大讯飞、东方国信、清华大学、HanSight瀚思、金电联行、北京邮电大学、ApacheHAWQ团队等九位专家将亲临现场,与众多参会者深入探讨行业内的最新实践和经验分享。详细日程查礼出品人出品人简介:查礼,现任中国科学院计算技术研究所副研究员,网络科学与技术重点实验室系统软件组组长。主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是HadoopinChina开源社区发起人,HadoopinChina大会组织者。讲师/演讲议题王虎东方国信大数据中心总监演讲议题:大数据核心技术在运营商的应用与实践讲师简介:王虎,东方国信大数据中心总监。多年来专职服务于电信行业的BI、大数据(BigData)领域的技术及业务研究,参与并实施过中国移动、中国电信、中国联通等多个项目,主要为电信行业的信息化建设提供技术咨询和实施服务,熟悉电信企业从生产系统到分析系统的整个信息化流程,对企业的信息化建设方面,能够提供从数据中心建设到应用系统开发的一整套解决方案,并对电信行业的高端客户管理、预测、维系、服务有着深刻的理解和研究,曾多次参与相关业务/数据规范的编写和制定,有丰富的数据库、软件方面的设计、研发、管理经验。议题简介:运营商未来大数据架构演进方向探讨;基于“开源+自主研发”相结合的运营商大数据核心技术体系分享,从传统的数据中心走向以”云计算+大数据(平台+数据)+平台工具”软件的私有云;运营商大数据核心技术应用场景分享,包括云计算实践、大数据实践、业务应用实践。听众收益:运营商大数据架构,运营商大数据技术体系,运营商大数据技术在平台、决策、营销、服务等业务应用方向。陈康清华大学计算机系副教授演讲议题:图计算优化技术探索讲师简介:陈康,清华大学计算机系副教授。1999年在清华大学计算机科学与技术系获得工学学士学位,其后在清华大学计算机科学与技术系高性能计算研究所攻读博士学位。2004年7月获得工学博士学位。获得博士学位之后加入英特尔(Intel)中国研究中心有限公司,任高级软件工程师。2007年开始至今在清华大学计算机系工作。主要研究方向是分布式系统,存储系统。参加与主持多个国家863,973以及自然科学基金项目。2014年度电子学会技术发明一等奖,2015年度国家技术发明奖二等奖。在分布式计算方面,主要工作包括将Paxos算法和纠删码结合在一起,提出新的协议,能够满足跨数据中心的一致性要求,同时降低数据传输量(HDPC2014)。在云计算方面,通过竞价模式,在满足可靠性要求的同时,能够降低系统的开销(HDPC2015)。在移动计算方面,通过修改Android的操作系统的交换分区方式,提升应用程序的响应性能(IEEETransactionsonComputers2015)。并在图计算,计算机系统结构方面也进行了研究。议题简介:图计算是今年来的一个研究热点,在机器学习,数据挖掘中有重要的作用。图计算的性能也是限制图计算应用的重要原因,如何提高图计算的性能是系统领域一个重要的研究热点。本讲座将对图计算方法的性能研究进行介绍,以几个具体的例子帮助听众理解相关的优化方法。听众收益:体系结构的介绍,图计算的热点分析,单机图计算与多机图计算优化方法的异同。梁堰波Hortonworks研发工程师演讲议题:基于Spark的面向十亿级别特征的大规模机器学习讲师简介:YanboisanApacheSparkCommitterworkingatHortonworks.Hismaininterestscenteraroundimplementingeffectivemachinelearningalgorithmsandbuildingmachinelearningapplicationsbasedonscalabledistributedsystem.HeisanactiveApacheSparkcontributor,deliveredtheimplementationofsomemajorMLlibalgorithms.PriortoHortonworks,hewasasoftwareengineeratYahoo!,MeituanandFranceTelecomworkingonmachinelearninganddistributedsystem.议题简介:ApacheSparkMLlibprovidesscalableimplementationofpopularmachinelearningalgorithms,whichletsuserstrainmodelsfrombigdatasetanditeratefast.Theexistingimplementationsassumethatthenumberofparametersissmallenoughtofitinthememoryofasinglemachine.However,manyapplicationsrequiresolvingproblemswithbillionsofparametersonahugeamountofdatasuchasAdsCTRpredictionanddeepneuralnetwork.ThisrequirementfarexceedsthecapacityofexisitingMLlibalgorithmsmanyofwhichuseL-BFGSastheunderlyingsolver.Inordertofillthisgap,wedevelopedVector-freeL-BFGSforMLlib.ItcansolveoptimizationproblemswithbillionsofparametersintheSparkSQLframeworkwherethetrainingdataareoftengenerated.ThealgorithmscalesverywellandenablesavarietyofMLlibalgorithmstohandleamassivenumberofparametersoverlargedatasets.Inthistalk,wewillillustratethepowerofVector-freeL-BFGSvialogisticregressionwithreal-worlddatasetandrequirement.WewillalsodiscusshowthisapproachcouldbeappliedtootherMLalgorithms.陶征霖ApacheHAWQCommitter,PMC演讲议题:云时代大数据管理引擎HAWQ++讲师简介:陶征霖,浙江大学本硕毕业,先后就职于Oracle,EMC,Pivotal和北京偶数科技有限公司。一直从事数据库相关领域的开发研究工作。隶属于HAWQ核心团队成员,参与了HAWQ1.X~2.0的核心研发工作,后任ApacheHAWQCommitter和PMC成员。现就职于创业型公司北京偶数科技有限公司,负责设计研发高性能HAWQ++大数据管理引擎。议题简介:HAWQ++是由ApacheHAWQ创始团队打造的HAWQ增强企业版本,采用了MPP和Hadoop结合的创新MPP++技术架构,高可扩展,遵循ANSI-SQL标准,提供PB级数据交互式查询能力。并且提供对主要BI工具的描述性分析支持。兼容Oracle,GPDB和PostgreSQL,原生支持Lava和Kubernetes平台,可以帮助企业无缝迁移到最新的云计算平台。演讲涵盖以下三大块内容:1.ApacheHAWQ的总体架构和主要模块简介。2.HAWQ++相比于ApacheHAWQ的新特性。3.HAWQ++的安装部署和基本用法。听众收益:本次演讲适合所有希望了解ApacheHAWQ或HAWQ++的用户。帮助用户大体了解HAWQ的基本架构和主要组件,熟悉HAWQ的基本用法,包括sql/plsql,odbc/jdbc以及madlib的使用。共同探讨HAWQ的适用场景,助力用户数字化转型。熊永平北京邮电大学计算机系副教授演讲议题:基于Spark的统一数据管理与数据探索平台讲师简介:北京邮电大学网络技术国家重点实验室副教授,中科院计算所博士,先后在诺基亚研究中心、中国电子信息产业研究院等单位,从事网络安全、移动物联网、数据科学和数据挖掘等领域的研究开发工作,主持和参与了国家自然科学基金、科技部重大专项、973等多项国家科研项目。在IEEETransactionsonMobileComputing、ACMMobiCom等国内外著名期刊会议上发表论文30多篇,单篇论文他引次数超过210次。近年来在大规模数据处理和机器学习领域进行了深入研发,其研究成果转化到保险、金融、能源等多个领域的大数据应用系统中,取得了良好的效果。议题简介:随着大数据理念的不断普及,计算机行业正在变成真正的信息行业,企业关注的重点正在转向数据,整合挖掘各类数据资产实现精细化的业务运营已经成为企业的共识。而这种精细运营依赖于高效的数据管理和精准的数据洞察,这就需要发现隐藏在各种原始业务数据相互关联背后的本质和规律。而实际业务数据往往分散在孤立的信息化系统和关系数据库中,缺乏统一的数据处理平台。本团队设计开发了以内存计算框架Spark为核心的统一数据管理和探索平台,该平台提供规范化的数据接入和各种语言的数据处理任务接口,提供以数据表为计算单元和DAG模型来支持复杂的数据Transform过程,进而支持各种数据探索、相关性分析(离散相关、近似相关、简单相关等)、可视化分析等手段,对海量数据进行统一管理、探索和建模。听众收益:了解企业级大数据应用中真正需要的大数据平台组件和功能;保险等行业应用中的数据相关性分析模型。李扬滴滴出行资深软件开发工程师演讲议题:Hbase在滴滴出行的应用场景和最佳实践讲师简介:李扬,现任滴滴出行资深软件开发工程师。2015年加入滴滴出行基础平台部,主要负责HBase和Phoenix以及相关分布式存储技术。开发了基于HBase的地理位置索引程序,解决了key-value数据库对于查询给定地理范围内所有用户GPS轨迹困难的场景。在滴滴之前,曾在新浪担任数据工程师,专注于分布式计算和存储。议题简介:随着滴滴在业务上的迅猛发展,如何在分布式存储上满足用户对海量数据的实时查询是日常工作的重要内容。在这种多租户场景下,如何资源分配,风险管理,成本控制,监控及运维面临着各种挑战。本议题将介绍HBase在滴滴出行针对各种典型应用场景及解决方案。听众收益:将了解Hbase在多租户场景下各种使用场景,及管理解决方案。尚峰金电联行首席技术官演讲议题:数据驱动的大数据金融应用讲师简介:尚峰,金电联行首席技术官。1998年清华大学机械工程系硕士毕业,2002年留学日本,2005年情报数理专业博士毕业,现任金电联行(北京)信息技术有限公司首席征信技术官,曾任职多家信息技术相关公司,经历了信息技术的政务/企业信息化、数据仓库、互联网、电子商务等多个发展阶段,主导过各类型信息系统的研发。随着大数据技术发展,目前专注于大数据技术应用方法论研究及具体实践。议题简介:金融行业是新技术应用的领先行业,也是个业务需求复杂多样的行业。传统Fintech为金融行业解决了大量的问题,但随着各种理念创新、技术创新,金融行业面临更多的挑战。大数据理念与技术的兴起,似乎给金融行业迎接新挑战提供了一种解决途径,但大数据的应用同样面临众多问题,例如专业知识、人员配备、数据聚合、技术组合等。本报告将介绍,在借鉴工业革命的组织理念与方法基础上,高效、高质、规模化地利用(大)数据技术应对快速、多样化金融需求的理念与方法,同时给出金电联行在此方面的探索实践。刘君科大讯飞大数据实时计算方向负责人演讲议题:讯飞语音云实时分析架构及实践讲师简介:刘君,科大讯飞大数据实时计算方向负责人,2012年加入讯飞以来主要从事大数据实时分析及大数据平台构建相关的工作,为公司提供企业级的大数据能力输出平台,通读过jstorm源码并做过部分二次开发,有多年的实时计算、Hadoop、Spark的开发经验。议题简介:当前讯飞语音云每日会话量30亿,在线会话量5亿,如何实时感知语音云服务质量至关重要。讯飞语音云实时分析平台支撑着线上几十项任务,从各个层面支撑了语音云的实时服务质量和实时报表的稳定运行。本次分享,着重介绍讯飞语音云实时分析的架构选型、如何解决异地数据分析问题、如何采用disruptor提高Flume吞吐量、如何解决语音云数据窗口聚合问题、以及如何保障高效、稳定的集群工作状态。听众收益:了解实时架构选型过程;掌握如何解决异地数据分析问题;了解采用disruptor提高flumeTPS;了解分享窗口聚合业务处理经验;掌握实时作业优化及集群运维经验。另外,HanSight瀚思高级技术工程师张军也将带来主题为《演讲议题:大数据安全分析在电子银行业的探索与实践》的精彩分享,敬请关注。报名方式本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。技术来自生活百家号最近更新:简介:科技内部,看各种互联网作者最新文章相关文章

我要回帖

 

随机推荐