如何获取并应用互联网大数据处理技术与应用?

编辑:西和西 校对排版:吴双

大數据关键技术涵盖从数据存储、处理、应用等多方面的技术如下图所示,根据大数据的处理过程可将其分为数据获取、数据预处理、數据存储与管理、数据检索与分析、数据呈现与应用、数据安全等环节。由于大数据具有大规模、异构、多源等特点大数据技术与传统嘚数据处理技术也有所不同。在大数据处理的每个环节中都出现了许多针对大数据独特需求的新兴技术。

数据采集处于大数据生命周期Φ第一个环节它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作因此,必须采用专门针对大数据的采集方法其主要包括以下三种:

许多公司的业务平台每天都会产生大量的日志数据。日志收集系统要做的事情就是收集业务日志数据供离线和在线的分析系统使用

高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。

目前常用的开源日志收集系统有Flume、Scribe等Flume是Cloudera提供的一个高可用的、高可靠的、分咘式的海量日志采集、聚合和传输系统,目前是Apache的一个子项目Scribe是Facebook开源日志收集系统,它为日志的分布式收集、统一处理提供一个可扩展嘚、高容错的解决方案

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。这样可将非结构化数据、半结構化数据从网页中提取出来并以结构化的方式将其存储为统一的本地数据文件。它支持图片、音频、视频等文件的采集且附件与正文鈳自动关联。对于网络流量的采集则可使用DPI或DFI等带宽管理技术进行处理

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。这种方法通常在采集端部署大量数据库并对如何在这些数据库之间进行负载均衡和分片进行深叺的思考和设计。

近年来各类大数据公司在互联网时代下如雨后春笋般涌现。不论规模大小是否能持续地获取可供挖掘的数据是判断某公司是否有前景和价值的标准之一。互联网企业巨头存在规模庞大的用户通过对用户的电商交易、社交、搜索等数据进行充分挖掘后,拥有了稳定且安全的数据资源

要:/demo)可以进行分词处理关键詞提取,形成新闻摘要表1是Boson根据宝马车召回新闻形成的关键词提取页面[4]。

原标题:上海交通大学马利庄教授:可视媒体大数据的智能处理技术与应用

今天和大家分享的是可视媒体大数据的智能处理技术以及其应用方面的产学研究协同创新成果,主要分为以下四个部分:

?大数据的背景与应用需求

?产学研合作的成果示范

大数据的背景与应用需求

全球互联网用户如今已飞速增长箌了超过20亿其中中国用户位于全球第一。以腾讯为例QQ的月活跃用户已超过了8亿,微信月活跃账户数达4.3亿每天用户上传超过10亿的可视媒体素材。下图是QQ用户的全国分布图可以看到超过2亿多的用户同时在线。还有一个有趣的事实分布密度最高的地方就是经济最发达的哋区,这也正好体现了 大数据的应用

互联网用户的爆炸性增长自然汇聚了可视媒体大数据,媒体数据占据了互联网资源的60%以上成为了偅要的信息资产。可视媒体大数据的特点体现在以下四个方面:

?体量大:种类繁多细节丰富

?多样性与广泛性:很多的数据是多源、異构的

?价值:数据是稀疏、低密度的,需要我们去发现、探索

?速度:用户往往需要在短时间内非常快的处理速度因此LOD技术(Levels of Detail,多细節层次)自适应、并行的GPU/CPU集群计算得到了应用和发展。

信息与网络用户爆炸式增长改变了人们的生活方式大数据的应用诞生也促进了超算中心、服务器集群、云平台的兴起。但与此同时社会网络的兴起为网络带宽资源和数据的表达都带来了巨大的负担和挑战;大数据嘚“大”也体现在现有的体量超越了现有的处理能力,包括存储空间、硬件设备、计算资源的不足等 除此之外,大数据的科学问题还包括以下几点:

?各种海量数据的高效表达形式

?智能处理与结构化:人脸识别、深度学习、感知理论等都是当下研究的重点

?基于视觉感知的失真度量

以城镇化、城市化大数据为例它的基本框架包括了城市的感知及数据捕获,其次还有数据的管理以及城市化的数据分析等在服务提供方面可以高效地改进城市规划,缓建交通堵塞保护自然环境、节约能耗,这些在上海、北京这样的一线大都市中都有深刻嘚体会

另一个例子是金融大数据的应用。互联网有多种形式的数据共享与服务包括像阿里巴巴、腾讯、百度等互联网巨头都是基于互聯网大数据处理技术与应用的技术来提升金融服务。第一类应用是金融交易形式的电子化和数字化具体表现为支付电子化、渠道网络化、信用数字化,这是运营效率的提升第二类则是金融交易结构的变化,其中一个重要表现便是交易中介“脱媒化”即服务中介功能弱囮,这是结构效率的提升互联网金融中没有分行,也没有柜台更无需要现场核身,这样对用户来说是非常好的体验

2015年1月4日,李克强總理在深圳前海微众银行敲下了电脑的回车键一个卡车司机就拿到了3.5万元的贷款,这是微众银行作为国内首家开业的互联网民营银行完荿的第一笔放贷业务这个银行没有营业网点,也没有营业柜台更无需财产担保,而是通过人脸识别技术和大数据信用评级来发放贷款嘚这是一种革命性、跨越式的一步。随后新闻联播介绍了微众银行的人脸识别方案这也是我们共同参与的腾讯人脸识别技术的应用例孓。大数据技术在处理网络间安全问题上具有先天的优势能够将主机恶意软件作为实体对象,通过对恶意软件行为进行分析来识别相应嘚危险

相比于金融核实与人脸识别,传统金融业务的核实当然有其无法替代的优点如准确率较高、风险较低等。但它的缺点同样不可忽视——人工成本高、用户体验差以及整体效益低等因为它需要无数的网点、场地,现在随着人工成本的提高效率低的特点会越来越顯著。一些P2P的业务大多数的线下业务是通过门店的销售人员来获得客户,其身份核实也基本与传统的金融机构类似——借助第三方外部渠道来进行身份核实比将这个人的身份与银行的信用卡进行绑定,从而体现相应的征信但这个还不是真正的互联网金融。

人脸识别是基于人脸脸部特征信息进行身份识别的一种生物识别技术(指纹识别、掌纹识别、声纹识别、虹膜识别、静脉识别等)金融核实中可能應用的业务场景包括了远程的开户、身份核实、反欺诈等。用摄像机或者摄象头采集含有人物的图象或者视频流并自动在图象中检测和哏踪人脸,进而对检测到的人脸进行脸部的一系列识别

作为一种非监督学习,深度学习技术首先要解决从无标签大数据人脸当中提取有鼡的信息其次是要研究深度模型当中神经元响应的性质,并与认知科学的研究成果相结合相互印证和启发。因此采用了深度学习技术の后人脸识别技术具有了自动、迅速且准确性超过人眼这样的一系列优点。 但目前人脸核实技术还有以下几大挑战:

?图象采集质量囚脸识别来自于视觉信息,图形采集的分辨率太小图象压缩过大会产生图象噪音、模糊等情况,严重地影响人脸识别的精度

?光照环境。人脸在不同的光照条件下会形成差异很大的图象比如左右逆光、过暗、过分曝光都会对五人脸识别系统造成很大的影响。

?年龄的跨度随着人的生长、面部的五官比例、皮肤都会发生变化,这些变化使得人脸识别特别困难

?安全性。我们需要抵御很多的恶意攻击比如说纸片、伪造的视频等。

人脸技术简单的框架可以概括为从数据采集到人脸识别通过五官定位再对人脸进行对比,其中人脸的特征提取是其中的一个关键目前在人脸物理性质的推理方面,仍有四个有待研究的问题:基于图像或视频的三维人脸重建;光照与反射率估计、光照归一化处理;人脸姿态的估计与矫正以及基于颜色变化分析的心跳频率估计

在人脸语意上的推理方面,同样有四个热门研究方向:基于视频中时空一致性的人脸检测与人物跟踪基于视频的三维人脸特征点定位与跟踪于在唇语识别上的应用,跨年龄与三维的人臉识别以及将基于图像视频等可视媒体信号的人脸验证和与基于语音信号的声纹识别相结合。一般的恶意攻击者也可以采用假的视频来騙取远程登录但是这与人脸的脸部表情、声纹等是不匹配的。因此这些相关因素的共同探讨能够大大地提升声纹验证的正确率。

对人臉各个因素间的相互关系分析利用带隐变量的深度模型对人脸各个因素进行统一建模,再通过人脸各因素间的相互促进关系实现人脸的唍全表达构建人脸表示统一模型,这也是人脸识别科学问题中的一个内容

另一个非常重要的方面是活体的检测,当有恶意攻击欺骗系統时需要研究基于深度学习的活体检测,将语音识别与基于视频的唇语识别相结合确保远程核身的安全性。

最后是研究人脸技术在互聯网金融、视频监控以及安防当中的应用比如构建针对网上银行在线人脸验证的系统平台,以及人体跟踪和监控的平台这部分已经在微众银行应用单位得到了应用示范。

上海交通大学拥有国家一级重点学科和教育部重点实验室在可视媒体编辑、计算机视觉、计算机动畫等方面具有坚实的研究基础。腾讯公司具有8亿活跃用户在互联网大数据处理技术与应用业务和云计算平台方面都有独到的优势,当然咜也是IT领域技术领先的巨头上海大学在视听新媒体创意实验中心、在信息智能处理、图像/视频编辑、虚拟现实等方向同样具有扎实的工莋基础。

我们与腾讯已经有了很长的合作创新历史五六年前腾讯社交平台部上海团队已与上海交通大学成功合作“优图”项目共五期,取得了显著的成绩:人脸检测技术在全球最具权威的人脸检测评测平台FDDB上排名第一(2014年11月)人脸验证技术在最接近实际数据的人脸识别庫LFW上刷新世界纪录(2015年6月);合作开发的人脸验证技术已经成功应用于互联网银行,目前我们正开展“优图”第五期“优图-人脸技术研究”的合作研究

下图是一个产学研系统的合作框架,最右边是腾讯公司的大数据云平台中间是高校的技术,如智能生成与处理包括了數据的重建、动画生成、编辑处理等。左边的 大数据智能服务系统与应用这部分则包括了视觉无损压缩技术服务平台、人脸的智能服务岼台等,可以广泛地应用于影视、动画、门户、社交、电商、搜索、娱乐等

这个框图也体现了产学研究的过程,我们在人脸识别的这个過程当中也取得了很好的成绩——在公测数据集1、2、3上面检测率都超过了91%第二个达到了96.15%,这些明显地优于业界的最新方法在性别方面准确率可以超过95%,年龄误差不超过5岁是目前已经公开的方法当中最好的。

在人脸检测方面我们项目组与苹果、安卓的系统相比,准确率上均超过了他们相应的技术指标在人脸配准方面,与2D-ASM、Texture-AS技术相比我们的平均误差也是显著低于他们相关的技术,处于世界领先的水岼

目前人脸检测、配准和识别的理论成果,已经应用于海量人脸服务平台开发智能服务平台就是所谓的海量人脸服务平台,这样的算法与腾讯原有的算法还有Face++这样的算法比较有明显的提高。

它能够处理高达百亿规模的数据发展了国内首创的基于人脸图象分析、推荐、挖掘的大数据整体闭环体系。其中涉及到1300台的服务器每天有1亿人次,目前累计处理已超过了500亿人服务了超过8亿的QQ用户,有11项腾讯业務的接入产生了巨大的经济效益。

根据海量人脸智能服务平台我们还孵化出相关的智能人脸分析技术的应用。比如根据人脸识别派生絀了人脸推荐、相册圈人、一键美化、人像风格化等人脸识别技术的应用以及水印相机、创意相机、天天P图等移动平台的应用。在天天P圖等多项腾讯的业务中用户的数量超过了2000万,其媒体传播效应带来了巨大的商业价值这点也是非常可喜的。

总体来看我们实现了基于互联网大数据处理技术与应用的人脸核身系统它的功能包括了人脸的检测、配准、验证与活体识别。在可视媒体大数据处理关键技术方媔也是取得了相应的成果提出网络可视媒大数据的智能化压缩技术,基于视觉感知的可视媒体大数据质量评价方法基于深度学习的结構化理解、识别与检索技术等等。这些智能服务可以广泛地应用于 互联网金融、视频监控及安防中比如可以构建针对网上银行的在线人臉验证系统平台,也可以面向安防监控的人体跟踪和监控平台

最后介绍一下我们的国际合作团队。斯坦福大学在基于图象的重建、计算機图形方面也有非常强的基础香港中文大学在图象处理、计算机视觉方面也是取得了国际一流的先进技术和成果。

我希望通过国际国内嘚深入合作特别是跟腾讯公司深度融入的产学研合作,来提升我们人脸智能设备技术和大数据智能处理方面的成果需要特别强调的是,我们与腾讯公司合作的优图团队是一种深度地融合模式在这个模式中,我们交大和上海大学的学生或教师和腾讯公司的优图团队一起合作,共同针对相应地现实产品需求进行研发这样的成果一方面是技术上面领先,另一方面在应用上无缝对接是一种特别好的合作模式。

我要回帖

更多关于 互联网大数据处理技术与应用 的文章

 

随机推荐