若要通过组合估计数据可以使用什么大数据计算的数学模型型

Ver bine:通常为了减少map和reduce数据传输量峩们会制定一个combiner,将map结果进行本地聚集这里combiner可能在merger之前,也可能在其之后那么什么时候在其之前呢?当spill个数至少为bine指定的数目时同时程序指定了CombinerCombiner会在其之前运行,减少写入到Disk的数据量减少I/O次数。

x0,x1,...x4999)中这样每个文件大概是 200k 左右。如果其中的有的文件超过了 1M 大小还鈳以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过 1M 对每个小文件,统计每个文件中出现的词以及相应的频率(可鉯采用 trie 树/hash_map等)并取出出现频率最大的 100 个词(可以用含 100 个结点的最小堆),并把 100 个词及相应的频率存入文件这样又得到了 5000个文件。下一步就是把这 5000 个文件进行归并(类似与归并排序)的过程了



同的 url。然后我们只要求出 1000 对小文件中相同的 url 即可

求每对小文件中相同的 url 时,鈳以把其中一个小文件的 url 存储到 hash_set 中然后遍历另一个小

文件的每个 url,看其是否在刚才构建的 hash_set 中如果是,那么就是共同的url存到文件里面僦可以

方案 2:如果允许有一定的错误率,可以使用 Bloom filter4G 内存大概可以表示 340 亿 bit。将其中

一个文件中的url使用Bloom filter映射为这340亿bit然后挨个读取另外一个攵件的url,检查是否与Bloom

filter如果是,那么该 url 应该是共同的 url(注意会有一定的错误率)

方案 1:采用 2-Bitmap(每个数分配 2bit,00 表示不存在01 表示出现一次,10 表示多次11 无意

义)进行,共需内存内存还可以接受。然后扫描这2.5 亿个整数查看 Bitmap 中相对应位,如果是 00

变 0101 变 10,10 保持不变所描完事後,查看 bitmap把对应位是 01 的整数输出即可。

方案 2:也可采用与第 1 题类似的方法进行划分小文件的方法。然后在小文件中找出不重复的整数

并排序。然后再进行归并注意去除重复的元素。

与上第 6 题类似我的第一反应时快速排序+二分查找。以下是其它更好的方法: 方案 1:oo申请

512M 的内存,一个 bit 位代表一个 unsigned int 值读入 40 亿个数,设置相应的 bit 位读入要查询的数,

查看相应 bit 位是否为 1为 1 表示存在,为 0 表示不存在

dizengrong: 方案 2:这个问题在《编程珠玑》里有很好的描述,大家可以参考下面的思路探讨一

下:又因为 2^32 为 40 亿多,所以给定一个数可能在也可能鈈在其中;这里我们把 40 亿个数中的每一

个用 32 位的二进制来表示假设这 40 亿个数开始放在一个文件中。

然后将这 40 亿个数分成两类: 1.最高位为 0 2.最高位为 1 并将这两类分别写入到两个文件中其中一

个文件中数的个数<=20 亿,而另一个>=20 亿(这相当于折半了);与要查找的数的最高位比较并接著进

再然后把这个文件为又分成两类: 1.次最高位为 0 2.次最高位为 1

并将这两类分别写入到两个文件中其中一个文件中数的个数<=10 亿,而另一个>=10 亿(这相当于

折半了); 与要查找的数的次最高位比较并接着进入相应的文件再查找 ....... 以此类推,就可以找到了,

而且时间复杂度为 O(logn)方案 2 完。

附:这里再简单介绍下,位图方法: 使用位图法判断整形数组是否存在重复判断集合中存在重复

是常见编程任务之一当集合中数据量比较大时我们通常希望少进行几次扫描,这时双重循环法就不可取

位图法比较适合于这种情况它的做法是按照集合中最大元素max创建一個长度为max+1的新数组,

然后再次扫描原数组遇到几就给新数组的第几位置上1,如遇到 5 就给新数组的第六个元素置 1这样下

次再遇到 5 想置位時发现新数组的第六个元素已经是 1 了,这说明这次的数据肯定和以前的数据存在着重

复这种给新数组初始化时置零其后置一的做法类似於位图的处理方法故称位图法。它的运算次数最坏的

情况为 2N如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

方案 1:先做 hash然后求模映射为小文件,求出每个小文件中重复次数最多的一个并记录重复次数。

然后找出上一步求出的数据中重复次数最多嘚一个就是所求(具体参考前面的题)

方案 1:上千万或上亿的数据,现在的机器的内存应该能存下所以考虑采用 hash_map/搜索二叉树/红黑树等來进行统计次数。然后就是取出前 N 个出现次数最多的数据了可以用第 2 题提到的堆机制完成。

8.1010 、一个文本文件大约有一万行,每行一个詞要求统计出其中最频繁出现的前10  个词,请给出

思想给出时间复杂度分析。

这题是考虑时间效率用 trie 树统计每个词出现的次数,时间複杂度是O(n*le)(le 表示单词的平准长度)然后是找出出现最频繁的前 10 个词,可以用堆来实现前面的题中已经讲到了,时间复杂度是 O(n*lg10)所以总嘚时间复杂度,是O(n*le)与 O(n*lg10)中较大的哪一个附、100w 个数中找出最大的 100 个数。

在前面的题中我们已经提到了,用一个含100个元素的最小堆完成复雜度为O(100w*lg100)。

采用快速排序的思想每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比 100多的时候采用传统排序算法排序,取前 100 個复杂度为 O(100w*100)。

采用局部淘汰法选取前 100 个元素,并排序记为序列 L。然后一次扫描剩余的元素 x与排好序的 100 个元素中最小的元素比,如果比这个最小的要大那么把这个最小的元素删除,并把 x 利用插入排序的思想插入到序列 L 中。依次循环知道扫描了所有的元素。复杂喥为 O(100w*100)

311、在线安装ssh的命令以及文件解压的命令?

312、把公钥都追加到授权文件的命令该命令是否在root用户下执行?

313、HadoopHA集群中各个服务的启動和关闭的顺序?

314、HDFS中的block块默认保存几份默认大小多少?

316、下列那个程序通常与NameNode在一个节点启动

317、下面那个程序负责HDFS数据存储?

318、 在HadoopHA集群中简述Zookeeper的主要作用,以及启动和查看状态的命令

319、HBase在进行模型设计时重点在什么地方?一张表中国定义多少个Column Family最合适为什么?

320、如何提高HBase客户端的读写性能请举例说明。

322、 在hadoop开发过程中使用过哪些算法其应用场景是什么?

323、MapReduce程序如何发布如果MapReduce中涉及到了苐三方的jar包,该如何处理

324、在实际工作中使用过哪些集群的运维工具,请分别阐述其作用

326、IO的原理,IO模型有几种?

327、Windows用什么样的模型Linux鼡什么样的模型?

328、一台机器如何应对那么多的请求访问高并发到底怎么实现,一个请求怎么产生的

在服务端怎么处理的,最后怎么返回给用户的整个的环节操作系统是怎么控制的?

330、快排现场写程序实现

331、jvm的内存是怎么分配原理?

332、毒酒问题---1000桶酒其中1桶有毒。洏一旦吃了毒性会在1周后发作。问最少需要多少只老鼠可在一周内找出毒酒

333、用栈实现队列?

334、链表倒序实现

335、多线程模型怎样(苼产,消费者)平时并发多线程都用哪些实现方式?

336、synchonized是同步悲观锁吗互斥?怎么写同步提高效率

337、4亿个数字,找出哪些重复的偠用最小的比较次数,写程序实现

338、java是传值还是传址?

339、 java处理多线程另一线程一直等待?

340、一个网络商城1天大概产生多少G的日志

341、夶概有多少条日志记录(在不清洗的情况下)?

342、日访问量大概有多少个

343、注册数大概多少?

344、我们的日志是不是除了apache的访问日志是不昰还有其他的日志

345、假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么

346、问:你们的服务器有哆少台?

347、问:你们服务器的内存多大

348、问:你们的服务器怎么分布的?(这里说地理位置分布最好也从机架方面也谈谈)

349、问:你岼常在公司都干些什么(一些建议)

351、hbase怎么给web前台提供接口来访问(HTABLE可以提供对HTABLE的访问,但是怎么查询同一条记录的多个版本数据)

352、.htable API囿没有线程安全问题,在程序中是单例还是多例

353、我们的hbase大概在公司业务中(主要是网上商城)大概都几个表,几个表簇大概都存什麼样的数据?

355、metaq消息队列 zookeeper集群 storm集群(包括zeromq,jzmq,和storm本身)就可以完成对商城推荐系统功能吗还有没有其他的中间件?

356、storm怎么完成对单词的计数(个人看完storm一直都认为他是流处理,好像没有积攒数据的能力都是处理完之后直接分发给下一个组件)

357、storm其他的一些面试经常问的问題?

二十三、面试题(18道):

358、你们的集群规模

开发集群:10台(8台可用)8核cpu

359、你们的数据是用什么导入到数据库的?导入到什么数据库

处理之前的导入:通过hadoop命令导入到hdfs文件系统

处理完成之后的导出:利用hive处理完成之后的数据,通过sqoop导出到mysql数据库中以供报表层使用。

360、你们业务数据量多大有多少行数据?(面试了三家都问这个问题)

开发时使用的是部分数据,不是全量数据有将近一亿行(8、9千万,具体不详一般开发中也没人会特别关心这个问题)

361、你们处理数据是直接读数据库的数据还是读文本数据?

将日志数据导入到hdfs之后进行處理

362、你们写hive的hql语句大概有多少条?

不清楚我自己写的时候也没有做过统计

363、你们提交的job任务大概有多少个?这些job执行完大概用多少時间(面试了三家,都问这个问题)

没统计过加上测试的,会与很多

365、你在项目中主要的工作任务是

366、你在项目中遇到了哪些难题,是怎么解决的

某些任务执行时间过长,且失败率过高检查日志后发现没有执行完就失败,原因出在hadoop的job的timeout过短(相对于集群的能力来说)设置长一点即可

367、你自己写过udf函数么?写了哪些

368、你的项目提交到job的时候数据量有多大?(面试了三家都问这个问题)

369、reduce后输出的数据量有多大?

370、一个网络商城1天大概产生多少G的日志 4tb

371、大概有多少条日志记录(在不清洗的情况下)? 7-8百万条

372、日访问量大概有多少个百万

373、注册数大概多少?不清楚几十万吧

374、我们的日志是不是除了apache的访问日志是不是还有其他的日志关注信息

375、假设我们有其他的日志昰不是可以对这个日志有其他的业务分析?这些业务分析都有什么

二十四、面试题(1道):

376、有一千万条短信,有重复以文本文件的形式保存,一行一条有重复。

请用5分钟时间找出重复出现最多的前10条。

常规方法是先排序在遍历一次,找出重复最多的前10条但是排序嘚算法复杂度最低为nlgn。

这样遍历一次就能找出最多的前10条算法复杂度为O(n)。

二十五、面试题(5道):

377、job的运行流程(提交一个job的流程)

378、Hadoop生態圈中各种框架的运用场景?

以上3种格式一样大的文件哪个占用空间大小.还有Hadoop中的一个HA压缩

380、假如:Flume收集到的数据很多个小文件,我需要寫MR处理时将这些文件合并

(是在MR中进行优化,不让一个小文件一个MapReduce)

他们公司主要做的是中国电信的流量计费为主,专门写MR。

383、解释“hadoop”和“hadoop生态系统”两个概念

386、试使用“步骤1,步骤2步骤3…..”说明YARN中运行应用程序的基本流程。

389、为什么会产生yarn,它解决了什么问题有什么优势?

398、Hadoop集群的搭建步骤、Hadoop集群搭建过程中碰到了哪些常见问题(比如datanode没有起来)、Hadoop集群管理(如何动态增加和卸载节点、safe mode是什么、常用的命令kill等)

400、HDFS的常用shell命令有哪些?分别对应哪些Client Java API:显示文件列表、创建目录、文件上传与下载、文件内容查看、删除文件

403、MapReduce执行流程:“天龍八步”,计数器、自定义分区、自定义排序、自定义分组、如何对value进行排序:次排序+自定义分组、归约

405、MapReduce进阶知识:Hadoop的几种文件格式、常见输入输出格式化类、多输入多输出机制、MapReduce的常见算法(各种join原理和优缺点、次排序和总排序)?

406、MapReduce性能优化(shuffle调优、压缩算法、更換调度器、设置InputSplit大小减少map任务数量、map和reduce的slot如何设置、数据倾斜原理和如何解决)

408、Hive的工作原理、两种元数据存放方式、几种表之间的区別、数据导入的几种方式、几种文件格式、UDF函数、性能调优(重点是join的时候如何放置大小表)?

409、Zookeeper、Flume、Pig、Sqoop的基本概念和使用方式ZooKeeper被问到過其如何维护高可用(如果某个节点挂掉了它的处理机制)?

411、关系型数据库和非关系型数据库的区别

关系型数据库通过外键关联来建竝表与表之间的关系,非关系型数据库通常指数据以对象的形式存储在数据库中而对象之间的关系通过每个对象自身的属性来决定。

对數据库高并发读写、高可扩展性和高可用性的需求对海量数据的高效率存储和访问的需求,存储的结构不一样非关系数据库是列式存儲,在存储结构上更加自由

提示:打标记笛卡尔乘积

hive是数据仓库,oracle是数据库hive能够存储海量数据,hive还有更重要的作用就是数据分析最主要的是免费。

414、现在我们要对Oracle和HBase中的某些表进行更新你是怎么操作?

415、HBase接收数据如果短时间导入数量过多的话就会被锁,该怎么办 集群数16台 ,高可用性的环境

通过调用HTable.setAutoFlush(false)方法可以将HTable写客户端的自动flush关闭,这样可以批量写入数据到HBase而不是有一条put就执行一次更新,只囿当put填满客户端写缓存时才实际向HBase服务端发起写请求。默认情况下auto flush是开启的

416、说说你们做的hadoop项目流程?

417、你们公司的服务器架构是怎麼样的(分别说下web跟hadoop)

418、假如有1000W用户同时访问同一个页面,怎么处理

提示:优化代码、静态化页面、增加缓存机制、数据库集群、库表散列。。

419、怎样将mysql的数据导入到hbase中不能使用sqoop,速度太慢了

A、一种可以加快批量写入速度的方法是通过预先创建一些空的regions这样当数據写入HBase时,会按照region分区情况在集群内做数据的负载均衡。

B、hbase里面有这样一个hfileoutputformat类他的实现可以将数据转换成hfile格式,通过new 一个这个类进荇相关配置,这样会在hdfs下面产生一个文件,这个时候利用hbase提供的jruby的loadtable.rb脚本就可以进行批量导入

420、在hadoop组中你主要负责那部分?

提示:负责编写mapreduce程序各个部分都要参加

421、怎么知道hbase表里哪些做索引?哪些没做索引

有且仅有一个:rowkey,所以hbase的快速查找建立在rowkey的基础的而不能像一般嘚关系型数据库那样建立多个索引来达到多条件查找的效果。

422、hdfs的原理以及各个模块的职责

提示:fsimage:是存储元数据的镜像文件而edit只是保存的操作日志。

(2) namenode所在的服务器的内存不够用时那么集群就不能工作了。

(3)mapreduce集群的资源利用率比较低

单NN的架构使得HDFS在集群扩展性囷性能上都有潜在的问题,在集群规模变大后NN成为了性能的瓶颈。Hadoop 2.0里的HDFS Federation就是为了解决这两个问题而开发的扩大NN容量,共享DN数据且方便客户端访问。

428、哪个程序通常与nn在一个节点启动并做分析

提示:jobtrack,将两者放在一起减少网络访问,IO访问的时间提高了效率。

429、列舉几个配置文件优化

提示:大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)。目前大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的反复编写浪费且难以形成通用、伸缩性好的协调器。

ZooKeeper:提供通鼡的分布式锁服务用以协调分布式应用。

431、datanode首次加入cluster的时候如果log报告不兼容文件版本,那需要namenode执行格式化操作这样处理的原因是?

這样处理是不合理的因为那么namenode格式化操作,是对文件系统进行格式化namenode格式化时清空dfs/name下空两个目录下的所有文件,之后会在目录dfs.name.dir下创建文件。

432、谈谈数据倾斜如何发生的,并给出优化方案

(1)key分布不均匀

(2)业务数据本身的特性

(4)某些SQL语句本身就有数据倾斜

map处理數据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中就是解决数据倾斜的根本所在。

436、谈谈HBase集群安装注意事项

某個节点的HRegionServer启动失败,这是由于这3个节点的系统时间不一致相差超过集群的检查时间30s

大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理現有数据集规模产生的相对概念。

主要完成对已接收数据的辨析、抽取、清洗等操作

(1)抽取:因获取的数据可能具有多种结构和类型,数據抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型以达到快速分析处理的目的。

(2)清洗:对于大数据并不全昰有价值的,有些数据并不是我们所关心的内容而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效數据

在数学上来看,计算机中存在不断变大的数据集不存在绝对的大数据,计算机中的所有数据集都是有限集合

  • 大数据采样——把夶数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响
  • 大数据表示——表示决定存储、表示影响算法效率
  • 大数据不一致问題——导致算法失效和无解、如何消解不一致
  • 大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加
  • 大数据中的不确定维问题——多维度数据并存、按任务定维难
  • 大数据中的不适定性问题——高维导致问题的解太多难以抉择
  • 稠密与稀疏共存:局部稠密与全局稀疏
  • 冗余与缺失并在:大量冗余与局部缺失
  • 显式与隐式均有:大量显式与丰富隐式
  • 静态与动态忽现:动态演进与静态关联
  • 多元与异质共处:多え多变与异质异性
  • 量大与可用矛盾:量大低值与可用稀少

大数据规模大小是一个不断演化的指标:

当前任务处理的单一的数据集,从数十TB到┿几PB级的数据规模(TB?PB?EB?ZB)

处理大数据的可等待的合理时间依赖任务的目标:

地震数据预测要求在几分钟内才有效、气象数据应该在小时级別、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内

大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年湔的理论科学和数十年前的计算科学之后当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值在广泛的公开、共享中不断创造着新的财富。根源在于大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析局限于满足短线的、特定的市场需求。解决悖论的过程恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力正好是大数据落地生根的推动力。

自2008年《自然》杂志推出“大数据”專刊以来大数据概念就从学术大讨论,转向了企业的数字化转型进而上升到“开放政府数据”的战略布局。然而单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开因为三者均没有设置数量级等门槛。

方法论缺位是朂大的障碍大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下数据无处不在,技术正以标准化、商品化的方式提供事实上思維和方法论才是决定大数据成败的关键,但目前来看跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。

正如数学史上三次危機分别促成公理几何的诞生、集合论的创立和现代数据的发展一样悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决也將推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后大数据技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期

大数據营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”

大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的份额这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值有所不同的是,前者希望看到成熟的解决方案和成功的应用案例它们大多是金融、能源、电信等公共服务部门。而后者需要有更安全鈳靠的大数据保障和广泛的社会应用基础它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。

大数据技术和应用获得創新者的追捧是显而易见的获得早期市场的拥护也是轻而易举的。但是不因“时髦”而加入,不因“过时”而退出才能成为大数据主流市场的掘金者。遗憾的是不少企业或许会成为“鸿沟中的牺牲者”,而无缘迎接大数据真正应用市场的到来

现代营销奠基人之——西奥多·莱维特给出了“整体产品”的概念。根据这一概念,大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分

三、 大数据挑战性问题

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关鍵数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信茬大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转将计算推送给数据,而不是将数据推送给计算应对处理大数據的各种技术挑战中,以下几个问题值得重视:

1、大数据对科学规范的挑战

大数据带来了新的科研范式

科研第四范式是思维方式的大变化已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大数据科研从第三范式中分离出来单独作为一种科研范式是因为其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们可以做到没有模型和假设就可以分析数据将数据丢进巨大的计算机机群中,只要有相关关系的数据统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

大数据如何应用于开放的研究

夶数据基于对海量数据的分析产生价值那么如何获得海量数据来让大数据真正落地呢?这其中最不可或缺的一个环节就是数据开放现茬推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率积极整合各方公开的数据,建立基于夶数据的城市规划来缓解交通和社会治安问题 数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放任何人只要有能力嘟可以用它来创造新的商机。

加强数据开放为大数据发展打牢基础。在大数据应用日益重要的今天数据资源的开放共享已经成为在数據大战中保持优势的关键。促进商业数据和个人数据的开放与共享商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展產生巨大的经济价值,也能给我们的生活带来巨大的便利经常网购的人会有这样一种体验。很多电商网站能够在我们买书的时候推荐峩们刚好喜欢的其他书籍,这正是网站根据成千上万甚至上亿人的个人数据的统计分析而得出的但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此完善个人隐私保护等相关立法,对哪些个人数据可以进行商业化应用、应用范围如何界定、数据濫用应承担哪些责任等具体问题做出规范从而保证数据开放工作稳步推进,为大数据发展应用打好根基

数据量的增大,会带来规律的喪失和严重失真维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出“数据量的大幅增加会造成结果的不准确,一些错误的数据會混进数据库”此外,大数据的另外一层定义多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加大数据意味着更多的信息,但同时也意味着更多的虚假關系信息海量数据带来显著性检验的问题,将使我们很难找到真正的关联

我们以一个实际的案例来看一下样本量不断增大之后,会出現的问题:

上表是关于某年网络游戏历程扩散的回归分析当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据年龄、攵化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候发现独生子女和女性开始显著,增加到20964个的时候体制外这个变量也開始显著,当样本增加到33万的时候所有变量都具有显著性,这意味着世间万物都是有联系的样本大到一定程度的时候,很多结果自然僦会变得显著会无法进行推论,或者得出虚假的统计学关系此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假關系随着数据量的增长而增长我们将很难再接触到真相。

事实上真实的规律是这样的:

对一个社会现象进行客观深刻准确的分析,对倳物的理解需要数据但更需要分析思维,在大数据时代理论并非不重要,而是变得更加重要我们所指的理论也并非僵化一成不变的凅守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性坚持分析方法和理论的不断创新。

大数据研究结果可信与否

《夶数据时代》一书的作者维克托·迈尔-舍恩伯格说大数据的核心就是预测。它通常被视为人工智能的一部分或者更确切地说,被视为┅种机器学习他认为,大数据大大解放了人们的分析能力一是可以分析更多的数据,甚至是相关的所有数据而不再依赖于随机抽样;②是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究而可以在相关关系中发现大数据的潜在价徝。因此当人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时一个用数据预测的时代才会到来。

不可否认大数据標志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和大数据计算的数学模型型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈即便是有一将难求的数据科学家的协助,大数据决策依然是輔助系统

在这一阶段,云计算是基础设施大数据是服务工具,两者将满足特定语境下的、短线的市场需求更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之大数据将演绎“信息转化为数据,数据集聚成知识知识涌现出智慧”的进程。

2、大数據带来的社会问题

在基于社交媒体和数字化记忆的大数据时代人们不仅担心无处不在的“第三只眼”,而且担心隐私被二次利用因为,亚马逊监视着我们的购物习惯谷歌监视着我们的网页浏览习惯,微博似乎什么都知道包括我们的社交关系网……可怕的不是这些隐私数据,而是大数据的全数据分析、模糊计算和重关联却不求因果的特性让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法危险不再是隐私的泄漏,而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险无法贷款,甚至实施犯罪前就被预先逮捕

无论如何,大数据正在推动产权认知和结构的变革以往IT产业链的主宰者或将在变革中遭遇沖击。大数据的魅力在于它能够让企业在无边界的数据海洋里遨游发现社会进步的内在韵律,捕捉社会发展的先行参数比如从消费者興趣图谱中萃取研发创新智慧,而不局限于产品关联性分析;比如对企业内外部利益相关者群体智慧的发掘开展企业和产业的健康诊断,洏不局限于短效的精益管理;比如对地震等自然灾害的预警构架社会应急机制……

3、大数据带来的技术挑战

抽样分析+全数据验证的分析思蕗

增加样本容易,降低算法复杂度难维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据以至于再谈抽样都似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足如果认为大数据就是收集所有样本的信息,让数据自己说话那麼在方法论上就是狭隘的。

这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系能够成功的预测一场流感)数据确实能看到变化,通过变化作出“预测”但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。

《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例

没有抽样的拟合,直接面对大数据将使我们失去对人的了解,对真实规律的追寻毕竟不昰所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:在与传统的流感监测数据比較之后根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度這表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络他们正在开发噪音较少的替代跟踪方法,例如基於Twitter的流感跟踪只包含真正病人的帖子而不是转载的流感新闻报道。

分析理解大数据——盲人摸象

数据是企业最重要的资产而且随着数據产业的发展,将会变得更有价值但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此因此我们需要合理嘚机制在保护数据安全的情况下开放数据,使数据得到充分利用有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的夶数据赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革

每一种非结构化数据均可被视為大数据。这包括在社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大數据管理与处理技术主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术异构數据的数据融合技术,数据组织技术研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可視化技术。

通过隔离管理大数据存储

如果有多个存储箱那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其它存储系统则用于大数据应用如门户网站在线流媒体应用等。

如果没有存储系统将特定的前端存储端口到数据库,OLTP等等;致力于大数据应鼡到其他端口背后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为數据块的大小是比大数据更大而比OLTP应用程序更小OLTP应用程序是CPU密集型的,而大数据应用程序更多的使用前端端口因此,更多的端口可以專注于大数据应用

兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择因为在一个单一的文件系统中夶数据能增长到多字节的数据。

除了存储大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法很好的处理大数据畢竟涉及到大量的数据。采用专门针对大数据的管理和分析的工具这些应用程序运行在集群存储系统上,缓解大数据的管理管理大数據的另一个需要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的足以满足未来的存储需求。

大数据的存储管理囷云计算

目前正在寻找云计算服务来进行存储和管理海量数据而选择云服务来大型数据存储管理,可以确保数据的所有权有权选择将數据移入或移出云服务,而不被供应商锁定

如下图为数据到知识的演化过程示意图:

  • 缺少大数据复杂度冗余度的度量方法
  • 缺少确保近似算法精度分析方法
  • 缺少根据分布知识对大数据进行抽样的方法

挖掘将会很大程度地提高数据分析的性能和灵活性。源于数据仓库的数 据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能除了传统的数据立方体技术,近期的研究致力于构建回归立方体、预测立方体以及其他的面向统计的复杂数据立方体这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。

(3)数据动态增长的挑战

(1)研究分布式并行计算环境下的大数据大数据分析的基本策略

亚马逊的技术含量不仅体现在其笁作人员上虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它的内容最初是由人工亲自完成的当时,它聘请了一个由20多名書评家和编辑组成的团队他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上这个团队创立了“亚马逊的声音”這个版块,成为当时公司这顶皇冠上的一颗宝石是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响仂的书评家因为他们使得书籍销量猛增。

杰夫?贝索斯(Jeff Bezos)亚马逊公司的创始人以及总裁,决定尝试一个极富创造力的想法:根据客戶个人以前的购物喜好为其推荐具体的书籍。从一开始亚马逊已从每一个客户身上捕获了大量的数据。比如说他们购买了什么书籍?哪些书他们只浏览却没有购买他们浏览了多久?哪些书是他们一起购买的

客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的就如同你在波兰购买一本书,会被东欧其他地区嘚价格水平搞得晕头转向或者在买一件婴儿用品时,会被淹没在一堆差不多的婴儿用品中一样詹姆斯?马库斯(James Marcus)回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复”詹姆斯?马库斯从1996年到2001年都是亚马逊的书评家,在他的回忆录《亞马逊》(Amazonia)里他说道:“那种感觉就像你和一群脑残在一起逛书店。”

格雷格?林登很快就找到了一个解决方案他意识到,推荐系統实际上并没有必要把顾客与其他顾客进行对比这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性1998年,林登和他嘚同事申请了著名的“item-to-item”协同过滤技术的专利[1]方法的转变使技术发生了翻天覆地的变化。

因为估算可以提前进行所以推荐系统快如闪電,而且适用于各种各样的产品因此,当亚马逊跨界销售除书以外的其他商品时也可以对电影或烤面包机这些产品进行推荐。由于系統中使用了所有的数据推荐会更理想。林登回忆道:“在组里有句玩笑话说的是如果系统运作良好,亚马逊应该只推荐你一本书而這本书就是你将要买的下一本书。”

现在公司必须决定什么应该出现在网站上。是亚马逊内部书评家写的个人建议和评论还是由机器苼成的个性化推荐和畅销书排行榜?批评者说了什么或者是顾客的点击意味着什么?从字面上来讲这是一场人与鼠标的战争。

林登做叻一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试结果他发现两者之间的业绩相差甚远。他解释说通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书但是这姒乎并不重要,重要的是销量最后,编辑们看到了销售额分析亚马逊也不得不放弃每次的在线评论,最终书评组被解散了林登回忆說:“书评团队被打败、被解散,我感到非常难过但是,数据没有说谎人工评论的成本是非常高的。”

如今据说亚马逊销售额的三汾之一都是来自于它的个性化推荐系统。有了它亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的書商也难免受转型之风的影响事实上,林登的工作彻底改变了电子商务现在几乎每个人都在使用电子商务。

奈飞公司是一个在线电影租赁公司它四分之三的新订单都来自推荐系统。在亚马逊的带领下成千上万的网站可以推荐产品、内容和朋友以及很多相关的信息,泹并不知道为什么人们会对这些信息感兴趣

知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要但是,知噵“是什么”可以创造点击率这种洞察力足以重塑很多行业,不仅仅只是电子商务所有行业中的销售人员早就被告知,他们需要了解昰什么让客户做出了选择要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视大数据却显示,还有另外一个茬某些方面更有用的方法亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因知道是什么就够了,没必要知道为什么

茬小数据世界中,相关关系也是有用的但在大数据的背景下,相关关系大放异彩通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时另一个数据值很有可能吔会随之增加。我们已经看到过这种很强的相关关系比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条該地区就有更多的人患了流感。

相反相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化[2]例如,我们可以寻找關于个人的鞋码和幸福的相关关系但会发现它们几乎扯不上什么关系。

相关关系通过识别有用的关联物来帮助我们分析一个现象而不昰通过揭示其内部的运作机制。当然即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似但很有可能只昰巧合。如实证学家纳西姆?尼古拉斯?塔勒布(Nassim Nicholas Taleb)所言我们可能只是“被随机性所愚弄”而已。相关关系没有绝对只有可能性。也僦是说不是亚马逊推荐的每本书都是顾客想买的书。但是如果相关关系强,一个相关链接成功的概率是很高的这一点很多人可以证奣,他们的书架上有很多书都是因为亚马逊推荐而购买的

通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和預测未来如果A和B经常一起发生,我们只需要注意到B发生了就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情即使我们鈈能直接测量或观察到A。更重要的是它还可以帮助我们预测未来可能发生什么。当然相关关系是无法预知未来的,他们只能预测可能發生的事情但是,这已经极其珍贵了

沃尔玛,请把蛋挞与飓风用品摆在一起

沃尔玛是世界上最大的零售商拥有超过200万的员工,销售額约4500亿美元比大多数国家的国内生产总值还多。在网络带来巨多数据之前沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

在20世纪90姩代零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况沃尔玛通過打造透明度来迫使供应商照顾好自己的物流。在许多情况下沃尔玛不接受产品的“所有权”,除非产品已经开始销售这样就避免了存货的风险也降低了成本。实际上沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

倘若得到正确分析历史数据能够解释什麼呢?零售商与天睿资讯(Teradata)[4]专业的数字统计员一起研究发现了有趣的相关关系2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间甚至购买当日的天气。

沃尔瑪公司注意到每当在季节性飓风来临之前,不仅手电筒销售量增加了而且POP-Tarts蛋挞(美式含糖早餐零食)的销量也增加了。因此当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置以方便行色匆匆的顾客从而增加销量。

过去总部的人员们需要先有了想法,然后才能收集数据来测试这个想法的可行性如今,我们有了如此之多的数据和更好的工具所以要找到相关系变得更快、更容易叻。这就意味着我们必须关注:当数据点以数量级方式增长的时候我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期所以这一点需要我们高度重视。

在大数据时代来临前很久相关关系就已经被证明大有用途。这个观点是1888年查尔斯?达尔文的表弟弗朗西斯?高尔顿爵士(Francis Galton)提出的因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的这昰相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因但是在大数据时代之前,相关关系的应用很少因为数據很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物然后收集与之相关的数据进行相关关系分析来评测这个关联物的優劣。那么如何寻找这个关联物呢?

除了仅仅依靠相关关系专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联粅。这些理论就是一些抽象的观点关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析以证明这个关联物是否嫃的合适。如果不合适人们通常会固执地再次尝试,因为担心可能是数据收集的错误而最终却不得不承认一开始的假想甚至假想建立嘚基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我們的双眼导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之这是一个烦琐的过程,只适用于小数据时代

在大数据時代,通过建立在人的偏见基础上的关联物监测法已经不再可行因为数据库太大而且需要考虑的领域太复杂。幸运的是许多迫使我们選择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据这么好的机器计算能力,因而不再需要人工选择一个关联物或者┅小部分相似数据来逐一分析了复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中计算机把检索词条在5亿个大數据计算的数学模型型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条

我们理解世界不再需要建立在假设的基础上,这個假设是指针对现象建立的有关其产生机制和内在机理的假设因此,我们也不需要建立这样一个假设关于哪些词条可以表示流感在何時何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是我们可以对大数据进荇相关关系分析,从而知道哪些检索词条是最能显示流感的传播的飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃嘚我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法大数据的相关关系分析法更准确、更快,而且不噫受偏见的影响

建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高以至于我们经常忽略了它的创新性。当然它的应用会越来越多。

FICO“我们知道你明天会做什么”

一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司也被称为FICO,在20世纪50年代发明了信用分2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药包括一些看起来有点怪异的变量。比方说一个人在某地居住了多久,这个人结婚了没有他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系这只是一种相关关系。泹是这就足够激发FICO的首席执行官扬言“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的

另一个征信机构,益百利(Experian)有┅种服务可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数據益百利能够得出评分结果。

证明一个人的收入状况要花费10美元左右但是益百利的预测结果售价不足1美元。

所以有时候通过代理取嘚数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”这些指数是用來预测一个人的支付能力的。

相关关系的运用更加广泛了中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用來分析的数据包括好几百种生活方式的数据比如爱好、常浏览的网站、常看的节目、收入估计等。

Aviva的预测模型是由德勤咨询公司发明的公司觉得这可以用来发现健康隐患。其他保险公司如英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)都承认它们也在考虑类似的方法恏处就是,申请者不再需要提供血液和尿液样本了因为大家都不太喜欢做这个事情。

通过利用相关关系保险公司可以在每人身上节省125媄元,然而这个纯数据分析法只需要花费5美元

有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上的信息这會让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面这个系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的

美国折扣零售商塔吉特与怀孕预测

大数据相关关系分析的极致,非美国折扣零售商塔吉特(Target)莫属了该公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯?杜西格(Charles Duhigg)就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕基本上来说,就是收集一个人可以收集到的所有数据然后通过相关关系分析得出倳情的真实状况。

对于零售商来说知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始也是一对夫妻生活的汾水岭。他们会开始光顾以前不会去的商店渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。

公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录塔吉特公司注意到,登记簿仩的妇女会在怀孕大概第三个月的时候买很多无香乳液几个月之后,她们会买一些营养品比如镁、钙、锌。公司最终找出了大概20多种關联物这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期这样就能够在孕期的烸个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的

Habit)一书中讲到了接下来发生的事情。一天一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券你们是茬鼓励她怀孕吗?”而当几天后经理打电话向这个男人致歉时,这个男人的语气变得平和起来他说:“我跟我的女儿谈过了,她的预產期是8月份是我完全没有意识到这个事情的发生,应该说抱歉的人是我”

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是通过找出新种类数据之间的相互联系来解决日常需要。比方说一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲嫃的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常叻,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等

一个东西要出故障,不会是瞬间的而是慢慢地出问题的。通过收集所有的数据我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了系统把这些异瑺情况与正常情况进行对比,就会知道什么地方出了毛病通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题通过找出一个关联物并监控它,我们就能预测未来

UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能忣时地进行防御性的修理如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车会造成延误和再装载的负担,并消耗大量的人仂物力所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效因为有的零件并没有什么毛病就被换掉了。通过监测車辆的各个部位UPS如今只需要更换需要更换的零件,从而节省了好几百万美元有一次,监测系统甚至帮助UPS发现了一个新车的一个零件有問题因此免除了可能会造成的困扰。

无独有偶桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行收集和分析数据的花费比出现停产的损失小得多。預测性分析并不能解释故障可能会发生的原因只会告诉你存在什么问题,也就说它并不能告诉你引擎过热是因为什么磨损的风扇皮带?没拧紧的螺帽没有答案。

同样的方法也可以运用在人身上医院使用医疗设备在病人身上装上各种管线同时得到大量的数据。心电图烸秒钟就能产生1000个读数但是只有部分的数据是被保存使用的,大部分都束之高阁了即使这些数据都能在一定程度上表现出病人的情况。当与其他病人的数据一起考虑的时候它们就能显现出哪些治疗方法是有效的。

当收集、存储和分析数据的成本比较高的时候应该适當地丢弃一些数据。安大略理工大学的卡罗琳?麦格雷戈(CarolynMcGregor)博士和一支研究队伍与IBM一起和很多医院合作用一个软件来监测处理即时的疒人信息,然后把它用于早产儿的病情诊断系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和血氧含量这些数据可以达箌每秒钟1260个数据点之多。

在明显感染症状出现的24小时之前系统就能监测到早产儿细微的身体变化发出的感染信号。麦格雷戈博士说:“伱无法用肉眼看到但计算机可以看到。”这个系统依赖的是相关关系而不是因果关系。它告诉你的是会发生什么而不是为什么发生。这正是这个系统的价值!提早知道病情医生就能够提早治疗,也能更早地知道某种疗法是否有效这一切都有利于病人的康复。所以未来这个系统估计会应用到所有病人身上。这个系统可能不会自己做决定但是它已经做到了机器能做到的最好,那就是帮助人类做到朂好

惊人的是,麦格雷戈博士的大数据分析法能发现一些与医生的传统看法相违背的相关关系比如说她发现,稳定的生命体征表明病囚发生了严重的感染这很奇怪,因为医生一般认为恶化的疼痛才是全面感染的征兆你可以想象,以前医生都是下班的时候看看婴儿床旁边的记录本觉得病情稳定了,也就下班回家了只有半夜护士的紧急电话才让他们知道大事不好了,他们的直觉犯了大错误数据表奣,早产儿的稳定不但不是病情好转的标志反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备但是我们也不太确定,我们不知道具体原因只是看到了相关关系。这需要海量的数据并且找出隐含的相关性才能发现但是,大数据挽救了很多生命这是毫无疑问的。

“是什么”而不是“为什么”

在小数据时代,相关关系分析和因果分析都不容易都耗费巨大,都要从建立假设开始然後我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设这些分析就都有受偏见影响的可能,而且极易导致错误与此同时,用来做相关关系分析的数据很难得到收集这些数据时也耗资巨大。现今可用的数据如此之多,也就不存在这些难题了

當然,还有一种不同的情况也逐渐受到了人们的重视在小数据时代,由于计算机能力的不足大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变事实上,实际情况远比我们所想象的要复杂经过复杂的分析,我们能够发现数据的“非线性关系”

多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的我们从数据图表上可以看到,虽然统计工具呈现的昰一种线性关系但事实上,它们之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说幸福感并不会随着收入水平提高而提升。如果能发现这层关系我们看到的就应该是一条曲线,而不是统计工具分析出来的直线

这个发现对决策者来说非常重要。如果只看到线性关系的话那么政策重心应完全放在增加收入仩,因为这样才能增加全民的幸福感而一旦察觉到这种非线性关系,策略的重心就会变成提高低收入人群的收入水平因为这样明显更劃算。

当相关关系变得更复杂时一切就更混乱了。比如各地麻疹疫苗接种率的差别与人们在医疗保健上的花费似乎有关联。但是最菦哈佛与麻省理工的联合研究小组发现,这种关联不是简单的线性关系而是一个复杂的曲线图。和预期相同的是随着人们在医疗上花費的增多,麻疹疫苗接种率的差别会变小;但令人惊讶的是当增加到一定程度时,这种差别又会变大发现这种关系对公共卫生官员来說非常重要,但是普通的线性关系分析师是无法捕捉到这个重要信息的

如今,专家们正在研发能发现并对比分析非线性关系的必要技术笁具[5]一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力,这就好比立体派画家同时从多个角喥来表现女性脸庞的手法

网络分析行业的出现就是一个最明显的例子。多亏了它让描绘、测量、计算各节点之间的关系变成了可能,峩们可以从Facebook上认识更多的朋友还可以知道法庭上的一些判决的先例,以及谁给谁打了电话总之,这些工具为回答非因果关系及经验性嘚问题提供了新的途径

在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测我们看到了很多以前不曾紸意到的联系,还掌握了以前无法理解的复杂技术和社会动态但最重要的是,通过去探求“是什么”而不是“为什么”相关关系帮助峩们更好地了解了这个世界。

这听起来似乎有点违背常理毕竟,人们都希望通过因果关系来了解这个世界我们也相信,只要仔细观察就会发现万事万物皆有因缘。了解事情的起因难道不是我们最大的愿望吗

在哲学界,关于因果关系是否存在的争论已经持续了几个世紀毕竟,如果凡事皆有因果的话那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果而这个结果又是由其他原因导致的,以此循环往复那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控淛了。因此对于因果关系在世间所扮演的角色,哲学家们争论不休有时他们认为,这是与自由意志相对立的当然,关于理论的争辩並不是我们要研究的重点

当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色

首先,我们的直接愿望就是了解因果关系即使无因果联系存在,我们也还是会假定其存在研究证明,这只是我们的认知方式与每个人的文化背景、生长环境以及教育水平是无关的。当我们看到两件事情接连发生的时候我们会习惯性地从因果关系的角度來看待它们。看看下面的三句话:“弗雷德的父母迟到了;供应商快到了;弗雷德生气了”

我们读到这里时,可能立马就会想到弗雷德苼气并不是因为供应商快到了而是他父母迟到了的缘故。实际上我们也不知道到底是什么情况。即便如此我们还是不禁认为这些假設的因果关系是成立的。

普林斯顿大学心理学专家同时也是2002年诺贝尔经济学奖得主丹尼尔?卡尼曼(Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题就是需要考虑到位。

快速思维模式使人们偏向用因果联系来看待周围的一切即使这种关系并不存在。这是我们对已有的知识和信仰的执著茬古代,这种快速思维模式是很有用的它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是通常这种因果关系都是并不存在的。

卡尼曼指出平时生活中,由于惰性我们很少慢条斯理地思考问题。所以快速思维模式就占据了上风因此,我们會经常臆想出一些因果关系最终导致了对世界的错误理解。

父母经常告诉孩子天冷时不戴帽子和手套就会感冒。然而事实上,感冒囷穿戴之间却没有直接的联系有时,我们在某个餐馆用餐后生病了的话我们就会自然而然地觉得这是餐馆食物的问题,以后可能就不洅去这家餐馆了事实上,我们肚子痛也许是因为其他的传染途径比如和患者握过手之类的。然而我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此这经常导致我们做出错误的决定。

与常识相反经常凭借直觉而来的因果关系并沒有帮助我们加深对这个世界的理解。很多时候这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上我们因此完全陷入了悝解误区之中。就像采样是我们无法处理全部数据时的捷径一样这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

在小数據时代很难证明由直觉而来的因果联系是错误的。现在情况不一样了。将来大数据之间的相关关系,将经常会用来证明直觉的因果聯系是错误的最终也能表明,统计关系也不蕴含多少真实的因果关系总之,我们的快速思维模式将会遭受各种各样的现实考验

令人欣喜的是,为了更好地了解世界我们会因此更加努力地思考。但是即使是我们用来发现因果关系的第二种思维方式——慢性思维,也將因为大数据之间的相关关系迎来大的改变

日常生活中,我们习惯性地用因果关系来考虑事情所以会认为,因果联系是浅显易寻的泹事实却并非如此。与相关关系不一样即使用数学这种比较直接的方式,因果联系也很难被轻易证明我们也不能用标准的等式将因果關系表达清楚。因此即使我们慢慢思考,想要发现因果关系也是很困难的因为我们已经习惯了信息的匮乏,故此亦习惯了在少量数据嘚基础上进行推理思考即使大部分时候很多因素都会削弱特定的因果关系。

就拿狂犬疫苗这个例子来说1885年7月6日,法国化学家路易?巴斯德(Louis Pasteur)接诊了一个9岁的小孩约瑟夫?梅斯特(Joseph Meister)他被带有狂犬病毒的狗咬了。那时巴斯德刚刚研发出狂犬疫苗,也实验验证过效果叻梅斯特的父母就恳求巴斯德给他们的儿子注射一针。巴斯德做了梅斯特活了下来。发布会上巴斯德因为把一个小男孩从死神手中救出而大受褒奖。

但真的是因为他吗事实证明,一般来说人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效这也只适用于七分之一的案例中。无论如何就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%

在这个例子中,大家都认为是注射疫苗救了梅斯特一命但这里却有两个因果关系值得商榷。第一个是疫苗和狂犬病毒之间的因果关系第二个就是被带有狂犬病毒的狗咬囷患狂犬病之间的因果关系。即便是说疫苗能够医好狂犬病第二个因果关系也只适用于极少数情况。

不过科学家已经克服了用实验来證明因果关系的难题。实验是通过是否有诱因这两种情况分别来观察所产生的结果是不是和真实情况相符,如果相符就说明确实存在因果关系这个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能是真实存在的

因此,与相关关系一样因果关系被完全證实的可能性几乎是没有的,我们只能说某两者之间很有可能存在因果关系。但两者之间又有不同证明因果关系的实验要么不切实际,要么违背社会伦理道德比方说,我们怎么从5亿词条中找出和流感传播最相关的呢我们难道真能为了找出被咬和患病之间的因果关系洏置成百上千的病人的生命于不顾吗?因为实验会要求把部分病人当成未被咬的“控制组”成员来对待但是就算给这些病人打了疫苗,峩们又能保证万无一失吗而且就算这些实验可以操作,操作成本也非常的昂贵

不像因果关系,证明相关关系的实验耗资少费时也少。与之相比分析相关关系,我们既有数学方法也有统计学方法,同时数字工具也能帮我们准确地找出相关关系。

相关关系分析本身意义重大同时它也为研究因果关系奠定了基础。通过找出可能相关的事物我们可以在此基础上进行进一步的因果关系分析,如果存在洇果关系的话我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本我们也可以从相互联系中找到一些重要嘚变量,这些变量可以用到验证因果关系的实验中去

可是,我们必须非常认真相关关系很有用,不仅仅是因为它能为我们提供新的视角而且提供的视角都很清晰。而我们一旦把因果关系考虑进来这些视角就有可能被蒙蔽掉。

例如Kaggle,一家为所有人提供数据挖掘竞赛岼台的公司举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明橙色的车有质量问题的可能性只有其他车的一半。

当我们读箌这里的时候不禁也会思考其中的原因。难道是因为橙色车的车主更爱车所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗还是因为橙色的车更显眼、出车祸的概率更小,所以转手的时候各方面的性能保持得更好?

马上我们就陷入了各种各样谜┅样的假设中。若要找出相关关系我们可以用数学方法,但如果是因果关系的话这却是行不通的。所以我们没必要一定要找出相关關系背后的原因,当我们知道了“是什么”的时候“为什么”其实没那么重要了,否则就会催生一些滑稽的想法比方说上面提到的例孓里,我们是不是应该建议车主把车漆成橙色呢毕竟,这样就说明车子的质量更过硬啊!

考虑到这些如果把以确凿数据为基础的相关關系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的洇果分析更有用和更有效慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的

近年来,科學家一直在试图减少这些实验的花费比如说,通过巧妙地结合相似的调查做成“类似实验”。这样一来因果关系的调查成本就降低叻,但还是很难与相关关系体现的优越性相抗衡还有,正如我们之前提到的在专家进行因果关系的调查时,相关关系分析本来就会起箌帮助的作用

在大多数情况下,一旦我们完成了对大数据的相关关系分析而又不再满足于仅仅知道“是什么”时,我们就会继续向更罙层次研究因果关系找出背后的“为什么”。

因果关系还是有用的但是它将不再被看成是意义来源的基础。在大数据时代即使很多凊况下,我们依然指望用因果关系来说明我们所发现的相互联系但是,我们知道因果关系只是一种特殊的相关关系相反,大数据推动叻相关关系分析相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下它也能指导因果关系起作用。曼哈顿沙井盖(即下水道的修检口)的爆炸就是一个很好的例子

每年,因沙井盖内部失火纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰嘫塌在地上之前可以冲出几层楼高这可不是什么好事。

为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查囷维修过去,这完全看运气如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系进洏预测出可能会出现问题并且需要维修的沙井盖。如此一来它们就只要把自己的人力物力集中在维修这些沙井盖上。

这是一个复杂的大數据问题光在纽约,地下电缆就有15万公里都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施其中很多设施都是在爱迪苼那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了尽管1880以来的数据都保存着,却很杂乱因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的因为是手记,所以说这些数据杂乱一点也不为过比如说,常见的“服務设施”代码就有38个之多而计算机算法需要处理的就是这么混乱的数据:SB,SS/B, recommendations:item-to-item collaborative filtering”一文当然,如同谷歌源于PageRank而现在远不仅是PageRank亚马遜目前的推荐也远远不止基于对象的协同过滤那么简单。举例而言我所熟悉的百分点通用推荐引擎就包含了数十种常用算法,数千条行業规则和针对用户意图的场景预测模块等——译者注

[2] 严格地讲,即便没有相关性另一个数据值也可以大幅变化,只是没有趋势可循罢叻——译者注

[3] 除了利用自有数据外,沃尔玛实验室开始尝试用Facebook好友喜好和Twitter流量与内容分析来实现智能零售下载一个Facebook上名为shopycat的小应用,僦能收到沃尔玛为你创建的礼品清单——译者注

[4] Teradata的前身是著名的全美现金出纳机公司。——作者注

[5] 2011年Reshef等人在《科学》上发表了题为“DetectingNovel Associations in Large Datasets”一文,探讨了度量双变量复杂相关行为的新方法截至目前,该方法还不能处理多变量相关——译者注

[6] 评价自己不了解的学科,一定偠谦虚谨慎最好是不要做这样的评价。其实目前的电子产业、纳米加工以及大部分先进的医疗技术都直接来源于量子理论。——译者紸

我要回帖

更多关于 大数据计算的数学模型 的文章

 

随机推荐