大神,那为什么用nrf905传输距离收到的数据都是0啊?

关于 NRF24L01 多发一收的问题 请教
[问题点数:20分]
关于 NRF24L01 多发一收的问题 请教
[问题点数:20分]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
相关帖子推荐:
匿名用户不能发表回复!|
每天回帖即可获得10分可用分!小技巧:
你还可以输入10000个字符
(Ctrl+Enter)
请遵守CSDN,不得违反国家法律法规。
转载文章请注明出自“CSDN(www.csdn.net)”。如是商业用途请联系原作者。基于单片机和NRF905的数据采集系统基于,数据,系统,单片机,采集系统,数据的,数据采集
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于单片机和NRF905的数据采集系统
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口如何准确又通俗易懂地解释大数据及其应用价值?
Wikipedia | (大数据)Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. The challenges include capture, curation, storage, search, sharing, transfer, analysis, and visualization. The trend to larger data sets is due to the additional information derivable from analysis of a single large set of related data, as compared to separate smaller sets with the same total amount of data, allowing correlations to be found to "spot business trends, determine quality of research, prevent diseases, link legal citations, combat crime, and determine real-time roadway traffic conditions."
按投票排序
首先我觉得wikipedia上那句话已经够清楚了。再解释也只是用家常话同义重复而已。‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;......2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。4 大数据的应用价值很大,但现在的应用普遍错位。在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。总之【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:把bra size数据归纳为’各国bra
size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。参考:
这个问题下的大部分答案都没答到点上。居然还有拿Excel讲大数据的。严格说来我不是真正做大数据的人,但是我可以非常明确的告诉你,凡有人拿出一张Excel 表格告诉你他做的是大数据,此人百分之两百都不懂大数据。大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型強子對撞機)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。下面为照片和重建模型的对比。更多照片和视频参看:大数据因为大,不仅远远超过人工的处理能力,也远远超过普通台式机的处理能力。只有特定的算法和特别设计的硬件架构才能够有效的处理大数据。简单说来,硬件上要把很多CPU或者很多台式机连起来,算法上采取分而治之的策略。有的数据前后没有关联,特别适合分而治之的方法。而处理互相联系多的数据就比较困难。如果只要寻找嫌犯的脸,可以对每张照片分别处理。如果要考虑连续拍摄的照片有些并没有捕捉到脸,但嫌犯的位置和穿着是相对不变的,这就要考虑照片之间的关系,要分而治之就相对困难一些。举一个做加法的例子来说明分而治之。比如有两道加法题:34+18和54+39。这两道题目如果两个人分别计算,就比一个人计算要快一倍。这就是分治的优势。但是如果只有一道加法题怎么办?比如两个人要计算34+18,那只好一个人计算个位,一个人计算十位。十位上计算3+1=4,但是还必须考虑个位的进位。所以计算十位的人必须等待计算个位的人给出结果之后,再决定要不要在自己的结果上再加1。为了统一结果一等待,计算速度就变慢了,这就是我们说结果之间存在的关系拖慢计算。既然大数据处理起来这么困难,为什么还要使用大数据?使用小数据不行吗?这就要说到大数据的应用。所谓机器学习,一般是首先建立一个数据之间关系的模型。然后通过数据来确定模型中的参数。这就是所谓训练。大多数模型都是比较简单的。建模的时候为了简便,往往忽略现实中的很多因素。但是数据多了以后,往往可以弥补模型的简陋。所以数据多是有好处的。那么我们建立一个复杂的模型不行吗?可惜越复杂的模型参数就越多。训练所需要的数据量就越大。随着人类计算能力的增长,能处理的数据量越来越多,统计模型也不断变的更精细更复杂。计算能力,数据量,统计模型三者是相辅相成的。最近兴起的Deep Learning,就是在强大的计算能力辅助下,使用巨大的数据训练多层复杂模型的一种方法。举一个糖果厂的例子。某糖果厂按比例生产红色和绿色两种糖果。作为一个传统的中国股民,我特别喜欢红色,讨厌绿色。但糖果是包起来的,外面看不出来。那怎么才知道这个糖果厂的生产比例是什么?最简单的模型就是,买一百粒糖果全部剥开看看。比如有60粒红色,我就得出结论说红色比例是0.6。买的糖果越多,估算出的比例和实际比例就越接近。你说这模型也太弱智了吧。那么好,我们可以考虑食用色素的价格对糖果颜色的影响。通过观察红绿两色色素价格和糖果比例之间的关系,可以预测何时糖果厂会大量生产红色糖果。到时候我就买一堆放家里慢慢吃。但是注意,这计算就需要色素价格的数据了。我们还可以继续构建更加复杂的模型,比如考虑糖果的销量,竞争对手的产品颜色,厂长的心情,天气晴阴等等。考虑的因素越多,需要的数据也越多。你说扯淡。天气和糖果有什么关系?老实说,有没有关系实在搞不清楚。如果把这个因素放到模型里,多多少少也能算出一点关系来。但算出有关系不代表真有关系。那能不能通过算法自动找出那些因素是真有关系,那些是假装有关系?这就是Deep Learning想要解决的一个问题。话说回来,只要你考虑的因素正确,又有足够的数据来测算因素之间的关系,那往往可以提升模型的预测能力。所以统计模型在往精细和复杂的方向发展。有些预测能力看起来似乎不可思议。比如预测那些人和你会买同样的书和音乐,比如预测你下班回家的路会不会堵车。有些预测能力似乎稀松平常。比如你一句话还没说完,我大概就能猜到你下一句会说什么。这能力基本上每个人都有,但对计算机来说难如登天,简直如同神迹。
排名第一淘宝那个答案只是简单的抽样分析,不是大数据。我举几个技术门槛高些的例子。1、QQ圈子。去年3月腾讯推出的,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,同学同事朋友圈子分门别类,这个数据处理能力给人带来的震撼程度完全超过你可能认识的朋友的程度了,潜伏在人际关系深处的暗网都被铺开;2、大数据与乔布斯癌症治疗。不要抽样数据,要全部数据。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。3、谷歌翻译。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。4、验证码与谷歌图书馆计划。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。因为众包的力量,这项技术每年能为谷歌省下十多亿美元。全文:
写在开场的话:考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中我更新加粗的部分),只是借个例子说明大数据的内涵和价值,居然还有人因此专门开个答案来驳斥这一点的,实在让我无语。我是本着分享知识和经验的目的在知乎交流的,如果根本性的问题不在于此,连答案看完整点的耐心都没有,那我就没什么想说的了。许多评论我就不回复了。说老实话,这答案在这放了几天,浏览者应该不少,但是没等到我最期望的那些评论。我还是有点失望的。其实,这答案我可以随便找个问题一贴,例如什么问怎么样在知乎混更高效啦?怎么获得更多赞啦?之类的问题。不知道是否有人想到我为啥给贴这里了?大数据的精髓是什么?收集个几百G几百T的数据往硬盘里一放就是大数据的精髓?如果认识就停留在这个程度,我也就没啥可说的了。在这个答案中,我1,2,3,4,5都干了那些事?选择维度,切入数据的路径和选择是什么样的?为什么?虽然我用的都是最简单最基本的算法和模型,但是为什么在这样的地方,我选择了这样的算法和模型?我想看到的很多问题都没有在评论里出现,有点让人遗憾。问题有要求通俗易懂得介绍大数据的应用价值和内涵,我并无认为我的例子有何不妥。对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。此外,大数据和超级计算完全是两个不同的领域和概念,虽然在极少的地方,两者或有交集(例如其他知友答案中提到的罗马城3D建模),但是真的很少。并行计算和分布式计算也完全是两回事,后者可不需要去处理什么CPU的连接和通信大数据出于成本/产出考量,是不太可能采用并行计算之类的超算技术的。海杜普之类的分布式技术会是一个很好的选择。大数据和超算,虽然两者都面临算法上的挑战,但是完全不是一回事。如果对超算有兴趣,可以简单移步从技术层面说,大数据和以前的数据时代的最大差异在于: 以前是数据找应用/算法的过程(例如我们各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。至于大数据和小数据的差异,大数据的策略,更偏重于发现,以及猜测/印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度的调整。而传统小数据分析,一般有明确的目的和诉求,算法,和模型,我想我已经在我的例子中注意体现这一点了。对于大数据来说,统计学的大量概念会重要得多。大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了NB的技术和算法才体现了它的价值。(虽然NB的技术确实很NB,我曾经在另外一个答案中视海杜普位划时代的计算产品之一)治大国,若烹小鲜,何况是面对一般受众说个大体的概念,私以为我这个例子是没有太大问题的。========================================================================要明确易懂得解释一件事情,最好的方式无疑是举一个典型形象,具有代表性的例子。例子最好和听众熟悉的场景相关。一般圈里回答这个问题,比较容易拿来做解释的例子是沃尔玛的几个经典案例,不过既然在知乎回答这个问题,我就拿知乎来举个例子吧I 前言1. 我在这个答案中所使用的数据和例子,数据规模有限,真正的大数据只有知乎运营者才有机会使用(应该也有严格的权限控制,以及运营者自有的命题)。虽然说不上是大数据,但是我只是拿这个来作为一个说明的例子,说明下大数据的内涵以及价值,应该还算是可以的。2. 我收集这些数据,主要是源于前一阵子对张公子文章的仰慕,每次进入张公子回答的页面一点一点往下点,太累,同时下次还要一点点重新展开页面找到以前看到的地方,不堪重负。正好最近业余在学习自动化测试和Ruby语言,于是尝试性写了些作业,扒了一些数据。所以我收集这些数据并没有任何不良企图以及针对性,请各位知友和知乎运营者放心。我也承诺不会将这些数据用于恶意的目的。当然,这些数据本身都是公开的,我都是通过合法合规手段收集的。以下会尽量匿去所有知友的名字,但是某些知友的数据特征太明显,所以就匿不了了。3. 这些数据本身抓取的过程是一个动态的过程,而不是一个snapshot,出于技术,权限以及合法性的原因,我数据抓取的方式比较慢,在抓取过程中,数据本身已然在发生变化,因此数据本身可能有轻微误差。此外,抓取的数据范围和数量有限,并不一定完整反应和体现真实。例如知友的匿名回答,以及删除答案的行为,可能会对分析结果造成很大影响,但是我抓取的数据当中却没有包含。4. 我的样本选择基本上是随机选择,从黄sir的关注者中,从日常每天的热门话题中随机选取,选取的都是至少答题在100以上的知友的数据。5. 我本身并非社区运营专家,所以以下涉及到分析的部分,如果有业余的地方,请勿见笑,这答案的本身并不是真要分析知乎和知友(这也不是我的能力和数据权限能做到的),我只是说明下大数据这个概念和价值而已。II 命题数据分析总得有个方向和目标,鉴于我的数据规模和样本特性,确立较宏大的命题是相对比较困难的。于是,我选择了一个比较取巧的命题:”赞同数“。一则来说,貌似广大知友关心这个的很多很多,比较吸引眼球。二则来说,知乎上关于这个的日经问题也非常多,也算是有的放矢,例如很多类似以下的问题:如何能获得更多赞同?什么样的答案能够获得更多赞同?人情赞,跟风赞是不是很多?答案字数多是不是容易获得赞同?图片多是不是容易获得赞同?话题和浏览是不是影响赞同?等等类似的问题在知乎层出不穷。尝试做个分析对这些问题提供些帮助。但是,我必须强调的是:知乎真的不是一个“比比谁的赞同多”的竞技游戏,期望大家不要在“赞同”上过于纠结和投入太多关注,我觉得知识,乐趣以及思想的交流和碰撞,才是知乎的重点。然后围绕这个命题核心,看看我们还能发现点什么有意思的其他东西。III 样本本次样本主要涉及39位知友,共计36442条答案样本很多,数据也很多,我就不一一贴上来了,我只贴几位比较有典型代表意义的知友的加工后的数据,以下数据样本根据知友的关注者人数排序:知友1:关注者283,337人其中最专注话题,即为回答过最多的话题,即下图活跃度排名第一的话题。相关系数,即皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC),用以描述两个变量之间的线性相关度。0就是毫无关联,1就是绝对的线性关联,-1就是绝对的负线性相关好吧,这个知友也不用匿名了,匿不住,这关注数,这话题,摆明是李开复先生。开复先生的影响力毋庸置疑,赞答比惊人,其答案和问题浏览次数的相关度也很高(这意味着问题浏览数的增加有极高概率带动赞同票的获取),尤其在其最专注的话题 “李开复(人物)” 中(囧),问题关注和答案赞同之间有着接近线性相关的相关系数,表明开复先生在知乎是有一大票铁杆粉丝的。但是开复先生的数据中也显示出,其藏赞比并不高(0.26),属于抽样人群中的中等水平。什么样的情况会导致赞很多,藏不多呢?我一般认为,如果答案的内容价值较高,干货很多,会吸引到更多的收藏次数,而光环票,人情票,跟风票,以及引起读者共情的答案(例如吐槽以及煽情),较容易获得赞同,但是不容易收获收藏。当然,开复先生的赞藏比也并不属于低的。开复先生回答的问题,题均浏览次数分别5.5K+ 和 6K+,远超39位知友的平均值,开复先生的影响力可见一斑,而且开复先生答均750多字,属于非常高的值,可见开复先生对于每一个答案都较认真的投入了精力作答。此外,从开复先生的话题分布来看,开复先生更多得把知乎当作了一个作为名人及其官方身份,和公众进行互动的媒体平台。而且是属于职业范的平台。开复先生在知乎上更多得是以自己的职业身份出现。连微博上常见的他关于政治,关于青年人引导的内容,都不多见。进一步的,开复先生作为一个个人的知识与经验分享就鲜见了。开复先生仅凭专攻“李开复(人物)”一个话题,就能斩获261.65的赞答比,在“创新工场”话题中,每不到3个字就能获得一个赞同,这样的粉丝会,绝大多数人是不能拥有的,所以借鉴价值不大(当然后者的字数/赞同还有比开复先生更NB的大牛,我们后面再说)知友2:关注者 175,534好吧,这个也匿不住,这关注数,这话题,明显是继新的。好吧,这个也匿不住,这关注数,这话题,明显是继新的。继新的数据很有意思(包括一些尚未贴出来的数据),很明显得看出了一个运营者的身份(其他几位知乎的工作人员的数据也类似),其发言被很明显得压抑在了知乎的相关话题上(尤其过了知乎运营的初期以后)。即便是如此刻意得压制,继新在苹果话题上的心血投入也搂不住(答题数,还有题均字数),一个热情的铁杆苹果粉丝的形象就呼之欲出了。当然,“知乎”这个话题在知乎并不属于大热,(继新在知乎话题下的问题题均浏览只有700多),导致继新在知乎话题下的赞答比都不到15(远低于其平均水平),但是其赞同和浏览的相关系数却远高于平均水平(0.784 : 0.553),说明其在知乎这个话题中的权威程度和受认可程度(废话,这是当然的)。需要大家开始关注的是知乎内的一个神奇话题:调查类问题。这个话题的神奇之处我们下面再慢慢讨论,单就继新的数据来看,调查类话题是继新最讨好的话题,拥有最高的赞答比和最高的文字效率。而继新另外两个比较突出的私人化,受欢迎的话题是“英语”和“情感”,基于此,我觉得继新可以考虑去泡一个洋妞。至于继新关于创业的话题,我就不说了,相比知乎团队中另外一位老大周源,实在不能比。周源话题特征就是除了知乎就是创业,除了创业就是知乎,两者占据了周源话题的绝对重心。向这样的创业者致敬,具体周源的数据篇幅有限,我就不贴了。知友3:关注数 107,526好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。三表哥在音乐方面的专业度和投入程度一目了然,但是可以看到,很明显,三表哥赞同来源的主要发动机来自一些大热话题。从这点上可以看到,赞同受到话题本身热度的影响有多大。(在上图最后的4个关于话题的图表中,左边两个表格可以视为是这位知友最专注,最投入的话题,右边两个被视为是他最容易受知友认同的话题,最讨好的话题,下同)此外,三表哥的藏赞比只有0.08,在39位知友中倒数第三,不能不说是槽王不可避免的遗憾。知友4:关注数 90,793这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。篮球就是张公子的命啊。张公子在篮球话题下的浏览关注相关系数是0.818,神数据,也就是说,基本上张公子说篮球,大家就一脸痴迷得边听边点头即可。张公子回答的答均字数前10个话题,除开“张佳玮”这个话题以外,全部是NBA及NBA的子话题,张公子的投入和专注程度可见一斑。但是等等,张公子在篮球话题下的赞答比只有29.67,远低于他在所有话题下的平均值57.54.....张公子一代篮球作者大神。。。在知乎的赞同收割机还是得依赖爱情,情感,调查类问题。。。相类似的游叔,三水哥等一大票人的类似数据,我就不贴了,他们分别在电影啊,金融啊,日本啊等话题领域专注写作和大量投入,却都是在热门话题中大量高效得收获赞同。所以吧,其实什么赞答比什么的,都是浮云,话题才是王道啊。。。知友5:关注数:61,369恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。即便如此,“知乎建议反馈”依然在一片数学话题中,强有力得占据一席之地,如果这都不算爱。。。。继新快来看看吧!基于这样的话题状况,陈浩大神能够拿到20以上的赞答比,在数学这么冷门的话题领域拿到13.6的赞答比,这份耕耘,值得让人脱帽致敬。虽然平均赞答比要比数学领域高深多,但是数学领域浏览赞同相关系数要高很多,专业性一目了然。知友6:关注者:46,546恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。要是类似特征的数据出现在什么企业数据中,我最喜欢了。稳定,厚重,扎实,用一句话形容叫“重剑无锋,大巧不工”这是所有知友中数据最均衡厚重的一位了。社科人文话题的集群全面凸显,这样的底蕴,让人赞叹。即便如此,他的赞同收割机中,调查类问题,和人际交往两个话题,嘿嘿,也是漏一尖角啊知友7:关注者 6,979如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。赞答比70.70,39位知友中名列第二,仅次于开复先生藏赞比0.46,39位知友中名列三,一代干货大神(另外向前两位干货大神MJ勺子和麦琪姐致敬,分别为0.56,0.51)赞均浏览38.29,仅次于开复大神,和张公子,名列第三答均字数是39位知友中唯一破1000的,位列第一这可是只有不到7000关注者的知友啊!!他的话题主要是建筑学,没有大热话题收割机啊!!唯一可以说说的是他目前答案还太少,才141个,未来回答多了,数据是否会变化,值得关注。来知乎也才134天,平均每天作答1.05个,知乎运营团队应该好好关注下啊,毫无疑问的优质潜力知友,未来可必定是建筑类话题领域的一大神啊。知友8: 关注者:1816这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。神话题:调查类问题的展现。知友9:关注者 548人恩,这位知友的数据。。。恩,这位知友的数据。。。赞答比0.99,39位知友中倒数第二答均字数22.2,39位知友中倒数第一日均答题:22.21,39位知友中第一答均评论:0.59,39位知友中倒数第一(引起不了兴趣和互动啊)最诡异的数据是藏赞比是0.01,藏赞比不是藏答比啊,槽王三表哥在10万粉的簇拥下也就是0.08的水平啊。IV 分析我将39位知友中,知乎运营者3位去除,剩下36位知友,按照粉丝数量分为三个区间,做了一些统计:20000粉丝以上:15位 称为为A区间粉丝:7位 称为B区间1000粉丝以下:14位 称为C区间做了一下分析,发现以下规律:虽然有上面的建筑潜力大牛知友的特例,但是赞答比和用户的粉丝数量是强线性关联,其相关系数是0.853,这两者数字本来就是相互促进的事情,但是粉丝数量对赞答比的影响更直接一些,说明总得来说知乎光环效应是存在的。赞答比作为一个独立指数,价值并不大。(前不久有知友专门强调赞答比来着)答案字数越多越容易获得赞同?初看似乎确实是这样,但是实际上答均字数和赞同数的相关系数总体只有0.330 ,对于不同的知友,字数多寡的价值完全不同。其中有一位知友的字数的赞同的相关系数达到了0.77,在其专注的话题内,这一关联系数达到了逆天的0.99,几乎就是硬相关了,潜力大大的啊(他的关注者只有181人)而大多数知友,字数和赞同的相关系数都不高,甚至有部分知友是负相关。大部分知友(72.2%),在其专注话题内,答案字数和赞同数的关联,比起他自己的平均数值,明显提高简单的说就是,一般来说,知友在自己专注和擅长的领域里,回答字数越多,获得赞同越多的几率就越大。回答字数越多是不是越容易获得赞同?哪得看你是谁,也得看你回答什么话题。一图胜千言?事实上,只有两位知友答案中图片和赞同的相关系数超过0.4.。。。回答的问题越热门越容易获得赞同?事实上,名人大牛的光环能够保证自己的答案曝光率不要太低,而平均来说,答题的曝光率,名人大牛未必会更高:36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。而和字数相关一样,大部分知友(77.78%)的答案获得赞与浏览次数相关的相关度,在其擅长的话题内,有明显提高,越是大牛用户,在其专注的领域,就越显得更专业:越是明星大牛用户,一般来说,其话题相对越集中,越专注:(开复先生貌似是个例外,可能和他答题较少有关)91.6%的用户,其答案回答时间和其获得的赞同是负相关,证明知乎考古事业有很大潜力可挖。回答时间久的答案,好处是获得更多浏览的机会比较大,缺点是过了热度过了被翻出来的机会更小,现在明显是后者占了主导V 小结篇幅所限,贴图太多,老出现红叉叉,暂且就贴这么多了。对于知乎获得赞同这件事情,数据分析后可以发现,其实浏览量因素秒杀其他所有因素(例如字数啊,图片啊等等,虽然没有数据,但是我相信什么繁体字啊,泻药啊之类的因素更是浮云)假如要在知乎获得更多赞同,选好问题,获得更多关注固然是重要的因素(浏览量),更重要多的是,专注自己擅长的领域,提高回答的质量和自身的水平,这个因素的重要性是秒杀一切其他因素的。虽然短时间提高自身水平有点困难,但是选好自己专注和擅长的领域,是比较容易做到的此外,“调查类问题”,“人际关系”,“生活”是三个神话题(排名分先后),是光环下的赞同收割机。数据中可以读出的信息有很多,我就不一一列举了,这里毕竟只是为了说明大数据的概念。需要着重说明的是,以上分析仅仅是为了数据分析,设定了赞同获得这样一个主题,并不代表我认为或者建议大家在知乎为了获得更多赞同去努力!当然,这个问题主旨是为了举一个和大数据有关的例子,来形象得解释大数据的概念,所以以上模型和数据分析有诸多局限之处:例如专门找过气的热门问题回答的人,数据很难说明问题大量清理过自己答案的,数据的表现也会比较怪异。知乎话题和子话题的关联关系,我没有抓取相应数据和统计在内。但总的来说,为了说明这么一个大数据的概念,应该没啥太大问题。大数据的作用和价值,基本上就是这么一回事,呵呵。我又再次审视检查了问题,问题里没有“ 简单明了"之类的要求,长长的舒了一口气。第一为在知乎答一个问题作了这么多的准备工作,以前最多就花个10来20分钟收集些数据,这次居然花了2个星期收集数据。。。我不得不说,最近知乎的服务器太不给力了!不过最近知乎服务器老是提问题可不关我事啊,我是模拟WEB端鼠标操作的,2~3秒才做一下点击,不应该对服务器增加太多负荷才是。
大数据是大公司为了卖大钱而提供的大概念,大部分内容是大忽悠。小工程师为了跳个小槽涨个小工资可以学习学习。不做运营数据分析的公司根本无法长久,所以关于数据分析的工作一直没有停过。而微软,IBM,Oracle 的目标是不断的通过Data Warehouse, BI,
Big Data等概念推销他们的方案。可实际上,作为基础设施软硬件提供商,他们真没有他们的目标客户更懂得数据,不管是大数据还是小数据。而真正做运营的公司,不会给你谈大概念,只会关心具体的数据分析问题,比如netflix会关心如何提高推荐准确度,酒店集团会关心如何提高每个客房带来的收入。一旦讨论到具体问题,这些大概念大方法论就帮不上什么忙了。
花时间看了上面的答案,大家都很分享精神。赞一个。“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲本文尝试从三大产业的角度解释大数据的应用及价值。我们知道:第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,第二次工业革命以石油为基础,内燃机和电信技术为标志,第三次工业革命以核能基础,互联网技术为标志,第四次工业革命以可再生能源为基础,_______技术为标志。空白处你会填上什么?欢迎大家讨论。目前可以预测的是,数据和内容作为互联网的核心,哪个行业首先与互联网融合成功,从海量的数据金矿中发现暗藏的规律,就能够抢占先机,先发制人。一、大数据的应用大数据时代已经到来,根据IDC和Mckinsey的大数据研究报告。大数据挖掘商业价值的方法主要分为四种:顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动。模拟实际环境,发掘新的需求同时提高投入的回报率。加强各部门联系,提高整个管理链条和产业链条的投入回报率。发现隐藏线索,进行产品和服务的创新。Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》(后有下载链接)Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》(后有下载链接)所以从理论上来看:所有产业都会从大数据的发展中受益。而由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。1985年,我国国家统计局明确地把我国产业划分为三大产业:农业(包括林业、牧业、渔业等)定为第一产业。工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。把第一、二产业以外的各行业定为第三产业。第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。(1).第一产业孟山都(),农业孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。天气意外保险公司(),农业The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。土壤抽样分析服务商(),农业Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。了解更多:(2).第二产业2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be an MRI technologist
and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。第三方认证机构(),工业德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称D?V)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。D?V当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。工业自动化软件商(),工业Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。了解更多:(3).第三产业健康与医疗:的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况。等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑,进行进一步分析。美国公共卫生协会()开发用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。房地产:针对建设、改造和翻新住宅的“一站式商店”拥有约250万承包商、5万以上客户意见信息,来帮助50万用户带来更多客观性和透明度的决策意见。智能电视和机顶盒能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。交通:每天坐公交,智能手机会为我们预测公共汽车到达的时间;开车的时候发送位置信息以及速度,然后结合实时交通信息为我们提供最佳路线,从而避免堵车。WNYC开发的让纽约人可以点击纽约市的五个区域来获取地铁或火车的时间。他们从开源行程平台OpentripPlanner获取数据,并将这些数据域公开下载的地铁时间表结合来创造400万虚拟旅程。实时车辆交通数据采集商可以帮助你避开堵车,每位用户在使用过程中会给服务器发送实时数据,比如走的多快,走到哪里,这样每个客户都是探测器。购物:帮助人们做购买决策,预测产品的价格趋势,告诉消费者什么时候买东西最便宜,做法是通过在全球各大网站上搜集数以十亿计的数据进行分析。政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于最有可能投他的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到企业和非营利行业中去。金融: 是由是Google的前任 CIO—Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。这家公司经历了近 4年的成长,能够分析的数据量比有资格进行次级信贷的美国人的数量的 2 倍还多,其违约率也比行业平均水平低 60%左右。另外不得不提到风险管理信用技术的先驱者,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。电信:采用平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国新成立一家公司,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国公司发布了新的安全数据分析服务Assure Analytics—,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。以上只是冰山一角,欢迎大家补充。二、大数据的定义大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。看看专家们怎么说。Gartner,独立的咨询公司Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.“大数据”四大特性:高容量、高增长率,高维度,高性价比。舍恩伯格,不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。 埃里克·西格尔,大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。城田真琴,从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 三、大数据的价值看了上面一系列的例子,相信每个人的心中关于大数据的价值都有了自己的答案。2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。以下是原文:Limits of Predictability in Human MobilityA range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。实验的重复、数据的积累让预测未来不再是科幻电影里的读心术。你能获得的数据量越大,你能挖掘到的价值就越多。如果银行能及时地了解风险,我们的经济将更加强大。如果政府能够降低欺诈开支,我们的税收将更加合理。如果医院能够更早发现疾病,我们的身体将更加健康。如果电信公司能够降低成本,我们的话费将更加便宜。如果交通动态天气能够掌握,我们的出行将更加方便。如果商场能够动态调整库存,我们的商品将更加实惠。最终,我们都将从大数据分析中获益。四、结束语。Here's the thing about the future.关于未来有一个重要的特征 Every time you look at it,每一次你看到了未来 it changes because you looked at it.它会跟着发生改变 因为你看到了它 And that changes everything else.然后其它事也跟着一起改变了 推荐一部电影:祝每一个DMer都挖掘到金矿和快乐:)参考文献:[1].《大数据时代》作者维克托迈尔舍恩伯格的演讲[2].[3].[4].[5].[6].[7].[8].[9].[10][11].
于百万军中取上将之头,如探囊取物耳。------------------------------------------------------------说这句话不是为了装逼。而是想说,以往的数据更依赖于样本分析,没有条件做大数据。所以不同途径拿到的样本结果一定有各自的偏差,例如你在全国的党员和非党员中发起一项调查,“中国公务员的收入是否太低了?”我相信结论一定不同。而理想状态的大数据,应该是手中握有百万军,在必要的时候可以拿出“会钩镰枪的”“会发冷箭的”“善于偷东西的”“有背景的”等各种精准数据人群。
子柳的答案虽然得票最高,但没有提及大数据在应用时最重要的特点:相关性。大数据,简单理解就是很多很多数据,重要的是很多很多各种类型(人工判断不出或无法判断,但实际是相关的)数据。然后我们怎么发现和利用这些数据间的相关性才是大数据应用的核心。答案中提到的bra销售数据在不同cup型的分布或者基于颜色,省份的统计,这些都是相关关系如此明显的数据。在大数据时代之前,甚至是信息化之前,人工就可以统计和分析出来。单独列举这些数据来回答原PO的提问,简直是鸡同鸭讲。还是以bra的销售数据来举例,说一个相关性没那么明显的例子:下单时间。进入信息化社会之前,做销售的人对时间的敏感主要就是利用节假日促销,傻子都知道可以趁着妇女节、情人节、元宵节等等众多男士的受难日来搞bra的促销。而现在,淘宝上每一张订单都有下单时间,甚至连顾客什么时候开始浏览某一件宝贝,是否经历n分钟跟售前客服的讨价还价,最后在几点几分下单成交,这些都是被收集起来的数据。如果我们把下单时间跟bra的销售数据关联起来,通过研究找出两者的相关关系,可能得出我们根本想象不到的结果。做促销的可以专门选择在bra热销的时段投放广告,商家可以知道哪一个型号最能激发消费者的购买欲望(从浏览到成交的时间最短),消费者可能发现自己在按照固定的频率去采购bra。相关性更加隐晦的例子可以举出很多,比如顾客日常的饮食跟bra的cup是否存在相关关系?更复杂的,顾客购买bra的档次提高了,同时她购买的其它商品也提高了档次,穿着风格开始走职场中层女性的路线,那么是否可以推测她获得了晋升?对于做职场服装的中高档品牌,这个是从女屌丝成长起来的客户啊,现在是让客户建立品牌第一印象的大好机会。发现数据之间的相关性,现在还需要精通数学、统计学的人去研究。以后工具成熟了,可能只需要用户在输入各种数据之后,勾选其中几个属性,软件就可以自动分析出相关关系。利用大数据(数据的相关关系)去实现什么,只局限于你的想象力。
大数据时代的价值不在数据量大,如果只是所谓的大样本,说句不好听的话就是垃圾数据。大数据的真正内涵和价值在于这些数据不仅仅有观测数据还是行为数据,不仅仅样本数量多,而且每个样本维度多。大数据目前的应用比较局限于商业特别是电子商务和金融领域。未来最有潜力的应用个人看好保健、旅游和教育市场。
看了看排名第一的答案,真的很符合知乎的流行风格。前两天读了本关于大数据的书,这里做些摘抄,可能对提问者有帮助Viktor Mayer-SchonbergerKenneth Cukier大数据时代处理数据理念的三个转变:1 要全体不要抽样2 要效率不要绝对精准3 要相关不要因果4 大数据也会经历硅谷臭名昭著的技术成熟度曲线(炒作周期),经过新闻媒体和学术会议的大肆宣传后,新技术趋势一下跌到谷底,许多数据创业公司岌岌可危5 真正的革命不在于分析数据的机器,在于数据本身和我们如何运用数据6 人类储存信息量的增长速度比世界经济的增长速度块四倍,而计算机数据处理能力的增长速度则比世界经济的增长速度块9倍7 大数据使得人类对数据的看法由因果关系转向相关关系8 全数据模式:样本=总体9 大数据是指不用随机分析法这样的捷径,而采用所有数据的方法10 我们总是习惯的把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限定的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢的,我们会完全抛弃样本分析。11 大数据的相关关系分析法更准确,更快,而且不容易受偏见的影响。12 渐渐的,公司所持有和使用的数据也渐渐纳入了无形资产的范畴13 大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员- 正如公司内部的会计人员和进行鉴证的外部审计师。
这些新的专业人员是计算机科学,数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密,就像现在的审计员和其他专业人员所做的一样。他们可以评估数据源的挑选,分析和预测工具的选择,甚至包括运算法则和模型,以及计算结果是否正确合理。书上标明的利用大数据的实例:1 2009年,google通过分析5000万条美国人最频繁检索的词汇和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行了比较,通过分析人们的搜索记录赖判断人们是否患上了流感,建立了一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。2 2003年,Oren Etzioni 建立了Farecast公司,利用大数据,预测机票的价格走势以及增降幅度,能帮助消费者抓住最佳购买时机。具体操作方法:Oren 找到了一个行业机票预订数据库,通过每一条航线上每一驾飞机内的每一个座位一年内的综合票价记录,得到一个预测结果。3 Mark Duggan 利用大数据分析11年间64000场摔跤比赛的记录,来寻找异常性。4 google的翻译利用大量数据来提升自身的准确度,而不是使用更好的算法。5 MIT , The Billion Prices Project, 美国劳工局每个月都要公布CPI , 这些数据对投资者非常重要。 MIT的Alberto Cavell 和 Oberto Rigobon通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。这个项目在2008年9月雷曼兄弟破产后就发现了通货紧缩趋势,然而依赖官方数据的人到11月份才知道。淘宝消费指数:TCPI6 沃尔玛就是利用大数据把蛋挞在季风季节放在最前面7 大数据,Target, 女性怀孕。8 纽约Con Edison公司通过大数据来有针对性的对井盖进行维护。9 Matthew Fontaine Maury 利用大数据为美国海军制定新的航海路线,使得航海路程减少了三分之一。10 google利用公路上的手机预测交通变化11 flyontime 预测机场天气
夜深人静的时候悄悄来答一个,已经有那么多答案了估计也没啥人会注意= = 由于资料原文是英文,我在数据分析领域又是个完全外行,很怕名词翻译得不准确闹笑话,所以有不确定的就引用原文,并不是装逼...最近刚好在研究一个做大数据的上市公司,叫splunk,当初读卖方报告的时候累死累活地想搞清楚大数据到底是个什么概念,到现在貌似也没全搞清楚。按照我目前的理解,大数据是和传统的structured data相对应,指用传统Business intelligence软件不可分析的unstructured data,例如log file, click stream, 社交网络数据,视频等。其中unstructured data又分human generated和machine data,根据摩根斯坦利分析,machine data约占总unstructured data的15%。Splunk是做machine data这块的索引和分析的。之前提到,在splunk这样的软件出现之前,Business intelligence的供应商像SAP, Oracle, IBM这些,都只做structured data的分析。以下是结构化数据的两种类型图:由此可见,要分析结构化数据的前提就是定义数据结构,而企业在运营中产生的非结构化数据的特点之一就是数据结构非常多样化,这导致了绝大部分数据无法被relational database所分析,即使有少部分可以,把那些数据塞到结构化的框架里所花费的成本也远远大于收益。于是,在新时代的感召下,锵锵锵——Splunk诞生了!(我真的不是做广告的...)它的卖点之一就是无需提前定义数据结构,可以实时汇总、索引和分析企业运营中产生的所有machine data(包括应用日志、web、点击流、配置文件等等等等由设备产生的数据)。不要问我他们是怎么做到的,我要是知道我也能去开上市公司了...然后就回到了楼主的问题,分析这些数据的应用价值在哪?以下是splunk提供的一些案例:案例1:梅西百货在促销期间每分钟会收到130个订单和1000000+AUDV,他们只能多加两倍(tripled)服务器的数量来防止页面在关键时刻挂掉。以前,一旦这些服务器中的一个或者其他环节出了问题造成系统瘫痪,IT部门要手动查找问题的来源,有些问题比如hung thread也许完全无害,也许会造成灾难性后果,所以这个过程通常要花好几个小时。现在有了splunk,他们得以实时监控所有的系统数据并且设定报警,一旦有异常,分析员可以马上挖掘到数据来源,然后在造成系统崩溃之前修复或者隔离,成功地在假日购物季实现0系统瘫痪,以往每个系统瘫痪造成的损失在$100,000。对梅西百货来说splunk给他们带来$5,000,000收益。案例2:美国一家通信服务运营商MetroCPS发现有些用户共享了他们的“无限通话套餐”,通过实时监控和分析信号塔的log可以能找出这样的不良用户,也可以通过通话流量和信号塔performance的相关性分析提前掌握到可能会失去信号的时间。案例3:一家日本电梯生产商(三菱重工大概= =)用splunk索引进入电梯时刷卡得到的数据,通过这些数据可以得知电梯的流量、时间段、建筑物的总流量等等。先举三个例子,发现自己的翻译语言功底果然烂到死,回头再修改...
想说说大数据的话,一定要围绕这个“大”字来谈。从普通的数据分析进化到大数据,是典型的量变引发质变——它已经完全变成另一种东西了。举个类似的例子:常见的民航客机都是圆头、平伸大机翼,时速从500公里加速到800公里的话,这个造型都没有问题;一旦试图继续加速而接近音速的话,空气阻力和扰流会急速攀升到惊人的地步,发动机燃烧效率、音爆冲击波也会带来无数难题,原先的机身结构难以突破这个障碍,甚至有解体的危险。所以我们所看到的超音速飞机全是尖头短翼、发动机也重新设计过。一番改造之后,已经与亚音速飞机完全不同了。而在上世纪90年代左右,大企业、政府部门和科研机构的数据分析师们也遇到了同样的问题:当海量数据汹涌进入计算机系统,达到了某个数量级时,旧有的数据分析模式开始变得力不从心,必须从根本上重新考虑解决方案。这个数量级究竟是多少,并不像音速那样有准确的数值可测,但可以拿出实例来:哈勃望远镜每天的数据量约5GB;NASA发射的空间探测器每个每天会传回200GB~1.5TB的数据‘;沃尔玛一小时的交易会在数据库存储2.5PB的数据;美国“棱镜”计划从全世界搜集的数据存放在犹他数据中心,预计的存储能力可以扩展到YB级。(MB、GB、TB、PB、EB、ZB、YB,每个相差一千倍;如果用1TB的硬盘来组成1YB,那硬盘连起来能绕赤道三千多圈)为解决大数据难题,发生了一系列的技术革新、算法改进,引入了大量新概念。从神经网络、模式识别、自然语言学习到分布式网络、大规模并行处理、云计算等等不一而足。处理大数据的软硬件系统和思维模式,已经和普通数据完全不同了。“大数据”实际上就是IT行业的“超音速”。(所以说这个问题下面的回答绝大部分出现了偏差,讲的是旧有的数据分析模式,而没抓住大数据的要点。包括用Excel分析知乎用户的也是,虽然是一篇很棒的数据分析,但跟大数据没啥关系。事实上,整个知乎的数据加起来都未必够大数据的入门标准)至于大数据的应用那就太多了,无论是大型企业的决策分析,还是尖端科研项目,或者对城市交通和电网的智能监控管理,都是已经完成的或者正在试图做的。有人喜欢用一大堆复杂的专业术语来谈论大数据,或许是对的,但跟“通俗易懂”挨不上边。我准备讲点目前还做不到,很多人也根本想不到的,或者说,是“大数据”的终极进化形态。下面的三个故事,出自一本漫画《柏拉图之链》。有这样一个都市传说:某大国的军事基地里,有一台超级电脑能够获得全世界每台电子设备、摄像头、手机所收集的信息,包括所有的声音文字和图像(我去,这不就是棱镜吗),并且能反过来控制它们。这本来是A级的机密,却被某个黑客攻陷并利用这套网络来完成你的任何委托。人称这名黑客为“柏拉图之链”。第一个故事:隐形任务东京的少女丽奈,有个心愿是和当红偶像组合同台演出。当她坐在涩谷街头发呆时,忽然接到了另一个神秘女高中生,天野成美的电话,声称能帮她实现心愿。丽奈当然不信,但成美说她可以利用“柏拉图之链”,找到所有摄像头的死角,并且监控在场的所有人,查找他们的身份、爱好、行踪,记录他们的语言,分析他们的动作,预测他们某一刻的视线会转向哪方。通过计算,就会找到一条路线,任何人都不会发现你,任何设备都不会录下你。为了证明这一点,接下来的一刻,赤身裸体的成美就出现在丽奈的面前。而成美之所以找到丽奈,也是因为丽奈是她裸体散步路线上唯一的阻碍。与其等待下一个机会,不如索性拉下水。于是成美分析了丽奈生活中的一切资料,知道了她的心愿,并且拨通了她的电话。至于后面丽奈靠成美和“柏拉图之链”的帮助,和偶像们同台演出却无人发现,又是另一个故事了。(这个故事的启示是,借助大数据能够分析用户行为,并发现那些乍看不可思议的事实)第二个故事:透明怪兽涩谷的中学生中出现了一个都市传说:街头徘徊着一只透明怪兽,它身高十米,巨爪一击能够破坏墙壁,嘴巴里还能吐出酸液。它连续杀掉了几十人,但从没有人目击到它的长相,也没有摄像头录下凶杀现场,所有的推测都来源于现场巨大的爪痕和腐蚀痕迹。于是成美和两个朋友,雏木理香和茅野瞳,打算用“柏拉图之链”来破解这个谜案。三人走访了杀人现场,发现了现场有形状奇怪的血迹;把拍下的血迹发给柏拉图之链,由它去对比每个杀人现场的照片,果然,每一处都有形状一样的血迹。这个形状有什么含义呢?紧接着,成美发现了第二个线索,就是调查了60多个受害者过去一年内的行程后发现的。于是三人来到那个特殊的地方展开调查,而真相是——那座大楼的地砖颜色是随机排布的,乍一看没有任何线索。但从天井中向下看,不同楼层的彩色砖块恰好拼成了那个特殊图案的形状。而所有受害者都踩过的地方,正是图案的中心。那个图案(可能)是某个秘密宗教团体的图腾,为了用恐惧约束信徒,他们也借用了柏拉图之链,一旦发现在任何地方有人踩到了自己的神圣图腾,就会召唤透明怪兽杀死他。而透明怪兽又是什么呢?在调查中误踩到图案的茅野瞳也不停受到袭击:路过工地时,停放着的挖掘机忽然用力挥下巨爪;走过路口时,红绿灯忽然变换,车辆连环相撞。再结合之前受害者们的遭遇,成美得出了结论:由于通过网络遥控操作的重型机械和车辆已经十分普及,杀人者通过柏拉图之链跟踪并预测受害者的路线,在无人观察也没有摄像头的地方控制机械进行袭击。比如,某个女生走在夜路上忽然被砍掉了头,其实是计算好了轨迹,急速甩动起重机的钢索而割掉的。这样就算被发现,也只能认为机器失控,而没被发现的统统成了都市传说。而三人如何借助柏拉图之链解除图腾的诅咒,以及和邪教徒开战,大闹东京,就是别的故事了。(这个故事的启示是,大数据可以在海量信息中筛选出目标用户,并且有针对性地进行处理)第三个故事:点亮灯火成美和瞳准备为理香准备一个特别的生日。在生日当晚,她们一起爬到山坡上,面对着山下的酒店大楼。“三、二、一!”在倒计时结束的瞬间,酒店所有窗户中透出的灯光神奇地排列成了文字:(灯光组成的字是“理香祝你生日快乐★”)(灯光组成的字是“理香祝你生日快乐★”)这是怎么做到的?柏拉图之链调查了当晚所有入住人员的资料,对他们的行踪、性格、家世、人际关系了如指掌,然后在理香生日当晚——住客A:犯下杀人罪的亡命之徒躲在在漆黑的酒店房间,绝望地准备饮弹自尽。忽然电话响起,是母亲的声音:“勇次?打起精神来,妈妈永远站在你这边哦。只是想和你说说话,就这样吧。”电话挂断,“可是,母亲早在八年前就去世了……”男人茫然地站起,点亮了灯,房中又有了光明;住客B:临近联考、拼命补习却越来越丧失信心的考生,自暴自弃地倒在床上,却意外接到了来自心仪偶像的来电:“如果放弃的话就结束了,你一定要努力前进!我会帮你加油的!”少年的表情由惊讶变成坚定,“好!那我会加油!GOGO!”说着,打开台灯,坐在了桌前。住客C:与父母争执而负气离家出走的少女,在酒店被半夜的铃声吵醒。本以为是离家出走被发现,但听筒对面传来的却是自己小时候在班上声情并茂地朗读作文的声音。从稚嫩的嗓音中,少女回想起了自己与父母曾经的温馨时光,不禁流下泪来。她打开灯,站在窗边望着城市的灯火,决定明天就返回家中,与担心自己的父母重聚。只有短短一瞬,整幢酒店大楼的每个住户都按照柏拉图之链的安排和设想,在这一刻点亮或熄灭了屋里的灯光,排成了生日祝福的语句。(这个故事的启示是,大数据可以分析用户的历史行为,并引导他们未来的行为)总之啊,“大数据”以后能做到的事情,绝对是你现在想不到的,它真的好神呢。(题外话)——为什么这种能操控世界的强大能力会被女高中生拿来随便玩,不合理吧!——哆啦A梦一口袋能毁灭世界的道具用来帮野比写作业和对付大胖就合理吗?
淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。五一黄金周,淘宝旅行频道显示凤凰客栈酒店预定量是去年同期的一半不到。
用一句话解释就是样本量够大的统计分析方法呗。给上面论文式答案跪了。
我觉得首先要看为什么会出现big data这么一个新词汇,首先是说数据要多到过去传统的手段无法处理,而这个传统的手段一般就是指的关系型数据库。同时实际上关系型数据库只要投入的钱足够,似乎是看不到处理能力的上限的。这里只要看看银行金融业时怎么处理的就知道了。那么为什么需要big data,一方面是数据量特别大,另外一方面是数据不值钱啊。比如对于淘宝来说,具体的交易数据估计还是入传统数据库的,但是客户搜索了哪些,看了些什么再入传统的数据库就太贵了。在这么两点内容之上进行的发展才是大数据的本意吧,过去处理起来收益不如成本的数据,现在再新的技术下可以获得正向收益了~~。所以我是反对用excel来说大数据,难道大家是现在才知道图表可以这样做吗?同时我也反对把相关性分析、机器学习等强绑定在大数据上,这些确实是目前大数据上常见的业务,但并不是本质性的。说到的这些分析手段也是很多年之前就有了,而且从技术来说算法也是独立在集群之外的。
……怎么没人提到这个最佳答案?Ted Talks 创始人Dan Ariely: 大数据就像未成年人性行为: 每个人都讨论它,没人知道怎么搞,每个人都以为其他人在搞,所以每个人都宣称他们在搞。
如何准确又通俗易懂地解释大数据大家都在干什么。如何准确又通俗易懂地解释大数据应用价值知己知彼,百戰不殆;不知彼而知己,一勝一負;不知彼,不知己,每戰必殆。
大数据就是通过统计分析计算机收集的数据,在人们可能不知道「为什么」的前提下,了解到事物的状态、趋势、结果等「是什么」。这不是什么新鲜东西,不过是最近炒的又一个概念罢了。
样本 → 总数 => 结论 → 真相。【注】→ 的数学意义为「趋向于」。
我有一个"大妈能懂"的解释.大妈: 大数据是什么?答: 和云计算一样牛B的东西.大妈: 懂了懂了, 太牛B了, 哪只股票是大数据的?

我要回帖

更多关于 avr nrf905 的文章

 

随机推荐