大数据计算理论基础本质是什么,基础理论应该怎么理解

什么是大数据,怎么理解和应对大数据时代?什么是大数据,怎么理解和应对大数据时代?IT界大神百家号在大数据与深度学习中蝶化的人工智能。当代人工智能离不开大数据和深度学习算法。我们先来了解什么是大数据,大数据的本质是什么,在大数据时代我们应该如何应对?当我们谈论数据的时候我们在谈什么?在大部分人的日常印象中,数据代表的可能是每月水电煤账单上的数字,股票k线图上的红绿指数,还有可能是电脑文件里那一堆看不懂的源代码。人工智能眼中的数据远比这些广泛。数据的存在形式随着人类文明的发展不断改变,从最初的声音,文字,图画,数字,到电子时代的每一张图片,每一段语音,每一个视频,再到如今互联网时代人类每一次的鼠标点击,用手机时每一次的手指滑动,乃至每一下心跳和呼吸,甚至经济生产中的一切人机动作,轨迹,都已融入数据流。今天的人类已经能够将各种或大或小的事物转化为数据记录,变成我们生活的一部分。数据已经浸染我们生活的每一个细节,就如生物学家所说人体组织的一半是由微生物组成,在数字时代,我们生活的一半已然是数据。在日常生活中,数据的概念对于我们即亲近又陌生。亲近它是因为我们从小就会接触加减乘除这些最基本的数据和算法。步入社会后也在与各种文件报表账单打交道。与此同时,当面对高科技产品中各种关于内存,分辨率等时髦又复杂的数据是,我们又觉得不了解它们甚至没意识到它们的存在。随着大数据,机器算法和人工智能的理念相继到来,这种陌生感会越发加深。那么数据生活距离我们遥远吗?正相反,数据与我们日常生活的联系从未如此紧密过,从没有像今天如此活跃,具体的记录着人类与世界。从最初的计算机,摄像头到家用计算机,智能手机,再到大数据和人工智能,我们不断升级采集和利用数据的方式。而现在,从一辆车的每日碳排放量统计到全球气温的检测,从预测个人在网上喜好分析到总统选举时投票趋势的预测,我们都可以做到。数据将人与人,人与世界连接起来,构成一张繁密的网络,每个人都在影响世界,又在被他人影响着。传统的统计方法已经无法处理这种相互影响的数据,这么办?答案是让机器自己来处理数据,从数据中习得知识。这便是当代人工智能的本质。与传统的数据记录定义不同,这种数据是有“生命”的。它更像是我们身体的一种自然延伸:聆听我们的声音,拓宽我们的视野,加深我们的记忆,甚至组成一个以数据形式存在的“我”。自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现大数据的概念?什么是大数据?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。从概念中可以得知大数据技术的关键 不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。大数据必须具有几大特征:一,大数据的“大”。与传统数据的储存方式相比是几何量级的差距。二,多维度。表示大数据可以对一个事物进行多方位的描述,从而更准确。三,处理非结构数据的能力。未来10年新生数据总量的90%为非结构化数据。大数据通过图像识别,语音识别,自然语言分析等技术计算,分析大量非结构化数据,大大提升数据维度。四,大数据是生生不息的“流”,具有时间性。一是因为数据量巨大,无法全部储存。另一方面是大数据和人类生生不息的行动相关,瞬息万变。五,最重要的是,大数据的大表现为无尽的重复。量变促成质变,在机器智能领域,数据量的大小和处理速度的快慢可以直接决定智力水平的高低。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。IT界大神百家号最近更新:简介:分享科技动态,传递科技资讯。作者最新文章相关文章为什么要认识数据的本质|大数据|人工智能_新浪娱乐_新浪网
为什么要认识数据的本质
为什么要认识数据的本质
  《数据的本质》车品觉著北京联合出版公司
未来没有一家公司,不是数据公司。未来没有一个人,不是数据分析师。大数据时代爆发的喧嚣之后,在大数据下半场,谁参透数据的本质,谁就能破局称王,真正让数据做到从看到用,并将企业真正转化成一个完全将人为决策排除在外的数据公司。  《数据的本质》,一部引领企业与个人破局智能商业时代的落地之作。大数据4大核心本质、智能商业时代核心数字经济引擎搭建之道、大数据变现5大场景、区块链、人工智能、Fintech、新零售……智能商业新趋势一网打尽!既是互联网从业者的案头必备书,也是管理层的决策宝典。  马云如何在管理中用人以及破旋涡?阿里魂彭蕾如何用"脑力、心力、体力"带出金牌团队?沈南鹏如何成为投资巨擘?阿里第一军师曾鸣如何看见未来、锻造终局判断力?数据怪杰韦斯岸如何将Big Data内化为Me Data?……《数据的本质》首度披露数据之王们的数据化思考方式,每一个故事,都将是一段内化数据的历程。  一场以大数据为核心的智能盛宴  时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。大数据时代源自应用所产生的巨量数据,比如微信、淘宝。但是,随后大数据反过来成为应用创新的核心,这个循环无疑为我们带来了一种全新的创新型态,那就是:用数据做好产品,用好产品拿到更多数据。  在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗(
大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。  2010年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫·哈默巴赫(Jeff
Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。  谁掌握“完美信息”,谁就将拥有  整个世界  刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。  现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。  从数据战略到数据治理,别让数  据成为累赘  如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。所以从战略意义上来说,第二使用权的合规性变得非常微妙。  大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。  数据是一种信仰,“善”用才是本质  2016年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。  几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰,我们应该善用这个宝藏,为人类创造更美好的世界。  我们过去常说:“数据不仅是企业与企业之争,更是国家与国家之争。”但是在不远的未来,数据驱动的算法将会影响人类生活的方方面面,若想在社会中获得竞争力,我们无可避免地必须成为自己的分析师。  [作者介绍]  车品觉  阿里巴巴集团前副总裁,首任阿里数据委员会会长。  拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有着独到的见解。  红杉资本中国基金专家合伙人,并担任京东金融专家顾问、国信优易数据研究院院长。同时,他还担任了中国信息协会大数据分会副会长、中国计算机学会大数据专家委员会副主任、粤港信息化专家委员、中国计算数学学会第九届理事、清华大学教育指导委员(大数据项目)、浙江大学管理学院兼职教授等职。
新闻排行榜
八卦TOP 10
明星势力榜
票房排行榜曾鸣:大数据的本质不是“大”
我的图书馆
曾鸣:大数据的本质不是“大”
我们身处互联网时代,可是你真的理解互联网的本质吗?互联网、云计算、大数据,当这三个东西开始正向循环的时候,我们可能就真正迎来跨时代的变化。【互联网】?? &&【云计算】?? &&大 数 据第三个我想跟大家讲一下大数据,这可能是近一年来最时髦的词了。大数据真正的本质不在于“大”,而是在于背后跟互联网相通的一整套新的思维。大数据跟传统的数据最大的差别在哪呢?1)在线。首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。2)实时。大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。3)全貌。大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。这是大数据的三个本质,在线、实时、全貌。为了让大家对大数据有更多的理解,我再把它展开跟大家讨论一下。大家做企业,最容易想到的两个数据应用,一个是市场调研,派个市场公司或市场部门做一个调查,去看下各公司什么反馈。第二个就是商业智能BI、数据挖掘,查看数据经营的报表。这是最传统的两个数据应用。这样的数据应用有几个典型特征:1)要知道准备达成的目标,从而主动收集这些数据。由于每个企业的计算能力跟成本不一样,数据数据保留多少时间、哪些数据能用,是有所不同的。而大数据是实时的记录数据。原则上,任何人上任何一个网站、做的任何事情,所有事情都会被记录下来,没有人事先做区分。所以大家不再去问,是数据就记录下来,所以这是第一个差别。2)第二个差别:参与的人不再是有意识的参与,而是无意识的参与,你是为自己的利益在做事情。你用一次搜索,你就参与了谷歌的大数据搜集,因为你的每次点击就是一个数据来源。如果让你参加一个市场调研,80%的情况下你会拒绝,15%的情况下你可能会要求某种意义上的补偿。很少有人愿意主动的参加市场调研,因为对你来说是个负担。但是线上的大数据对绝大部分人来说,完全是一个无意识的、自利的行为。我上淘宝就是为了买东西,我上微博是为了看新闻,我上百度是为了搜索,你都是为了自己利益而触发的一个无意识的行为,但这个无意识的行为,都为大数据做了贡献。3)第三个差别,一个是单向,一个是双向。我们以前做的数据分析也好,都是先假定一个目的,然后拿到现成的数据,分析行为,来测试我的猜测。这些都是有一个单向的主导。大数据本质上一定是双向的,就像搜索,你点击搜索引擎点击的时候,你是给它输入了数据,它给你的结果就是它与你的互动,就是它带给你的数据价值。这个大数据本身也在随时为你创造价值,这样的话就变成一个双向互动的正循环,双方都给对方贡献了数据价值。任何大数据应用,如果在设计时就没有这种双向、互利的正循环的话,是跑不起来的,本质上就不是大数据。最后一点还想强调的是反应速率,大数据的数据价值越大,它的反应速率就要越高。比如说谷歌的搜索,你输入一个关键字看到的结果,跟一个小时以后再输入同样的关键字得到的结果,很可能已经不一样了。因为它已经把一个小时内全球所有的点击重新计算了一遍,然后把信息做了结果优化再反馈给你。所以大家可以想想看,反馈的速度越快,它创造的价值越大,消费者参与的动机就越大。数据越跑越大、反应越来越快、结果越来越好、用户参与会越来越大,才能变成一个黑洞效应。这是我想讲的大数据的核心概念。&互联网的本质,讲完这三个词基本上已经讲完了。我给大家提供的是一些最基本的思考工具。你怎么用这种思考的方法去解决问题?最重要的是有互联网的思维,你先有了互联网的思维,你才能够去用互联网的技术。讲完了一些最基本的概念之后,接下来给大家再介绍一下基本的推论。基于互联网的本质,我们会得出一些什么样的结论?互联网精神是什么?什么才叫用互联网的思维做事情?我刚才讲的那三个,已经把评判标准告诉大家了,拿这标准往上一套,基本上就知道是不是大数据的应用。那么互联网精神是什么呢?1)平等。为什么是平等?这是由技术决定的,就像生产力决定生产关系。一个网状结构的互联网,是没有中心节点的,它不是一个层级结构。虽然不同的点有不同的权重,但没有一个点是绝对的权威。所以互联网的技术结构决定了它内在的精神,是去中心化,是分布式,是平等,是互动。平等是互联网非常重要的基本原则。2)开放。为什么要开放?你越开放,你跟别人的连接就越多。在一个网状社会,一个“个人”跟一个“企业”的价值,是由连接点的广度跟厚度决定的,。你的连接越广、连接越厚,你的价值越大,这也是纯信息社会的基本特征,是由你的信息含量决定你的价值。所以开放变成一种生存的必须,你不开放,你就没有办法去获得更多的连接。3)互动。无论是从互联网还是从大数据的角度,一定是双向的,互动才创造价值。其实“来往”本身就是互动,有来有往嘛。4)迭代。什么叫迭代?一个想法也好,一个产品也好,得先有原型,扔出去、用起来、别人给你反馈、你把坏处修正,这是一个实时互动的过程,而不再是理论。无论是研发产品还是提供服务,各个方面不再是原来那样通过一个看起来严谨的理论来实施的,更多的是通过实践、通过优化来逼近。所以更多的是计算,不再是数学理论。这是很大的一个差异。以统计为例,统计的理论都是在计算能力不够的情况下,用一种算术的方法找到最想要的,能够倒推出总体的状态。统计所有的力量都集中在理论、数学理论,而大数据所有的力量都集中在算法的优化。我根本不假定理论,我只是通过一轮一轮的迭代中回归,来逼近真实。用户的需求是什么?首先打出去,然后再校验,只要有双向的反馈,我总是离真实越来越近。所以迭代是互联网整个产品的最关键的一个基石。跟这相关的还有A/B test,这也是互联网的特殊性跟它的技术架构决定的,比如说要测试任何一个产品,我可以把淘宝流量的1%切出来,先给它试这个东西,试完这个程度我再把它放大到20%、80%。迭代跟A/B test的结合使用,让互联网企业的效率远远超过传统企业所能想象的。5)第五点是演化,而不是计划。大家应该有一定的感知了,我刚才讲的迭代也好,A/B test也好,它本质上不是通过一个完美计划来实现的,而是通过一种演化的方式,来逐渐优化、接近更好的状态,这是互联网精神。 我总结,互联网的精神就是:平等、开放、互动、迭代、演化…既然叫精神就要深入骨髓,贯彻到你的产品、服务、团队、组织、运营当中去。 最后总结一下,互联网到底给我们带来什么?从一个最大的角度来说,互联网让我们从工业文明走向了信息文明,从工业经济走向了知识经济。这些话喊了二三十年,正是因为不断的喊,今天我们才可能跨过这个门槛。我把云计算的普遍使用,当做这个社会进入信息时代的标志。当然云计算作为一个公用事业,达到30%或40%的覆盖率,可能还需要十年左右的时间。但是我们应该已经像100年前状态,即年这十年快速发展的状态。同时正是因为有了云计算,大数据变成了可能。如果没有海量数据的存储和计算能力让成本变得非常低廉的话,根本不可能做大数据,数据的成本就把你压垮了。我们在从一个机械系统的时代走向一个生态系统时代,从工业文明走向信息文明,从工业经济走向知识经济。从这个角度看,如果说农业文明时代最重要的资产是土地跟农民的话,工业时代则是资本、机器(机器是固化的资本)、流水线上被异化了的人。工业时代早期考虑最多的是异化的人,因为人也被当做机器在处理。福特另外很有名的一句话是“我根本不需要你们的脑袋,我只需要你们的手跟脚”,所以人只是流水线当中的螺丝钉。资本跟异化了的人,是工业时代最重要的生产要素。到了知识经济的时代最核心的资源,是两个新的东西,一个是数据,一个是知识工人(知识工作者),就是德鲁克(注:彼得·德鲁克,现代管理学之父,其著作影响了数代追求创新以及最佳管理实践的学者和企业家们,各类商业管理课程也都深受彼得·德鲁克思想的影响)在上个世纪末讲的Knowledge Worker。大家可以看到资本“Capital”,在未来再也不会占据那么大的重要性。当然我们整个社会的变化、生产关系的变化总是落后于生产力的变化,所以资本市场的整个评估,还是以股东利益作为最大化作为基本指导思想。企业的管理也会从传统的多层次走向更加扁平、更加网络、更加生态的方式。让 Knowledge Worker 真正能够创造价值,变成任何一个组织和整个社会最重要、最需要突破的地方。我附带提一句,大家要看书的话,有本书还是最经典的,就是德鲁克写的《21世纪的管理挑战》。这是写得最经典的一本书,对未来整个大趋势的变化,用最通俗易懂的方法,阐述了知识经济对于我们每个人到底会怎样。大数据只是知识经济落地最实在的切入口,当云计算有了大数据、有了互联网这样的基础后,这三者是三位一体的。没有云计算,就没有大数据,云计算是为大数据服务的,而整个互联网输出的就是计算能力。人们提过super computer超级计算机,而互联网就是最大的一台计算机,它输出的就是全社会所有需要的计算能力。当这三位一体的东西开始走向正向循环的时候,知识经济就真正开始了。在这个意义上,我们面临着跨时代的变化,而且一切才刚刚开始,未来还有太多太多的可能性。如果不是100倍空间的话,至少几十倍的空间是能看到的。任何一个大型技术革命,早期大家总是高估它的影响,会有一轮一轮的泡沫;但是中期大家往往会低估它的影响,觉得这些不过是概念而已。当你觉得它是概念的时候,它已经开始生根发芽,开始茁壮成长。【内容源自曾鸣教授2013年演讲 节选】曾鸣书院加入方式,点击下图放大认真看哦~“大家好,我是湖畔黑衣人&无论是互联网,还是餐饮、交通、医疗等等都在讲数据…那么,同样都是数据,“大数据”和“传统数据”究竟有什么不一样呢?————————欢迎留言你大开的脑洞”湖畔黑衣人OS:
TA的最新馆藏
喜欢该文的人也喜欢大数据究竟是什么?------它的语义、特征与本质
大数据究竟是什么?------它的语义、特征与本质
摘&&要大数据是一个热门词汇,但大数据究竟是什么?目前学术界和产业界都比较模糊。从混乱的语义中做出语义分析,并从基本特征、哲学本质中进一步揭示大数据的涵义,这些工作对大数据技术的发展以及大众对大数据的理解都具有重要的意义。
关键词大数据、语义、特征、本质
过“”“”“”“”“”局
的。,《》1
“”百度百科则基本引用对大数据,认为大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[8]
“”“”“”“”
“”“”“”
“”周易“”周易周易周易
数据赋予,从此解决了长期困扰人类的信息不对称问题一切都可以被人类所感知、把握和预知。大数据让我们的世界从一个附魅的世界变成了祛魅的世界,数据的阳光把原本黑暗、神秘的世界深处照得通彻透亮。在大数据面前,无论是自然物质世界还是人类精神世界,都从黑天鹅变成了白天鹅甚至是透明的天鹅,大数据成了无所不能的上帝。套用赞美牛顿的一首英格兰儿歌来说,宇宙万物及其秘密都隐藏在黑暗之中,上帝说,让大数据去吧,于是一切都变成了光明!
大数据究竟是什么?这个问题虽然难于用一句话回答,但从大数据的语义中我们知道了大数据意味着数据规模特别巨大,以至于传统的技术手段难于处理。从大数据的4V特征中,我们进一步了解到大数据时代的所谓数据已经从狭义的数字符号走向了广义的信息表征,一切信息都是数据。从大数据的哲学本质中,我们更深入地发掘出大数据现象背后所蕴藏的哲学本质:大数据代表着一种新的世界观,万物皆数据,数据是万物的本质属性,而且随着大数据的发展,我们的世界将变成一个完全被数据化的透明世界。
[参考文献]
李国杰大数据成为信息科技新关注点[J]2012(13):17
作者单位:,教授,博士生导师,
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 大数据的理论基础 的文章

 

随机推荐