有光之教堂模型的模型要的数据吗?

数据库技术是60年代初开始发展起来的一门数据管理自动化的综合性新技术。数据库的..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
目前,数据库领域采用的数据模型有层次模型、网状模型和关系模型,其中
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口Advertisement
预测模型要大数据还是小数据?
导读:本文通过多了案例,介绍了在使用预测模型时的两种声音,有人认为样本足以支撑预测分析,而且更快捷,有人则支持使用大数据。关键词:&&&
【TechTarget中国原创】 很多数据分析专家都对抱有很大的希望。但是在预测分析世界大会上,演讲者讲到预测分析模型,对大数据并不是很乐观。 StatSoft的高级数据分析师兼数据挖掘顾问Gary Miner表示:“大数据对我来说只是一个炒得很热的概念,并没有什么新鲜的。” Miner认为,对于大数据究竟是什么,仍存在争议。广为流传的是IBM提出的,即规模大、速度快和种类多。但是,要想用一个精确地量来定义“大”数据,这本身就是不精确的。有人说几TB,有人说几百TB。 样本代替总量 Miner的感受是,对大数据,人们言过其实了。相反,分析小规模数据集倒来的更实际。他举了一些医学实验如何通过不足100的病例取得研究成果的例子。因为更小、更精良的数据集更容易过滤“噪声”,获得“信号”。 存储空间的成本正在降低,这让分析界倾向于分析全部数据集。不过Miner 认为通过随机样本,你会更快速地获得更好的结果。 “如果你想从数据中挖掘因果关系,你最好分析小数据集。” 旅游社区TripAdvisor商业部门的分析总监Michael Berry表示,在大数据时代,人们希望通过部署一个技术,就可以解决多种问题。供应商们正在积极迎合这种需求,声称自己的大数据软件可以极大地简化业务分析项目。但Berry认为,这种简单便捷的基本上只是一种幻想。 “这只是一种营销策略,从来没有实现过。” Berry建议,与其坐等大数据软件来解决一切问题,不如去提升自己的预测模型。定义预测模型的变量要比放入模型中的大规模数据有用的多。 Berry认为,在模型中加入更多的数据反而会增加分析的时间。在分析数据集的时候,样本足以揭示总量的规律,而且更快捷。如果分析了100个数据节点之后,样本已经显而易见了,就不需要继续分析剩下的十万个数据节点了。这样只会延长项目,降低收益。 数据质量 并不是每一个人都这样看衰大数据。广告代理商Carmichael Lynch的数据分析战略家Peter Amstutz认为,在创建预测模型的时候,尽可能多的收集数据变量是很重要的。有时,可以通过一个标准记录的数据源积累信息变量,但很多时候,组织会得到大量的非结构化数据。这时,大数据就派上用场了。 Amstutz最近帮助Subaru部署了一个提升建模项目,汽车制造商可以通过它更精确地锁定目标客户。Amstutz表示,他一直在寻找包含客户信息的新的数据源,以便于建立目标客户的个人档案。参照这些变量,广告商就可以更精确地找到目标客户。 数据分析供应商ForeSee移动、媒体和娱乐的高级总监Eric Feinberg认为,最重要的是数据的质量,而不是规模。大数据只有在标准和精确的条件下才有用。 他强调,不同行业应用大数据分析有所不同。在研究销售趋势的时候,明显的峰值只会增加噪点,让人难以判断真实的趋势。而在欺诈检测中,峰值正是分析人员要分析的。所以使用少量样本的时候,销售预测效果较好,但要进行欺诈检测,就得依靠大数据了。 另一方面,更传统的方法或许效果更佳。Feinberg举了医疗器械公司想要完善心脏病客户个人档案的例子。医疗器械公司可以通过收集大数据找到相似客户的共同点,或者花钱找几个心脏病患者过来。 “两者是一样的。甚至后者更难,因为它要花费更多的时间,但结果是一个成熟的数据集。”
如果使用大数据,那么我们可以实现任何承诺;实现充分的商业洞察力并打败竞争对手。然而,目前并没有像之前被广泛宣传的那样,存在大数据的成功实现。
没有理论的大数据是皮毛,只看到显著相关性,但不经检验,没有理论,这样的相关是没有意义的,或许是虚假。
对于三个顶级的Apache项目,本文并未对它们的大量特性和不同之处做进一步描述。不过,一定要记得上面的比较是有局限性的,因为这些系统会一直演化和进步。
Hadoop供应商MapR最近宣布,新版的Hadoop软件发行版包括POSIX代理、为C语言开发者准备的API和针对MapR数据库的跨数据中心表复制。
在波兰,率先采用大数据的是网站、公共部门和其他需要处理大规模数据集的公司,它们最早构建了大数据项目的框架。
TechTarget中国官方微信
本次电子书向IT经理、分析专家以及业务管理者介绍大数据分析的发展趋势,相关技术和挑战。对技术现状进行深入的解读,并为大数据分析项目的落地出谋划策。
在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。
NoSQL数据库公司VoltDB副总裁John Piekos结合多年技术经验,论述了快数据给现代企业架构带来的挑战,他认为,相比于数据规模的爆炸式增长而言,数据速度的快速变化和增长才是数据分析行业面临的主要挑战。
TechTarget中国商务智能网站将众多新兴大数据分析工具打包奉送,包括Amazon Elastic MapReduce、Splunk、Yarn、SharePoint、Teradata QueryGrid和Facebook图谱搜索。
在本次的TechTarget商业智能电子书当中,我们关注了Hadoop 2的新特性、对YARN的技术解析、Hadoop应用实践、常见问题及市场需求。元数据模型在数据统一平台中的应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
&&¥2.00
&&¥2.00
&&¥2.00
&&¥2.00
&&¥1.00
喜欢此文档的还喜欢
元数据模型在数据统一平台中的应用
阅读已结束,如果下载本文需要使用
想免费下载本文?
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢

我要回帖

更多关于 光之教堂分析 的文章

 

随机推荐