你以为对的就是对的吗你是Google吗

一拍脑袋就要用MapReduce?你以为你是Google啊一拍脑袋就要用MapReduce?你以为你是Google啊大数据文摘百家号大数据文摘作品,转载要求见文末原作者 | Ozan Onay编译 | 高宁,朱璇,Aileen导读:MapReduce,Hadoop,Kafka……似乎每天都有新的名词出现,每天都会有看似很酷的新技术诞生。是否我们现在的系统框架已经过时了?是否应该效仿谷歌、亚马逊或者领英的技术和方式?本文作者提出的UNPHAT方法非常实用,它教你如何在急着行动前,清醒的想一想,最适合自己的选择才是对的。除了技术/系统框架的抉择,这个方法对解决生活中的任何问题都是不错的启发。21世纪,每个人都多少有些谷歌狂热症,似乎按照谷歌的方式做事,我就能得到谷歌的财富。比如,作为一名软件工程师,我是否该效仿谷歌建立MapReduce框架?是否应该像领英一样用Kafka来搭建系统?伯克利计算机学院教授Joe Hellerstein会在每次课上会告诫他的本科生:“你不是谷歌,你经营的可不是全球最大的互联网数据服务。”有兴趣可参考视频:https://archive.org/details/ucberkeley_webcast_NSKvCVFmk2E事实上,这个世界上目前只有5家公司在运行着足够巨大需要MapReduce框架的程序。而对于其他公司,只是在 I/O(输入输出)上做了很多不必须的防错工作。你们的数据中心大楼有多少层?谷歌的有4层,上图就是他们位于俄克拉荷马州梅斯县的数据中心。这当然也涉及了更多不必要的费用的产生:一方面你需要做更多的I/O,另一方面你需要从一个使用了很久、相对成熟的系统转移到一个你并不熟悉的系统。这其实是一种大的退步。有多少Hadoop的用户清醒地权衡过这些得失?又有多少用户能对此做出明智的决定?如果你正在使用的技术来源于一家大公司,但是你的业务情景完全不同,你将很难从容地用他们的技术来实现同样的效果。恩,是的,这是另一篇“不要盲目崇拜新技术”的文章。尝试新技术前,先试试UNPHAT法则软件工程师有时会为些荒诞不羁的事情而疯狂。当需要选择实用哪一种技术时,我们会从社交网络里中某人的评论,跳到另一个人的博客,不断的摇摆不定下不了决心,最终陷入到一种疯狂的状态。迷茫中,我们总是朝着那些好像最耀眼的光芒漂游着,却忘记了我们真正寻找的是什么。下一次,当你发现自己在网上了搜索 某些很酷的技术去(重新)搭建架构时,请先用这个UNPHAT 法则对这个新技术进行审视:1. Understand (理解):在你理解问题之前,不要开始思考解决方案。应该从问题入手,而不是从答案入手。在问题的领域思考如何结局,而不是在“解决方案的领域”里选择解决办法。2. Numerate(列举):请列举出多个候选方案,而不是直接选择你喜欢的那个。3. Paper (论文):选定一个候选方案。如果你找到一篇候选方案的论文的话,请阅读它。4. Historical Context (历史背景):在设计和开发候选方案时,请考虑相关方法的历史背景。5. Advantage (优势):权衡利弊。决定使用什么样的优先级来排序所列出的利弊。6. Think! (思考!): 冷静而谦逊地思考这个解决方案与你的问题的匹配状况。考虑出现什么样的情况,你会改变自己的想法?例如,数据集小到什么程度,你会决定放弃使用Hadoop?你不是亚马逊下面是一个很简单的使用UNPHAT方法的例子。我最近和某家公司就是否使用Cassandra对夜间产生的大批量工作流数据进行读取的问题展开了讨论。我读过Dynamo的论文,而且我知道Cassandra是一个Dynamo的衍生物,所以我清楚地了解这些分布式数据库将读写可用性放在第一位(亚马逊希望所有的“添加到购物车”行为永远不会失败)。我也知道他们是通过部分降低数据库的一致性来提高它的读写可用性,这会对传统关系型数据管理系统中的几乎所有特性都会产生一定影响。但是与我交谈的这家公司并不需要将读写可用性放在第一位,因为他们的传输模式是一天进行一次大批量的读写。亚马逊出售大批量商品。如果“添加到购物车”功能偶尔发生故障,他们可能会损失很多收益,但是你的使用场景也是这样吗?这家公司之所以想要使用Cassandra是因为PostgreSQL在读取文件时需要好几分钟的时间,他们认为这是一个硬件限制问题。在问了几个问题后,我们确定了如果需要从固态硬盘中读取一个5000万行、80字节宽的表格的完整的文件,大概需要5秒。虽然这个速度比较慢,但是仍比实际查询快了2个数量级。此时,我需要再多问一些问题(来理解他们的问题),并衡量为防止问题变得严重的5个策略(列出多个候选方案!),但是我已经很清楚地知道使用Cassandra是一个完全错误的解决方案。他们需要去做的是耐心调试原有的结构,或者重新搭建一些数据结构,或者选择其他的技术方案(应该不需要)……但肯定不是亚马逊为购物车所搭建的高读写可用性的关键值存储方案!你不是领英我很惊奇地发现有个学生的公司选择使用Kafka来搭建他们的系统。而他们的业务流程只有每天几十条高价值交易,如果生意好的话,可能一百多条。对于这个吞吐量而言,一个人手工去进行记录就可以完成数据库存储了。相对而言,Kafka是为了处理领英上所有的待分析的事件而设计的:这是一个很巨大的数字。即使是几年前,这个数字可以达到每天处理万亿事件,在高峰时期可以超过每秒一千万的信息量。我同意Kafka对于低吞吐量的工作负荷同样有效,但是相比之下,低了十个数量级的数据真的需要Kafka吗?或许工程师们根据预期需要和对Kafka理论基础的充分理解,“确实”做了一个经过考量的决定。但我估计他们是被一些社交网站(通常是合理的评论)中对Kafka的热情所洗脑,而几乎没有考虑它是否适合这个问题。毕竟……这个是差了十个数量级的情况。回到亚马逊比亚马逊分布式数据存储架构更受欢迎的是能支持他们规模化的面向服务的体系结构:service-oriented architecture(SOA)。Werner Vogels在2006年对Jim Gray的采访中提到,在2001年亚马逊意识到他们扩展前端受到限制,从而设计了一个面向服务的架构最终解决了这个问题。这种想法在工程师中产生了巨大影响,甚至只有几个工程师和很少的用户的创业公司都开始将他们的APP分解为一系列的迷你服务了。但是当亚马逊决定迁移到SOA的时候,他们已有大概7800名雇员,而且销售额超过了三十亿美金。上图:旧金山的比尔·格雷厄姆礼堂可以容纳7000人。而亚马逊决定转向到面向服务的框架(SOA)的时候,它的雇员大约有7800人。我并不是说当你有7800名雇员的时候你才可以转向SOA。只是希望你可以思考,SOA对你的问题而言是最好的解决方案吗?你的问题到底是什么,以及你是否可以使用其他方法解决?如果你说你的50人的工程师团队如果没有SOA就会难以运转,那么我会很好奇为什么那么多大公司使用一个很大但是管理得很好的单个应用程序也可以做的很好。即使谷歌也不是谷歌使用大型数据流引擎类似Hadoop和Spark也会特别有趣:通常,传统的数据库管理系统(DBMS)更适合于整体的工作负载,有时候数据量非常小,甚至可以存储在内存中。你知道可以使用10000美元购买一个千兆的内存条(RAM)吗?即使您拥有十亿用户,它仍可以为每个用户提供1kb的内存。或许对于你的工作负载而言可能还不够,你需要对硬盘进行读写。但是你需要对数以千计的磁盘进行读写吗?确切的说,你拥有多少数据呢?GFS(可扩展的分布式文件系统)和MapReduce是为了处理整个网络的计算量而创造的,例如,在整个网络上重建搜索引擎……上图:硬盘驱动器的每千兆字节的成本(美元)。今天的硬盘驱动器价格比2003年(GFS研究论文发布那年)低了很多很多。或许你已经阅读了GFS和MapReduce的相关论文,而且很感谢谷歌的问题出现在输入输出量而不是容量上:他们进行分布式存储,因为磁盘存储需要太长时间。在2017年你将使用的硬件设备会有多大的输入输出量呢?考虑到你不会需要和谷歌一样的输入输出量,你是否只需要买一个更好的磁盘呢?使用SSD你会花多少钱呢?或许你期望可以进行规模化。但是你有进行过数学计算吗?你累积数据的速度会比SSD价格下降的速度更快吗?你的业务需要增长多少,你的数据才会多到不能放在一台机器上。在2016年,Stack Exchange网站每天收到2亿个请求,而他们的后台仅仅是4台SQL服务器,一台主要服务于Stack Overflow网站,一台为其他事物服务,其他两台用来保存副本。再次重申,你走完整个UNPHAT流程后,可能仍然决定使用Hadoop或者Spark。这个决定有可能是正确的。最重要的是,对于这个问题,你真的选择了最合适的工具。在这一点上,谷歌做的很好:当他们发现MapReduce不是构建索引最合适的工具后,他们就不再使用它了。最重要的是理解问题我上面提到的并不是全新的内容,但也许它能引起你的思考,或许使用UNPHAT对你来说有难以置信的效果。如果是这样,你可以尝试Rich Hickey谈话中(https://www.youtube.com/watch?v=f84n5oFoZBc)所提到的“吊床推动发展”,或者Polya书中(https://www.amazon.com/How-Solve-Mathematical-Princeton-Science/dp/X)写到的“如何解决一个问题”,或者Hamming的课程中(https://www.youtube.com/playlist?list=PL2FF649D0C4407B30)所提到的“科学和工程实践的艺术”。我们希望你可以去思考并真正的了解你正在尝试解决的问题!最后,我想以Ploya书中令人警醒的一段话作为结尾:去回答一个你不明白的问题是愚蠢的。为了一个你并不想要的结局而努力是悲哀的。原文链接:https://blog.bradfieldcs.com/you-are-not-google-84912cf44afb本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。大数据文摘百家号最近更新:简介:专注数据,分享价值。作者最新文章相关文章你以为你会google翻译了??神一样的!google翻译版《最炫名族…【笑话吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:3,333,805贴子:
你以为你会google翻译了??神一样的!google翻译版《最炫名族…
不废话。直接视频!!
我去。。没看人视频的吗?这个碉堡的!!
谷哥太欢乐了呢
Google翻译娘唱周杰伦双节棍
为了顶你的帖子,我特地向工头请了一天假,还预支了40元工资。 天早上5点起床,走了12里的山路,来到一个小镇。花了7元钱坐了一个小时的车,来到了城里。 已经中午了,于是就吃了一碗3元的面,马上跑去市场用16元买了双新新的解放鞋。就近找了一家不用身份证、不用网卡、一小时2元的黑吧。叫老板开了台机子,还吵着要老板帮我申请一个百度账号,再加了你,开进你的帖子后,准备抬起我那穿着新鞋的脚顶你时,旁边的小弟弟叫住了我。 “你想干什么呢?” “顶我朋友的帖子啊,碍着你啦?” 小弟弟嘲笑我说:“不是那样顶啦。” 我奇怪的问:“那怎么顶啊?” 他还真不客气的说:“给我5元钱,我帮你。” 我心想为了你值得。于是就给他钱。小弟弟拿到钱,就随便动了动鼠标键盘说好了。这样动动鼠标键盘就花了我5元钱,真想顶不到你给他一脚。 就这样顶完你帖子了,手摸摸口袋,剩7元钱,刚好坐车回家了,你不粉我,对得起我吗?
你好 如果你平时有网购的需要 而又担心货不对版 卖家售前售后服务态度差等等问题话,那就去有享网吧。 有享网是一家集网购 团购 充值 缴费 订票 旅行等业务于一体的C2B类型的电子商务网站,所有商品均由厂家直接供应 保证正品 价格更低(例如:七匹狼皮带低至59元 市面上价格几千一个的Lv包包 在有享网只需要十分之一的价格)售前售后均有客服一对一服务,免除你的后顾之忧。而在有享网买东西之前只需要在注册帐号的时候填推荐人卡号:就可以享受所有商品的vip价!赶快行动吧,如果您也觉得有享网不错 别忘了把这段话复制下来分享给你的朋友哦!
贴吧热议榜
使用签名档&&
保存至快速回贴你以为谷歌只是做做搜索引擎嘛?!太天真了!
我的图书馆
你以为谷歌只是做做搜索引擎嘛?!太天真了!
大家都知道Google谷歌是全球访问量最大的网站,但它不仅只是搜索引擎领域里的佼佼者,在开发产品这块更是科技巨头,产品范围从无人驾驶汽车到智能设备再到如今很火的VR技术,每次发布新作都让人惊艳和新奇。Phab 2 Pro手机Google与联想合作的全球第一款使用Project Tango技术的AR手机,最大的特色是支持AR技术,能够通过所搭载的相机,实现室内导航、在手机中预览新家电、家具置身家中的景象。Project AraProject Ara模块化智能手机的又一个开发者版本,共计包含六块模组,可以像弹出USB设备那样弹出手机模块。谷歌在手机上的创意层出不穷,在之前还研发过下面这两款Project Ara智能手机———可以监测周围环境和人体变化。拥有11个可互换模块。Google Home外观虽然像一盏台灯,但这其实是一款智能语音助手音箱,内置扬声器和麦克风。这款设备可以听懂你的话,替你安排每天日程,播放网络和手机音乐。Android Wear2.0相比上个版本,这版最大的变化是用户可以不必携带手机,只需要佩戴手表就能完成运动跟踪和接受回复信息推送等。10亿像素相机这项新技术还拥有超强的云处理能力,以便提供即时照片。Nexus Player游戏手柄与Nexus Player配套的游戏手柄。onhub智能无线路由器没有普通路由器的电线烦恼,摆放在家里更加美观简洁。onhub保护套如果觉得路由器光秃秃不好看,设计师还贴心地准备了保护套。选用多种不同材质,木头、虹彩玻璃、3D打印的热塑性塑料等等。nexus 9平板电脑由HTC代工,配备前置boomsound扬声器。my edit铅笔使用了导电墨水,在浏览时如果需要记录可以瞬间识别到电子设备上,极大的提高了工作效率。设计师还研发了一种可导电的装订胶,把电路板和笔记本中写字的纸面胶合,可以根据你在笔记本中的描绘书写迅速查找相关内容。Chromecast Audio采用了全新设计,不再是U盘形状,而是一个带有USB线缆的小圆球,有内置的HDMI连接线。Chromebook Pixel采用了内置的双频段无线技术,并且配备了蓝牙4.0功能,能够随时随地使用。还配备了8到16GB的内存,能够储存大量的数据。Google Driverless Car谷歌无人驾驶汽车通过摄像机、雷达传感器和激光测距仪来看到其他车辆,并使用详细的地图来进行导航。Project Tango配备了一系列摄像头、传感器和芯片,能创建用户周围环境的三维地图。智能隐形眼镜能测量人体内的葡萄糖水平以帮助糖尿病患者监控自己的身体状况。hattrickwear带有可以插入移动设备的扩展槽,用户可以通过两个反射棱镜与上面的手机和摄像头进行交互操作。Google Project Glass一款穿戴式智能眼镜,将集智能手机、GPS、相机于一身,在用户眼前展现实时信息。Google Cardboard Plastic世界上第一款透明VR裝置,具有4D视角、360度音效、先进的触觉系统。本文由普象|森野 整理/编辑,其他媒体如有转载需求请留言征询,谢谢!我只讲事实,见仁见智,各位自己评价!放松身体休息一下每期一部经典视频:【揭秘档案】战后日本的社会改造工程,带领日本走向现代的伟大变革(下)
馆藏&256377
TA的最新馆藏
喜欢该文的人也喜欢分享到微信
使用微信扫码将网页分享到微信
Google 何时回归中国?从某种意义上来说,这个问题是不成立的;因为根据 Google 方面的说法,Google 从来没有退出过中国,它一直都在。
那么问题来了,当下 Google 在中国做什么?
(Google Adwords)
4 月 27 日,在全球移动互联网大会(GMIC)的移动互联网全球化峰会上,Google 商务合作部大中华区高级总监 Paula Wang 登台演讲,对 Google 当前在大中华区的广告合作业务进行了系统的介绍。
Paula Wang 表示,Google 当前在中国的一个其中重要使命就是帮助中国开发者走出海外;目前用户手机上 app 的平均装机量为 20 个、日打开率为 5 个,因此如果让 app 到达更多用户就成为一个新问题。
而 Google 不仅可以为用户提供 Android、Chrome、Youtube 等好用的产品,也能够帮助开发者提升用户活跃度、留存率和盈利能力;当然,作为全球最大的广告商之一,Google 也能为广告主提供精准的广告服务。
虽然普通用户可能对 Google 的广告业务比较陌生,但实际上,广告为
Google 贡献了绝大多数的收入。根据 Google 母公司 ,其在 2016 年第四季度总营收为 260.64 亿美元,其中广告营收为 223.99 亿美元,占比 85.94% 。
据爱范儿(微信 ID:ifanr)了解,目前 Google 已经有 7 款产品,分别是 Chrome、Android、Gmail、Google Maps、YouTube、Google app、Google Play;这些产品在为普通用户所用的同时,也支撑起了 Google 庞大的广告体系。
Paula Wang 最后表示,随着 Google 整体的战略已经从 “Mobile First” 转变为 “AI First”,以及 Google 的 Daydream VR 平台已经初步建立,Google 的广告体系也随之向 VR 和 AI 等领域延伸。
所以说,Google 是无处不在的,即使是在中国。
扫一扫分享到微信
累计已发布 377 篇文章
最近文章:
使用微信扫码关注爱范儿微信公众号
版权所有 & 广州爱范儿科技股份有限公司 2008 - 2018。以商业目的使用爱范儿网站内容需获许可。非商业目的使用授权遵循 CC BY-NC 4.0。
All content is made available under the CC BY-NC 4.0 for non-commercial use. Commercial use of this content is prohibited without explicit permission.
Designed by
Design Studio.
关注 if Design Studio.
微信扫码关注公众号 if Design Studio.
关注爱范儿微信号,连接热爱,关注这个时代最好的产品。
想让你的手机好用到哭?关注这个号就够了。
关注玩物志微信号,就是让你乱花钱。
小程序开发快人一步。
最好的微信新商业服务平台。Google 有哪些逆天的黑科技? - 知乎<strong class="NumberBoard-itemValue" title="1被浏览<strong class="NumberBoard-itemValue" title="9,175分享邀请回答books.google.com/ngramsGoogle在2005年开始项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。Google Books Library Project与Google's Partner Program共同组建成广为人知的 。Google对书籍的处理不仅是扫描,还进行了数字化()与数据化(),这样就巧妙地避开大多版权问题。庞大的数据库甚至孕育了一个新学科()的成立。Ngram就是借用这个庞大的数据库开发的小工具,它有什么功能呢?----------------------------比如,想知道thrive的过去式应写作thrived还是throve,在Ngram里输入这两个词,得到下图。看图的最左端,1900年出版的书刊中,throve出现的个数占该年全部书刊的词汇总量的0.00006%,而thrived是0.00004%,岁月流逝,thrived越来越受到亲睐。今天,书刊中基本见不到throve了。试一下Influenza (流感),发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。看一下全球气候,发现sea levels (海平面)、atmospheric CO2(大气中二氧化碳), global temperature(全球气温)这三个词的热度在近50年飞速增长。各个行业的热度呢?发现制造业在走下坡路,这说明社会在进步,不是吗?我们可以发掘地更深些。举一个例子。限定英文书籍数据库,搜索一位名为Marc
Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。但是,德语书籍数据库中的曲线在年出现了异常的低谷。为什么呢?原来Marc是犹太人,在特殊的年代他的名字被和谐了。再来一个例子,拿下图最右边绿色的这条线来说,人们到80年代末才开始疯狂地谈论“1990”,过了90年代中期,热度慢慢降低。对比不同的曲线,越后期的曲线在过了峰值后下降得越快,说明什么?社会节奏加快,人们更快地失去对过去的兴趣。当然,Google也扫描了英文外的很多语言,包括简体中文。--------------------------------补充信息------------------------------Ngram源自计算机语言目前收录的语种包括但不限于:美式英语,英式英语,法语,德语,西班牙语,俄罗斯语,希伯来语,汉语。Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版的超过40本书中出现过,才会有该年该词的数据点。数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。Culturomics这个词第一次出现是2010年,一篇刊登在Science的文章Quantitative
Analysis of Culture Using Millions of Digitized Books,作者是哈佛大学的Jean-Baptiste Michel 与 Erez
Lieberman Aiden。而这两位也参与了Google
Labs的Google
Ngram Viewer项目。Culturomics(文化组学)这个新词来源于Genomics(基因组学),后者研究人类基因组,文化组学通过定量分析数字化文本研究人类行为和社会文化发展,研究者大量数字化信息,探寻反映在语言和文字中的社会文化现象。在一个名为Culturomics
2.0的项目中,Kalev
H. Leetaru分析包含印刷品和媒体信息的数据库,限定透露出语气、情感和地理信息的词汇。该项研究追溯性预测到2011年阿拉伯之春事件,并成功地预测Osama
Bin Laden的生前所在地,误差在124英里以内。Alexander M. Petersen在其2012年所著的一篇论文中声称,他们发现了“词汇的产生和消亡的显著变化”:消亡得更快,产生得更慢。作者还发现了一个普适的新词生命周期的“临界点”:在其产生的30到50年之后,要么写入字典,要么消亡。---------------------------第一次得知Ngram是来自于一个TED演讲,以上诸多案例也来源于此。其他参考文献3.5K113 条评论分享收藏感谢收起
https://www.zhihu.com/video/548160
这是一款由谷歌工程师开发的神器,通过天才设计师们的设计,结合天才工程师们的代码,让你的鬼画桃符和天才画作智能匹配。至少有以下效用:1.节省时间,如果你是新媒体运营者或者PPT制作者,自己绘制图标或者下载图标都很麻烦,但在这里不会;2.手残党福音,如果你不会画画,那么它可以让你做出专业的内容;如果你是一个已经废了的画家,曾经从绘画道路上下来,并且拥有成型的创造力并且知道自己在做什么,AutoDraw还是比较适合你的。但,千万不要拿去给你的孩子,这会让他们养成惰性,同时,也会限制他们的想象力,你以为你节省了他们的时间,但你可能毁掉了一个毕加索呢!!!!至于你?都已经废了,就这么着吧。不需要下载APP,只需要登录www.autodraw.com,就可以了。But需要科学上网才能使用,很扎心!但,还好我会,嘻嘻~87372 条评论分享收藏感谢收起

我要回帖

更多关于 你以为你是文森特吗 的文章

 

随机推荐