长春哪个治疗肝病?owit turns out thatin to你的朋友

&b&持续更新中,欢迎大家先点赞收藏,以下多图:&/b&&br&&img src=&/fadf6df30a1d7433db7bbe_b.png& data-rawwidth=&1625& data-rawheight=&776& class=&origin_image zh-lightbox-thumb& width=&1625& data-original=&/fadf6df30a1d7433db7bbe_r.png&&&img src=&/deac5d59aaa024e2e84b0cfd_b.png& data-rawwidth=&1619& data-rawheight=&502& class=&origin_image zh-lightbox-thumb& width=&1619& data-original=&/deac5d59aaa024e2e84b0cfd_r.png&&&img src=&/33cb48d51f268cfba77b1d6b5fc77eb3_b.png& data-rawwidth=&1681& data-rawheight=&840& class=&origin_image zh-lightbox-thumb& width=&1681& data-original=&/33cb48d51f268cfba77b1d6b5fc77eb3_r.png&&&img src=&/0fc940bd1fa6a173bdba53e03e1d14f0_b.png& data-rawwidth=&1700& data-rawheight=&707& class=&origin_image zh-lightbox-thumb& width=&1700& data-original=&/0fc940bd1fa6a173bdba53e03e1d14f0_r.png&&&img src=&/58b9a800f56f25ad5c70e67b8a604d0c_b.png& data-rawwidth=&1681& data-rawheight=&611& class=&origin_image zh-lightbox-thumb& width=&1681& data-original=&/58b9a800f56f25ad5c70e67b8a604d0c_r.png&&&img src=&/6feda7a23866ece54ab8e5f88c85fbe8_b.png& data-rawwidth=&1684& data-rawheight=&839& class=&origin_image zh-lightbox-thumb& width=&1684& data-original=&/6feda7a23866ece54ab8e5f88c85fbe8_r.png&&截图里是一小部分,一共不到两千个文件,6GB多一点……来自我个人整理的各种各样的渠道汇总,至少在我能触及的不花钱的渠道里,还没看到过这么全的……&br&&br&因为基本上都是能公开的渠道得到的,所以应该不涉及版权问题,就先分享给知友们吧……(如果有律师朋友麻烦评论区说一下这样做是否OK……)&br&&br&整体分享链接挂不出去,只能一点一点更新中:&br&&br&新浪:链接: &a href=&/?target=http%3A///s/1c1QzQ3A& class=&internal&&/s/1c1QzQ3A&/a& 密码: grjm&br&腾讯(含企鹅智酷):链接: &a href=&/?target=http%3A///s/1o8F6w34& class=&internal&&/s/1o8F6w34&/a& 密码: nmde&br&清科:链接: &a href=&/?target=http%3A///s/1c4z4Pw& class=&internal&&/s/1c4z4Pw&/a& 密码: 3swz&br&埃森哲:链接: &a href=&/?target=http%3A///s/1jIjk3Ee& class=&internal&&/s/1jIjk3Ee&/a& 密码: emx6&br&普华永道:链接: &a href=&/?target=http%3A///s/1dEGU05V& class=&internal&&/s/1dEGU05V&/a& 密码: p8a4&br&阿里:链接: &a href=&/?target=http%3A///s/1o8rPSvg& class=&internal&&/s/1o8rPSvg&/a& 密码: aaj6&br&&br&不定期随时更新,赞数多了继续……也欢迎大家关注我的公众号“创业进行时”。&br&&br&顺便推荐自己之前的一个答案:&a href=&/question//answer/& class=&internal&&你是通过什么渠道获取一般人不知道的知识和信息的? - 孔庆勋的回答&/a&
持续更新中,欢迎大家先点赞收藏,以下多图:截图里是一小部分,一共不到两千个文件,6GB多一点……来自我个人整理的各种各样的渠道汇总,至少在我能触及的不花钱的渠道里,还没看到过这么全的……因为基本上都是能公开的渠道得到的,所以应该不涉及版权问…
&b&(全部更新完成!)&/b&&br&&br&谢邀,看过了 &a data-hash=&ffdeb313374afde& href=&///people/ffdeb313374afde& class=&member_mention& data-editable=&true& data-title=&@NiSS267& data-hovercard=&p$b$ffdeb313374afde&&@NiSS267&/a&的答案,感觉很棒,也来写一个长答案吧。&br&&br&在回答之前,先发几张截图,证明一下自己“获取一般人不知道的知识和信息”。&br&&br&知识就不举例了……信息方面举几个例子吧……&br&&br&比如说papi酱2200万事件,我的一篇答案:&br&&img src=&/03d4a7cc24e7b1f7f72d5_b.png& data-rawwidth=&704& data-rawheight=&442& class=&origin_image zh-lightbox-thumb& width=&704& data-original=&/03d4a7cc24e7b1f7f72d5_r.png&&在知乎发布后,被娱乐资本论等各路大号转载(均未获取授权,在此保留权利),浏览量几万次。&br&&br&再比如这篇答案:&a href=&/question//answer/& class=&internal&&成功将装逼的人打脸是一种怎样的体验? - 孔庆勋的回答&/a&&br&更多的例子就不举了,只能说,更值得发到知乎上的内容,我是绝对不会发到知乎上的。&br&&br&OK,接下来说一下,如何获取一般人不知道的知识和信息?在我看来,知识和信息,要分开说。首先,知识本身就是一种信息,然而并非所有信息都能称之为知识。事实上,获取知识之外的各种信息,其难度远远高于获取知识。&br&&br&&b&之所以说获取信息的难度远远高于获取知识,是因为,知识,在大多数情况下都是确定的。&/b&&br&&br&所以,我们还是先易后难吧……比如说,重力加速度的数值是9.8,地球半径6371km,美国《独立宣言》签署于日,氧气的相对分子质量是32等等……&br&&br&而以上这些知识,都是中学教科书的必备内容。很遗憾,虽然我刚刚离开高中校门不到一年,但是以上所有这些,我都是通过搜索引擎才能够确认的。&br&&br&&img src=&/eedaf38b8bd7d47d966b21ae_b.png& data-rawwidth=&549& data-rawheight=&275& class=&origin_image zh-lightbox-thumb& width=&549& data-original=&/eedaf38b8bd7d47d966b21ae_r.png&&我之所以不愿意去记忆这些所谓的知识,是因为当考试的压力已经消失时,我无需时刻掌握这些几乎没有获取门槛的知识——&b&我们也可以称之为一般人都知道的知识。&/b&&br&&br&而另一些知识,可能就没那么容易了。&br&&br&比如,前两天,我在研究征信行业时,需要收集各方面的资料。&br&&img src=&/60df9bbfa1b91baabdde60f36839fa8c_b.png& data-rawwidth=&548& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&548& data-original=&/60df9bbfa1b91baabdde60f36839fa8c_r.png&&如果我按照这些资料写我的答案,恐怕也只能写出一篇软文了……而我最后写出来的答案,自觉还是有一些干货的:&a href=&/question//answer/& class=&internal&&国内征信领域是否将会产生巨头?平安、腾讯、阿里等,谁更具优势? - 孔庆勋的回答&/a&&br&&br&它的资料来源是什么呢?&br&&img src=&/cbda7c9b42e55ffcf886ad9f14b58eeb_b.png& data-rawwidth=&497& data-rawheight=&464& class=&origin_image zh-lightbox-thumb& width=&497& data-original=&/cbda7c9b42e55ffcf886ad9f14b58eeb_r.png&&全球最权威的咨询公司的行业报告。而这份全长几十页的报告,仅仅是我的资料来源中占比不到10%的一小部分。&br&&br&这个例子告诉我们,获取知识,&b&权威性第一!权威性第一!权威性第一!&/b&&br&&br&&b&对于普通人而言,他们需要的大多数知识都可以从公开渠道获得。&/b&&br&比如说咨询报告,你可以选择看艾瑞、易观的……因为他们渠道更多,更容易被搜索到……&br&也可以选择一些更困难,但是依旧公开的渠道:&br&&b&&a href=&/?target=http%3A///& class=&internal&&Home - McKinsey Greater China&/a&麦肯锡&/b&&br&&b&&a href=&/?target=http%3A//.cn/cn/default.html& class=&internal&&BCG - 波士顿咨询公司&/a&波士顿&/b&&br&&b&&a href=&/?target=http%3A//.cn/& class=&internal&&企业管理咨询公司&/a&罗兰贝格&/b&&br&&b&&a href=&/?target=https%3A///cn-en& class=&internal&&Accenture - China&/a&埃森哲&br&&/b&&br&你看,四大咨询公司花几百万做出来的报告,你一分钱不花就可以看到(一部分)了。&br&顺便说一句,很多外企的中文网站会缩水很多,想看更多东西还是乖乖上英文版吧。&br&&br&&b&其实,咨询报告这种东西,其实已经介于知识和信息之间了。而很多数据,则已经与知识无关,更多属于信息的范畴。&/b&&br&&br&&b&比如说,你想了解中国经济,需要知道2014年中国的GDP是多少,你可以最快得到这样一个结果:&/b&&br&&img src=&/d_b.png& data-rawwidth=&548& data-rawheight=&322& class=&origin_image zh-lightbox-thumb& width=&548& data-original=&/d_r.png&&然而,这就是最终结果了吗?当然不是,一个简单的数字完全不足以概括中国经济。&br&&br&如果想对中国经济有所了解,你至少应该去统计局的官网,看一下《国民经济和社会发展统计公报》。&br&&img src=&/c80b04bf549fea51b3c8eb_b.png& data-rawwidth=&983& data-rawheight=&927& class=&origin_image zh-lightbox-thumb& width=&983& data-original=&/c80b04bf549fea51b3c8eb_r.png&&然后那么问题来了……&b&为什么在统计局的公报上,国内生产总值是636463亿元,而百度的结果显示的是635910亿元呢?&/b&&br&&br&这两个数据,究竟哪个才是正确的呢?嗯……到这里看过来就可以了~&br&&img src=&/98ff662da6a_b.png& data-rawwidth=&951& data-rawheight=&816& class=&origin_image zh-lightbox-thumb& width=&951& data-original=&/98ff662da6a_r.png&&我们发现,&b&在2015年的表格中,2014年的GDP的确是635910亿元。&/b&&br&&br&那么难道说636463亿元的数字是错误的?没错!因为每年公报里的数据,都是初步核算的。&br&&b&也就是说,统计局以及各部门每年都会进行审计,对于有纰漏的数字予以纠正。&/b&&br&&br&再举个例子吧,2012年的GDP在2012年的公报里是519322亿元;&br&在2013年的公报里,变成了519470亿元;&br&在2014年的公报里,变成了534123亿元;&br&&br&上述的例子告诉我们,&b&在保证权威性的前提下,不仅要关注知识或者信息是什么,更要关注它们从哪来。&/b&&br&&br&继续沿着GDP的话题。可能说,官方的各种数据有多少水分大家都知道。但是想了解中国经济,每年的统计公报是必看的。而除了政府的数据呢?如果政府数据不公开怎么办?&br&&br&换句话说,如果你想知道中国经济的情况,比较容易。&b&而如果你想知道另外某个国家的经济状况呢?比如,科摩罗群岛的全方位经济状况?你要怎么做?&/b&&br&&br&一般的做法,依旧是百度:&img src=&/5b7aaa1bae9186_b.png& data-rawwidth=&545& data-rawheight=&685& class=&origin_image zh-lightbox-thumb& width=&545& data-original=&/5b7aaa1bae9186_r.png&&&br&看起来,唯一一条有帮助的链接就是第一条。然而,我们打开之后……&br&&img src=&/271a4be3f739f5c34b11ef8c2fbe8392_b.png& data-rawwidth=&758& data-rawheight=&326& class=&origin_image zh-lightbox-thumb& width=&758& data-original=&/271a4be3f739f5c34b11ef8c2fbe8392_r.png&&&br&1983年……&br&&br&而我会怎么做呢?比如说,我会通过这个网站:&a href=&/?target=http%3A//data.worldbank.org/& class=&internal&&Data | The World Bank&/a&世界银行数据库。&br&&br&在这个数据库里,全球各国,过去几十年,以及未来几年的几十项数据,全部可以了如指掌。我记得前几年,我还特地把整个库打包了下来,然后翻译成中文,需要什么资料时随时取用,简直不能更方便!&br&&br&数据库放到另一台电脑里找不到了,我还是在线查找一下吧……&br&&img src=&/c933b04d1c0edd30bedbdcdfa04f30c3_b.png& data-rawwidth=&966& data-rawheight=&908& class=&origin_image zh-lightbox-thumb& width=&966& data-original=&/c933b04d1c0edd30bedbdcdfa04f30c3_r.png&&&img src=&/9f58bce8aaa69b1ae16dce2_b.png& data-rawwidth=&963& data-rawheight=&898& class=&origin_image zh-lightbox-thumb& width=&963& data-original=&/9f58bce8aaa69b1ae16dce2_r.png&&&br&&br&类似的网站还有:&b&&a href=&/?target=https%3A//www.wto.org/& class=&internal&&World Trade Organization&/a&世贸组织官网&/b&&br&&b&&a href=&/?target=http%3A//www.un.org/en/index.html& class=&internal&&United Nations&/a&联合国官网&/b&&br&&b&&a href=&/?target=http%3A//www.imf.org/external/data.htm& class=&internal&&IMF Data&/a&国际货币基金组织官网&/b&&br&原理类似,不赘述了。&br&&br&如果你想知道的不是一个很大的概念,而是仅仅了解一家公司而已——那么你可以用到下边这些:&br&&b&&a href=&/?target=http%3A//gsxt./& class=&internal&&全国企业信用信息公示系统&/a&&br&&a href=&/?target=http%3A//zhixing./search/& class=&internal&&http://zhixing./search/&/a&全国法院被执行人信息查询&/b&&br&&b&&a href=&/?target=http%3A//wenshu./& class=&internal&&http://wenshu./&/a&中国裁判文书网&/b&&br&&b&&a href=&/?target=http%3A//sbcx.%3A9080/tmois/wscxsy_getIndex.xhtml& class=&internal&&中国商标网网上查询&/a&商标查询&/b&&br&&br&我一般不用企查查之类的第三方平台,原因是二手数据,但是有的时候也比较方便,可以一起用。&br&以之前我提过的成都速通为例……&br&&img src=&/6c8573d1cfff8b83cdc3439cabf55a71_b.jpg& class=&content_image&&&br&&img src=&/8e95a457b71de6bc3a6f_b.png& data-rawwidth=&990& data-rawheight=&832& class=&origin_image zh-lightbox-thumb& width=&990& data-original=&/8e95a457b71de6bc3a6f_r.png&&嗯……&b&以上我提到的一些,要么是知识,要么都是公开信息,总之每个人都可以获取的。算是初阶的攻略吧……&/b&&br&&br&至于说如何获取半公开,以及非公开的信息,这个是中阶和高阶的攻略了。&b&我歇一会再说,500赞更新咯!&/b&&br&&br&&b&----------------500赞更新的分割线------------------------------&/b&&br&&br&在继续下去之前,我们首先需要明确的是:&b&什么是半公开的信息?&/b&&br&&br&&b&所谓半公开,在我看来,无非两种情况:&/b&&br&&b&一是,这条信息被有意控制在小圈子里传播,外界难以获得这类信息;&/b&&br&&b&二是,这条信息可以无限制地传播,但是因为种种原因,缺乏传播到外界的渠道。&/b&&br&&br&第一类,举个身边的例子吧,&b&创业公司的商业计划书&/b&。&br&&br&商业计划书是一种典型的半公开信息。一方面,创业者为了找投资等等,不可避免地需要将商业计划书披露给其他人;而另一方面,创业者当然不希望自己的核心团队、盈利模式、发展方向等等被更多人知晓,因此,自然有意控制在小范围传播。&br&&br&而我们看一些项目的商业计划书,其实不过是为了更好的了解某些行业而已。如何才能看到这些半公开的信息呢?其实现在在很多股权众筹平台,都可以看到创业项目的一些信息。比如说&br&&a href=&/?target=https%3A///& class=&internal&&36氪股权投资&/a&&br&&br&当然,如果不经过认证的话,很多东西是看不到的……&br&&img src=&/362be2fa6de_b.png& data-rawwidth=&655& data-rawheight=&310& class=&origin_image zh-lightbox-thumb& width=&655& data-original=&/362be2fa6de_r.png&&至于解决方案也很简单,认证了投资人就可以了,证明一下自己的经济实力总还是需要的。认证后的效果就是这样的:&br&&img src=&/0d904861dbca81cd1a374_b.png& data-rawwidth=&333& data-rawheight=&79& class=&content_image& width=&333&&&br&之后就是畅通无阻了……下图为某创业项目的信息(项目名称和数据名称已经遮挡)。而在网页里,只要点击下边的链接,就可以下载商业计划书了……&br&&br&&img src=&/68decb15fdb6e9d73f22615_b.png& data-rawwidth=&906& data-rawheight=&468& class=&origin_image zh-lightbox-thumb& width=&906& data-original=&/68decb15fdb6e9d73f22615_r.png&&&br&当然,我告诉大家这个方式也绝不是让大家去抄袭项目,只是一种了解行业的手段而已。何况,这种半公开的信息,本身就是给潜在的投资人看的。如果真的遇到了好项目,当然也可以投几个咯!&br&&br&除了36氪,类似的平台还有很多,比如:&a href=&/?target=http%3A///& class=&internal&&天使汇_让靠谱的项目找到靠谱的钱&/a&&br&&a href=&/?target=http%3A///project& class=&internal&&融资 | 猎云投融资平台&/a&&br&&a href=&/?target=http%3A///& class=&internal&&天天投-专业高效的免费创业投融资服务平台!&/a&&br&&a href=&/?target=http%3A///& class=&internal&&牛投网-国内首个社群股权投融资平台&/a&&br&想查看这些信息,基本上都不是一点门槛都没有的,不过标准大同小异,只要认证通过了就可以,算是典型的半公开信息吧。&br&&br&(再说一遍:&b&强烈不建议大家通过这一方式抄袭其它创业项目!创业很难靠抄袭成功!&/b&)&br&&br&总结:&b&对于这一类限制人群但是限制程度不高的半公开信息,最好的办法,就是想办法让自己成为这个群体的一部分。&/b&&br&&br&接下来说&b&第二类:缺乏传播渠道的半公开信息。&/b&举个例子吧,&b&如果你想知道长春一汽的经营状况,该如何入手?&/b&&br&&br&研究财报?上网搜索?甚至是买各种关于一汽的书籍?抱歉,这些都不管用……&b&这又是典型的“半公开”信息,没有人去刻意阻拦信息的传播,但是你根本就找不到渠道……&/b&&br&&br&那该怎么办呢?&b&再次稍事休息,666赞更新……(更新速度实在跟不上点赞增长速度了!)&/b&&br&&br&----------------666赞更新的分割线------------------------------&br&回到长春一汽的问题……我的做法是,&b&去一趟长春&/b&……&br&&br&好吧,我承认我并不是专程去一汽考察的。不过,假设你准备与某家公司合作或者投资时,专程跑一趟,又算得了什么呢?&br&&br&注意,这种考察,一定不能事先打招呼,否则,你所看到的无非是对方希望让你看到的,如此兴师动众也就毫无意义了……&br&&br&我去的时候是冬天,整个厂区非常大,有几十万人,门卫自然不可能挨个认脸,所以我经过门岗时完全畅通无阻。下图就是厂区里拍的照片……&br&&img src=&/213add7b62ec1eb79a596d_b.png& data-rawwidth=&1428& data-rawheight=&838& class=&origin_image zh-lightbox-thumb& width=&1428& data-original=&/213add7b62ec1eb79a596d_r.png&&由于在厂区内部,也就不发太多图了。总之,基本上走遍了旗下几个子公司。当然,车间是进不去的,但是&b&看厂房的陈旧程度就知道固定资产的情况,看空地上的存货就能推断出仓库的积压程度,听厂房传出的声音就能大概猜到生产线的饱和情况……&/b&&br&&br&&b&而通过和工人聊天,可以获得更多的信息。&/b&&br&&br&&blockquote&“喂,师傅啊,这么冷的天,还干活呢啊?”&br&“是啊,我们今天不放假……”&br&“现在咱们厂效益咋样啊?”&br&“唉,能咋样啊?货卖不出去,一个月才XXXX钱……”&br&“才那么点啊?前几年不是挺好的吗?”&br&“唉,这两年因为XXXX,挣得少多了。隔壁X厂就好,他们工人一个月能开到XXXX元……”&/blockquote&&br&OK,就这样工人薪资情况连带着工厂效益以及周边几个厂子的效益情况也搞清楚了。耗时几个小时,走遍整个厂区,调研结束。&br&&br&顺便贴张图,这是我当天的步数(截止下午5点)……考虑到答主身高1米85,自行计算我一天走了多少……&br&&img src=&/b0f36aafc8ffe7e8f10fea6_b.jpg& data-rawwidth=&640& data-rawheight=&1066& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/b0f36aafc8ffe7e8f10fea6_r.jpg&&这个例子想讲述的是:&b&对于这种没有渠道的半公开信息,唯一的方式,就是让自己成为渠道。&/b&&br&&br&&b&先更到这里,很久没码这么多字了,先去休息了。刚才的部分我们已经叙述了:公开知识,公开信息和半公开信息的获取方式,1234赞再更新最后一个部分:非公开信息!&/b&&br&&br&应该是最高能的部分了……等待更新的知友可以先去看看我的其它答案,比如说这篇:&a href=&/question//answer/& class=&internal&&为什么在名牌大学却觉得身边人很平庸? - 孔庆勋的回答&/a&&br&&br&&b&----------------1234赞更新的分割线------------------------------&/b&&br&说到做到……来更新了……&br&&br&嗯……&b&所谓非公开信息,就是只有特定的“某些人”才能掌握的信息了!&/b&相比半公开信息,这类信息的获取难度就更大了,一般,获取这类信息,只有一个方式——&br&&br&&b&接触直接信息源!&/b&&br&&br&之前和一位知乎大V,也是很优秀的创业者聊天,他告诉我,很多时候,&b&赚钱赚的就是信息差。对于公开和半公开的信息而言,信息不对等程度更小,很难靠这种方式直接赚钱。而靠非公开信息赚钱,利润自然不可同日而语。&/b&&br&&br&这类的例子简直不能更多:&b&比如说股票市场的内幕交易、网络安全领域的漏洞转卖、乃至商业间谍。只可惜,已经有很多都已经写在了《刑法》上。&/b&&br&&br&不过,不去考虑那些犯罪行为,其实关于信息差的良性生意也大有可为。举一个前几天的例子,A投资机构对B公司有兴趣,希望找到B公司的老板。然而,就是找不到……&br&&br&&b&这时我果断地对A说,我认识!然后转身找到B,挑明来意,介绍给A,搞定……&/b&&br&&br&当然,这里的搞定仅仅是“两人认识了”而已。至于剩下的合作,就看他们能否达成了。如果谈妥了,六位数的中间费自然是必不可少的……即便谈不妥……我也没什么损失嘛……&br&&br&而重点在于,&b&“A投资机构对B公司有兴趣”,这本身就是一条非公开信息&/b&。而我获取这条信息的途径——是一个微信群……&br&&br&“微信群”?你TM在逗我?能出现在微信群的还叫非公开信息吗?&br&嗯……我没说完,是A投资机构的内部微信群……A机构的总监在群里问大家谁认识,我自告奋勇一下而已……&br&&br&至于我&b&为什么能进入A投资机构的内部微信群呢?&/b&这又是另一个故事了。如果简单地说……情况是这样的……&br&&blockquote&我通过公开信息知道X地有一场创业活动,于是专程赶到了北京。在那里,他第一次听说了A投资机构,于是决定关注他们的公众号。&br&A投资机构的公众号粉丝不多,算是个半公开信息。在一篇推文中,我看到A投资机构正在建一个微信群,于是申请加入。于是,我被拉了进去……&/blockquote&&b&至此,我的所有信息都是基于公开信息得到的,但是最后却利用非公开信息(很可能即将)赚到钱。&/b&&br&&br&至于我为什么会认识估值九位数的B公司老总呢?这又是另外一个故事了……&br&&br&举这个例子,目的是在于再次证明:&b&获取非公开信息,重点在于把握好“人”的节点。&/b&&br&&br&换句话说,&b&想获取非公开信息,你需要认识掌握这一信息的人,而且让他对你足够信任。&/b&&br&&br&那么如何认识这个人呢?无外乎,两种方式:&br&&br&&b&1.线上认识&/b&&br&&b&2.线下认识&/b&&br&好像是废话,其实不然……因为明确了之后,我们发现了一个问题……&br&&br&&b&通过线上认识一个人,90%以上的可能是通过微信社群。&/b&&br&&b&通过线下认识一个人,90%以上的可能是通过各种活动。&/b&&br&&br&&b&所以,作为创业者,想获取信息,就要拓展人脉,想拓展人脉,就要做两件事:一是“加群”,二是“跑会”。&/b&&br&&br&这两件事,共同点是“质量高于数量”。&br&&br&&b&我都加过哪些群呢?&/b&&br&某微信群,里边是百度、腾讯、阿里的前高管以及各种A轮以后的创业者;&br&某微信群,里边是各种平台的网红;&br&某微信群,里边是中国数得上名的媒体人;&br&某微信群,里边是各路大神,专业爆料各种行业黑幕;&br&某微信群,里边是几百个知乎大V;&br&某微信群,里边是各大公司的公关营销高管;&br&某些微信群,例如A、B、C、D等投资机构的自家微信群;&br&以及我自己发起的一个社群,里边是全国各地是90后95后创业者……&br&&br&至于低质量的广告群,自然是一概不加……&br&加群的目的是认识人,当然,也有其他的用处,比如说……抢红包……&br&&img src=&/c29a3fee2fc5b5b545f562b737fcf841_b.jpg& data-rawwidth=&384& data-rawheight=&640& class=&content_image& width=&384&&截图是一天里的一部分……全部是群红包。&b&如何判断一个群的质量?在大多数情况下,群的质量和群里出现的红包金额成正比&/b&,慢慢你就能体会到了……&br&&br&跑会更不用说了,主要看嘉宾的级别。&b&如果是好的线下活动,既能够学到东西,还可以拓展人脉,一举多得……&/b&&br&&img src=&/cdcb30a90cae8f60a0380_b.jpg& class=&content_image&&&br&上图是我去年两个月里参加的各种会议嘉宾证……&br&&b&最后还是推荐一些线下活动的平台&/b&:&a href=&/?target=http%3A///& class=&internal&&活动行 - 精彩城市生活,尽在活动行!方便发布活动&/a&(活动质量整体不错)&br&&a href=&/?target=http%3A///& class=&internal&&互动吧-发活动、找活动就上互动吧&/a&(活动数量多,良莠不齐)&br&&a href=&/?target=http%3A///& class=&internal&&活动家_专业商务会议活动网&/a&(商务会议多,质量高,但是票价很贵)&br&&br&无论是微信群还是线下活动,最终目的都是认识掌握信息的人。而这个过程中,必不可少的环节是“加微信”……当然,加微信不过是第一步,此时不过是“认识”的阶段。然而&b&没有人会轻易对一个仅仅是“认识”的人透露信息——那么问题来了,如何从认识到熟悉呢?&/b&&br&&br&&b&今天法定假日,休假休假!2333赞,最后一次更新!&/b&&br&&b&---------------2333赞更新的分割线------------------------------&/b&&br&其实我想了想,&b&“从认识到熟悉”已经是“人脉打造”的环节,而不算是“获取信息”的范畴。&/b&但是既然已经答应更新,就只好在放假期间继续更新干货了。&br&&br&关于这一点,没办法说太多,借用孔子的一句话:己欲立而立人,己欲达而&b&达人。如果你想让对方给你有价值的信息,首先要让自己给对方产生价值。&/b&&br&&br&再浓缩成四个字:&b&互利互惠&/b&。&br&&br&可能你说:人家很厉害,我很平凡,我拿什么和人家互利互惠啊?&br&而我想说的是:&b&找到自己的价值点,从而做到主动帮助比自己更强大的人。&/b&&br&&br&&b&帮助比自己弱小的人,每个人都能做到,走在天桥上塞给乞丐一块钱就可以,因为他们会主动向你伸手,而你所做的,无非是一种被动的帮助而已;&/b&&br&&b&而帮助比自己强大的人,却困难的多,因为你不知道他们所急需的是什么,更不知道你能不能帮得上他们,而他们更不可能向你开口,所以你必须主动地去思考他们需要的是什么,然后再去想自己能否给他们创造价值。&/b&&br&&br&&b&但是如果你做到了这件事之后,它给你带来的收获可能远远高于你的付出。&/b&&br&&br&&br&这个话题实在太敏感,就不举自己的例子了。比如说,你同时有A、B、C、D四个人的微信,A是投资人,B是创业公司老板,C是知名会计师,D是某行业大公司高管。四个人的共同点是:&b&比你更牛,和你不熟。&/b&&br&&br&某一天,你会看到A的朋友圈发出了这样一条状态:谁认识B啊?我想和他聊聊!&br&B的朋友圈可能会发这样的状态:谁认识靠谱的会计师?求推荐!&br&C的朋友圈可能会有这样的动态:想在某某行业找一些客户?有认识的吗?&br&D的朋友圈也许会发这样的动态:想和A合作一下,麻烦大家介绍一下!&br&&br&&b&没错,这就是信息!而面对有价值的信息,该怎么应用就是你的事情了……&/b&&br&&br&如果是我,我会毫不犹豫,把B介绍给A,把C介绍给B,把D介绍给C,把A介绍给D……&br&&br&注意!&b&前提是,ABCD是同一个层次的人。这样能确保,你做的事情是将靠谱的人介绍给靠谱的人,而不是相反……&/b&&br&&br&也许类似的事情一次两次不会有什么效果。但是,这个过程每发生一次,你都有可能发现新的机会。何况,次数多了,你在A、B、C、D眼里,也就不再是Nobody了……他们会觉得你是一个靠谱的人,而&b&所谓的“有效人脉”,大抵也就是如此了。&/b&&br&&br&&b&人脉有了,信息何须愁?&/b&&br&&br&关于如何获得很多非公开信息,我只能说到这里了。还是那句话,更值得发到知乎上的内容,我是绝对不会发到知乎上的……&br&&br&最后做个总结吧:&br&&br&&b&关于获取知识和信息,分成三个层次——&/b&&br&&br&&b&如何获取公开的知识和信息?靠自己找渠道;&/b&&br&&b&如何获取半公开的信息?把自己变成渠道;&/b&&br&&b&如何获取非公开的信息?让人脉成为你的渠道。&/b&&br&&br&&b&全文终,转载务必私信。顺便说一句,想获取信息,关注高质量的公众号也是一种方式——比如我的个人公众号——创业进行时(cyjxs100)。&/b&&br&&img src=&/621b226fd546c703a3ae60b863cb0d46_b.png& class=&content_image&&&br&&br&&b&-----------------分割线----------------------&br&&/b&&br&鉴于评论区还有好多知友追问,决定再写一点,包括但不限于:&br&&br&&b&当你要面对的是你的对家时,如何从他口中获取信息?&/b&&br&&b&如何依靠自己所掌握的信息获取更多的信息?&/b&&br&&b&如何将已经获取的信息更好地应用起来?&/b&&br&&br&&b&最近实在太忙,没时间更新了,简单说,利用对家的心理罢了~&/b&
(全部更新完成!)谢邀,看过了 的答案,感觉很棒,也来写一个长答案吧。在回答之前,先发几张截图,证明一下自己“获取一般人不知道的知识和信息”。知识就不举例了……信息方面举几个例子吧……比如说papi酱2200万事件,我的一篇答案:在知乎发…
这是我们跟某大数据公司的合作的一个研究...(由于暂时没有征求对方的同意,所以暂时不方便披露)并且代码和数据都可以在我们的云端产品使用:&a href=&///?target=https%3A///community/topic/551& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【滚雪球】雪球滚起来吧,到底我们是否能靠舆情事件赚钱呢?&i class=&icon-external&&&/i&&/a&&br&&br&有一天聊到他们爬了很多很多的数据,而我们是专注在看二级市场的量化研究和交易,提供了回测和模拟交易,那么爬下来的大数据如何可以在二级市场变现呢?我们不就是一个很好的合作吗?拿到数据,理清思路,进行结构化将无规则的数据进行量化 - 规则化,提供易用的Python API,好,策略研究员们可以尝试了 - 只需要证明收益、风险都相对客观,经过模拟实盘、小部分投入资金验证即可了。&br&&br&废话少说,开讲故事...&br&&br&最早是这家拿到了很多很多的乱七八糟的股票相关的舆情数据,那么到底哪些是比较重要的呢?因为拿到的文本数据是非常非常大的...&br&&br&&blockquote&一个符合逻辑的思路是:我们根据关注者数据进行每日选股,一方面考虑新增的关注者数量,同时也考虑关注者的增长率,即新增关注者与总关注者的比例,对这一数值进行排序,进行每日的选股调仓。然后测试这一次选出的10个股票,看看他们这一周的表现,结果比较一般,证明舆情数据对于当日表现的作用明显,应当每日调仓。&br&&/blockquote&&br&因此从中构建了几组数据,包括:&br&&br&&p&1. 某股票昨日新增评论&/p&&p&2. 某股票总评论&/p&&p&3. 某股票昨日新增关注者&/p&&p&4. 某股票总关注者数目&/p&&p&5. 某股票卖出行为(不太准优化中)&/p&&p&6. 某股票买入行为(不太准优化中)&/p&&br&&br&那么对于5,6的构建,我们考虑到兴许应该只考虑大V效应,即社区前5%的大V的调仓记录 - 剔除掉非大V用户即剔除了更多的噪音。这也是雪球100 paper中的选择标准:&br&&br&&img src=&/960bbd55bb65f66c6aaaf3_b.png& data-rawwidth=&721& data-rawheight=&286& class=&origin_image zh-lightbox-thumb& width=&721& data-original=&/960bbd55bb65f66c6aaaf3_r.png&&&br&&br&OK,经过了一系列的洗洗刷刷以后数据clean ready,根据上面的逻辑思想进行尝试运行策略。&br&&br&&b&-------------------最初的结果-----------------------&/b&&br&&br&&br&曾经我们以为我们在做的一个量化策略发现了真正的交易圣杯...&br&&br&&img src=&/48edb547d702b6a857ebba0ac2c841b4_b.png& data-rawwidth=&797& data-rawheight=&681& class=&origin_image zh-lightbox-thumb& width=&797& data-original=&/48edb547d702b6a857ebba0ac2c841b4_r.png&&&br&&br&团队非常开心:也不用在给大家发工资了,年初的时候给大家发第一个月的工资,然后这一年让大家早上九点半开始交易半小时,根据我们这个策略的信号机械执行就行了...然后就能获得下图的&b&1500%&/b&的年化收益率,有着&b&12的Sharpe&/b&的一个策略...这意味着什么呢?如果年初我们给一个员工1万的工资,年尾他这一万块就变成了15万,比平均每个月工资还多,那我们就不发工资了呗...&br&&br&&img src=&/1e7a952b7ec1c39c301872_b.png& data-rawwidth=&1601& data-rawheight=&481& class=&origin_image zh-lightbox-thumb& width=&1601& data-original=&/1e7a952b7ec1c39c301872_r.png&&&br&&br&&p&初始的10万资金在回测的结尾不到一年时间变成了118万+&/p&&p&当时我们真的很开心,团队大家都觉得“嗯,老板你发一个月工资给我们+这个策略我们就可以今年不要工资啦!”&/p&&p&雪球就可以滚起来啦...&/p&&br&&img src=&/ec1c871c18f5b23e21b13_b.png& data-rawwidth=&745& data-rawheight=&591& class=&origin_image zh-lightbox-thumb& width=&745& data-original=&/ec1c871c18f5b23e21b13_r.png&&&br&涨停、跌停的问题&br&&br&虽然该策略没有考虑到停牌股票的操作(Ricequant已经处理了),不过再深入研究以后我们发现,有些股票舆情热门那么往往也不容易买入、卖出啊 - 因为受到了涨、跌停影响,随后我们改进了策略,剔除掉了这些涨跌停无法买入的股票,结果就变成了这样...&br&&br&&img src=&/c8cea94ce5_b.png& data-rawwidth=&1585& data-rawheight=&537& class=&origin_image zh-lightbox-thumb& width=&1585& data-original=&/c8cea94ce5_r.png&&&br&&br&这样子“改良”之后,仔细验证了落单的股票都不存在当天涨停、跌停或者交易量不够的情况,但是收益急剧下降到了&b&242%的年化收益率&/b&。不过至少还是有6.7的Sharpe,well,虽然不能财务自由了,但是投入点钱每年这么赚还是能做高富帅的,想想也还开心。。。&br&&br&未来数据?&br&&p&接着有一天我们内部在讨论,假如一个并不难的“大数据爬虫”策略可以获得如此显著的Sharpe,那么为什么不会有很多基金base on舆情策略直接赚钱不就好了,来钱不是很容易吗?我们也觉得想继续深挖,那么问题来了...&/p&&p&后来发现,我们在回测当天调用的股票舆情数据其实是&b&第二天早上7点&/b&才生成的,那么意味着在当天早上我们就知道了&b&随后这一整天的股票舆情走向&/b&了!&/p&&p&神马?!∑q|?Д?|p 当时的表情是这样的...莫非注定屌丝依然是屌丝了吗!&/p&&p&战战兢兢地修改完代码,让舆情数据调用的API&b&只能调用到昨天的数据,结果出来了...&/b&&/p&&br&&img src=&/dce81b191f0ba09715b5_b.png& data-rawwidth=&1316& data-rawheight=&528& class=&origin_image zh-lightbox-thumb& width=&1316& data-original=&/dce81b191f0ba09715b5_r.png&&&br&&br&&p&&b&年化收益率现在变成了56.7%,伴随着18%的最大回撤,&/b&只能说还行吧,虽然依然大幅度战胜了大盘!&/p&&p&well...还是继续回头老老实实写代码挖矿吧...可见一个圣杯不会这么容易地出现的... &/p&&br&&p&巴菲特你好,巴菲特再见!&/p&&br&&p&数据是非常有意思的,从中可以发现的确舆情是和股票有正相关的,而让我们设想数据爬取的速度如果达到了秒甚至毫秒级别一次更新,那么会让这个收益更加提高(我们测试了每天和几天甚至一个月的调仓效果都会比较差),是的。。。爬虫也需要更快更强&/p&&br&&p&而我们想要做的更有趣的事情包括看京东、淘宝等销售数据是提前于财报发布的,并且更加真实,上面更有超过100家的上市公司在做生意,还有诸如好评的增加减少也是一个因子,敬请期待。&/p&&br&&p&当大数据配合合适的工具,我们相信会有更有意思的事情发生,不过还是要提示:&/p&&p&股市有风险,入市需谨慎&br&&/p&&p&股市有风险,入市需谨慎&br&&/p&&p&股市有风险,入市需谨慎&br&&/p&&br&&p&重要的话说三遍...仅代表本人的测试看法,不代表Ricequant也不建议不理解的情况下跟随投资。&/p&&br&&p&也欢迎大家关注专栏 : Money Code - &a href=&/ricequant& class=&internal&&&span class=&invisible&&http://&/span&&span class=&visible&&/rice&/span&&span class=&invisible&&quant&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&也会时不时更新有趣的策略和想法&/p&&br&&p&所有的提到的数据都可以在 &a href=&///?target=http%3A//& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 上自己尝试,是完全免费的云端工具&/p&
这是我们跟某大数据公司的合作的一个研究...(由于暂时没有征求对方的同意,所以暂时不方便披露)并且代码和数据都可以在我们的云端产品使用:有一天聊到他们爬了很多很多的数据,而我们是专注在…
这个问题蛮适合我这种老爬虫来回答。&br&&br&&b&0、IT桔子和36Kr&/b&&br&在专栏文章中(&a href=&/p/& class=&internal&&&span class=&invisible&&http://&/span&&span class=&visible&&/p/20&/span&&span class=&invisible&&714713&/span&&span class=&ellipsis&&&/span&&/a&),抓取IT橘子和36Kr的各公司的投融资数据,试图分析中国各家基金之间的互动关系。&br&&img src=&/a9f1d74191bccddedc4a94_b.jpg& class=&content_image&&&br&&img src=&/a2deb2bcd1dc7e30857ca_b.png& class=&content_image&&&br&&b&1、知乎&/b&&br&&a href=&/hemingke/& class=&internal&&沧海横流,看行业起伏(2015年) - 数据冰山 - 知乎专栏&/a&,抓取并汇总所有的答案,方便大家阅读,找出2015年最热门和最衰落的行业&br&&img src=&/4cd39c827e666b84cbd24c79f7ace246_b.png& data-rawwidth=&734& data-rawheight=&378& class=&origin_image zh-lightbox-thumb& width=&734& data-original=&/4cd39c827e666b84cbd24c79f7ace246_r.png&&有空的时候,准备写爬虫分析知乎的关系链。&br&&br&&b&2、汽车之家&/b&&br&&a href=&/hemingke/& class=&internal&&大数据画像:宝马车主究竟有多任性? - 数据冰山 - 知乎专栏&/a&,利用论坛发言的抓取以及NLP,对各种车型的车主做画像。&br&&img src=&/a09c6f0de7e41e9b2c549450_b.png& data-rawwidth=&786& data-rawheight=&295& class=&origin_image zh-lightbox-thumb& width=&786& data-original=&/a09c6f0de7e41e9b2c549450_r.png&&&br&&b&3、天猫、京东、淘宝等电商网站&/b&&br&&a href=&/hemingke/& class=&internal&&超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(三) - 数据冰山 - 知乎专栏&/a&,抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。&br&&img src=&/dec67f28a5d23521acc2_b.png& data-rawwidth=&907& data-rawheight=&227& class=&origin_image zh-lightbox-thumb& width=&907& data-original=&/dec67f28a5d23521acc2_r.png&&&br&甚至还可以根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。&br&&img src=&/23ac5cfac6ecf034fa62b79_b.png& data-rawwidth=&897& data-rawheight=&235& class=&origin_image zh-lightbox-thumb& width=&897& data-original=&/23ac5cfac6ecf034fa62b79_r.png&&&br&&b&4、58同城的房产、安居客、Q房网、搜房等房产网站&/b&&br&&a href=&/hemingke/& class=&internal&&下半年深圳房价将如何发展 - 数据冰山 - 知乎专栏&/a&,抓取房产买卖及租售信息,对热热闹闹的房价问题进行分析。&br&&img src=&/1bc654e9bb342d4eb641ffbbefd8ff5c_b.png& data-rawwidth=&966& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&966& data-original=&/1bc654e9bb342d4eb641ffbbefd8ff5c_r.png&&&br&&b&5、大众点评、美团网等餐饮及消费类网站&/b&&br&&a href=&/question//answer/& class=&internal&&黄焖鸡米饭是怎么火起来的? - 何明科的回答&/a&,抓取各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。&br&&img src=&/f33c64adb95db5c74d333b6b3dd9d943_b.png& data-rawwidth=&915& data-rawheight=&312& class=&origin_image zh-lightbox-thumb& width=&915& data-original=&/f33c64adb95db5c74d333b6b3dd9d943_r.png&&&br&以及各种变化的口味,比如:啤酒在衰退,重庆小面在崛起。&br&&img src=&/aa87e8b9b7c6_b.png& data-rawwidth=&789& data-rawheight=&239& class=&origin_image zh-lightbox-thumb& width=&789& data-original=&/aa87e8b9b7c6_r.png&&&br&&b&6、58同城等分类信息网站&/b&&br&&a href=&/question//answer/& class=&internal&&花10万买贡茶配方,贵不贵? - 何明科的回答&/a&,抓取招商加盟的数据,对定价进行分析,帮助网友解惑。&br&&img src=&/a27ef823eba15810a13ca_b.png& data-rawwidth=&600& data-rawheight=&423& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/a27ef823eba15810a13ca_r.png&&&br&&b&7、拉勾网、中华英才网等招聘网站&/b&&br&&a href=&/hemingke/& class=&internal&&互联网行业哪个职位比较有前途? - 数据冰山 - 知乎专栏&/a&,抓取各类职位信息,分析最热门的职位以及薪水。&br&&img src=&/da726f27c345b2ebeee7b_b.png& data-rawwidth=&828& data-rawheight=&250& class=&origin_image zh-lightbox-thumb& width=&828& data-original=&/da726f27c345b2ebeee7b_r.png&&&br&&b&8、挂号网等医疗信息网站&/b&&br&&a href=&/question//answer/& class=&internal&&如何评价挂号网? - 何明科的回答&/a&,抓取医生信息并于宏观情况进行交叉对比。&br&&img src=&/c0f56f7a0b24ea7948fb_b.png& data-rawwidth=&907& data-rawheight=&273& class=&origin_image zh-lightbox-thumb& width=&907& data-original=&/c0f56f7a0b24ea7948fb_r.png&&&br&&b&9、应用宝等App市场&/b&&br&&a href=&/question//answer/& class=&internal&&你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答&/a&,对各个App的发展情况进行跟踪及预测。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)&br&&img src=&/8bd72ca1d34a859c8e373b_b.png& data-rawwidth=&705& data-rawheight=&227& class=&origin_image zh-lightbox-thumb& width=&705& data-original=&/8bd72ca1d34a859c8e373b_r.png&&&br&&b&10、携程、去哪儿及12306等交通出行类网站&/b&&br&&a href=&/question//answer/& class=&internal&&你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答&/a&,对航班及高铁等信息进行抓取,能从一个侧面反映经济是否正在走入下行通道。&br&&img src=&/096b0c76a3bbe71fe600_b.png& data-rawwidth=&600& data-rawheight=&375& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/096b0c76a3bbe71fe600_r.png&&&br&&b&11、雪球等财经类网站&/b&&br&抓取雪球KOL或者高回报用户的行为,找出推荐股票&br&&img src=&/ccfa9c803c52d_b.png& data-rawwidth=&847& data-rawheight=&629& class=&origin_image zh-lightbox-thumb& width=&847& data-original=&/ccfa9c803c52d_r.png&&&br&&b&12、58同城二手车、易车等汽车类网站&/b&&br&&a href=&/question//answer/& class=&internal&&一年当中买车的最佳时间为何时? - 何明科的回答&/a&和&a href=&/question/& class=&internal&&什么品牌或者型号的二手车残值高?更保值?反之,什么类型的贬值较快? - 二手车&/a&,找出最佳的买车时间以及最保值的汽车。&br&&img src=&/62cae96ee4c1a71b3cba7aa_b.png& data-rawwidth=&767& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&767& data-original=&/62cae96ee4c1a71b3cba7aa_r.png&&&br&&b&13、神州租车、一嗨租车等租车类网站&/b&&br&抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息&br&&img src=&/14edd8948a87_b.png& data-rawwidth=&1257& data-rawheight=&371& class=&origin_image zh-lightbox-thumb& width=&1257& data-original=&/14edd8948a87_r.png&&&br&&b&14、各类信托网站&/b&&br&通过抓取信托的数据,了解信托项目的类型及规模&br&&img src=&/c48f749a00a522c8490dac54fa92f5a2_b.png& data-rawwidth=&1283& data-rawheight=&601& class=&origin_image zh-lightbox-thumb& width=&1283& data-original=&/c48f749a00a522c8490dac54fa92f5a2_r.png&&&br&&br&其实还有很多数据,不一一列举了。只要有爱数据的心和能爬的虫子,一切且有可能。顺利安利一下,抓取数据只是很小一部分,我们更擅长的是数据分析挖掘、可视化以及个性化的推荐。&br&————————————————————&br&更多文章关注我的专栏:&a href=&/hemingke& class=&internal&&数据冰山 - 知乎专栏&/a&
这个问题蛮适合我这种老爬虫来回答。0、IT桔子和36Kr在专栏文章中(),抓取IT橘子和36Kr的各公司的投融资数据,试图分析中国各家基金之间的互动关系。1、知乎,抓取并汇总所有的…
&p&刚好毕设相关,论文写完顺手就答了&/p&&br&&p&&b&先给出一个最快的了解+上手的教程:&/b&&/p&&br&&p&
直接看theano官网的LSTM教程+代码:&a href=&///?target=http%3A//deeplearning.net/tutorial/lstm.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LSTM Networks for Sentiment Analysis&i class=&icon-external&&&/i&&/a&&/p&&p&但是,前提是你有RNN的基础,因为LSTM本身不是一个完整的模型,LSTM是对RNN隐含层的改进。一般所称的LSTM网络全叫全了应该是使用LSTM单元的RNN网络。教程就给了个LSTM的图,它只是RNN框架中的一部分,如果你不知道RNN估计看不懂。&/p&&p&
比较好的是,你只需要了解前馈过程,你都不需要自己求导就能写代码使用了。&/p&&p&
补充,今天刚发现一个中文的博客:&a href=&///?target=http%3A//blog.csdn.net/a/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LSTM简介以及数学推导(FULL BPTT)&i class=&icon-external&&&/i&&/a&&/p&&p&
不过,稍微深入下去还是得老老实实的好好学,下面是我认为比较好的&/p&&br&&p&&b&完整&/b&&b&LSTM&/b&&b&学习流程&/b&:&/p&&br&&p&
我一直都觉得了解一个模型的前世今生对模型理解有巨大的帮助。到LSTM这里(假设题主零基础)那比较好的路线是MLP-&RNN-&LSTM。还有LSTM本身的发展路线(97年最原始的LSTM到forget gate到peephole再到CTC )&/p&&p&
按照这个路线学起来会比较顺,所以我优先推荐的两个教程都是按照这个路线来的:&/p&&ol&&li&多伦多大学的 Alex Graves 的RNN专著&i&《Supervised Sequence Labelling with Recurrent Neural
Networks》&/i&&br&&/li&&li& Felix Gers的博士论文&i&《Long short-term memory in recurrent neural networks》&/i&&/li&&/ol&这两个内容都挺多的,不过可以跳着看,反正我是没看完
 ̄)┍&br&&p&还有一个最新的(今年2015)的综述,&i&《A
Critical Review of Recurrent Neural Networks for Sequence Learning》&/i&不过很多内容都来自以上两个材料。&/p&&p&
其他可以当做教程的材料还有:&/p&&p&&i&《From
Recurrent Neural Network to Long Short Term Memory Architecture Application to
Handwriting Recognition Author》&/i&&/p&&p&&i&《Generating Sequences With Recurrent Neural Networks》&/i&(这个有对应源码,虽然实例用法是错的,自己用的时候还得改代码,主要是摘出一些来用,供参考)&/p&&br&&p&然后呢,可以开始编码了。除了前面提到的theano教程还有一些论文的开源代码,到github上搜就好了。&/p&&br&&p&顺便安利一下theano,theano的自动求导和GPU透明对新手以及学术界研究者来说非常方便,LSTM拓扑结构对于求导来说很复杂,上来就写LSTM反向求导还要GPU编程代码非常费时间的,而且搞学术不是实现一个现有模型完了,得尝试创新,改模型,每改一次对应求导代码的修改都挺麻烦的。&/p&&br&&p&其实到这应该算是一个阶段了,如果你想继续深入可以具体看看几篇经典论文,比如LSTM以及各个改进对应的经典论文。&/p&&br&&p&还有楼上提到的&i&《LSTM: A Search Space Odyssey》&/i& 通过从新进行各种实验来对比考查LSTM的各种改进(组件)的效果。挺有意义的,尤其是在指导如何使用LSTM方面。&/p&&p&不过,玩LSTM,最好有相应的硬件支持。我之前用Titan 780,现在实验室买了Titan X,应该可以说是很好的配置了(TitanX可以算顶配了)。但是我任务数据量不大跑一次实验都要好几个小时(前提是我独占一个显卡),(当然和我模型复杂有关系,LSTM只是其中一个模块)。&/p&&br&&p&===========================================&/p&&p&如果想玩的深入一点可以看看LSTM最近的发展和应用。老的就不说了,就提一些比较新比较好玩的。&/p&&br&&p&LSTM网络本质还是RNN网络,基于LSTM的RNN架构上的变化有最先的BRNN(双向),还有今年Socher他们提出的树状LSTM用于情感分析和句子相关度计算&i&《Improved Semantic Representations From Tree-Structured Long
Short-Term Memory Networks》&/i&(类似的还有一篇,不过看这个就够了)。他们的代码用Torch7实现,我为了整合到我系统里面自己实现了一个,但是发现效果并不好。我觉的这个跟用于建树的先验信息有关,看是不是和你任务相关。还有就是感觉树状LSTM对比BLSTM是有信息损失的,因为只能使用到子节点信息。要是感兴趣的话,这有一篇树状和线性RNN对比&i&《(treeRNN vs seqRNN )When Are Tree Structures Necessary for Deep
Learning of Representations?》&/i&。当然,关键在于树状这个概念重要,感觉现在的研究还没完全利用上树状的潜力。&/p&&br&&p&今年ACL(2015)上有一篇层次的LSTM&i&《A
Hierarchical Neural Autoencoder for Paragraphs and Documents》&/i&。使用不同的LSTM分别处理词、句子和段落级别输入,并使用自动编码器(autoencoder)来检测LSTM的文档特征抽取和重建能力。&/p&&br&还有一篇文章&i&《Chung J, Gulcehre C, Cho K, et al. Gated feedback recurrent neural networks[J]. arXiv preprint arXiv:, 2015.&/i&&i&》&/i&,把gated的思想从记忆单元扩展到了网络架构上,提出多层RNN各个层的隐含层数据可以相互利用(之前的多层RNN多隐含层只是单向自底向上连接),不过需要设置门(gated)来调节。&br&&br&&p&记忆单元方面,Bahdanau
Dzmitry他们在构建RNN框架的机器翻译模型的时候使用了GRU单元(gated recurrent unit)替代LSTM,其实LSTM和GRU都可以说是gated hidden unit。两者效果相近,但是GRU相对LSTM来说参数更少,所以更加不容易过拟合。(大家堆模型堆到dropout也不管用的时候可以试试换上GRU这种参数少的模块)。这有篇比较的论文&i&《(GRU/LSTM对比)Empirical Evaluation of Gated Recurrent Neural Networks on Sequence
Modeling》&/i&&/p&&br&&p&应用嘛,宽泛点来说就是挖掘序列数据信息,大家可以对照自己的任务有没有这个点。比如(直接把毕设研究现状搬上来(????)??):&/p&&br&&p&先看比较好玩的,&/p&&p&&b&图像处理(对,不用CNN用RNN):&/b&&/p&&p&&i&《Visin F, Kastner K,
Cho K, et al. ReNet: A Recurrent Neural Network Based Alternative to
Convolutional Networks[J]. arXiv preprint arXiv:, 2015》&/i&&/p&&p&4向RNN(使用LSTM单元)替代CNN。&/p&&br&&p&&b&使用LSTM读懂python程序:&/b&&/p&&p&&i&《Zaremba W, Sutskever I.
Learning to execute[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&使用基于LSTM的深度模型用于读懂python程序并且给出正确的程序输出。文章的输入是短小简单python程序,这些程序的输出大都是简单的数字,例如0-9之内加减法程序。模型一个字符一个字符的输入python程序,经过多层LSTM后输出数字结果,准确率达到99%&/p&&br&&p&&b&手写识别:&/b&&/p&&p&&i&《Liwicki M, Graves A,
Bunke H, et al. A novel approach to on-line handwriting recognition based on
bidirectional long short-term memory》&/i&&/p&&br&&p&&b&机器翻译:&/b&&/p&&p&&i&《Sutskever I, Vinyals
O, Le Q V V. Sequence to sequence learning with neural networks[C]//Advances in
neural information processing systems. -3112.》&/i&&/p&&p&使用多层LSTM构建了一个seq2seq框架(输入一个序列根据任务不同产生另外一个序列),用于机器翻译。先用一个多层LSTM从不定长的源语言输入中学到特征v。然后使用特征v和语言模型(另一个多层LSTM)生成目标语言句子。&/p&&p&&i&《Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representations using rnn encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&这篇文章第一次提出GRU和RNN encoder-decoder框架。使用RNN构建编码器-解码器(encoder-decoder)框架用于机器翻译。文章先用encoder从不定长的源语言输入中学到固定长度的特征V,然后decoder使用特征V和语言模型解码出目标语言句子&/p&&p&&b&以上两篇文章提出的seq2seq和encoder-decoder这两个框架除了在机器翻译领域,在其他任务上也被广泛使用。&/b&&/p&&p&&i&《Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:, 2014.》&/i&&/p&&p&在上一篇的基础上引入了BRNN用于抽取特征和注意力信号机制(attention signal)用于源语言和目标语言的对齐。&/p&&br&&p&&b&对话生成:&/b&&/p&&p&&i&《Shang L, Lu Z, Li H. Neural Responding Machine for Short-Text Conversation[J]. arXiv preprint arXiv:, 2015.》&/i&&br&&/p&&p&华为诺亚方舟实验室,李航老师他们的作品。基本思想是把对话看成是翻译过程。然后借鉴Bahdanau D他们的机器翻译方法(&b&encoder-decoder,GRU&/b&,attention signal)解决。训练使用微博评论数据。&/p&&p&&i&《VINYALS O, LE Q,.A Neural Conversational Model[J]. arXiv: [cs], 2015.》&/i&&/p&google前两天出的论文()。看报道说结果让人觉得“creepy”:&a href=&///?target=http%3A///read/googles-new-chatbot-taught-itself-to-be-creepy& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google's New Chatbot Taught Itself to Be Creepy&i class=&icon-external&&&/i&&/a& 。还以为有什么NB模型,结果看了论文发现就是一套用&b&seq2seq框架&/b&的实验报告。(对话可不是就是你一句我一句,一个序列对应产生另一序列么)。论文里倒是说的挺谨慎的,只是说纯数据驱动(没有任何规则)的模型能做到这样不错了,但还是有很多问题,需要大量修改(加规则呗?)。主要问题是缺乏上下文一致性。(模型只用对话的最后一句来产生下一句也挺奇怪的,为什么不用整个对话的历史信息?)&br&&br&&p&&b&句法分析:&/b&&/p&&p&&i&《Vinyals O, Kaiser L,
Koo T, et al. Grammar as a foreign language[J]. arXiv preprint arXiv:,
2014.》&/i&&/p&&p&把LSTM用于句法分析任务,文章把树状的句法结构进行了线性表示,从而把句法分析问题转成翻译问题,然后套用机器翻译的seq2seq框架使用LSTM解决。&/p&&br&&p&&b&信息检索:&/b&&/p&&p&&i&《Palangi H, Deng L,
Shen Y, et al. Deep Sentence Embedding Using the Long Short Term Memory Network:
Analysis and Application to Information Retrieval[J]. arXiv preprint
arXiv:, 2015.》&/i&&/p&&p&使用LSTM获得大段文本或者整个文章的特征向量,用点击反馈来进行弱监督,最大化query的特性向量与被点击文档的特性向量相似度的同时最小化与其他未被点击的文档特性相似度。&/p&&br&&p&&b&图文转换:&/b&&/p&&p&图文转换任务看做是特殊的图像到文本的翻译问题,还是使用encoder-decoder翻译框架。不同的是输入部分使用卷积神经网络(Convolutional Neural Networks,CNN)抽取图像的特征,输出部分使用LSTM生成文本。对应论文有:&/p&&p&&i&《Karpathy A, Fei-Fei L. Deep
visual-semantic alignments for generating image descriptions[J]. arXiv preprint
arXiv:, 2014.》&/i&&/p&&p&&i&《Mao J, Xu W, Yang Y, et al. Deep
captioning with multimodal recurrent neural networks (m-rnn)[J]. arXiv preprint
arXiv:, 2014.》&/i&&/p&&p&&i&《Vinyals O, Toshev A, Bengio S, et al. Show and
tell: A neural image caption generator[J]. arXiv preprint arXiv:,
2014.》&/i&&/p&&br&&br&&p&就粘这么多吧,呼呼~复制粘贴好爽\(^o^)/~&/p&&p&其实,相关工作还有很多,各大会议以及arxiv上不断有新文章冒出来,实在是读不过来了。。。&/p&&br&&p&然而我有种预感,说了这么多,工作之后很有可能发现:&/p&&p& 这些东西对我工作并没有什么卵用
(>﹏<=&/p&
刚好毕设相关,论文写完顺手就答了先给出一个最快的了解+上手的教程: 直接看theano官网的LSTM教程+代码:但是,前提是你有RNN的基础,因为LSTM本身不是一个完整的模型,LSTM是对RNN隐含层的改进。一般所称的LSTM网络…
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。&br&日更新,在THULAC新增Python版本分词器,欢迎使用。&br&&br&&b&中文词法分析&/b&&br&&a href=&///?target=http%3A//thulac.thunlp.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&THULAC:一个高效的中文词法分析工具包&i class=&icon-external&&&/i&&/a&&br&包括中文分词、词性标注功能。已经提供C++、Java、Python版本。&br&&br&&b&中文文本分类&/b&&br&&a href=&///?target=http%3A//thuctc.thunlp.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&THUCTC: 一个高效的中文文本分类工具&i class=&icon-external&&&/i&&/a&&br&提供高效的中文文本特征提取、分类训练和测试功能。&br&&br&&b&THUTag: 关键词抽取与社会标签推荐工具包&/b&&br&&a href=&///?target=https%3A///YeDeming/THUTag/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion&i class=&icon-external&&&/i&&/a&&br&提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。&br&&br&&b&PLDA / PLDA+: 一个高效的LDA分布式学习工具包&/b&&br&&a href=&///?target=https%3A///archive/p/plda/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/archive&/span&&span class=&invisible&&/p/plda/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&知识表示学习&/b&&br&知识表示学习工具包&br&&a href=&///?target=https%3A///mrlyk423/relation_extraction& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - Mrlyk423/Relation_Extraction: Knowledge
Base Embedding&i class=&icon-external&&&/i&&/a&&br&包括TransE、TransH、TransR、PTransE等算法。&br&&br&考虑实体描述的知识表示学习算法&br&&a href=&///?target=https%3A///xrb92/DKRL& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions&i class=&icon-external&&&/i&&/a&&br&&br&&b&词表示学习&/b&&br&跨语言词表示学习算法&br&&a href=&///?target=http%3A//nlp.csai./%7Elzy/src/acl2015_bilingual.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Learning Cross-lingual Word Embeddings via Matrix Co-factorization&i class=&icon-external&&&/i&&/a&&br&&br&主题增强的词表示学习算法&br&&a href=&///?target=https%3A///largelymfs/topical_word_embeddings& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding&i class=&icon-external&&&/i&&/a&&br&&br&可解释的词表示学习算法&br&&a href=&///?target=https%3A///SkTim/OIWE& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - SkTim/OIWE: Online Interpretable Word Embeddings&i class=&icon-external&&&/i&&/a&&br&&br&考虑字的词表示学习算法&br&&a href=&///?target=https%3A///Leonard-Xu/CWE& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - Leonard-Xu/CWE&i class=&icon-external&&&/i&&/a&&br&&br&&b&网络表示学习&/b&&br&文本增强的网络表示学习算法&br&&a href=&///?target=https%3A///albertyang33/TADW& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - albertyang33/TADW: code for IJCAI2015 paper &Network Representation Learning with Rich Text Information&&i class=&icon-external&&&/i&&/a&
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。日更新,在THULAC新增Python版本分词器,欢迎使用。中文词法分析包括中文分词、词性标注功能。已经提供C++、Java…
这几天写了一个爬虫,这是我关于反爬虫的一些总结&a class=&internal& href=&/python-hacker/&&: 常见的反爬虫和应对方法 - Python Hacker - 知乎专栏&/a&&br&&br&刚开始写爬虫用的是urllib2,后来知道了requests,惊为天人。&br&刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。&br&再后来看别人的爬虫,知道了scrapy,被这个框架惊艳到了。&br&之后遇到了一些有验证码的网站,于是知道了PIL。但后来知道了opencv,pybrain。当在爬虫中用上人工神经网络识别出验证码,兴奋得守在爬虫旁边看他爬完全站。&br&再后来知道了threading,知道了celery。&br&&br&不断的学习,不断的接触和知道更多的东西,爬虫与反爬虫的对抗会一直进行下去。
这几天写了一个爬虫,这是我关于反爬虫的一些总结刚开始写爬虫用的是urllib2,后来知道了requests,惊为天人。刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。再后来看别人的…
机票OTA代理行业,某供应商并没有实际跟各航司和中航信交互,而是写了个爬虫,在各OTA平台自动爬取各航段机票数据,对于某航段的机票,若A平台卖价最低,则稍微加价后把该机票运价数据填到其他OTA平台进行售卖;&br&就这样凭着对机票OTA行业业务的深入了解,通过做这种空手套白狼的手段,每个月仅在我司平台上有约3W利润,在其他平台收益可想而知;而他只雇佣了一个小妹每天盯着电脑看爬虫是否正常运转,支出极低。。。&br&&br&忘了说了,中航信垄断了所有航司的航班信息,所有OTA要查询某一航线报价都要通过某系统查询,一次5毛!!!
机票OTA代理行业,某供应商并没有实际跟各航司和中航信交互,而是写了个爬虫,在各OTA平台自动爬取各航段机票数据,对于某航段的机票,若A平台卖价最低,则稍微加价后把该机票运价数据填到其他OTA平台进行售卖;就这样凭着对机票OTA行业业务的深入了解,通过…
&Data Science = statistics who uses python and lives in San Francisco&&br&&br&恰好我马上启程到Twitter的data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D&br&&br&我认为有几个大方面&br&&br&1)学好python。&br&现在几乎所以公司的数据都可以api给你,而python的数据处理能力强大且方便。加之在machine learning的很多算法上,python也独俏一方。另外,它的简明方便迅速迭代开发,15分钟写完个算法就可以看效果了。&br&&br&除此之外,py还有点酷酷的感觉。任何程序拿matlab和c++都是可以写的,不过我真没认识过哪个d愿意自己把自己扔那个不酷的框框里:D&br&&br&对不规则输入的处理也给python一个巨大的优势。通常来说,在我现在日常的工作里,所有的数据都是以纯文本但是非格式的形式存储的(raw text, unstructured data)。问题在于,这些文本不可以直接当作各种算法的输入,你需要&br&&ol&&li&分词,分句&/li&&li&提取特征&/li&&li&整理缺失数据&/li&&li&除掉异类(outlier)&/li&&/ol&在这些时候,python可谓是神器。这里做的1-4都可以直接在scikit-learn里面找到对应的工具,而且,即使是要自己写一个定制的算法处理某些特殊需求,也就是一百行代码的事情。&br&&br&简而言之,对于数据科学面临的挑战,python可以让你短平快地解决手中的问题,而不是担心太多实现细节。&br&&br&2)学好统计学习&br&略拗口。统计学习的概念就是“统计机器学习方法”。&br&统计和计算机科学前几十年互相平行着,互相造出了对方造出的一系列工具,算法。但是直到最近人们开始注意到,计算机科学家所谓的机器学习其实就是统计里面的prediction而已。因此这两个学科又开始重新融合。&br&&br&为什么统计学习很重要?&br&&br&因为,纯粹的机器学习讲究算法预测能力和实现,但是统计一直就强调“可解释性”。比如说,针对今天微博股票发行就上升20%,你把你的两个预测股票上涨还是下跌的model套在新浪的例子上,然后给你的上司看。&br&Model-1有99%的预测能力,也就是99%的情况下它预测对,但是Model-2有95%,不过它有例外的一个附加属性——可以告诉你为什么这个股票上涨或者下跌。&br&&br&试问,你的上司会先哪个?问问你自己会选哪个?&br&&br&显然是后者。因为前者虽然有很强的预测力(机器学习),但是没有解释能力(统计解释)。&br&&br&而作为一个数据科学家,80%的时间你是需要跟客户,团队或者上司解释为什么A可行B不可行。如果你告诉他们,“我现在的神经网络就是能有那么好的预测力可是我根本就没法解释上来”,那么,没有人会愿意相信你。&br&&br&具体一些,怎么样学习统计学习?&br&&ul&&li&先学好基本的概率学。如果大学里的还给老师了(跟我一样),那么可以从MIT的概率论教材【1】入手。从第1章到第9章看完并做完所有的习题。(p.s.面试Twitter的时候被问到一个拿球后验概率的问题,从这本书上抓来的)。&/li&&li&了解基本的统计检验及它们的假设,什么时候可以用到它们。&/li&&li&快速了解统计学习有哪些术语,用来做什么目的,读这本【5】。&/li&&li&学习基本的统计思想。有frequentist的统计,也有bayesian的统计。前者的代表作有【2】,后者看【3】。前者是统计学习的圣书,偏frequentist,后者是pattern recognition的圣书,几乎从纯bayesian的角度来讲。注意,【2】有免费版,作者把它全放在了网上。而且有一个简易版,如果感觉力不从心直接看【2】,那么可以先从它的简易版开始看。简易版【4】是作者在coursera上开课用的大众教材,简单不少(不过仍然有很多闪光点,通俗易懂)。对于【3】,一开始很难直接啃下来,但是啃下来会受益匪浅。&/li&&/ul&注意,以上的书搜一下几乎全可以在网上搜到别人传的pdf。有条件的同学可以买一下纸制版来读,体验更好并且可以支持一下作者。所有的书我都买了纸制版,但是我知道在国内要买本书有多不方便(以及原版书多贵)。&br&&br&读完以上的书是个长期过程。但是大概读了一遍之后,我个人觉得是非常值得的。如果你只是知道怎么用一些软件包,那么你一定成不了一个合格的data scientist。因为只要问题稍加变化,你就不知道怎么解决了。&br&&br&如果你感觉自己是一个二吊子数据科学家(我也是)那么问一下下面几个问题,如果有2个答不上来,那么你就跟我一样,真的还是二吊子而已,继续学习吧。&br&&ul&&li&为什么在神经网络里面feature需要standardize而不是直接扔进去&/li&&li&对Random Forest需要做Cross-Validatation来避免overfitting吗?&/li&&li&用naive-bayesian来做bagging,是不是一个不好的选择?为什么?&/li&&li&在用ensembe方法的时候,特别是Gradient Boosting Tree的时候,我需要把树的结构变得更复杂(high variance, low bias)还是更简单(low variance, high bias)呢?为什么?&/li&&/ul&如果你刚开始入门,没有关系,回答不出来这些问题很正常。如果你是一个二吊子,体会一下,为什么你跟一流的data scientist还有些差距——因为你不了解每个算法是怎么工作,当你想要把你的问题用那个算法解决的时候,面对无数的细节,你就无从下手了。&br&&br&&br&说个题外话,我很欣赏一个叫Jiro的寿司店,它的店长在(东京?)一个最不起眼的地铁站开了一家全世界最贵的餐馆,预订要提前3个月。怎么做到的?70年如一日练习如何做寿司。70年!除了丧娶之外的假期,店长每天必到,8个小时工作以外继续练习寿司做法。&br&&br&其实学数据科学也一样,沉下心来,练习匠艺。&br&&br&&br&3)学习数据处理&br&这一步不必独立于2)来进行。显然,你在读这些书的时候会开始碰到各种算法,而且这里的书里也会提到各种数据。但是这个年代最不值钱的就是数据了(拜托,为什么还要用80年代的“加州房价数据”?),值钱的是数据分析过后提供给决策的价值。那么与其纠结在这么悲剧的80年代数据集上,为什么不自己搜集一些呢?&br&&br&&ul&&li&开始写一个小程序,用API爬下Twitter上随机的tweets(或者weibo吧。。。)&/li&&li&对这些tweets的text进行分词,处理噪音(比如广告)&/li&&li&用一些现成的label作为label,比如tweet里会有这条tweet被转发了几次&/li&&li&尝试写一个算法,来预测tweet会被转发几次&/li&&li&在未见的数据集上进行测试&/li&&/ul&如上的过程不是一日之功,尤其刚刚开始入门的时候。慢慢来,耐心大于进度。&br&&br&4)变成全能工程师(full stack engineer)&br&在公司环境下,作为一个新入职的新手,你不可能有优待让你在需要写一个数据可视化的时候,找到一个同事来给你做。需要写把数据存到数据库的时候,找另一个同事来给你做。&br&&br&况且即使你有这个条件,这样频繁切换上下文会浪费更多时间。比如你让同事早上给你塞一下数据到数据库,但是下午他才给你做好。或者你需要很长时间给他解释,逻辑是什么,存的方式是什么。&br&&br&最好的变法,是把你自己武装成一个全能工作师。你不需要成为各方面的专家,但是你一定需要各方面都了解一点,查一下文档可以上手就用。&br&&br&&ul&&li&会使用NoSQL。尤其是MongoDB&/li&&li&学会基本的visualization,会用基础的html和javascript,知道d3【6】这个可视化库,以及highchart【7】&/li&&li&学习基本的算法和算法分析,知道如何分析算法复杂度。平均复杂度,最坏复杂度。每次写完一个程序,自己预计需要的时间(用算法分析来预测)。推荐普林斯顿的算法课【8】(注意,可以从算法1开始,它有两个版本)&/li&&li&写一个基础的服务器,用flask【9】的基本模板写一个可以让你做可视化分析的backbone。&/li&&li&学习使用一个顺手的IDE,VIM, pycharm都可以。&/li&&/ul&&br&4)读,读,读!&br&除了闭门造车,你还需要知道其它数据科学家在做些啥。涌现的各种新的技术,新的想法和新的人,你都需要跟他们交流,扩大知识面,以便更好应对新的工作挑战。&br&&br&通常,非常厉害的数据科学家都会把自己的blog放到网上供大家参观膜拜。我推荐一些我常看的。另外,学术圈里也有很多厉害的数据科学家,不必怕看论文,看了几篇之后,你就会觉得:哈!我也能想到这个!&br&&br&读blog的一个好处是,如果你跟他们交流甚欢,甚至于你可以从他们那里要一个实习来做!&br&&br&betaworks首席数据科学家,Gilad Lotan的博客,我从他这里要的intern :D &a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Gilad Lotan&i class=&icon-external&&&/i&&/a&&br&Ed Chi,六年本科硕士博士毕业的神人,google data science &a href=&///?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&br&Hilary Mason,bitly首席科学家,纽约地区人尽皆知的数据科学家:&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&&i class=&icon-external&&&/i&&/a&&br&&br&在它们这里看够了之后,你会发现还有很多值得看的blog(他们会在文章里面引用其它文章的内容),这样滚雪球似的,你可以有够多的东西早上上班的路上读了:)&br&&br&&br&5)要不要上个研究生课程?&br&先说我上的网络课程:&br&&a href=&///?target=https%3A//www.coursera.org/course/ml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Coursera.org&i class=&icon-external&&&/i&&/a&&br&&a href=&///?target=https%3A//www.coursera.org/course/machlearning& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/course/mac&/span&&span class=&invisible&&hlearning&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&前者就不说了,人人都知道。后者我则更喜欢,因为教得更广阔,上课的教授也是世界一流的机器学习学者,而且经常会有一些很妙的点出来,促进思考。&br&&br&&br&&br&对于是不是非要去上个研究生(尤其要不要到美国上),我觉得不是特别有必要。如果你收到了几个著名大学数据科学方向的录取,那开开心心地来,你会学到不少东西。但是如果没有的话,也不必纠结。我曾有幸上过或者旁听过美国这里一些顶级名校的课程,我感觉它的作用仍然是把你领进门,以及给你一个能跟世界上最聪明的人一个交流机会(我指那些教授)。除此之外,修行都是回家在寝室进行的。然而现在世界上最好的课程都摆在你的面前,为什么还要舍近求远呢。&br&&br&&br&总结一下吧&br&我很幸运地跟一些最好的数据科学家交流共事过,从他们的经历看和做事风格来看,真正的共性是&br&&br&他们都很聪明——你也可以&br&他们都很喜欢自己做的东西——如果你不喜欢应该也不会看这个问题&br&他们都很能静下心来学东西——如果足够努力你也可以&br&&br&&br&&br&&br&【1】&a href=&///?target=http%3A//ocw.mit.edu/courses/mathematics/18-05-introduction-to-probability-and-statistics-spring-2005/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Probability and Statistics&i class=&icon-external&&&/i&&/a&&br&【2】Hastie, Trevor, et al. &i&The elements of statistical learning&/i&. Vol. 2. No. 1. New York: Springer, 2009. 免费版&br&【3】Bishop, Christopher M. &i&Pattern recognition and machine learning&/i&. Vol. 1. New York: springer, 2006.&br&【4】&a href=&///?target=http%3A//www-bcf.usc.edu/%7Egareth/ISL/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Statistical Learning&i class=&icon-external&&&/i&&/a& 免费版&br&【5】Wasserman, Larry. &i&All of statistics: a concise course in statistical inference&/i&. Springer, 2004.&br&【6】&a href=&///?target=http%3A//d3js.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&d3js.org/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&br&【7】&a href=&///?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&br&【8】&a href=&///?target=https%3A//www.coursera.org/course/algs4partII& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Coursera.org&i class=&icon-external&&&/i&&/a&&br&【9】&a href=&///?target=http%3A//flask.pocoo.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&flask.pocoo.org/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&
"Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到Twitter的data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1)学好python。现在几乎所以公司的数据都…
现在工业界主流是&b&d3.js&/b&,javascript的库,非常庞大,一个可视化方面的专家跟我说一般人都是在做项目的时候再去库里找相应的内容或者参照别人的例子,因为d3内容实在太多了。&br&如果不想编程,一个很好的选择是&b&tableau&/b&(&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Business Intelligence and Analytics&i class=&icon-external&&&/i&&/a&)。操作简单,出的成品很有美感。现在本地版本只适用于windows,听到些小道消息说三个月内会出mac版但具体不清楚。可用web版,功能齐全且便于共享。印象中学生可以免费。
现在工业界主流是d3.js,javascript的库,非常庞大,一个可视化方面的专家跟我说一般人都是在做项目的时候再去库里找相应的内容或者参照别人的例子,因为d3内容实在太多了。如果不想编程,一个很好的选择是tableau()…
已有帐号?
无法登录?
社交帐号登录
6207 人关注
215 个回答
129 人关注
1778 人关注
176 个回答
109 人关注

我要回帖

更多关于 长春小飞朋友圈之歌 的文章

 

随机推荐