Nature:人工智能导致失业会让化学家失业吗

当前位置 :
> AI击败化学家?——《Nature》封面文章报道机器学习方法,或掀起化学科研革命
AI击败化学家?——《Nature》封面文章报道机器学习方法,或掀起化学科研革命
X-MOL发布于
不久前,谷歌旗下DeepMind公司的人工智能(artificial intelligence, AI)程序AlphaGo以4:1击败世界围棋冠军、职业九段选手李世石,这被视为AI挑战人类智力的一大进步,AI是否能在智力上超过并代替人类?各种言论刷爆各种社交媒体。不过,化学家们似乎并不担心被AI抢饭碗,化学科研需要大量创新性和跳跃性思维,甚至基于多年经验的直觉,这似乎是AI难以企及的领域。但情况真这么乐观吗?最近美国哈弗福德学院化学家Alexander J. Norquist、Sorelle A. Friedler和Joshua Schrier领导的研究小组的成果,可能会让化学家们开始担心来自AI的竞争。Norquist等人以《Nature》封面文章的形式报道了一种强大的机器学习算法(machine-learning algorithm),通过使用失败实验的数据(当然也包括成功实验的数据)进行训练,在预测晶体制备策略的比赛中成功率高达89%,打败了经验丰富的人类化学家。(Machine-learning-assisted materials discovery using failed experiments. Nature, DOI: 10.1038/nature17439)图片来源:NIK Spencer/Nature“失败的反应中包含大量未报告和未提取的资料,”Norquist说。“失败反应的数据要比成功反应的多得多,但一般只有成功反应的数据最后被公开。”在论文中,Norquist等人将这些失败的反应称为“暗黑反应(dark reactions)”。Norquist团队最开始的目标并不复杂——在水热合成反应中,简单地预测一些特定的试剂组合能否生成晶体材料。他们随后进一步收窄了任务范围,仅仅只关注一种无机-有机杂化材料钒亚硒酸盐(templated vanadium selenites)的模板化合成,这种晶体材料包含钒、硒和氧元素,其中有机小分子(如胺)作为“模板”指导这些元素的排列。研究人员采用了一种标准的机器学习方法,使用了近4,000次不同反应条件下(例如温度、浓度、反应物的量和酸度)合成晶体实验的数据来训练机器学习算法。他们将存档的实验记录本中记载的数据转换成机器可以分析的格式,这些数据包括那些失败的实验。然后,计算机找出区别实验成功或是失败的原则。Norquist实验室失败实验的实验记录。图片来源:Haverford College为了检验这个算法,研究人员挑选了以前没有尝试过的反应物组合,并让机器学习算法和有十余年相关经验的材料化学家分别预测制备亚硒酸盐晶体的反应条件。结果表明,机器学习算法建议的反应条件成功率可达89%,相比之下,材料化学家最好成绩也只有78%。研究人员还将该算法的结果转换成更直观的经验法则“决策树”以帮助科学家使用,涉及的问题类似“钠是否存在?”及“pH值大于3还是小于3?”等等。这个工作“是对科研经验进行挖掘的一个很好的例子”,开始揭开合成的“黑魔法”,劳伦斯伯克利国家实验室材料化学家Kristin Persson说。她领导了一个相似的项目,通过收集分析已知材料的信息来帮助新材料的设计和合成。在发论文之余,研究人员还建立了一个名为“Dark Reactions Project”的网站(),鼓励化学家们分享他们制备新晶体过程中的失败实验数据。现在的进展看来只是一小步,但在不远的将来,AI或许真的能颠覆化学家的科研方式。1. 2. X-MOL材料领域学术讨论QQ群()X-MOL无机领域学术讨论QQ群()做实验、发文章、报项目……除了不能求文献,与学术有关的问题都能唠唠!
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于
未经许可,谢绝转载!
友情链接:Nature特写:人工智能助力化学药物“宇宙”漫游指南 | 科学人 | 果壳网 科技有意思
Nature特写:人工智能助力化学药物“宇宙”漫游指南
自然 计算机 算法 化学结构 小分子 化合物
本文作者:Nature自然科研
原文以The drug-maker's guide to the galaxy为标题,发布在日的《自然》新闻特写上。原文作者为阿谢尔o穆拉德(Asher Mullard)。
机器学习和大数据帮助化学家在浩瀚的化学药品宇宙中寻找更好的药物
在2016年,Sunovion制药公司交给一些老员工一项特殊任务。在美国马萨诸塞州的公司总部,化学家们被要求进行一项寻找新药最佳先导化合物的游戏。在他们的工作站中有包括几百种化学结构的网格,其中只有十种标有相关生物学信息。专家们必须基于他们辛苦学到的化学结构及生物知识来选出其他可能作为候选药物的分子。在11位选手中,10位为这项任务冥思苦想了数小时,但剩下的一名选手却在几毫秒内就轻松完成,因为这名选手是一种计算机算法。
系外行星Ross 128b绕一颗低温矮星运行,它的表面可能存在液态水。图片来源:Vasava
这一计算机程序由Willem van Hoorn创造,他是利用人工智能设计药物的新公司Exscientia的化学信息学负责人。这一公司位于英国邓迪,希望能与Sunovion建立初步合作关系,为此下了很高的赌注。“我的信誉危在旦夕。”Hoorn表示。二十轮游戏结束后,他高分胜出,也终于松了一口气。他的算法似乎是运用了一些化学黑魔法;因为最后仅有一位药物发现专家击败了机器。
从那时起,Exscientia公司便和Sunovion继续合作开发精神病治疗药物。Sunovion的计算化学主管Scott Brown表示:“这场竞赛的确帮助我们拉拢了化学研究决策者。”
Exscientia公司是工业和学术界中与日俱增的、利用计算机探索广阔化学药品宇宙的众多团队之一。化学家们估计约有10^60种具有药物特性的化合物能够被合成,这些小分子的数目甚至超过了太阳系所有原子的总数。他们希望通过计算机算法对无数的化合物进行登记、分类并比较其特性,从而帮助研究者快速、低成本地找到针对某一靶点的最佳候选药物。支持者们表示这样的策略能够使药物更安全,减少在临床实验中失败的药物数量,同时使得新治疗方法的发现成为可能。此外还有助于开启未探索过以及曾被认为无价值的化学领域。
然而仍有许多药物化学家对此持怀疑态度,不相信奇妙、复杂的化学能够简单缩减为几行代码。甚至某些人工智能的拥护者也承认许多尝试都以失败告终:计算机生成的化合物中充斥着难以合成的结构,如3-或4-原子环,同时还有许多不安全的活性基团。van Hoorn认为:“如果研究者不了解该领域,只是简单执行某些计算方法会产生失败结果,他们想出的化合物纯属笑话。”但他也表示专业人员的参与或许能够帮助这些热心的设计者。“我觉得如果计算机科学家与真正的化学家合作,某些想法是能够实现的。”
探索化学宇宙
在化合物的宇宙中航行需要有地图的帮助。在2001年,瑞士伯尔尼大学的化学家Jean-Louis Reymond开始利用计算机来绘制一幅尽可能全面的化学宇宙地图。经过16年努力,他构建出世界上最大的小分子数据库,即一个包含1660亿种化合物的庞大虚拟集合。这一数据库被命名为GDB-17,包括全部符合化学原理的、由少于17个原子构成的有机分子,这一数目是Reymond的计算机能够处理的上限。Reymond表示:“仅仅是用计算机形成数据库中化合物的清单就需要10个小时以上。”
为了理清过剩的潜在药物原始信息,Reymond想出了一种使化合物宇宙系统化的办法。受元素周期表的启发,他将各化合物在多维空间内分类,相邻化合物具有相近特性。各化合物的位置由42种特性来决定,例如每种化合物中所含的碳原子数。
每种投放到市场中的药物都有成千上万种与其化学结构基本相同的化合物,其差别仅仅在于一个氢原子或一个双键。这其中某些化合物可能比获批的药物效果更好。化学家不可能在没有外界帮助的情况下考虑到所有这些变体。正如Reymond所言:“仅用纸笔绝不可能得到所有这些异构体。”
而Reymond和他的团队能够通过搜索化合物之间相似性,来鉴定与已批准药物相近、有潜在治疗价值的其他化合物。以某种药物作为出发点,团队能够在三分钟内筛选数据库中的1660亿种化合物来寻找后续候选药物。在一次概念验证实验中,Reymond以一种能与乙酰胆碱受体(与神经系统和肌肉功能失调相关的重要靶点)结合的已知分子为出发点 ,编制出包括344种化合物的名单。该团队合成了其中三种化合物,并且发现两种能够有效激活受体,或许能够用于治疗老年人肌肉萎缩。Reymond表示这种方法像是利用地图来找金子,他说:“你需要某种方式来选择去哪里挖。”
另外一种方式用计算机在多个位置寻找金子,而不必太在意起点。用药物发现的专业术语来说,这意味着用计算机筛选庞大的化合物库来寻找能与特定蛋白结合的小分子。首先,研究者必须利用X射线晶体学获得某个蛋白的快照,来决定它结合位点的形状。然后,利用分子对接算法,计算化学家能够从化合物库中寻找出给定位点的最佳匹配。
随着计算机技术飞速发展,这些算法的能力也得到了提升。加州大学旧金山分校的化学家们在Brian Shoichet的带领下在2016年通过寻找一种新型止痛药展现了这种方法的潜力。该团队从300万种市场上买得到的化合物中筛选能够选择性激活μ-阿片受体信号通路的候选药物,以此来减轻疼痛同时不扰乱密切相关的β-抑制蛋白信号通路,该通路与阿片类药物的副作用(如呼吸频率下降及便秘)相关。研究者们迅速将范围从一个巨大的化合物库缩小到仅有23种高排名的化合物用于后续研究。
在一个试管中,七种候选化合物显示出理想的活性。其中一种在后续研究中被制成化合物PZM21,能够作用于μ-阿片受体而不激活β-抑制蛋白。位于旧金山、由Shoichet共同创立的生物科技公司Epiodyne正在根据这些发现开发更安全的止痛药。Shoichet计划利用同样的方法寻找能够调节其他G蛋白偶联受体(GPCRs)的化合物, 该家族的蛋白在所有药物靶点中占到40%。
他的团队同时对含有一亿种化合物的虚拟星云进行相似的实验,这些化合物从未被合成但其合成过程应该较简单。工业药物开发者也在用同样的方法进行测试:位于马萨诸塞州的生物科技公司Nimbus Therapeutics将一些存在于自然界却难以从环境(如土壤)中分离的虚拟化合物纳入对接筛选。是否能够发现药物还没有定论,但该公司的首席执行官Don Nicholson针对至少一项药物设计程序表示:“这将是我们全部匹配药物的来源。”
这些虚拟筛选的初步结果动摇了Shoichet对于化学药物宇宙的核心假设之一:只有完善的、药物丰富的区域才是值得关注的。已划分的分子星系充斥着有生物活性的化合物,以至于一些人认为在其他地方寻找是浪费时间。“在我的职业生涯中我始终相信推理过程,这么做是有道理的,尽管可能没有很多证据来证明。” Shoichet表示。然而他尚未发表的、对一亿种化合物的筛选结果引起了他对化学药物宇宙中很少被探索区域的兴趣。“我开始认为那些星系中藏满了金子。”
计算机的“智慧”
这些数据搜索方法被试验和测试,但用于工作的计算机只能服从脚本指令。计算药物发现的最前沿是机器学习,算法能够利用数据和经验来告诉自己哪种化合物与哪个靶点结合,发现人类无法察觉的模式。十几家公司纷纷开始创造药物搜索算法,并与大型制药企业合作进行测试。
Exscientia的首席执行官Andrew Hopkins为这些方法的能力做出了强有力的证明。临床前测试发现和优化候选药物平均需要4.5年,化学家们常常合成上千种化合物才能得到有价值的先导化合物(即使这样真正投入市场的希望也非常渺茫)。Exscientia方法利用了多种算法(其中包括给Sunovion公司研发高管留下深刻印象的那一种)或许能够将时间线缩短到一年,同时缩减药物发现项目中需要考虑的化合物数目。
在2015年,Exscientia完成了大日本住友制药公司(位于日本大阪, Sunovion是其旗下的公司)为期12个月的研发项目。研究者训练他们的人工智能工具来寻找同时调节两个G蛋白偶联受体的小分子,发现要找到一种好的候选药物仅需要合成小400种化合物。Hopkins表示最后筛选到的药物现在已准备进行精神疾病的临床试验。从五月起,公司已经与巴黎赛诺菲公司和英国葛兰素史克公司签署了数亿美元的合约。
除了鉴定先导化合物之外,机器学习算法还能帮助药物开发者决定将哪些化合物扼杀在摇篮中,加利福尼亚州圣布鲁诺一家人工智能药物设计公司Numerate的首席技术官Brandon Allgood表示。如果一种化合物无法通过毒性或吸收性测试,那从一开始就没有必要制作或测试它。“人工智能只需要几毫秒来决定是否排除这种化合物。” Allgood说,在开始利用人工智能工具研究化学物质宇宙前,他曾学习宇宙学。Numerate今年已与制药公司达成两笔交易,其中一笔与位于法国叙雷讷的施维雅公司合作,将人工智能发现的药物投入心脏衰竭和心律失常的临床实验中。
尽管工业投资快速增长,但计算方法仍有待证明。虽然Reymond的数据库比其他库更加庞大,但它仅包括了化学药物宇宙中微小的一部分(参见“化学药物宇宙”)。尽管他的数据库中已包括1660亿种化合物,但他仍需要继续探索,正如一个尝试数清夜空中所有星星的宇航员才刚刚只数了一个。基于将样品与蛋白相匹配的筛选需要准确的晶体结构才能得到最好的结果,而生成这些数据需要时间、金钱和经验。
这些方法同时很难处理动态的蛋白,无法可靠地对候选者的优良性进行排序。从机器学习算法的角度而言,它们的表现取决于为其提供根基的培训数据集,当它们遇到与之前见过的分子相似度极低的化合物,算法的表现便会很糟糕。除此之外,整个程序如同黑箱作业,无法得知机器学习为何预测某个化合物是良好的匹配。
许多计算方法还有一个恼人之处便是常常给出难以在实验室合成的化合物。化学家不得不费力的想办法合成候选化合物,可能要花费几个月甚至更长。即便如此,合成的分子也不能保证有作用。Reymond的方法目前预测化合物活性的准确率仅有5~10%,这意味着化学家不得不辛苦尝试多达20种化合物来找到其中一种符合期望的。Reymond 表示:“我们探索化学药物宇宙的瓶颈是敢于合成化合物的能力。”为了解决这个问题,他最近将他的化学物质宇宙缩减到1000万种易合成,同时仍覆盖广泛特征的分子。
美国马萨诸塞州Relay Therapeutics公司的首席科学官Mark Murcko认为计算化学家应该少关注新的算法策略而将注意力放在提高算法的培训数据集。他表示:“我所知道的让一个预测模型变得更准确的好方法之一就是给它更多更好的数据。” Relay和其他公司鼓励化学家和计算科学家密切合作,合成由人类和算法共同建议的化合物,同时根据得到的结果来进改善未来的决策。
对于Hopkins,这样的合作至关重要。计算机科学家曾花费数十年来写能够战胜围棋大师的程序。在1997年,IBM的深蓝击败了Garry Kasparov。然而这样的失败并不意味着围棋的结束。相反,Kasparov设置了一场双人比赛,每队有一个人类一个人工智能。Hopkins 表示:“人类和人工智能一起能胜过任何人,同样也胜过任何算法。” 他希望用同样的方式将数据分析、创造性和常识相结合来改变药物发现,“我相信我们现在正处在Kasparov与深蓝联合的时刻”。
本文由Nature自然科研出品,添加微信可阅读英文原文,获取更多科研信息。
微信:搜索“Nature自然科研”或扫描下方二维码
你可能感兴趣
这东西也能用来开发化学武器吧??电脑电脑告诉我,世界上最毒的东西是什么???
引用 的话:这东西也能用来开发化学武器吧??电脑电脑告诉我,世界上最毒的东西是什么???你大概需要精确到如下级别:电脑,搜索一种针对裸猿脑神经阿尔法受体特定的激励靶向药物,要求能够响应DNA中宗教信仰位点A中关于绿色的异常反映,并针对该部分做原谅化处理。
又一类职业会死掉么?算法或许还好说,但是数据库就没办法了....又在效率上拉开了中外差距
显示所有评论
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报电话:【图片】当人工智能遇到眼睛,会让眼科医生失业?【airdoc吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:11贴子:
当人工智能遇到眼睛,会让眼科医生失业?
2016年3月,人类在棋盘游戏上的最后一块保留地被机器攻陷,引起了世界各地人民的广泛关注和热议。很多人并不知道的是在这背后人工智能和深度学习已经开始应用在各行各业之中,并且已经出现在我们的生活当中,比如每天早上起来拿起手机查看新闻,我们上网进行购物以及手机的语音助手等都离不开人工智能的身影,同样在医疗领域也有人工智能的影子。人工智能应用到医疗领域以往每次科技爆发,医学领域总是最大的受益领域之一,这一次随着人工智能的飞速发展,医学再一次和人工智能和深度学习纠缠到了一起,并且在诊断领域已经取得了巨大的成果。提到人工智能的时候,我们想到的往往是机器人, 2000年,Intuitive Surgical达芬奇手术机器人正式获批上市。达芬奇手术机器人增加视野角度,减少手部颤动,机器人“内腕”较腹腔镜更为灵活,能以不同角度在靶器官周围操作深受医生的热爱,在2016年,浙江大学医学院附属第一医院达芬奇机器人单机手术量达888台,蝉联全球第一。在自然语言处理领域,人工智能模型可以像医生一样认知到每个名词分别代表什么,比如“我们把香蕉给猴子,因为它们饿了”和“我们把香蕉给猴子,因为它们熟透了”有同样的结构,因为机器理解了香蕉和猴子分别代表了什么,可以正确的理解语言,并且给出回应,这让人工智能模型在医学领域更加灵活,比如IBM的Watson通过4年时间学习了海量的医学知识和论文等,从而可以自主诊断数中癌症,去年8月在日本,Watson在10分钟以内准确诊断出一位患有一种非常罕见的白血病的病人。计算机视觉是人工智能的主要研究领域,跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。一幅图片具有形形色色各种特征,简单的可以是颜色、形状或图案,复杂的比如说可以是图案的自相似性(是否存在类似重复性图案)或是整个场景里其他的物体,通过大量图片的训练和学习可以像人类一样准确分辨图形,基于人工智能深度学习方法,斯坦福大学人工智能实验室在Nature发表论文展示了这一成果:他们用12.9万张皮肤病变的照片训练深度卷积神经网络,让它对皮肤损伤进行分类,诊断皮肤癌。人工智能如今已经在癌症早期诊断上取得巨大的成就,可是在某些人看来,这些领域似乎和自己并没有什么关系,那么有些领域是每个人都有可能会相关的,比如眼科,每个人都有失明的潜在危险。我们的眼睛正在面临困难?目前我国因眼病或外界因素致盲人数每年都在不断地增长,其中,致盲率最高的眼病有白内障、青光眼、糖尿病视网膜病变、老年性黄斑变性、角膜疾病、高度近视等。现在人对智能手机的过度依赖,很多人每天看手机的时间会长达五六个小时以上,甚至更多,手机中的高频蓝光将大大增加了眼睛疾病的风险。因为蓝光的波长相对比较短,所以能量比红光和绿光高,能够直接穿透晶体直达视网膜上。蓝光波长在415-455纳米以内的蓝光,在一些动物实验中被证实能够损伤视网膜。蓝光可以对我们的黄斑造成伤害,可能会引起老年黄斑变性,世界卫生组织WHO爱眼协会在2008年就已经发出报告,当时因为蓝光辐射每年会导致全球30000人失明。糖尿病已经成为我国广泛的疾病之一,根据国际糖尿病联合会IDF发布的糖尿病调查数据显示,2015年中国糖尿病人数量已经到了1.096亿,糖尿病性视网膜病变(DR)是糖尿病性微血管病变中最重要的表现,是一种具有特异性改变的眼底病变,是糖尿病的严重并发证之一。在增殖性视网膜病变中,视网膜损害刺激新生血管生长。新生血管生长对视网膜有害无益,其可引起纤维增生,有时还可导致视网膜脱离。新生血管也可长入玻璃体,引起玻璃体出血。与非增殖性视网膜病变相比,增殖性视网膜病变对视力的危害性更大,其可导致严重视力下降甚至完全失明。人工智能诊断眼科疾病目前人工智能应用在计算机视觉的主要算法是深度神经网络,含多隐层的多层感知器就是一种深度学习结构,由Hinton等人于2006年提出,但是直到2012年Hinton采用了一种新的称为&丢弃& (Dropout) 的算法. 避免了过度拟合,从而让人工智能和深度学习真正的火爆和快速发展。医学影像识别:人工智能深度神经网络是由大量简单的处理单元(神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特性,是人脑神经网络系统的简化,抽象和模拟,神经网络通过图像预处理、图像特征提取和分类等步骤识别医学影像。医学影像判读:人工智能和深度学习的基础是大量高质量的数据,通过大量的医学影像和医学数据,对模型进行训练和测试,并且通过大量医学知识的学习,最终能够得出准确识别医学影像的人工智能模型,可以在识别并且诊断眼科疾病。国内的人工智能医疗团队Airdoc专注在医学影像识别领域,通过识别医学图像来诊断疾病,在大脑、心血管、肺部、肝脏和骨骼健康领域已经创建了比较成熟的辅助诊断模型, Airdoc同样在糖尿病性视网膜病变诊断领域已经取得了巨大的成果,国际上将糖尿病视网膜病变从正常到严重分成了5类。Airdoc在眼科专家的帮助下,通过让人工智能算法学习远超人类医生一生接诊量的患者眼底照片,训练了一个检测糖尿病视网膜病变的深度神经网络,该算法在有明显症状和无明显症状二分方面准确性与三甲医院资深眼科医生持平,同时,该算法在眼底照片国际标准5分类方面的准确性也不逊于专业眼科医生。人工智能和深度学习对眼科的意义很多人都好奇人工智能能否替代医生,但是在Airdoc团队看来人工智能是新时代的听诊器、显微镜、血压计,只是医生的好工具,并不能替代医生,最终的诊断决策还是需要医生做出。医生诊疗病人已经几千年,不会因为一两个技术出现而变化。准确识别:医生每天工作量很大,长时间高强度的工作,会导致医生疲劳,注意力不集中,会有出错的风险,机器最大的特点就是精准,不会出现因为劳累而出现诊断出错的情况。海量识别:每天大量的有眼疾的病人需要眼科医生诊断,但是医生的增长速率远远落后疾病的增长速率,很多医院看眼科病并不能当天给出诊断结果,深度学习模型可以在1秒钟以内识别眼部图像并且给出诊断建议,可以大大解放眼科医生,从而将精力放在研究性工作和治疗当中。辅助医生诊断:我国人口基数大,为了满足病人看病需求,出现了海量的医疗机构,然而并不是每一个医疗机构都能够诊断眼科疾病,为了解决这一问题出现了远程阅片中心,但是同样不能实时给出诊断结果,人工智能和深度学习应用到眼科,可以很好的辅助这些医院诊断眼科疾病。
贴吧热议榜
使用签名档&&
保存至快速回贴

我要回帖

更多关于 人工智能与失业 的文章

 

随机推荐