用r语言svm寻找差异基因跑几万个基因的差异分析需要多大的内存

3被浏览383分享邀请回答0添加评论分享收藏感谢收起【快讯】放宽计算及内存限制,Aster提供R语言分析能力
发表于 15:54|
作者云知秋
摘要:在单机部署中,计算能力和内存一直限制着复杂分析的性能。近日,天睿将推出Teradata Aster R,通过在数据库内并行执行R语言分析,降低分析对处理能力和内存的依赖,为R语言分析师提供企业级就绪的商业分析解决方案。
【快讯】时至今日,R语言几乎成为了数据科学领域的通用语言,被各个公司运用于数据分析产品中。经了解,,Teradata公司近日亦将推出起基于R语言的大数据分析工具——Teradata
Aster R,通过放宽内存和处理能力限制条件,扩展开源R语言分析能力。Teradata Aster R为R语言分析师提供企业级就绪(enterprise-ready)的商业分析解决方案,具有高度可扩展性、可靠性和易用性。
R是面向数据挖掘人员和数据科学家的一种开源统计语言及软件。Rexer Analytics咨询公司调查显示,使用R语言的数据挖掘人员越来越多,70%的调查对象称他们正在使用R语言。
然而在单服务器部署情况下,鉴于内存处理数据量大小的限制,复杂分析的性能必然会有所下降。本次推出的Teradata Aster R则通过在数据库内并行执行R语言分析,放宽了处理能力及内存限制。
Teradata Labs总裁 Scott Gnau 表示:“Teradata Aster R为企业提供R语言分析能力。而针对R语言分析师,Teradata开发出他们熟悉的R语言和工具,并提供强大的处理能力及丰富的分析方法。分析师还能够从多个数据源访问海量整合数据。”
Teradata Aster R主要包含以下三大组件:
Teradata Aster R Library: 该语言库预置100余种R语言功能,所有数据均支持并行运行,降低并行处理的复杂性。分析师无需花费数日进行并行算法编码,即可实时的访问R语言并行功能,如数据管理、访问、探勘与操作、机器学习算法等。此外,Teradata还通过拥有专利的Teradata
Aster nPath等高性能分析能力,增强开源R语言的分析能力。
Teradata Aster R Parallel Constructor:该组件拥有超过5500个R语言分析工具包,支持所有开源社区开发的新分析功能,可帮助分析师开发并行分析方法。
Teradata Aster SNAP Framework集成:开源R语言引擎已被整合至Teradata Aster无缝网络分析处理框架(Teradata
Aster SNAP Framework),可依据分析师特定探索需要,将多种分析引擎和文件存储无缝整合。多种分析能力的无缝整合增强Teradata
Aster R的分析能力。借助图表、MapReduce、文本、统计、时序及R语言分析等多种分析功能,数据科学家可仅通过单一程序就能深度挖掘数据。
Teradata还为Aster R语言库添加高性能图表分析模块,支持先前发布的图形处理引擎Teradata Aster SQL-GR。数据科学家将能够利用图形分析能力,分析社交网络,监测欺诈行为,并运行可信传播(belief
propagation)这一专业的可能性建模算法。
R语言分析用例
在线流媒体电影供应商必须预测未来收入,采取行动阻止潜在的消费者流失,并提升其视觉体验。电影供应商将该任务分派给R语言分析师,帮助他们了解客户的购买偏好及服务需求。但由于内存及处理能力限制,分析师无法访问并整合所有需要的数据。在单服务器内存环境下很可能无法及时完成分析,因此分析师无法及时响应商业用户的需求。
部署Teradata Aster R帮助分析师打破内存及处理能力限制,他们还可通过R语言控制台,协调整个分析流程。而通过部署Apache Hadoop及Teradata,分析师可在数据库内针对电影元数据、客户搜索、观看历史记录、账户信息等所有所需数据,轻松实现高速分析。基于这些客户洞察,在线电影供应商将能够针对客户服务及防止客户流失作出明智决策。据悉,Teradata
Aster R计划将于2014年第四季度上市。
免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!
CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章关注今日:0 | 主题:279003
微信扫一扫
R语言分析差异基因
页码直达:
在R包里输入eset.rma&-rma(Data)然后提示& eset.rma&-rma(Data)Error in getCdfInfo(object) :
Could not obtain CDF environment, problems encountered:Specified environment does not contain HuRSTA-2a520709Library - package hursta2a520709cdf not installedBioconductor - hursta2a520709cdf not available求大神指点
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
xiaobarzi 在R包里输入eset.rma&-rma(Data)然后提示& eset.rma&-rma(Data)Error in getCdfInfo(object) :
Could not obtain CDF environment, problems encountered:Specified environment does not contain HuRSTA-2a520709Library - package hursta2a520709cdf not installedBioconductor - hursta2a520709cdf not available求大神指点你没有下 hursta2a520709cdf包,你用的是gcrma包吗?我没用过我都是用affy包处理.cel基因芯片的raw_data,affy的算法也是rma
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
乐布 你没有下 hursta2a520709cdf包,你用的是gcrma包吗?我没用过我都是用affy包处理.cel基因芯片的raw_data,affy的算法也是rma我也试着下 hursta2a520709cdf包,不过没用
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
你的问题应该能从下面的英文解答(我运行的时候都是automatically,或许你有的包没下(只是猜测具体哪里有问题我也不清楚))The first thing you need to do is load the package.R& library(affy) ##load the affy packageThis release of the affy package will automatically download the appropriate cdf environ-ment when you require it. However, if you wish you may download and install the cdfenvironment you need from data/annotation/ manually. If there is no cdf environment currently built for yourparticular chip and you have access to the CDF file then you may use the makecdfenvpackage to create one yourself. To make the cdf packaes, Microsoft Windows users willneed to use the tools described in -/Rtools/.另外 看看这个博主的帖子吧,应该对你有用也应该多看看packaes的帮助文档预处理基因芯片数据步骤文件是 从ncbi下的原始数据***GSE60518raw-data(raw-data解压后是.cel格式)1##读入 cel文件affybatch &- ReadAffy(celfile.path = &GSE60518_RAW&)
##读的是目录##标准化
2.eset &- rma(affybatch)
##可以使用RMA或者MAS5等方法对数据进行background.correctionwrite.exprs(eset, file=&mydata.txt&)
##mydata.txt就是数字化的表达谱矩阵了
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园用R和BioConductor进行基因芯片数据分析:差异表达基因
接前一篇:&
经过一系列的预处理,包括缺失值填充,中位数计算以及归一化,我们的数据终于可以用啦。
下面我们就来分析一下new population和old population的个体是否有差异表达基因。
判断一个基因是否差异表达有许多方法,最早使用的就是看log ratio的绝对值是否大于2,这种方法早已废弃。
下一个想到的也许是t-test,诚然t-test可以统计地判断一个基因是否差异表达,但是对于有数千数万基因的芯片来说,会有很高的错误发现率(False
Discovery Rate, FDR),如果 p value &
0.05,则10000个基因里有500个基因实际没有差异表达而被误认为是差异表达。因此t-test方法需要改进。
于是 Westfall & Young (1993) 提出了Step-down maxT and
minP multiple testing
procedures,大意就是比较几个group间有没有差异基因表达,就通过随机置换这些group的标记,相当于随机互换group的成员,模拟一个空分布(null
distribution),以此计算调整后的p value,这个方法可以极大的减小Family-wise Error Rate
以下分析就使用Step-down maxT and minP multiple testing
procedures,需要求助于Bioconductor的multtest
package的mt.maxT()函数。具体用法可通过help(mt.maxT)查看。
&source("&
biocLite("multtest")
library(multtest)&
classlabel&-c(0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1)&
maxttt&-mt.maxT(norm_log_btw_array,classlabel,B=100000)
默认随机置换次数B=10000,对于microarray来说B应该比10000大很多,所以这里取B=100000&
以下是画图:&
rawp&-maxttt$rawp[order(maxttt$index)]&
plot(sort(rawp),type='p',col=1,ylim=c(-0.05,1.00),ylab='p
lines(sort(maxttt$adjp),type='p',col='red')&
#min adj-p: sort(maxttt$adjp)[1] 0.0163&
#rawp: &sort(rawppp)[170] [1] 0.0493
& sort(rawppp)[171] [1] 0.个raw
p小于0.05&
abline(h=0.05,col='blue')&
text(1000,c(0.6,0.7),labels=c('raw p-value','adjusted
p-value'),col=c('black','red'))&
text(,labels='p=0.05',col='blue')
可见调整后只有一个基因的p value小于0.05,而未调整的有170个基因的p
value小于0.05,可以说虽然此方法降低了错误发现率,但是也导致了很高的False negative.
此外可以考虑使用multtest package的mt.rawp2adjp()函数,这个函数可以通过”Bonferroni”,
“Holm”, “Hochberg”, “SidakSS”, “SidakSD”, “BH”, “BY”等方法调整p
value,不过对我们的数据来说都过于严格了。
procs&-c("Bonferroni","Holm","Hochberg","SidakSS","SidakSD","BH","BY")&
adjps&-mt.rawp2adjp(rawp,procs)&
plot(sort(adjps$adjp[,1]),ylab='p value')&
for (i in 2:8){&
points(sort(adjps$adjp[,i]),col=i)&
abline(h=0.05,col='blue')&
text(,labels='p=0.05',col='blue')
因此可以考虑不这么严格的SAM (Significance
Analysis of Microarrays)分析。有兴趣的请看参考资料。。
参考资料:
课堂讲义:.&Identifying
differentially expressed genes — notions on multiple testing and
p-value adjustments.
Dudoit, S., Yang, Y.H., Speed, T.P., and Callow, M.J.
(2002),&,&Statistica&Sinica&12(1):111-139.
Dudoit S., Shaffer J.P., Boldrick J.C. (2003).&,&Statistical
Science, 18(1): 71-103.
Efron B., Tibshirani, R., Storey J.D., and Tusher V.
(2001),&,&Journal
of the American Statistical
Association96:.
SAM (Significance
Analysis of Microarrays)相关:Tusher, V.G., Tibshirani, R., and
Chu, G. (2001)&,&PNAS&98:.
FDR相关:Storey J.D. (2002),&, JRSS-B
64(3):479-498.
&&&&&&&&&&&
R和Bioconductor简介
是开源的统计计算和作图语言,与S语言很相似。R的语法与其他语言很相似,功能很强大,可以到。主页是&&
可以下载R,有很权威的英文教程。本站提供(pdf)的打包下载,更多的随便搜索一下就可以找到。
是建立在R语言环境上的生物芯片数据和基因组数据分析软件包,主页是&&
BioConductor由许多package组成,可以全部安装,也可以单独安装。BioConductor的安装是在R控制台,输入:&
source(“http://bioconductor.org/biocLite.R”)&
biocLite()&
更多安装设置请看&
BioConductor的使用文档可以在找到,而给出了其中package的简单使用方法。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 r语言 两组数据差异 的文章

 

随机推荐