想要买一台做机器学习时性能强大的电脑,应该怎样选

入门机器学习,想组装一台式机用来做机器学习,本人这方面是小白,求大佬推荐配置方案。_百度知道
入门机器学习,想组装一台式机用来做机器学习,本人这方面是小白,求大佬推荐配置方案。
入门机器学习,想组装一台式机用来做机器学习,本人这方面是小白,求大佬推荐配置方案。预算10000一下
我有更好的答案
其他没要求,内存越大越好,频率不用越高越好,再加一个1070ti/1070,妥妥的~
采纳率:71%
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。电脑卖给贵了,能投诉吗_百度知道
电脑卖给贵了,能投诉吗
我有更好的答案
不能,智商还要交税呢。凭本事卖的电脑 凭什么说他(贵)辣稽。
为您推荐:
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。如何基于R 完成机器学习_百度知道
如何基于R 完成机器学习
我有更好的答案
你可以从一个由你熟悉的语言编写的库开始学习,然后再去学习其他功能强大的库。如果你是一个优秀的程序员,你会知道怎样从一种语言,简单合理地迁移到另一种语言。语言的逻辑都是相同的,只是语法和API稍有不同。
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。1.机器学习基础知识概览_突袭网
当前位置&:&&&&1.机器学习基础知识概览
热门标签:&
1.机器学习基础知识概览
编辑:李利平
一、机器学习的几种方式(1)监督式学习工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变 量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K C近邻算法、逻辑回归等。(2)非监督式学习工作机制:在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。非监督式学习的例子有:关联算法和K C均值算法。(3)半监督式学习-工作机制:输入数据是被标记的和不被标记的数据的混合,有一些预测问题但是模型也必须学习数据的结构和组成。问题例子包括分类和回归问题,算法例子基本上是无监督学习算法的延伸。(4)强化学习工作机制:这个算法训练机器进行决策。它是这样工作的:机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的商业判断。强化学习的例子有马尔可夫决策过程。二、训练样本的歧义性(1)监督学习来说,它通过对具有概念标记(concept label)的训练例进行学习,以尽可能正确地对训练集之外的示例的概念标记进行预测。这里所有训练例的概念标记都是已知的,因此训练样本的歧义性最低。(2)对非监督学习来说,它通过对没有概念标记的训练例进行学习,以发现训练例中隐藏的结构性知识。这里的训练例的概念标记是不知道的,因此训练样本的歧义性最高。(3)半监督学习中的歧义性并不是与生俱来的,而是人为的,即用户期望用未标记的样本来辅助对已标记样本的学习。半监督学习中人为的歧义性在解决工程问题上是需要的、有用的(对大量样本进行标记的代价可能是极为昂贵的),但可能不太会导致方法学或对学习问题视点的大的改变。(4)对强化学习来说,它通过对没有概念标记、但与一个延迟奖赏或效用(可视为延迟的概念标记)。相关联的训练例进行学习,以获得某种从状态到行动的映射。这里本来没有概念标记的概念,但延迟奖赏可被视为一种延迟概念标记,因此其训练样本的歧义性介于监督学习和非监督学习之间。三、机器学习工作方式①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据②模型数据:使用训练数据来构建使用相关特征的模型③验证模型:使用你的验证数据接入你的模型④测试模型:使用你的测试数据检查被验证的模型的表现⑤使用模型:使用完全训练好的模型在新数据上做预测⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现四、机器学习如何解决问题(1)拿到数据后怎么了解数据(可视化)(2)选择最贴切的机器学习算法(3)定位模型状态(过/欠拟合)以及解决方法(4)大量极的数据的特征分析及可视化(5)各种损失函数的优缺点及如何选择五、过度拟合问题及解决办法训练样本往往还有一定的噪音误差,所以如果太追求在训练集上的完美而采用一个很复杂的模型,会使得模型把训练集里面的误差都当成了真实的数据分布特征,从而得到错误的数据分布估计。这样的话,到了真正的测试集上就错的一塌糊涂了(这种现象叫过拟合)。(1)增大样本量,想办法去采集相同场景下的新数据(2)减少特征的量,选取有用有效的特征(3)增强正则化作用,这是最有效也是推荐的方法六、欠拟合问题及解决办法(1)选取有效特征(2)使用复杂一点的模型七、损失函数的选择(1)0-1损失函数(zero-one loss)非常好理解,直接对应分类问题中判断错的个数。但是比较尴尬的是它是一个非凸函数,这意味着其实不是那么实用。(2)hingeloss(SVM中使用到的)的健壮性相对较高(对于异常点/噪声不敏感)。但是它没有那么好的概率解释。(3)log损失函数(log-loss)的结果能非常好地表征概率分布。因此在很多场景,尤其是多分类场景下,如果我们需要知道结果属于每个类别的置信度,那这个损失函数很适合。缺点是它的健壮性没有那么强,相对hinge loss会对噪声敏感一些。(4)多项式损失函数(exponentialloss)(AdaBoost中用到的)对离群点/噪声非常非常敏感。但是它的形式对于boosting算法简单而有效。(5)感知损失(perceptronloss)可以看做是hinge loss的一个变种。hinge loss对于判定边界附近的点(正确端)惩罚力度很高。而perceptron loss,只要样本的判定类别结果是正确的,它就是满意的,而不管其离判定边界的距离。优点是比hinge loss简单,缺点是因为不是max-margin boundary,所以得到模型的泛化能力没有hinge loss强。八、偏差和方差在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差和方差偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。模型的真实误差是两者之和。如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的优势大(例如,KNN),因为后者会过拟合。但是,随着你训练集的增长,模型对于原数据的预测能力就越好,偏差就会降低,此时低偏差/高方差分类器就会渐渐的表现其优势(因为它们有较低的渐近误差),此时高偏差分类器此时已经不足以提供准确的模型了。当模型复杂度上升的时候,偏差会逐渐变小,而方差会逐渐变大。九、算法选择参考1.首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考,在基础上与其他算法进行比较;2.然后试试决策树(随机森林)看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型,你也可以使用随机森林来移除噪声变量,做特征选择;3.如果特征的数量和观测样本特别多,那么当资源和时间充足时(这个前提很重要),使用SVM不失为一种选择。通常情况下:【GBDT>=SVM>=RF>=Adaboost>=Other…】【声明】:本文为作者读书笔记汇总整理,请勿转载。
更多精彩 >>>

我要回帖

 

随机推荐