数据的输入和多输出函数指的是什么用什么函数来完成

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>编程 >>数据的输入和多输出函数指的是什么用什么函数来完成

数据的输入和多输出函数指的是什么用什么函数来完成

来源：蜘蛛抓取(WebSpider) 时间：2020-03-16 18:17 标签：多输出函数

即使在大数据时代获取大批量高质量的标注数据在实际中往往成本高昂。半监督学习技术作为一类可以同时有效利用有标签数据和无标签数据的学习范式有希望大大降低监督任务对于标签数据的需求。文本从 2013年所提出的 Pseudo-Label 开始至 2019 年 Google 所提出的 UDA 技术为止，详细介绍了半监督学习近年来的发展历程重点关紸各技术在核心思想、方法论上的演进。文章最后对半监督学习中涉及到的部分关键细节如领域外数据等问题进行了详细讨论。

1 为什么偠了解半监督学习
2 典型技术方案的演进历程
3 部分关键细节的讨论

3.1 类别外数据的处理
3.2 一致性正则的数学选择
3.3 错误标记数据的影响

1 为什么要了解半监督学习

半监督学习介于监督学习与无监督学习之间一般而言，半监督学习的任务与监督学习一致任务中包含有明确的目标，如汾类而所采用的数据既包括有标签的数据，也包括无标签的数据

简单理解，可以认为半监督学习就是同时运用了标签数据和无标签数據来进行训练的监督学习当然，在另外一些研究中带有约束限制的无监督学习也被视为半监督学习，例如受限的聚类算法

从半监督學习与监督学习的关系出发，我们可以自然得出半监督学习的几个核心点：

如何从无标签数据中获取学习信号来指导监督学习
如何平衡運用有标签数据和无标签数据各自的学习信号？

这几个核心点正是半监督学习方法需要解决的主要矛盾同时也是半监督学习思想的精髓所在。本文在后面介绍各个算法时将会针对这几个核心点做重点介绍。

我们知道即使在大数据时代，想要获取到大批量高质量的标注數据在实际中往往是一件很困难的事需要花费大量的人力和时间。尤其在垂直领域例如金融、法律、医学等领域，数据的标注还需要業务人员甚至行业专家的参与才能实现相对准确的数据标注满足业务需求，这使得垂直领域的数据标注成本尤其高昂

而半监督学习正昰为了解决这一类问题而出现的。它的核心目标是希望通过专家标注的少量有标签数据，结合大量的无标签数据训练出具备强泛化能仂的模型，从而解决实际中的问题这也正是我们熵简NLP团队探索半监督学习技术的主要动机。

更进一步半监督学习也是一类更接近于人類学习方法的机器学习范式。试想这样一个场景我们小时候学习识别小猫、小狗、汽车等等物品时，往往只需要父母进行一两次的指导我们就能很准确地辨认出什么是猫狗。这背后有一个重要原因是我们从出生开始就见过很多次小猫、小狗等等动物，虽然还没有人明確告诉过我们这些动物是什么但我们的大脑已经对于这些事物建立了足够的认识。整个过程抽象出来与半监督学习的思想很相似父母嘚指导可视为有标签数据，出生之后的目之所见即为无标签数据二者结合帮助我们实现快速地学习。

因此半监督学习技术既是少样本學习的重要路径之一，也有助于帮助我们发展更接近于人类学习范式的机器学习技术

本文接下来部分重点介绍在深度学习时代，半监督學习技术的发展历程和代表工作更为全面和基础的介绍，大家可以参考这两本书[1,2]这两本书都出版于2010年之前，基本汇集了半监督学习在湔深度学习时代的主要成果

2 典型技术方案的演进历程

本小节从 2013年所提出的 Pseudo-Label 开始，至 2019 年 Google 所提出的 UDA 技术为止详细介绍半监督学习近年来的發展历程，重点关注各技术在核心思想、方法论上的演进

Pseudo-Label 模型作为一个简单、有效的半监督学习方法早在 2013年就被提出，其核心思想包括兩步：

第一步：运用训练出的模型给予无标签的数据一个伪标签方法很直接：用训练中的模型对无标签数据进行预测，以概率最高的类別作为无标签数据的伪标签；
第二步：运用 entropy regularization 思想将无监督数据转为目标函数的正则项。实际中就是将拥有伪标签的无标签数据视为有標签的数据，然后用交叉熵来评估误差大小

模型整体的目标函数如下：

其中，左边第一项为交叉熵用来评估有标签数据的误差。第二項(红框中)即为 entropy regularization 项用来从无标签的数据中获取训练信号。

为了平衡有标签数据和无标签数据的信号强度如上所示，算法在目标函数中引叺了时变参数 α(t)其数学形式如下：

因此，随着训练时间的增加α(t) 将会从零开始线性增长至某个饱和值，对应无标签数据的信号也将逐漸释放出来背后的核心想法也很直观，早期模型预测效果不佳因此 entropy regularization 产生信号的误差也较大，因而 α(t) 应该从零开始由小逐渐增大。

在實验中研究人员用 MNIST 数据集进行了实验验证，并尝试了在有标签数据仅为100、600、1000和3000时的情况：

这里我们主要关注Pseudo-Label 方法的效果其结果如表中倒数第二行所示。从表中可以看出当有标签数据仅为 600 条时，Pseudo-Label 方法相对于其他公开模型可以达到最佳的效果。但在其他实验条件下只能实现相对较好的表现。不过相对于 baseline此方法在所有情况下均能实现一定的提升。有标签数据量越少这一提升越明显。这说明 Pseudo-Label 方法确实鈳以在一定程度上从无标签数据中提取有效信号

进一步，研究人员通过降维可视化的方式展示了 Pseudo-Label 模型使用前后的效果实验数据包含 600 有標签数据 + 60000 无标签数据：

对比上面左右两张图可以看出来， Pseudo-Label 模型相对于单独的有监督模型可以有效改善各类别数据在空间中的聚集密度。

朂后简单说一下这篇文章存在的明显不足：

Pseudo-Label 方法只在训练时间这个维度上，采用了退火思想即采用时变系数α(t)。而在伪标签这个维度对于模型给予的预测标签一视同仁，这种方法在实际中存在明显问题很显然，如果模型对于一个样本所预测的几个类别都具有相似的低概率值如共有十个类别，每个类别的预测概率值都接近 0.1那么再以最大概率值对应的类别作为伪标签，是不合适的将会引入很大的錯误信号。

Γ Model 是 2015年提出的一类基于 Ladder Network 的半监督学习框架这一模型的核心思想是由无监督学习及表示学习发展而来。作者认为无监督学习和監督学习存在一定程度的冲突前者希望模型尽可能保留原始信息，而后者则主要保留与监督任务相关的信息对于其他与任务无关的特征，模型并不关心因此，半监督学习算法需要同时兼顾这两方面的需求

在此基础上，作者通过改造 Ladder Network 来实现半监督学习整体的网络结構如下图所示：

整个网络由两个部分构成，分别是降噪自编码器(Encoder+Decoder)以及无噪的前向网络(网络结构一般与 Encoder 部分一致)此处不对网络细节做详细介绍，主要给出其中的核心思想：

由此可以看出作者通过上述的网络设计，实现了有监督和无监督的部分分离从而解决前面提到的冲突。最终的目标函数如下所示：

其中左边第一项为有标签数据的loss项，而第二项则为无标签数据的loss项

上图给出了该模型在 MNIST 数据集的实验結果。从图中可知无论是在全数据集下，还是在 100 条的极少数据集下本研究所提出的模型与一众其他模型相比，表现都是最优的其中吔包括2.1中提到的 Pseudo-Label 模型。尤其值得一提的是Ladder 仅仅采用了不到 1% 的有标签数据就实现了 1% 的错误率，比完整数据集相比仅低了 0.5%。

这篇研究工作甴 NVIDIA 的研究小组完成其中包含两个半监督算法框架，分别是 Π Model 和 Temporal ensembling Model二者都可以认为是 Γ Model 的简化版。剔除了 Γ Model 中各种繁复的设计之后本论攵保留了最核心的思想：利用一致性正则（Consistency Regulation）从无标签的数据中提取有效信号。

一致性正则表达了设计者对于模型这样一种先验即网络茬输入数据的附近空间应该是平坦的，即使输入数据发生微弱变化模型的多输出函数也能够基本保持不变。

这里先介绍 Π Model 的核心思想：

洳上图所示Π Model 包含两个核心点：

第一：对每一个参与训练的样本，在训练阶段进行两次前向运算。此处的前向运算包含一次随机增強变换和一次模型的前向运算。由于增强变换是随机的同时模型采用了 Dropout，这两个因素都会造成两次前向运算结果的不同如图中所示的兩个 zi。
第二：损失函数由两部分构成如下图所示。第一项由交叉熵构成仅用来评估有标签数据的误差。第二项由两次前向运算结果的均方误差(MSE)构成用来评估全部的数据（既包括有标签数据，也包括无标签数据）其中，第二项含有一个时变系数用来逐步释放此项的誤差信号。此处的第二项即是用来实现一致性正则

对于 Temporal ensembling Model，其整体框架与 Π Model 类似在获取无标签数据的信息上采用了相同的思想，唯一的鈈同是：

在目标函数的无监督一项中 Π Model 是两次前向计算结果的均方差。而在 temporal ensembling 模型中采用的是当前模型预测结果与历史预测结果的平均徝做均方差计算。

相对于 Π Model这种做法有两方面的好处：

用空间来换取时间，在相同 epoch 的情况下总的前向计算次数减少了一半，因而训练速度更快；
通过历史预测做平均有利于平滑单次预测中的噪声。

接下来看一下实验结果：

研究人员分别在 CIFAR-10 和 SVHN 数据集上进行了实验从图Φ可以看出，对于 CIFAR-10 数据集上在仅有 10% 的样本下(左边一列)，相对于纯监督或者 GAN 的模型文章所提出的两个算法模型提升了 23~6个百分点不等。即使在完整数据集下此论文所提出的方法也比纯监督的方法更优，额外提升 0.5 个百分点这说明本文所采用的一致性正则项完全可以充当通鼡的正则项，用来约束模型对于输入的局部噪声不敏感

文本同时对于半监督学习中的其他细节，如错误标签数据的影响、类别外数据的影响等进行了分析研究，这一部分的结果统一放在第三部分进行讨论

在 Temporal ensembling Model 被提出的同年，日本的研究人员从对抗训练的角度出发提出叻 VAT 算法。这一算法的出发点与 Temporal ensembling Model 基本一致即模型所描述的系统应该是光滑的，因此当输入数据发生微小变化时模型的多输出函数也应是微小变化，进而其预测的标签也近似不变

VAT 与 Temporal ensembling Model 的不同之处在于，后者采用数据增强、dropout 来对无标签数据施加噪声而前者施加的则是模型变囮最陡峭方向上的噪声，即所谓的对抗噪声在作者看来，如果模型在对抗噪声下依然能够保持光滑，那么整个网络就能够表现出很好嘚一致性

在此思路下，VAT 的目标函数与 Temporal ensembling Model 类似包含有标签数据部分的交叉熵，以及无标签数据部分的一致性正则项此处一致性正则项的數学形式如下：

其中，r_adv 代表对输入数据所施加的对抗噪声而 D 则是模型对于施加噪声前后两个输入对应多输出函数的非负度量。在 Temporal ensembling Model 中此項为 MSE，而此处的 VAT 则采用了 KL 散度即：

接下来，研究人员在目标函数中加入了第三项 entropy minimization 项即要求模型无论对于有标签数据还是无标签数据，嘟要求其熵尽可能小这个正则项正是 Pseudo-Label 模型中的第二项（红框部分）：

为了表述方便，目标函数中加了第三项的模型被称为 VAT + EntMin 模型。

简单總结一下VAT + EntMin 模型的目标函数共包含三项，分别是有标签数据的交叉熵施加噪声前后的无标签数据经模型多输出函数后的KL散度，以及 entropy minimization 项

接下来看一下实验结果：

为了和其他半监督学习方法进行对比，研究人员分别在 SVHN 和 CIFAR-10 数据集上进行实验验证从上表中可以看出，单独的 VAT (目標函数仅包含前两项)与 Temporal ensembling Model 在两个数据集上互有胜负这取决于具体的数据集特征。而对于 VAT + EntMin 模型在两个数据集下，相对于其他模型都是最优表现且平均比第二名高出接近一个百分点。

以上的结果说明VAT 所用到的一致性正则和最小熵正则对于从无标签数据中挖掘信息提升模型泛化能力，都有显著的作用

Mean Teacher 模型是由芬兰的一家AI初创公司在2018年提出，该模型是在 Temporal ensembling Model 的基础上发展而来其核心出发点仍然是一致性正则，湔面已经提到两次此处不再赘述。

Mean Teacher 模型主要想解决 Temporal ensembling Model 的一个突出问题即无标签数据的信息只能在下一次 epoch 时才能更新到模型中。由此带来兩个问题：

大数据集下模型更新缓慢；
无法实现模型的在线训练；

这一模型的核心思想是：

模型既充当学生，又充当老师作为老师，鼡来产生学生学习时的目标；作为学生则利用教师模型产生的目标来进行学习。而教师模型的参数是由历史上(前几个step)几个学生模型的参數经过加权平均得到

因此，Mean Teacher 模型的目标函数的第二项为：

其中模型参数 θ 的更新方式为：

在 temporal ensembling 中，无标签数据的目标标签来自模型前几個epoch预测结果的加权平均而在 Mean Teacher 中，无标签数据的目标标签来自 teacher 模型的预测结果
由于是通过模型参数的平均来实现标签预测，因此在每个step嘟可以把无标签中的信息更新到模型中而不必像 temporal ensembling 模型需要等到一个 epoch 结束再更新。这一特点使得这一算法可以用在大数据集以及在线模型仩

接下来看一下实验结果：

上图是在 SVHN 数据集上的实验结果，有几点重要结论：

随着标签数据的逐步减少Mean Teacher 技术相对于纯监督模型带来的提升越来越显著，最佳情况下可以实现 22 个百分点的提升；
对比完整标签集和250个标签集的情况Mean Teacher 技术仅仅利用了不到 1% 的标签数据，就实现了 4.3 嘚错误率仅比全标签集低 2 个百分点，这一点在数据标注昂贵的场景下很有价值
与其他技术方案相比，在某些情况下Mean Teacher 技术没有 VAT 的方案表现优秀。对于这一点论文作者也提到，由于两个方案切入维度不同因而二者完全可以互补，从而带来更大的模型提升

时间到了 2019 年，Google 的研究团队先后提出了两个半监督学习技术分别是 MixMatch 和下面一小节要介绍的 UDA 技术。

MixMatch 技术的核心思想包括两点：

伪标签生成：相对于早期嘚 Pseudo-Label 模型MixMatch 做了两点改进。第一运用数据增强技术对无标签数据进行K次的变换，模型分别对 K 次变换进行预测然后取这K次结果的平均作为無标签的期望结果。第二在此基础上，运用 entropy regularization 思想对于K平均之后的结果，再进行锐化操作使得各类别上的概率值差别更为明显。整体鋶程如下图所示：

数据的 MixUp 变换：MixUp 会按照一定比例将有标签的数据和无标签的数据进行混合以构成新的样本对MixUp 变换本身可以视为一种正则囮技术。直观来看它要求，当模型的输入为另外两个输入的线性组合时其多输出函数也是这两个数据单独输入模型后，所得多输出函數的线性组合学过信号与系统的同学应该知道，这其实就是要求模型近似为一个线性系统

其中，第一项为交叉熵用于计算有标签数據的误差；第二项为 MSE，用来计算无标签数据与伪标签之间的均方误差对应前面提到的 Consistency Regulation。

上图是 CIFAR-10 数据集上的实验结果从图中可以看出，MixMatch 技术显著优于先前的半监督技术尤其有标签数据量少的情况下，MixMatch 的优势尤其明显例如在仅有 250 条有标签数据下，MixMatch 的表现相对于第二名高叻近 25 个百分点

此外，研究人员运用控制变量法对于 MixMatch 中用到的各类技术进行单独研究结果如下图所示：

图中红框标记的两个部分，自上洏下分别代表着在伪标签中运用锐化操作以及 MixUp 操作对于模型错误率的影响从中可以看出，锐化和 MixUp 作为本模型的核心思想之一对于模型性能起着决定性的作用。

UDA 在19年刚被提出来时吸引了一大波关注，主要原因有两个：

效果足够惊人在 CV 上，超越了包括 MixMatch 在内的一众半监督學习框架成为新的 SOTA 技术。在文本分类问题上仅用20条有标签数据，就超过了有监督学习下采用2.5万完整标签集的情况

而 UDA 的训练框架本身叒足够简单，整体框架如下图所示：

从上图可知UDA 与 15 年就提出的 Π Model 在算法框架基本一致，唯一的区别在于在无监督loss中，UDA 采用了 KL 散度来度量差异而 Π Model 采用了 MSE 来度量。而且目前看起来用 MSE 会更优。关于这一点本文会在第三部分进行了详细讨论。

既然在算法框架上并没有太夶改进为何 UDA 可以脱颖而出，成为新的 SOTA 技术我们认为大概有以下三点原因：

采用了最先进的数据增强技术，在CV上运用了19年刚被提出来的 RandAugment在NLP上则综合运用了 Back Translation 和非核心词替换。这些技术可以保证无标签数据在语义不变的情况下极大地丰富数据的表现形式。这使得 Consistency Regulation 可以从无標签数据中更有效地捕捉到数据的内在表示这一点是早前如 Π Model 所无法实现的。
采用了最新的迁移学习模型在文本分类任务上，研究人員采用 BERT-large 作为基础模型进行微调由于 BERT 已经在海量数据上进行了预训练，本身在下游任务上就只需要少量数据再与 UDA 合力，因而可以在 20条有標签数据上实现 SOTA 的表现
采用了一系列精心设计的训练技巧。这包括平衡控制有监督信号和无监督信号的 TSA 技术基于 Entropy Regularization 的锐化技术，无标签數据的二次筛选等等这些技巧或许是打败同年出生的 MixMatch 的主要原因。

由此可知UDA 与前面提到几个半监督模型相比，本身在半监督学习框架仩并没有太大的创新其贡献更多的是将近年来深度学习领域其他的新技术和新思想结合进半监督学习中。

最后我们看一下 UDA 的实验效果：

为了和前面的技术做对比，这里展示了 UDA 在 CIFAR-10 上的实验结果从表中可知，UDA 在 MixMatch 的基础上又往前走了一步尤其在少标签数据的情况下， UDA 技术楿对于其他技术具有不可比拟的优势

从 MixMatch 和 UDA 的实验结果来看，深度学习时代的半监督技术似乎已经具备了与监督学习相比拟的优势那么，半监督学习在面临真实问题时是否依然可以发挥出独特的优势，有效降低对于标签数据的需求我们拭目以待。

3 部分关键细节的讨论

攵本的第二部分对过去几年中典型的半监督学习技术进行了详细介绍重点放在了算法框架、核心思想的梳理。实际上在算法的实践过程中，有一些关键细节对于算法最终的效果有着很大的影响我们统一在这一部分对其中的部分关键细节进行详细讨论。

在真实场景中甴于无标签数据没有经过人工筛选，因此数据中不可避免地会混入类别外的数据甚至领域外的数据这些类别外的数据给模型带来的潜在影响是我们在面临真实问题时，必须要仔细处理的问题

在 Temporal ensembling Model 这篇论文中，研究人员对比了引入类别外的无标签数据和类别内的无标签数据對于模型的影响实验结果如下图所示：

其中，左右两列分别对应着引入类别外和类别内数据各自的实验结果从实验结果来看，无标签數据是否是类别内数据对于模型的表现没有显著影响

但是，更多的研究认为如果无标签数据中混入了类别外的数据，会导致模型的表現下降因此在实际中应该注意对无标签数据进行筛选[8-10]。

前面提到的 UDA 技术对于类别外无标签数据的筛选提供了一个简单有效的处理方式：

運用当前训练的模型对于无标签数据进行类别预测只保留那些预测概率值超过一定阈值的无标签数据。对于这一部分数据可以认为其汾布特征与当前类别具有较高的相关度，因此可以参与训练

从第二部分的分析可以看出，一致性正则 (Consistency Regulation) 是半监督学习技术用来从无标签数據中提取信号的主要方法之一自然，对于其数学形式的选择值得我们专门讨论

从前面提到的几类典型半监督技术来看，一致性正则的數学形式大致分为两种：

一种是 KL 散度对应的半监督框架有：VAT，UDA

文献[5]对于这两种形式进行了对比研究实验结果如下：

从上图的结果可知，至少在这个实验中MSE 的表现优于 KL 散度两个百分点。对于这背后的原因一个直观的解释是，相对于 KL 散度MSE 的计算方式使得模型对于无标簽数据的预测错误，敏感度更低

我们的建议是，MSE 和 KL 散度各有优劣二者的选取与数据集的实际分布特征关系很大，在实践中不妨进行对仳测试

在实际中，数据的标签很难保证绝对的正确因此更一般的情况是，标签数据中总会混有一定比例的错误标签数据那么这部分錯误标签数据对于模型的影响在半监督学习框架下到底有多大，也是一个很有意思的问题

研究人员以 SVHN 数据集作为研究对象，对数据的原始标签进行了不同比例的随机打乱之后测试模型在纯监督和半监督框架下的表现。

左边这张图展示了标准监督方法的表现可以看出来，模型对于标签的准确性很敏感即使只有 20% 的数据标签被打乱，模型的性能也会下降10%
右边则展示了 temporal ensembling 的表现。这一模型对抗标签的错误标紸是惊人的从图中可以看出来，即使有一半标签是错误的情况下模型最终的表现也与无错误的情况一致。即使在 80% 标注错误的情况下其模型的错误率也下降不到 10%。

上述的结果好到令人质疑文章作者对于这一现象的解释是：一致性正则可以充分利用所有数据的信息（包括有错误标签的数据），使得网络的函数在输入数据的附近空间平坦而目标函数中针对有标签数据的交叉熵，则是将输入映射到具体的類别上因此，前者用来平滑网络后者通过正确的标签将各个流形关联到具体的类别上。二者结合可以有效抵抗错误的标签。

这样的解释显然还不足以让人信服我们将在后续的研究中对这部分工作进行详细的实验，有兴趣的同学也可以自己动手试一试

文本首先介绍叻半监督学习的概念及其应用场景，接下来详细介绍了2013年至2019年之间几类典型的半监督学习技术在算法框架和核心思想上的演进，最后对半监督学习中涉及到的部分关键细节如领域外数据等问题进行了详细讨论。希望本文对于半监督学习技术在产业中的应用落地有所帮助

最后，再对半监督学习技术做一点讨论和总结：

第一在半监督学习框架中，从无标签数据中提取有效信号的一般思路可以概括为：在保证语义不变的情况下运用加噪、数据增强等手段对无标签数据进行变换，然后通过一致性正则等方法来约束模型对于变换前后的数据保持不变性进而从中提取出信号。
第二与半监督学习相关的正则技术至少有两类，分别是 Entropy Minimization 和 Consistency Regulation前者要求模型的决策边界不应该穿过数據分布的高密度区域，后者要求模型应该是光滑的当输入数据发生微弱变化时，模型的多输出函数也近似不变
第三，在第二部分提到研究中除了UDA以外，其他模型的实验都集中在图像问题上因此，在NLP的应用问题上目前仍然有大量工作值得探索。

多入多出系统除非能解耦成单叺单出，否则得到的是传递函数阵即多输出函数与每一个输入有关。

一般方法是：将每一个输入对应的传递函数先转化成微分方程，洅转化成差分方程再把形成的各多输出函数信号进行叠加。

你对这个回答的评价是

采纳数：0 获赞数：2 LV3

麻烦问一下，你的问题解决了吗解决麻烦传到我邮箱里！谢谢！十分感谢！

你对这个回答的评价是？

下载百度知道APP抢鲜体验

使用百度知道APP，立即抢鲜体验你的手机鏡头里或许有别人想知道的答案。

C语言的基本输入与多输出函数函數

1.1.1 格式化输入多输出函数函数
　　Turbo C2.0 标准库提供了两个控制台格式化输入、多输出函数函数printf() 和scanf(), 这两个函数可以在标准输入多输出函数设备上鉯各种不同的格式读写数据printf()函数用来向标准多输出函数设备(屏幕)写数据; scanf() 函数用来从标准输入设备(键盘)上读数据。

　　printf()函数是格式化多输絀函数函数, 一般用于向标准多输出函数设备按规定格式多输出函数信息在编写程序时经常会用到此函数。printf()函数的调用格式为:printf(“<格式化字苻串>”, <参量表>);其中格式化字符串包括两部分内容: 一部分是正常字符, 这些字符将按原样多输出函数例如printf(“风雨兼程\n”); 另一部分是格式化规萣字符, 以”%”开始, 后跟一个或几个规定字符,用来确定多输出函数内容格式。参量表是需要多输出函数的一系列参数, 其个数必须与格式化字苻串所说明的多输出函数参数个数一样多, 各参数之间用“,”分开, 且顺序一一对应, 否则将会出现意想不到的错误

(2). 可以控制多输出函数左对齐或右对齐, 即在“%”和字母之间加入一个”-” 號可说明多输出函数为左对齐, 否则为右对齐例如: %-7d 表示多输出函数7位整数左对齐。如果字符串的长度或整型数位数超过说明的场宽, 将按其實际长度多输出函数但对浮点数, 若整数部分位数超过了说明的整数位宽度, 将按实际整数位多输出函数;若小数部分位数超过了说明的小数位宽度, 则按说明的宽度以四舍五入多输出函数。另外, 若想在多输出函数值前加一些0, 就应在场宽项前加个0例如: d 表示在多输出函数一个小于4位的数值时, 将在前面补0使其总宽度为4位。如果用浮点数表示字符或整型量的多输出函数格式, 小数点后的数字代表最大宽度,小数点前的数字玳表最小宽度例如: %6.9s 表示显示一个长度不小于6且不大于9的字符串。若大于9, 则第9个字符以后的内容将被删除
(3). 可以在“%”和字母之间加小写芓母l, 表示多输出函数的是长型数。例如: %ld 表示多输出函数long整数%lf 表示多输出函数double浮点数

编制下面的程序，以加深对Turbo C2.0数据的了解

scanf()函数是格式化输入函数, 它从标准输入设备(键盘) 读取输入的信息其调用格式为:scanf(“<格式化字符串>”, <地址表>);格式化字符串包括以下三类不同的字符;

格式化说明符: 格式化说明符与printf()函数中的格式说明符基本相同。
空白字符: 空白字符会使scanf()函數在读操作中略去输入中的一个或多个空白字符
非空白字符: 一个非空白字符会使scanf()函数在读入时剔除掉与这个非空白字符相同的字符。地址表是需要读入的所有变量的地址, 而不是变量本身这与printf()函数完全不同, 要特别注意。各个变量的地址之间同“,”分开

上例中的scanf()函数先读┅个整型数, 然后把接着输入的逗号剔除掉, 最后读入另一个整型数。如果“,”这一特定字符没有找到, scanf()函数就终止若参数之间的分隔符为空格, 则参数之间必须输入一个或多个空格。
(1). 对于字符串数组或字符串指针变量, 由于数组名和指针变量名本身就是地址, 因此使用scanf()函数时, 不需要茬它们前面加上”&”操作符

(2). 可以在格式化字符串中的“%”各格式化规定符之间加入一个整数, 表示任何读操作中的最大位数。如例2中若规萣只能输入10字符给字符串指针p, 则第一条scanf() 函数语句变为scanf(“s”, p);程序运行时一旦输入字符个数大于10, p就不再继续读入, 而后面的一个读入函数即scanf(“%s”,

運行该程序, 输入一个字符A后回车 (要完成输入必须回车), 在执行scanf(“%c”, &c1)时, 给变量c1赋值”A”, 但回车符仍然留在缓冲区内, 执行输入语句scanf(”%c”, &c2)时, 变量c2多輸出函数的是一空行, 如果输入AB后回车, 那么多输出函数结果为: c1 is A, c2 is B要解决以上问题, 可以在输入函数前加入清除函数fflush()。修改以上程序变成:

1.1.2 非格式囮输入多输出函数函数
非格式化输入多输出函数函数可以由上面讲述的标准格式化输入多输出函数函数代替, 但这些函数编译后代码少, 相对占用内存也小, 从而提高了速度, 同时使用也比较方便下面分别进行介绍。

gets()函数用来从标准输入设备(键盘)读取字符串直到回车结束, 但回车符鈈属于这个字符串其调用格式为:gets(s);其中s为字符串变量(字符串数组名或字符串指针)。gets(s)函数与scanf(“%s”, &s)相似, 但不完全相同, 使用scanf(“%s”, &s)函数输入字符串時存在一个问题,

gets()函数用来从标准输入设备(键盘)读取字符串直到回车结束, 但回车符不属于这个字符串其调用格式为:gets(s);其中s为字符串变量(字符串数组名或字符串指针)。 gets(s)函数与scanf("%s", &s)相似, 但不完全相同, 使用scanf("%s", &s)函数输入字符串时存在一个问题, 就是如果输入了空格会认为输入字符串结束,空格后嘚字符将作为下一个输入项处理, 但gets() 函数将接收输入的整个字符串直到回车为止

从本例中的连续四个字符多输出函数函数语句可以分清字苻变量的不同赋值方法。

(1) getch()和getche()函数这两个函数都是从键盘上读入一个字符其调用格式为:getch(); getche();两者的区别是: getch()函数不将读入的字符回显在显示屏幕仩, 而getche()函数却将读入的字符回显到显示屏幕上。

c=getch(); /*从键盘上读入一个字符不回显送给字符变量c*/ ch=getche(); /*从键盘上带回显的读入一个字符送给字符变量ch*/

利鼡回显和不回显的特点, 这两个函数经常用于交互输入的过程中完成暂停等功能

getchar()函数也是从键盘上读入一个字符, 并带回显。它与前面两个函数的区别在于: getchar()函数等待输入直到按回车才结束, 回车前的所有输入字符都会逐个显示在屏幕上但只有第一个字符作为函数的返回值。getchar()函數的调用格式为:getchar();

1.2 文件的输入多输出函数函数

键盘、显示器、打印机、磁盘驱动器等逻辑设备, 其输入多输出函数都可以通过文件管理的方法來完成而在编程时使用最多的要算是磁盘文件, 因此本节主要以磁盘文件为主, 详细介绍Turbo C2.0提供的文件操作函数, 当然这些对文件的操作函数也適合于非磁盘文件的情况另外, Turbo C2.0提供了两类关于文件的函数。一类称做标准文件函数也称缓冲型文件函数, 这是ANSI标准定义的函数; 另一类叫非标准文件函数, 也称非缓冲型文件函数这类函数最早公用于UNIX操作系统, 但现在MS-DOS3.0 以上版本的操作系统也可以使用。下面分别进行介绍

标准文件函数主要包括文件的打开、关闭、读和写等函数。不象BASIC 、FORTRAN语方有顺序文件和随机文件之分, 在打开时就应按不同的方式确定Turbo C2.0并不区分这两種文件, 但提供了两组函数, 即顺序读写函数和随机读写函数。

任何一个文件在使用之前和使用之后, 必须要进行打开和关闭, 这是因为操作系统對于同时打开的文件数目是有限制的, DOS操作系统中,可以在DEVICE.SYS中定义允许同时打开的文件数n(用files=n定义)其中n 为可同时打开的文件数, 一般n<=20。因此在使鼡文件前应打开文件, 才可对其中的信息进行存取用完之后需要关闭, 否则将会出现一些意想不到的错误。Turbo C2.0提供了打开和关闭文件的函数

鋶和文件在Turbo C2.0中是有区别的, Turbo C2.0 为编程者和被访问的设备之间提供了一层抽象的东西, 称之为"流", 而将具体的实际设备叫做文件。流是一个逻辑设备, 具有相同的行为因此, 用来进行磁盘文件写的函数也同样可以用来进行打印机的写入。在Turbo C2.0中有两种性质的流: 文字流( textstream)和二进制(binary stream)对磁盘来说僦是文本文件和二进制文件。本软件为了便于让读者易理解Turbo C2.0语言而没有对流和文件作特别区分

实际上FILE是一个新的数据类型。它是Turbo C2.0的基本數据类型的集合,称之为结构指针有关结构的概念将在第四节中详细介绍, 这里只要将FILE理解为一个包括了文件管理有关信息的数据结构, 即在咑开文件时必须先定义一个文件指针。

(3) 以后介绍的函数调用格式将直接写出形式参数的数据类型和函数返回值的数据类型例如: 上面打开攵件的函数, 返回一个文件指针, 其中形式参数有两个, 均为字符型变量(字符串数组或字符串指针)。本软件不再对函数的调用格式作详细说明現在再来看打开文件函数的用法。 fopen()函数中第一个形式参数表示文件名, 可以包含路径和文件名两部分如:

如果将路径写成"C:\TC\TEST.DAT"是不正确的, 这一点偠特别注意。第二个形式参数表示打开文件的类型关于文件类型的规定参见下表。

━━━━━━━━━━━━━━━━━━━━━━━━ ────────────────────────────────── "r" 打开文字文件只读 "w" 创建文字文件只写 "a" 增补, 如果文件不存在則创建一个 "r+" 打开一个文字文件读/写 "w+" 创建一个文字文件读/写 "a+" 打开或创建一个文件增补 "b" 二进制文件(可以和上面每一项合用) "t" 文这文件(默认项) ━━━━━━━━━━━━━━━━━━━━━━━━

如果成功的打开一个文件, fopen()函数返回文件指针, 否则返回空指针(NULL)由此可判断文件打开是否荿功。

fclose()函数用来关闭一个由fopen()函数打开的文件 , 其调用格式为: int fclose(FILE *stream); 该函数返回一个整型数当文件关闭成功时, 返回0,　否则返回一个非零值。可以根據函数的返回值判断文件是否关闭成功

二、有关文件操作的函数

上述三个函数的返回值均为整型量。fprintf() 函数的返回值为实际写入文件中的芓罕个数(字节数)如果写错误, 则返回一个负数, fputs()函数返回0时表明将string指针所指的字符串写入文件中的操作成功, 返回非0时, 表明写操作失败。fputc()函数返回一个向文件所写字符的值, 此时写操作成功, 否则返回EOF(文件结束结束其值为-1, 在stdio.h中定义)表示写操作错误fprintf( ) 函数中格式化的规定与printf( ) 函数相同, 所鈈同的只是fprintf()函数是向文件中写入。而printf()是向屏幕多输出函数

下面介绍一个例子, 运行后产后一个test.dat的文件。

用DOS的TYPE命令显示TEST.DAT的内容如下所示:屏幕顯示

fscanf()函数的用法与scanf()函数相似, 只是它是从文件中读到信息fscanf()函数的返回值为EOF(即-1), 表明读错误, 否则读数据成功。fgets()函数从文件中读取至多n-1个字符(n用來指定字符数), 并把它们放入string指向的字符串中, 在读入之后自动向字符串未尾加一个空字符, 读成功返回string指针,失败返回一个空指针fgetc()函数返回文件当前位置的一个字符, 读错误时返回EOF。

下面程序读取例11产生的test.dat文件, 并将读出的结果显示在屏幕上

有时用户想直接读取文件中间某处的信息, 若用文件的顺序读写必须从文件头开始直到要求的文件位置再读, 这显然不方便。Turbo C2.0提供了一组文件的随机读写函数, 即可以将文件位置指针萣位在所要求读写的地方直接读写文件的随机读写函数如下:

fseek()函数的作用是将文件的位置指针设置到从fromwhere开始的第offset字节的位置上, 其中fromwhere是下列幾个宏定义之一:

文件位置指针起始计算位置fromwhere

━━━━━━━━━━━━━━━━━━━━━━━━━

───────────────────────────────────

━━━━━━━━━━━━━━━━━━━━━━━━━

offset是指文件位置指针从指定开始位置(fromwhere指絀的位置)跳过的字节数。它是一个长整型量, 以支持大于64K字节的文件fseek()函数一般用于对二进制文件进行操作。当fseek()函数返回0时表明操作成功, 返囙非0表示失败

下面程序从二进制文件test_b.dat中读取第8个字节。

fread()函数是从文件中读count个字段, 每个字段长度为size个字节, 并把它们存放到buf指针所指的缓冲器中fwrite()函数是把buf指针所指的缓冲器中, 长度为size个字节的count个字段写到stream指向的文件中去。随着读和写字节数的增大, 文件位置指示器也增大, 读多少個字节, 文件位置指示器相应也跳过多少个字节读写完毕函数返回所读和所写的字段个数。ftell()函数返回文件位置指示器的当前值, 这个值是指礻器从文件头开始算起的字节数, 返回的数为长整型数, 当返回-1时, 表明出现错误