自监督学习,MAE(Masked Autoencoders)

学习能力 2024-07-20 06:35:53 392

自监督学习?在当今数据驱动的世界中,自监督学习(self-supervised learning)正崭露头角,它凭借其在罕见数据领域的潜力,通过利用未标记数据的创新任务,如未来词预测和图像块定位,悄然挖掘出强大的表示能力。尤其在计算机视觉领域,自监督方法如利用空间结构的旋转和拼接,以及对颜色的敏感性,已经取得了显著进步。那么,自监督学习?一起来了解一下吧。

监督学习、无监督学习、半监督学习、强化学习、自监督学习

在当今的数据科学领域,时间序列分析正经历一场革命,自监督学习作为其中的璀璨明珠,正逐步揭示其在这一领域的无限潜力。自监督学习,作为无监督学习的精华分支,通过巧妙地设计预设任务,如视觉领域的掩码语言模型和图像重构,从海量未标记数据中挖掘出宝贵的监督信号,从而在视觉和语言处理中取得了显著成就。它的魅力在于其对标签需求的降低,以及对错误标签的抵御能力。

在时间序列建模的画卷中,预设任务的多样性令人瞩目。预测未来值(如THOC的TSS和STraTS的膨胀RNN和Transformer)和序列重构(如TimeNet的RNN自编码器)是基础策略。自编码器,如PT-LSTM-SAE和Autowarp,通过重构误差学习表示,但如何优化这一过程,如Abdulaal的谱分析自编码器和DTCR的K-means约束,成为研究的关键。USAD通过双解码器和对抗训练提升表现,而FuSAGNet则引入图学习处理多元序列的复杂关系。

扩散模型在生成任务中独领风骚,DDPMs、分数匹配和分数SDEs等方法展现了其威力。CSDI和TimeGrad分别通过分数扩散和时间序列相关性处理来填补数据。对比学习,如CPC,通过预测跨时间步信息,强化了时间序列表示的学习。

HuBERT:基于BERT的自监督 (self-supervised)语音表示学习

探索语音界的革新者:HuBERT - 基于BERT的自监督学习新里程碑

Facebook的科研团队引领了一场语音表示学习的革命,他们研发的HuBERT——一款基于BERT的强大自监督模型,专为自动语音识别(ASR)量身打造,其卓越的性能让人眼前一亮。这个模型巧妙地解决了语音表示学习中的三大挑战:多单位、非离散输入和异构长度处理。它以独特的方式融合了聚类和mask预测,为语音理解提供了全新的视角。

不同于初始MFCCs的粗略标注,HuBERT在学习过程中引入了迭代的聚类增强,通过重新学习的策略,对声学信息进行精细化处理。模型提供三个不同规模的架构——BASE, LARGE, X-LARGE,为适应不同应用场景提供了灵活性。

在预训练阶段,HuBERT充分利用LibriSpeech和Libri-light等丰富数据集,而在fine-tuning阶段,它能够处理不同长度的语音数据,展现出强大的适应性。评估HuBERT聚类效果的关键指标包括phone purity、cluster purity和PNMI,数值的提升直接反映了模型的精度提升。

令人瞩目的是,无论是在小型带标签数据上的微调,还是在大规模数据集上如960小时的挑战中,HuBERT的表现都超越了wav2vec 2.0,尤其是在无监督学习领域的优越性更是令人印象深刻,且仍有进一步提升的空间。

Self-supervised graph learning for recommendation-自监督图学习增强的推荐

揭秘MAE:自监督学习在CV领域的革命性突破

在计算机视觉领域,MAE(Masked Autoencoders)作为自监督学习的新兴力量,凭借其独特的优势和创新设计,正在重塑我们对预训练的理解。MAE的核心在于其非对称的ViT(Vision Transformer)架构,它通过仅编码可见的patch,而让解码器处理编码器输出和mask tokens,展现出强大的扩展性和灵活性。

卓越表现与迁移能力

在ImageNet-1K基准测试中,MAE取得了87.8%的惊人准确率,这一成绩证明了自监督预训练在CV领域的强大威力。特别是通过采用75%的高比例mask,MAE成功地制造出富有挑战性的学习任务,尽管看似简单,却展现出高效的学习效果。

MAE之所以能突破NLP与CV方法论的界限,得益于ViT解决了Transformer与CNN之间的理论鸿沟。同时,视觉信息的冗余性使得即使在高比例mask下,模型仍能保持稳定,这也是MAE能够应对复杂任务的关键所在。

算法流程与设计细节

算法流程中,图像被切割为patches和mask部分,编码器专注处理可见部分,解码器则利用编码器输出和mask tokens来重建原始图像。

时间序列|自监督学习|综述

在推荐系统的世界里,GCNs的辉煌引领了一股潮流,但它们面临监督信号稀疏、数据分布不均和交互噪声的挑战。这一切促使我们探寻新的学习范式——自监督学习(SGL)在用户-物品图上的应用,旨在通过图结构数据增强,生成更为鲁棒的节点表示,为推荐系统的精度和稳定性注入新的活力。

首先,我们重温GCN的协调过滤模型,它依赖于稀疏的交互数据进行监督学习。然而,SGL的自监督范式引入了创新的策略,如node dropout、edge dropout和random walk,这些巧妙的数据增强操作在保持模型参数不变的同时,为每个节点构建多样化的视图,形成正负样本对,以支持多任务学习的深入进行。

图1生动地展示了SGL的学习流程:从原始图中生成的增强视图,通过对比学习,InfoNCE损失机制强化了节点表示的异同,监督和自监督任务在此交融,共同提升模型的性能。理论分析揭示,SSL与难负样本挖掘有着深层次的联系:难负样本因其与正样本的相似度较高,即使在梯度中,其贡献也更为显著,这对于区分度的提升和训练效率的优化起到了关键作用。

特别是当模型参数调整时,难负样本的影响随着相似度的变化而变化,当接近某些阈值时,其对梯度的推动作用尤为明显。

自监督学习简介以及在三大领域中现状

在机器学习的广阔领域中,我们有五种关键的学习方法,它们各具特色,塑造了我们对数据理解和利用的方式。首先,让我们深入探讨监督学习(Supervised Learning),它是数据科学的基石,通过标记的训练样本驱动算法进行精准的分类(如识别手写数字)或预测(如垃圾邮件过滤)。它的威力在于分类(如精准识别)和回归(数值预测)任务的精确执行,但代价是高昂的标记成本和对数据标签的高度依赖。

相比之下,无监督学习(Unsupervised Learning)则像一位洞察力深厚的探索者,面对的是未标记的数据。它通过聚类、关联和降维揭示数据的内在结构,尽管需要人工确认结果,却能揭示隐藏的模式和规律。无监督学习的优势在于强大的数据处理能力,但其结果往往缺乏透明度。

而当我们想要兼顾效率和深度时,半监督学习(Semi-supervised Learning)应运而生。它巧妙地结合了监督和无监督学习,利用少量标记数据与大量未标记数据,实现成本降低与大数据潜力的双重效益。这种方式在实际应用中尤为实用,尤其是在数据标注资源有限的场景下。

以上就是自监督学习的全部内容,自监督学习在预测(如Pyraformer)、分类(如THOC、GDN、VGCRN)和聚类任务中大显身手,同时,对抗学习如LGnet通过区分正常与异常数据边界,为模型提升性能。总结来说,自监督学习在时间序列领域的应用正日益深入,生成、对比和对抗策略相互交织,共同推动了这一领域的发展。无论是通过预测未来的精准性,内容来源于互联网,信息真伪需自行辨别。如有侵权请联系删除。

本文来源于网络,如有侵权请联系我们删除!