自然语言处理之预训练模型(二)

之前咱们介绍的都是单一模型的预训练方法,这里介绍一个特殊一点的思路,且不说应用程度怎么样,先看看这个模型的设计思路。ELECTRAELECTRA是使用对抗网路的思路进行预训练的方式。其中生成器,一个小的MLM,就是在[MASK]的位置预测原来的词。判别器判断的是输入句子中的每个词是否被替换,需要注意的是这里没有下一句的预测任务。接下来我们来看每个模块。生成器对于生成器来说,其目的是将带有掩码的输入

自然语言处理之Transformer精讲(二)

本节咱们换个角度来讲Transformer模型,在上一个文章中,主要以计算的过程介绍模型的运行过程,本章中直接对着模型来进行进一步的讲解。通过上文的介绍,知道Transformer模型架构主要分为了编码器和解码器,那么对于模型架构来讲,咱们还是以这两部分分开讲解。编码器在编码器部分主要有两部分组成,一个是多头注意力层,一个是前馈神经网络,并采用残差机制和层归一化的方式链接。如上图的左侧部分。下图是

自然语言处理之Transformer精讲(一)

本节要详细介绍一些Transformer这个常用的神经网络组件,会举一些十分详细的例子,目的是将这个网络结构讲清楚。TransformerTransformer结构是主要是编码器和解码器组成,Transformer逐渐其实是并且了经典的LSTM循环的机构,使用了一种自注意力的机制。这些我们举一个机器翻译的例子,来讲解整个过程。编码器编码器的主要作用是从输入的语句中尽可能多的提取特征,其结构如图2-

自然语言处理之循环神经网络

今天咱们通过自然语言处理的视角重新看循环神经网络这一模型。模型结构

自然语言处理之标签提取

标签提取在评论挖掘中经常被使用到,如何快速的挖掘众多评论中一些关键词,包括积极地或者消极的。本文将要介绍标签提取一些常用方法,从而丰富我们的技术场景。在介绍新的方法之前,这类问题最朴素的想法应该是通过TF-ID算法对评论进行词频等特征的统计,获取那些重要度高的词语。接下来咱们来介绍两个解决这类问题的方法。TextRankTextRank是通过pagerank衍生出来的一类无监督算法,对于pager

自然语言处理之命名实体识别

本文将介绍命名实体识别的一些方法,在自然语言中使用十分广泛。条件随机场(CRF)首先我们就介绍CRF的方式进行命名实体识别,CRF与HMM模型十分相似,如果不了解HMM模型的可以看自然语言处理之分词看我之前的一个讲分词的文章。

自然语言处理之表示学习

什么是表示学习呢?说白了就是特征,机器学习算法的性能严重依赖特征。如果存在一种可以从数据中的到和判别特征的方法们就会减少机器学习对特征工程的依赖,这就是表示学习。离散表示这里虽然咱们单独拿出来讨论,但是其实特征的离散表示十分简单,就是独热编码,但是独热编码的缺点也是十分明显的。在向量空间中,所有的对

自然语言处理之word2vec

Word2vec将文本转化成向量是nlp中一个比较重要的任务,也是链接nlp和机器学习和深度学习的桥梁,单纯的中文文字,我们是无法直接放到模型中训练的,所以将文本转化为一个向量是我们必须要过的一关。词袋模型(bagofword)词袋模型的思路十分简单,是文本向量化的最简单方法。我们直接举一个例子来了

自然语言处理之Seq2Seq模型

Seq2Seq模型对于一些自然语言处理任务,比如聊天机器人,机器翻译,自动文摘等,传统的方法都是从候选集中选出答案,这对素材的完善程度要求很高,随着最近几年深度学习的兴起,国外学者将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果,比如,Sequence-to-

自然语言处理之seq2seq+attention

seq2seq处理人工翻译的时候会有一个问题,就是当句子特别长的时候问你会发现翻译的效果并不是特别好,至于原因呢就是seq2seq学习的时候对信息遗忘严重,为了解决这个问题,就有研究者提出了加入Attention的机制来解决这个问题,核心就是我们在解决一个问题的时候只关注某些关键信息就够了,并不要全
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×