自然语言处理之NGram模型

NativeBayes我们首先考虑在原始的数学模型中,我们怎么分析一句话的语义信息呢?我们来举个例子澳门赌场日赚百万这是垃圾短信的其中一句话,如果我们想训练一个模型来识别所有的垃圾短信,会是怎么样的抽象呢?由条件独立性假设:$$p(澳门赌场日赚百万∣J)=p(澳,门,赌,场,日,赚,百,万∣J)=p

自然语言处理之doc2vec和str2vec

本节我们还来讲nlp的相关的东西,我们刚刚讲解了如何将word转化为一个vector,其实我们还是没有对语序做一个很好的应用,例如 我给你一个苹果和你给我一个苹果,意义上完全不同,但是识别的时候可能关键词十分相似。所以我们正好讲讲doc2vec的算法,如何充分利用语序信息的。谷歌的工程师提出了DM模型和DBOW模型,其实就是对应咱们word2vec中的CBOW和Skip-gram模型DM(Dist

自然语言处理之关键字提取

关键字提取对于关键字提取算法最经典的就是[TF-IDF]算法,这个我们已经有文章来讲解这个知识,我们来介绍一点不太一样的知识。textRankTF-IDF算法就是统计某个词在某些文档中的出现频率,这远远是不够的,而主体模型的关键字提取则是通过大量的文档学习发现主题的文档的隐含主题。textRank最

自然语言处理之分词

分词自然语言处理是机器学习领域比较通用的方向,可以和推荐、图像相提并论啦,本系列的博客就就围绕自然语言处理介绍一些相关概念,可以给初学者提供一个学习的地方。中文分词和英文分词有着极大的不同,英文会有空格进行分开,但是中文不仅没有相应的分隔符,甚至歧义也是常有的事情,就如下面这个例子。南京市长江大桥这

自然语言处理之TF-IDF算法

TF-IDF对于文档搜索中tf-idf应用非常广泛,甚至在es数据库中作为默认的检索方式,这里就简单介绍一个tf-idf算法。首先思考一个问题,假如我们对一系列文章进行分词统计等操作,如果某个词出现的特别多,那么它是不是很重要呢?于是,我们进行"词频"(TermFrequency

自然语言处理之短文本分类工具

tgrocery本文会介绍几个短文本分类工具,主要做问答意图解析的场景下对意图进行解析。TextGrocery是一个基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。>>>fromtgroceryimportGrocery>>&g
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×