• No results found

Latent Dirichlet Allocation Based On MCEM Algorithm

N/A
N/A
Protected

Academic year: 2021

Share "Latent Dirichlet Allocation Based On MCEM Algorithm"

Copied!
17
0
0

Loading.... (view fulltext now)

Full text

(1)

学 学 学校校校编编编码码码:::10384 分分分类类类号号号 密密密级级级 学 学 学号号号:::19020141152614 UDC

基于

MCEM

LDA

模型

Latent Dirichlet Allocation Based On MCEM

Algorithm

指导教师姓名

教授

率论

统计

提交

2017

辩日

2017

予日

2017

答辩

员会主席

2017

厦门大学博硕士论文摘要库

(2)

厦门大

学学

位论文

声明

本人呈

的学

位论文

是本人在导师指导下

立完

成的研

果。

本人在

论文

写作中参考

他个人或

集体

发表的研

果,

以适当方式明确标明

并符

律规

和《

厦门大学研

生学术活动

试行

》。

另外,

该学

位论文为(

题(

果,

获得

题(

费或实验室的资助

实验室

请在以上

括号内填

写课

或课

负责人或实验室名称

,未

有此项声明

容的

可以不作

别声明

声明人

签名

):

厦门大学博硕士论文摘要库

(3)

厦门大

学学

位论文著

使

声明

本人

意厦门大学根

中华人民

共和国

位条例

暂行实施

定保

留和

使用此学

位论文,

并向主

部门或

指定机

位论

文(

纸质

电子

),

允许学

位论文

入厦门大学

馆及其

库被查阅

本人

意厦门大学

位论文加

入全

博士

硕士学

位论文共建

,将

位论文

的标

题和

摘要汇编出

采用影印

缩印或者

它方式

合理

复制学

位论文。

  

本学

位论文

属于

  (

)1.

厦门大学保密

员会审查

定的保密学

位论文,

  年  

  

密后适用上述授权

  (

)2.

不保密

适用上述授权

  (

请在以上相应

括号内

“√”

上相应

保密学

位论文

是已

厦门大学保密

员会审定

的学

位论文,未

厦门大学保密

会审定的学

位论文

公开学

位论文。

此声明

写的

,默

公开

位论文,

适用上述授权

声明人

签名

):

厦门大学博硕士论文摘要库

(4)
(5)

中文摘要

中文摘

潜在主题模型(LDA)是一种常用的文本分析方法,它把文本看成一个单词的集 合,通过分析词语的含义和使用背景来挖掘文本的潜在信息。近年来,LDA已被广 泛运用到文本分析,数据可视化,推荐系统,信息检索等领域。 训练LDA模型时要解决的一个关键问题是为每个单词分配主题,估计主题分 布参数Θ和主题上词分布参数Φ。本文首先基于Dirichlet-Multinomial共轭结构得 到Θ,Φ的后验分布和后验估计表达式,并利用贝叶斯公式推断出主题潜变量的后验 分布,得到CGS抽样公式。紧接着从最大化后验分布出发,利用变分贝叶斯把原优 化问题转化为最大化后验分布的变分证据下界(ELBO),得到新的主题抽样公式。 在优化过程中,结合蒙特卡罗模拟和EM算法构造出MCEM 算法。在算法E步中,对 主题潜变量进行抽样;该过程基于Metropolis-Hastings算法,按照doc-to-doc的顺序访

问每个token,同时交替从两个简单的建议分布word-proposal和doc-proposal中为𝑧𝑑𝑛分

配主题。单 次抽样中,在混合多项分布下,分别 采用Alias Sampling和Random Positioning对成员分布进行抽样,把算法复杂度控制在O(1)内。在M步,更新计数矩 阵C𝑑,C𝑤。本文创新地使用两个简单的混合多项分布作为建议分布,交替为𝑧𝑑𝑛 分配

主题,并在O(1)时间内完成单次抽样,这样不仅能有效避免抽样的自相关性,还提

高了模型的泛化能力。

关键词:LDA;潜变量;变分贝叶斯;变分证据下界;MCEM;Metropolis-Hastings; Random Positioning;Alias Sampling

I

(6)

Abstract

Abstract

Latent Dirichlet Allocation(LDA) is the most popular method to analyse text data. It treats a document as a collection of words and explores the topic meaning to figure out the latent information of document.In recent years,LDA has been widely used in text analysis,recommendation system,information retrieval and other fields.

The key problem of LDA is to assign topic for latent variable and estimate unknown parameter.In this paper, posterior distributions of unknown parameters are obtained firstly based on Dirichlet-Multinomial conjugate structure.And then by using Bayesian formula,the posterior of latent variable is inferred and CGS sampling formula is obtained. Subsequently,we infer from variational Bayes and maximize the Evidence Lower Bound(ELBO) to find the optimal solutions to unknown parameters. During optimization, Monte Carlo simulation and EM algorithm are combined, thus forming MCEM algorithm. In E step: sample topic proposals 𝑧𝑑𝑛s based on Metropolis Hastings

algorithm. During sampling,we draw samples alternatively from word-proposal and doc-proposal by visiting tokens doc-to-doc. Based on multinomial dstribution,Alias Sampling and Random Positioning are adopted to draw a single topic proposal within O(1) complexity during each sampling.The innovation of this paper is that drawing samples for latent variable alternatively from the two simple proposed distributions,two mixture of multinomials,which can not only avoid autocorrelation but also improve generalization ability of model.

Key words: LDA;Latent Variable; Variational Bayes; ELBO;MCEM;Metropolis-Hastings; Alias Sampling; Random Positioning

II

(7)

目 录

文摘

. . . I

文摘

. . . II

. . . III

. . . V

. . . 1 1.1 LDA的的的发发发展展展背背背景景景. . . 1 1.2 研研研究究究内内内容容容 . . . 2 1.3 论论论文文文结结结构构构 . . . 3 1.4 常常常用用用的的的性性质性质质与与与定定定理理理 . . . 3

LDA

用的

方法

. . . 5 2.1 常常常见见见概概概率率率分分分布布布与与与共共共轭轭轭结结结构构构 . . . 5 2.2 参参参数数数估估估计计计方方方法法法 . . . 7 2.2.1 最大似然估计 . . . 7 2.2.2 最大后验估计 . . . 8 2.3 变变变分分分Bayes . . . 9 2.4 随随随机机机模模模拟拟拟 . . . 11 2.4.1 蒙特卡罗模拟 . . . 11 2.4.2 MCMC方法 . . . 12 2.4.3 马氏链收敛分析 . . . 14 2.4.4 MCMC模拟 . . . 14 III

厦门大学博硕士论文摘要库

(8)

目 录

LDA

. . . 17 3.1 观观观测测测变变变量量量的的的似似似然然然函函函数数数 . . . 18 3.2 不不不可可可观观观测测测变变变量量量的的的后后后验验验分分分布布布 . . . 19

MCEM

LDA

. . . 23 4.1 变变变分分分优优优化化化 . . . 24 4.2 快快快速速速抽样抽抽样样技技技术术术 . . . 27 4.2.1 简单的建议分布 . . . 28 4.2.2 混合多项分布 . . . 29

4.2.3 Alias Sampling和Random Positioning . . . 30

4.3 MCEM算算算法法法与与与模模模拟拟拟. . . 32 4.3.1 MCEM算法实现步骤 . . . 32 4.3.2 MCEM模拟 . . . 32

. . . 35

考文

. . . 37

和伪

. . . 39

. . . 43 IV

厦门大学博硕士论文摘要库

(9)

目 录

Contents

Chinese Abstract

. . . I

English Abstract

. . . II

Chinese Contents

. . . III

English Contents

. . . V

1 Introduction

. . . 1

1.1 Backgrounds of LDA . . . 1

1.2 The main research work of this dissertation. . . 2

1.3 The framework of this dissertation . . . 3

1.4 Common properties and theorems . . . 3

2 Basics of probability and statistics

. . . 5

2.1 Common distributions and conjugate structure . . . 5

2.2 Parameter estimation methods . . . 7

2.2.1 Maximum likelihood estimation . . . 7

2.2.2 Maximum posteriori estimation . . . 8

2.3 Variational Bayes . . . 9

2.4 Stochastic simulation . . . 11

2.4.1 Monte-carlo simulation . . . 11

2.4.2 Markov Chain Monte Carlo . . . 12

2.4.3 Analysis of Markov Chain convergence . . . 14

2.4.4 Simulation of MCMC . . . 14

V

(10)

目 录

3 Basics of LDA

. . . 17

3.1 Likelihood function for observable variables . . . 18

3.2 Posterior distributions of unobservable variables . . . 19

4 MCEM Algorithm of LDA

. . . 23

4.1 Variational Optimization . . . 24

4.2 Fast sampling methods for topic assignment . . . 27

4.2.1 The simple proposals for topic assignment . . . 28

4.2.2 Mixture of Multinomial distribution . . . 29

4.2.3 Alias Sampling and Random Positioning . . . 30

4.3 MCEM Algorithm and Simulation . . . 32

4.3.1 Implementation of MCEM algorithm . . . 32

4.3.2 Simulation of MCEM . . . 32

5 Conclusions

. . . 35

References

. . . 37

Appendix

. . . 39

Acknowledgements

. . . 43 VI

厦门大学博硕士论文摘要库

(11)

第一章 引言

1.1

LDA

在大数据时代,我们面对维基百科、博客、推特、雪球等海量的文本数据,需 要用一种快速高效的方法去挖掘这些文本中的有效信息。而主题模型为解决这个问 题提供了新的思路与方法,它主要在众多复杂的文档集中归纳汇总出文档的潜在的 语义,推断出文档讨论的主题,然后预测新生文档的主题,以此为基础展开新闻推 荐,信息检索,文本聚类等相关应用。 潜在主题模型(LDA)[6]是主题模型中应用最广泛的一种。它把每个文概率方 法。它把文档看成一个单词的集合,由于单词具有不同的意思和不同的使用背景, 使得文档的主题也不唯一,可理解为一篇文章的具有一个主题分布,这种想法最早 在1999年由Hoffman[5]给出,后来在2002年,Blei[6]等人在决定主题分布的参数上增 加先验分布,于是建立了LDA 模型。 LDA要解决的一个关键问题是根据非观测变量(包括未知参数和主题潜变量)的后 验分布估计参数值。在参数优化过程中,由于精确推断潜变量的后验分布非常困难, 我们常借助变分法[1]和马尔科夫蒙特卡洛(MCMC)[3,17] 法进行近似推断。如今已经 出现平均场变分贝叶斯[6],退化变分贝叶斯[23],退化Gibbs抽样(CGS)[24]和期望传 播[25]等近似求解方法。其中退化Gibbs抽样对稀疏分布抽样简单并快捷而被广泛应 用[11,13,14]。 而在LDA相关运用中,经常会用大量的主题来提升应用效果,例如Wang et al.[14]利用100000主题数来提高广告和推荐系统的性能。当主题数K很大时,模 型的运行速度和收敛速度都会面临巨大挑战。目前,很多研究从快速抽样算法 出发,对模型进行改进,这些算法在单次抽样过程中,算法复杂度从𝑂(𝐾)降低 1

厦门大学博硕士论文摘要库

(12)

第一章 引言 到𝑂(1)。例如,L.Yao 等人在2009 年提出SparseLDA[11],该算法把CGS抽样公式 分解为𝐶𝑤𝑘𝐶𝐶𝑑𝑘+𝛼𝑘 𝑘+ ¯𝛽 +𝛽 𝐶𝑑𝑘 𝐶𝑘+ ¯𝛽 + 𝛼𝑘𝛽 𝐶𝑘+ ¯𝛽, 通过枚举C𝑑,C𝑤 所有的非零项得 到规范化系 数,抽样复杂度为𝑂(𝐾𝑤+𝐾𝑑)。A.Q.Li 等人基于SparseLDA 的思想,在2014年提 出AliasLDA[13],它把CGS抽样公式分解为𝐶𝑑𝑘𝐶𝐶𝑤𝑘+𝛽 𝑘+ ¯𝛽 +𝛼𝑘 𝐶𝑤𝑘+𝛽 𝐶𝑘+ ¯𝛽 ,这里𝐶𝑑𝑘 和𝐶𝑘 都 是上一次循环中的计算的结果,通过枚举C𝑑 中所有非零项来计算第一项的规范 化系数,算法复杂度为𝑂(𝐾𝑑)。这些算法都是基于计数矩阵(主题计数)稀疏性的 性质产生的。而针对计数矩阵不具有稀疏性的文档集,又产生了基于MH的快速抽 样算法。J.Yuan等人在2015年提出LightLDA[14]算法,该算法通过交替使用建议分 布𝑞𝑑𝑜𝑐 ∝(𝐶𝑑𝑘 +𝛼𝑘) 𝑞𝑤𝑜𝑟𝑑 ∝ 𝐶𝐶𝑤𝑘+𝛽 𝑘+ ¯𝛽 在𝑂(1) 内完成对每个token抽样,但在计算接受率 时比较麻烦。 本文在参数估计时利用变分贝叶斯得到参数的最优形式;同时在MH抽样过程 中,在LightLDA的思想上提出了一种新的建议分布和快速抽样方法,从而提高了模 型的泛化能力。

1.2

本文主要研究一种做文本分析的主题模型–LDA,并在现有的研究基础上提 出一种新的算法–MCEM,借助一些快速抽样技术来提高LDA的训练速度和泛化能 力。本文首先列出了LDA 中常用的概率分布和参数估计方法,然后基于 Dirichlet-Multinomial共轭结构得到Θ,Φ的后验分布和后验估计表达式,并利用贝叶斯公式推 断出主题潜变量的后验分布,得到CGS抽样公式。紧接着为提高LDA的训练速度和 泛化能力,从最大化后验分布出发,利用变分贝叶斯把原优化问题转化为最大化后 验分布的变分证据下界(ELBO),得到新的主题抽样公式。在优化过程中,结合蒙 特卡罗模拟和EM算法构造出MCEM算法。在算法E步中,对主题潜变量进行抽样;

该过程基于Metropolis-Hastings算法,按照doc-to-doc的顺序访问每个token,同时交

替从两个简单的建议分布word-proposal和doc-proposal中为𝑧𝑑𝑛分配主题。在单次抽样

2

(13)

第一章 引言

中,在混合多项分布下,分别采用Alias Sampling和Random Positioning对成员分布进

行抽样,把算法复杂度控制在O(1)内。在M步,更新计数矩阵C𝑑,C𝑤。随后给出算法 的模拟应用实例。最后对本文进行总结和评价。

1.3

本论文共分为五章,主要围绕LDA模型常用的概率分布与参数估计方法展开, 主要结构如下: 第一章是引言部分,首先介绍主题模型的研究背景,然后给出了本论文的主要 研究内容和结构,最后给出了本文引用的结论和定理。 在第二章,介绍了参数估计常用的方法,并重点介绍了统计推断中近似求解方 法:变分法和MCMC,最后给出MCMC应用实例。 在第三章,首先阐述了LDA模型的基础知识和要求参数的后验分布公式,重点 得到潜变量的抽样公式。 在第四章,最大化参数的后验分布,利用变分贝叶斯把原优化问题转化为最大 化后验分布的变分证据下界(ELBO)来求解未知参数的最优形式。优化过程通过结 合蒙特卡洛模拟和EM算法构造出MCEM 算法。紧接着我们基于已有的快速抽样技 术,提出了本文所需用的快速抽样技术和方法:两个简单建议分布,Alias-Walker抽样 以及随机定位法。最后,利用CMEM算法,给出了应用实例。 在第五章,主要对本文所做的工作进行总结,列举出了本文的一些不足以及所 研究问题的展望。

1.4

用的

的性

与定

定理

贝 贝 贝叶叶叶斯斯斯公公公式式式: 设已知𝑋 ,{𝑥𝑖} |𝑋| 𝑖=1为独立同分布的观测数据集,参数Θ是变量𝑋的 分布对应的参数,例如对高斯分布Θ ={𝜇, 𝜎2}。已知𝑋公式 3

厦门大学博硕士论文摘要库

(14)

第一章 引言 参数Θ的后验分布 𝑝(Θ|𝑋) = 𝑝(𝑋|Θ)𝑝(Θ) 𝑝(𝑋) (1-1) Jeson不不不等等等式式式::: 已知凸函数𝑓(𝑥) = log𝑥,𝑥为随机变量,则 𝑓(𝐸(𝑥))≤𝐸(𝑓(𝑥)) (1-2) 细 细 细致致致平平平衡衡衡条条条件件件::: 如果非周期马氏链的转移矩阵𝑃和分布𝜋(𝑥)满足: 𝜋(𝑥𝑡−1)𝑝(𝑥𝑡|𝑥𝑡−1) =𝜋(𝑥𝑡)𝑝(𝑥𝑡−1|𝑥𝑡) 则𝜋(𝑥)是马氏链上的平稳分布。 定 定 定义义义::: 若随机变量𝑋在𝑡 + 1时候的取值概率 满足𝑃(𝑋𝑡+1 = 𝑥|𝑋𝑡, 𝑋𝑡−1) = 𝑃(𝑋𝑡+1 = 𝑥|𝑋𝑡),即𝑋在𝑡+ 1时的取值概率只依赖于𝑡时刻的取值概率,那么这样的随 机过程称为马马马尔尔尔可可可夫夫夫链链链也称为马马马氏氏氏链链链。 马 马 马氏氏氏链链链的的的收收收敛敛敛定定定理理理::: 如果一个非周期马氏链具有转移矩阵𝑃,且它的任何两 个状态是连通的,那么lim𝑛→∞𝑃𝑛(𝑗|𝑖)存在且与状态𝑖无关,记lim𝑛→∞𝑃𝑛(𝑗|𝑖) =𝜋(𝑗), 我们有 (1) lim 𝑛→∞𝑃 𝑛 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · · · · · 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · · · · · ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ (2)𝜋(𝑗) = ∞ ∑︀ 𝑖=0 𝜋(𝑖)𝑃𝑖𝑗 = 1 (3)𝜋是方程𝜋𝑃 = 𝜋的唯一非负解,其中𝜋 = [𝜋(1), 𝜋(2),· · · , 𝜋(𝑗),· · ·], ∞ ∑︀ 𝑖=0 = 1, 𝜋 称为马氏链的平稳分布。 4

厦门大学博硕士论文摘要库

(15)

第二章 LDA模型中常用的概率统计方法

LDA

中常

常用

用的

统计

方法

本章主要介绍主题模型中常用的概率分布和共轭结构,估计参数方法以及统计 推断中的近似求解方法[1–4,19]。

2.1

见概

布与

1.𝐺𝑎𝑚𝑚𝑎(𝑘, 𝜃)分布 𝑋 ∼𝐺𝑎𝑚𝑚𝑎(𝑘, 𝜃),则X的密度函数为: 𝑓(𝑥;𝑘, 𝜃) = 𝑥 𝑘−1𝑒−𝑥/𝜃 𝜃𝑘Γ(𝑘) 其中Γ为gamma函数,Γ(𝑥) = ∫︀0∞𝑒−𝑡𝑡𝑥−1𝐼{𝑥 > 0}𝑑𝑡,其具有性质:Γ(𝑥 + 1) = 𝑥Γ(𝑥)且Γ(𝑥) = 𝑥! 2.二项分布与多项分布 在一次试验中,其结果只有两种可能(成功或失败),设成功概率为𝑝,N次独立 重复试验后成功的次数记为X,则X服从二二二项项项分分分布布布,其概率分布为 𝑓(𝑘;𝑁, 𝑝) =𝑃(𝑥=𝑘) = 𝐶𝑁𝑘𝑝𝑘(1−𝑝)𝑁−𝑘 多项分布是二项分布的推广,每次试验结果有K种可能(记为{1,2,· · ·𝐾}),出 现𝑘的概率为𝑝𝑘,令𝑝= [𝑝1, 𝑝2, . . . , 𝑝𝐾],N次独立重复试验的结果记为X,X服从多多多项项项 分 分 分布布布。X中出现𝑘的次数记为𝑐𝑘来表示,令𝑐= [𝑐1, 𝑐2, . . . , 𝑐𝐾],那么X的概率分布为: 𝑝(𝑐|𝑝, 𝑁) = ⎛ ⎜ ⎝ 𝑁 c ⎞ ⎟ ⎠ 𝐾 ∏︁ 𝑘=1 𝑝𝑐𝑘 𝑘 ,𝑀 𝑢𝑙𝑡(𝑐|𝑝, 𝑁) 其中, ⎛ ⎜ ⎝ 𝑁 c ⎞ ⎟ ⎠= 𝑁! ∏︀ 𝑘𝑐𝑘! , ∑︀𝐾 𝑘=1𝑝𝑘 = 1 , ∑︀𝐾 𝑘=1𝑐𝑘 =𝑁。 5

厦门大学博硕士论文摘要库

(16)

第二章 LDA模型中常用的概率统计方法 3.Dirichlet分布 Dirichlet分布的概率密度为 𝑝(𝑝|𝛼) =𝐷𝑖𝑟(𝑝|𝛼), Γ( ∑︀𝐾 𝑘=1𝛼𝑘) ∏︀𝐾 𝑘=1Γ(𝛼𝑘) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘−1 𝑘 , 1 Δ(𝛼) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘−1 𝑘 (2-1) 其中Δ(𝛼)为归一化参数: Δ(𝛼) = ∏︀𝐾 𝑘=1Γ(𝛼𝑘) Γ(∑︀𝐾 𝑘=1𝛼𝑘) = ∫︁ 𝐾 ∏︁ 𝑖=1 𝑝𝛼𝑘−1 𝑘 𝑑𝑝 (2-2) 3.共轭分布 假设随机变量𝑤 ∼ 𝑀 𝑢𝑙𝑡𝑖(𝑝, 𝑁),𝑝 ∼ 𝐷𝑖𝑟(𝛼),利用Bayes公式可得参数𝑝的后验分 布为 𝑝(𝑝|𝑊,𝛼) = ∏︀𝐾 𝑘=1𝑝(𝑐𝑘|𝑝)𝑝(𝑝|𝛼) ∫︀ ∏︀𝐾 𝑘=1𝑝(𝑐𝑘|𝑝)𝑝(𝑝|𝛼)𝑑𝑝 = ∏︀𝐾 𝑘=1 𝑁! 𝑐1!𝑐2!···𝑐𝑉!𝑝 𝑐𝑘 𝑘 1 Δ(𝛼)𝑝 𝛼𝑘−1 𝑘 ∫︀ 𝑁! 𝑐1!𝑐2!···𝑐𝑉! ∏︀𝐾 𝑘=1𝑝 𝑐𝑘 𝑘 1 Δ(𝛼)𝑝 𝛼𝑘−1 𝑘 𝑑𝑝 = ∫︀ ∏︀𝐾 1 𝑘=1𝑝 𝛼𝑘+𝑐𝑘−1 𝑘 𝑑𝑝 𝐾 ∏︁ 𝑘=1 𝑝𝑐𝑘+𝛼𝑘−1 𝑘 = 1 Δ(𝛼+𝑐) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘+𝑐𝑘−1 𝑘 =𝐷𝑖𝑟(𝑝|𝛼+𝑐) (2-3) 其中,𝑊的似然函数 𝑁 ∏︁ 𝑛=1 𝑝(𝑤𝑛|𝑝) = 𝐾 ∏︁ 𝑘=1 𝑝(𝑤=𝑘|𝑝)𝑐𝑘 𝑐𝑘表示随机变量𝑤重复出现结果𝑘的次数。像这样使得后验和先验同属一种分 布的先验分布称为共轭先验,称Dirichlet为Multinormal 分布的共共共轭轭轭先先先验验验分分分布布布, Dirichlet和Multinormal为共共共轭轭轭结结结构构构。 6

厦门大学博硕士论文摘要库

(17)

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Full texts are available in the following ways:

1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submit requests online, or consult the interlibrary loan department in your library.

2. For users of non-CALIS member libraries, please mail to [email protected] for delivery details.

Xiamen University Electronic Theses and Dissertations Database”. Full http://etd.calis.edu.cn/ and submit

References

Related documents

The first main objective of this work is to introduce the concept of Probabilistic Topic Models and present one of the main algorithms in this field called Latent Dirichlet Alloca-

The machine learning model of corporate Internet public opinion topic mining and thesaurus con- struction mainly includes the collection of public opinion texts, data

Using LDA, we generate topics containing keywords which represent the sentiment targets, and then annotate the data using SentiWordNet before regroup- ing the articles based on

we extracted significant topics from all texts, each theme is described by a particular distri- bution of descriptors ( probability distribution of words ) then each text is

posed approach significantly outperforms its alias-free-based predecessors, namely Total Random Sampling (ToRa) [9], the Stratified Sampling (StSa) [10] and Antithetical

Here, we propose an innovative land-cover classification approach based on learning a joint latent model of Synthetic Aperture Radar (SAR) and multispectral satellite images

Therefore, in this research, the term weighting calculation uses Luhn’s Idea to select the terms by defining upper and lower cut-off, and then extracts the feature of

This paper presents a methodology for the detection of sentiment in textual contents using a methodology based on the Latent Dirichlet Allocation (LDA) approach