Latent Dirichlet Allocation Based On MCEM Algorithm

(1)

学学学校校校编编编码码码：：：10384 分分分类类类号号号密密密级级级学学学号号号：：：19020141152614 UDC

硕

士

学

位

论

文

基于

MCEM

算

法

的

LDA

模型

Latent Dirichlet Allocation Based On MCEM

Algorithm

李

美

玲

指导教师姓名

：

谭

忠

教授

专

业

名

称

：

概

率论

与

数

理

统计

论

文

提交

日

期

：

2017

年

月

论

文

答

辩日

期

：

2017

年

月

学

位

授

予日

期

：

2017

年

月

答辩

委

员会主席

：

评

阅

人

：

2017

年

月

厦门大学博硕士论文摘要库

(2)

厦门大

学学

位论文

原

创

性

声明

本人呈

交

的学

位论文

是本人在导师指导下

，

独

立完

成的研

究

成

果。

本人在

论文

写作中参考

其

他个人或

集体

已

经

发表的研

究

成

果，

均

在

文

中

以适当方式明确标明

，

并符

合

法

律规

范

和《

厦门大学研

究

生学术活动

规

范

（

试行

）

》。

另外，

该学

位论文为（

）

课

题（

组

）

的

研

究

成

果，

获得

（

）

课

题（

组

）

经

费或实验室的资助

，

在

（

）

实验室

完

成

。

（

请在以上

括号内填

写课

题

或课

题

组

负责人或实验室名称

，未

有此项声明

内

容的

，

可以不作

特

别声明

。

）

声明人

（

签名

）：

年

月

日

(3)

厦门大

学学

位论文著

作

权

使

用

声明

本人

同

意厦门大学根

据

《

中华人民

共和国

学

位条例

暂行实施

办

法

》

等

规

定保

留和

使用此学

位论文，

并向主

管

部门或

其

指定机

构

送

交

学

位论

文（

包

括

纸质

版

和

电子

版

），

允许学

位论文

进

入厦门大学

图

书

馆及其

数

据

库被查阅

、

借

阅

。

本人

同

意厦门大学

将

学

位论文加

入全

国

博士

、

硕士学

位论文共建

单

位

数

据

库

进

行

检

索

，将

学

位论文

的标

题和

摘要汇编出

版

，

采用影印

、

缩印或者

其

它方式

合理

复制学

位论文。

本学

位论文

属于

：

　　（

）1.

经

厦门大学保密

委

员会审查

核

定的保密学

位论文，

于

　　年　　

月

日

解

密

，

解

密后适用上述授权

。

　　（

）2.

不保密

，

适用上述授权

。

　　（

请在以上相应

括号内

打

“√”

或

填

上相应

内

容

。

保密学

位论文

应

是已

经

厦门大学保密

委

员会审定

过

的学

位论文，未

经

厦门大学保密

委

员

会审定的学

位论文

均

为

公开学

位论文。

此声明

栏

不

填

写的

，默

认

为

公开

学

位论文，

均

适用上述授权

。

）

声明人

（

签名

）：

年

月

日

厦门大学博硕士论文摘要库

(4)

(5)

中文摘要

中文摘

要

潜在主题模型(LDA)是一种常用的文本分析方法，它把文本看成一个单词的集合，通过分析词语的含义和使用背景来挖掘文本的潜在信息。近年来，LDA已被广泛运用到文本分析，数据可视化，推荐系统，信息检索等领域。训练LDA模型时要解决的一个关键问题是为每个单词分配主题，估计主题分布参数Θ和主题上词分布参数Φ。本文首先基于Dirichlet-Multinomial共轭结构得到Θ,Φ的后验分布和后验估计表达式，并利用贝叶斯公式推断出主题潜变量的后验分布，得到CGS抽样公式。紧接着从最大化后验分布出发，利用变分贝叶斯把原优化问题转化为最大化后验分布的变分证据下界（ELBO），得到新的主题抽样公式。在优化过程中，结合蒙特卡罗模拟和EM算法构造出MCEM 算法。在算法E步中，对主题潜变量进行抽样；该过程基于Metropolis-Hastings算法，按照doc-to-doc的顺序访

问每个token，同时交替从两个简单的建议分布word-proposal和doc-proposal中为𝑧𝑑𝑛分

配主题。单次抽样中，在混合多项分布下，分别采用Alias Sampling和Random Positioning对成员分布进行抽样，把算法复杂度控制在O(1)内。在M步，更新计数矩阵C𝑑,C𝑤。本文创新地使用两个简单的混合多项分布作为建议分布，交替为𝑧𝑑𝑛 分配

主题，并在O(1)时间内完成单次抽样，这样不仅能有效避免抽样的自相关性，还提

高了模型的泛化能力。

关键词：LDA；潜变量；变分贝叶斯；变分证据下界；MCEM；Metropolis-Hastings； Random Positioning；Alias Sampling

I

(6)

Abstract

Latent Dirichlet Allocation（LDA) is the most popular method to analyse text data. It treats a document as a collection of words and explores the topic meaning to figure out the latent information of document.In recent years,LDA has been widely used in text analysis,recommendation system,information retrieval and other fields.

The key problem of LDA is to assign topic for latent variable and estimate unknown parameter.In this paper, posterior distributions of unknown parameters are obtained firstly based on Dirichlet-Multinomial conjugate structure.And then by using Bayesian formula,the posterior of latent variable is inferred and CGS sampling formula is obtained. Subsequently,we infer from variational Bayes and maximize the Evidence Lower Bound(ELBO) to find the optimal solutions to unknown parameters. During optimization, Monte Carlo simulation and EM algorithm are combined, thus forming MCEM algorithm. In E step: sample topic proposals 𝑧𝑑𝑛s based on Metropolis Hastings

algorithm. During sampling,we draw samples alternatively from word-proposal and doc-proposal by visiting tokens doc-to-doc. Based on multinomial dstribution,Alias Sampling and Random Positioning are adopted to draw a single topic proposal within O(1) complexity during each sampling.The innovation of this paper is that drawing samples for latent variable alternatively from the two simple proposed distributions,two mixture of multinomials,which can not only avoid autocorrelation but also improve generalization ability of model.

Key words: LDA;Latent Variable; Variational Bayes; ELBO;MCEM;Metropolis-Hastings; Alias Sampling; Random Positioning

II

(7)

文摘

摘

要

. . . I

英

文

文摘

摘

要

. . . II

中

文

目

录

. . . III

英

文

目

录

. . . V

第

一

章

引

言

. . . 1 1.1 LDA的的的发发发展展展背背背景景景. . . 1 1.2 研研研究究究内内内容容容 . . . 2 1.3 论论论文文文结结结构构构 . . . 3 1.4 常常常用用用的的的性性质性质质与与与定定定理理理 . . . 3

第

二

章

LDA

模

型

中

常

用的

用

的

概

率

统

计

方

方法

法

. . . 5 2.1 常常常见见见概概概率率率分分分布布布与与与共共共轭轭轭结结结构构构 . . . 5 2.2 参参参数数数估估估计计计方方方法法法 . . . 7 2.2.1 最大似然估计 . . . 7 2.2.2 最大后验估计 . . . 8 2.3 变变变分分分Bayes . . . 9 2.4 随随随机机机模模模拟拟拟 . . . 11 2.4.1 蒙特卡罗模拟 . . . 11 2.4.2 MCMC方法 . . . 12 2.4.3 马氏链收敛分析 . . . 14 2.4.4 MCMC模拟 . . . 14 III

(8)

4.3 MCEM算算算法法法与与与模模模拟拟拟. . . 32 4.3.1 MCEM算法实现步骤 . . . 32 4.3.2 MCEM模拟 . . . 32

第

五

章

总

结

. . . 35

参

考

考文

文

献

. . . 37

实

验

数

据

和

和伪

伪

代

码

. . . 39

致

谢

. . . 43 IV

厦门大学博硕士论文摘要库

(9)

3 Basics of LDA

. . . 17

3.1 Likelihood function for observable variables . . . 18

3.2 Posterior distributions of unobservable variables . . . 19

4 MCEM Algorithm of LDA

. . . 23

4.1 Variational Optimization . . . 24

4.2 Fast sampling methods for topic assignment . . . 27

4.2.1 The simple proposals for topic assignment . . . 28

4.2.2 Mixture of Multinomial distribution . . . 29

4.2.3 Alias Sampling and Random Positioning . . . 30

4.3 MCEM Algorithm and Simulation . . . 32

4.3.1 Implementation of MCEM algorithm . . . 32

4.3.2 Simulation of MCEM . . . 32

5 Conclusions

. . . 35

References

. . . 37

Appendix

. . . 39

Acknowledgements

. . . 43 VI

(11)

第一章引言

第

一

章

引

言

1.1

LDA

的

发

展

背

景

在大数据时代，我们面对维基百科、博客、推特、雪球等海量的文本数据，需要用一种快速高效的方法去挖掘这些文本中的有效信息。而主题模型为解决这个问题提供了新的思路与方法，它主要在众多复杂的文档集中归纳汇总出文档的潜在的语义，推断出文档讨论的主题，然后预测新生文档的主题，以此为基础展开新闻推荐，信息检索，文本聚类等相关应用。潜在主题模型（LDA）[6]是主题模型中应用最广泛的一种。它把每个文概率方法。它把文档看成一个单词的集合，由于单词具有不同的意思和不同的使用背景，使得文档的主题也不唯一，可理解为一篇文章的具有一个主题分布，这种想法最早在1999年由Hoffman[5]给出，后来在2002年，Blei[6]等人在决定主题分布的参数上增加先验分布，于是建立了LDA 模型。 LDA要解决的一个关键问题是根据非观测变量(包括未知参数和主题潜变量)的后验分布估计参数值。在参数优化过程中，由于精确推断潜变量的后验分布非常困难，我们常借助变分法[1]和马尔科夫蒙特卡洛(MCMC)[3,17] 法进行近似推断。如今已经出现平均场变分贝叶斯[6]，退化变分贝叶斯[23]，退化Gibbs抽样(CGS)[24]和期望传播[25]等近似求解方法。其中退化Gibbs抽样对稀疏分布抽样简单并快捷而被广泛应用[11,13,14]。而在LDA相关运用中，经常会用大量的主题来提升应用效果，例如Wang et al.[14]利用100000主题数来提高广告和推荐系统的性能。当主题数K很大时，模型的运行速度和收敛速度都会面临巨大挑战。目前，很多研究从快速抽样算法出发，对模型进行改进，这些算法在单次抽样过程中，算法复杂度从𝑂(𝐾)降低 1

厦门大学博硕士论文摘要库

(12)

第一章引言到𝑂(1)。例如，L.Yao 等人在2009 年提出SparseLDA[11]，该算法把CGS抽样公式分解为𝐶𝑤𝑘𝐶_𝐶𝑑𝑘+𝛼𝑘 𝑘+ ¯𝛽 +𝛽 𝐶𝑑𝑘 𝐶𝑘+ ¯𝛽 + 𝛼𝑘𝛽 𝐶𝑘+ ¯𝛽, 通过枚举C𝑑,C𝑤 所有的非零项得到规范化系数，抽样复杂度为𝑂(𝐾𝑤+𝐾𝑑)。A.Q.Li 等人基于SparseLDA 的思想，在2014年提出AliasLDA[13]，它把CGS抽样公式分解为𝐶𝑑𝑘𝐶_𝐶𝑤𝑘+𝛽 𝑘+ ¯𝛽 +𝛼𝑘 𝐶𝑤𝑘+𝛽 𝐶𝑘+ ¯𝛽 ，这里𝐶𝑑𝑘 和𝐶𝑘 都是上一次循环中的计算的结果，通过枚举C_𝑑 中所有非零项来计算第一项的规范化系数，算法复杂度为𝑂(𝐾𝑑)。这些算法都是基于计数矩阵（主题计数）稀疏性的性质产生的。而针对计数矩阵不具有稀疏性的文档集，又产生了基于MH的快速抽样算法。J.Yuan等人在2015年提出LightLDA[14]算法，该算法通过交替使用建议分布𝑞𝑑𝑜𝑐 ∝(𝐶𝑑𝑘 +𝛼𝑘) 𝑞𝑤𝑜𝑟𝑑 ∝ 𝐶_𝐶𝑤𝑘+𝛽 𝑘+ ¯𝛽 在𝑂(1) 内完成对每个token抽样，但在计算接受率时比较麻烦。本文在参数估计时利用变分贝叶斯得到参数的最优形式；同时在MH抽样过程中，在LightLDA的思想上提出了一种新的建议分布和快速抽样方法，从而提高了模型的泛化能力。

1.2

研

究

内

容

本文主要研究一种做文本分析的主题模型–LDA，并在现有的研究基础上提出一种新的算法–MCEM，借助一些快速抽样技术来提高LDA的训练速度和泛化能力。本文首先列出了LDA 中常用的概率分布和参数估计方法，然后基于 Dirichlet-Multinomial共轭结构得到Θ,Φ的后验分布和后验估计表达式，并利用贝叶斯公式推断出主题潜变量的后验分布，得到CGS抽样公式。紧接着为提高LDA的训练速度和泛化能力，从最大化后验分布出发，利用变分贝叶斯把原优化问题转化为最大化后验分布的变分证据下界（ELBO），得到新的主题抽样公式。在优化过程中，结合蒙特卡罗模拟和EM算法构造出MCEM算法。在算法E步中，对主题潜变量进行抽样；

该过程基于Metropolis-Hastings算法，按照doc-to-doc的顺序访问每个token，同时交

替从两个简单的建议分布word-proposal和doc-proposal中为𝑧𝑑𝑛分配主题。在单次抽样

2

(13)

第一章引言

中，在混合多项分布下，分别采用Alias Sampling和Random Positioning对成员分布进

行抽样，把算法复杂度控制在O(1)内。在M步，更新计数矩阵C𝑑,C𝑤。随后给出算法的模拟应用实例。最后对本文进行总结和评价。

1.3

论

文

结

构

本论文共分为五章，主要围绕LDA模型常用的概率分布与参数估计方法展开，主要结构如下：第一章是引言部分，首先介绍主题模型的研究背景，然后给出了本论文的主要研究内容和结构，最后给出了本文引用的结论和定理。在第二章，介绍了参数估计常用的方法，并重点介绍了统计推断中近似求解方法：变分法和MCMC，最后给出MCMC应用实例。在第三章，首先阐述了LDA模型的基础知识和要求参数的后验分布公式，重点得到潜变量的抽样公式。在第四章，最大化参数的后验分布，利用变分贝叶斯把原优化问题转化为最大化后验分布的变分证据下界（ELBO）来求解未知参数的最优形式。优化过程通过结合蒙特卡洛模拟和EM算法构造出MCEM 算法。紧接着我们基于已有的快速抽样技术，提出了本文所需用的快速抽样技术和方法：两个简单建议分布,Alias-Walker抽样以及随机定位法。最后，利用CMEM算法，给出了应用实例。在第五章，主要对本文所做的工作进行总结，列举出了本文的一些不足以及所研究问题的展望。

1.4

常

用

用的

的

的性

性

质

与

与定

定

定理

理

贝贝贝叶叶叶斯斯斯公公公式式式: 设已知𝑋 _,{𝑥𝑖} |𝑋| 𝑖=1为独立同分布的观测数据集，参数Θ是变量𝑋的分布对应的参数，例如对高斯分布Θ ={𝜇, 𝜎2_}_。已知_观_测_集_𝑋_，_由_贝_叶_斯_公式_可_得 3

(14)

第一章引言参数Θ的后验分布 𝑝(Θ|𝑋) = 𝑝(𝑋|Θ)𝑝(Θ) 𝑝(𝑋) (1-1) Jeson不不不等等等式式式：：：已知凸函数𝑓(𝑥) = log𝑥,𝑥为随机变量，则 𝑓(𝐸(𝑥))≤𝐸(𝑓(𝑥)) (1-2) 细细细致致致平平平衡衡衡条条条件件件：：：如果非周期马氏链的转移矩阵𝑃和分布𝜋(𝑥)满足： 𝜋(𝑥𝑡−1)𝑝(𝑥𝑡|𝑥𝑡−1) =𝜋(𝑥𝑡)𝑝(𝑥𝑡−1|𝑥𝑡) 则𝜋(𝑥)是马氏链上的平稳分布。定定定义义义：：：若随机变量𝑋在𝑡 + 1时候的取值概率满足𝑃(𝑋𝑡+1 = 𝑥|𝑋𝑡, 𝑋𝑡−1) = 𝑃(𝑋𝑡+1 = 𝑥|𝑋𝑡)，即𝑋在𝑡+ 1时的取值概率只依赖于𝑡时刻的取值概率，那么这样的随机过程称为马马马尔尔尔可可可夫夫夫链链链也称为马马马氏氏氏链链链。马马马氏氏氏链链链的的的收收收敛敛敛定定定理理理：：：如果一个非周期马氏链具有转移矩阵𝑃，且它的任何两个状态是连通的，那么lim𝑛→∞𝑃𝑛(𝑗|𝑖)存在且与状态𝑖无关，记lim𝑛→∞𝑃𝑛(𝑗|𝑖) =𝜋(𝑗)，我们有 (1) lim 𝑛→∞𝑃 𝑛 ₌ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · · · · · 𝜋(1) 𝜋(2) · · · 𝜋(𝑗) · · · · · · · ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ (2)𝜋(𝑗) = ∞ ∑︀ 𝑖=0 𝜋(𝑖)𝑃𝑖𝑗 = 1 (3)𝜋是方程𝜋𝑃 = 𝜋的唯一非负解,其中𝜋 = [𝜋(1), 𝜋(2),· · · , 𝜋(𝑗),· · ·], ∞ ∑︀ 𝑖=0 = 1, 𝜋 称为马氏链的平稳分布。 4

厦门大学博硕士论文摘要库

(15)

第二章 LDA模型中常用的概率统计方法

第

二

章

LDA

模

型

中

中常

常

常用

用

用的

的

概

率

统

统计

计

方

方法

法

本章主要介绍主题模型中常用的概率分布和共轭结构，估计参数方法以及统计推断中的近似求解方法[1–4,19]。

2.1

常

见

见概

概

率

分

布

布与

与

共

轭

结

构

1.𝐺𝑎𝑚𝑚𝑎(𝑘, 𝜃)分布 𝑋 ∼𝐺𝑎𝑚𝑚𝑎(𝑘, 𝜃),则X的密度函数为： 𝑓(𝑥;𝑘, 𝜃) = 𝑥 𝑘−1_𝑒−𝑥/𝜃 𝜃𝑘_Γ(𝑘) 其中Γ为gamma函数,Γ(𝑥) = ∫︀₀∞𝑒−𝑡𝑡𝑥−1𝐼{𝑥 > 0}𝑑𝑡，其具有性质:Γ(𝑥 + 1) = 𝑥Γ(𝑥)且Γ(𝑥) = 𝑥! 2.二项分布与多项分布在一次试验中，其结果只有两种可能（成功或失败），设成功概率为𝑝，N次独立重复试验后成功的次数记为X，则X服从二二二项项项分分分布布布，其概率分布为 𝑓(𝑘;𝑁, 𝑝) =𝑃(𝑥=𝑘) = 𝐶_𝑁𝑘𝑝𝑘(1−𝑝)𝑁−𝑘 多项分布是二项分布的推广，每次试验结果有K种可能(记为{1,2,· · ·𝐾})，出现𝑘的概率为𝑝𝑘，令𝑝= [𝑝1, 𝑝2, . . . , 𝑝𝐾]，N次独立重复试验的结果记为X，X服从多多多项项项分分分布布布。X中出现𝑘的次数记为𝑐𝑘来表示,令𝑐= [𝑐1, 𝑐2, . . . , 𝑐𝐾]，那么X的概率分布为： 𝑝(𝑐|𝑝, 𝑁) = ⎛ ⎜ ⎝ 𝑁 c ⎞ ⎟ ⎠ 𝐾 ∏︁ 𝑘=1 𝑝𝑐𝑘 𝑘 ,𝑀 𝑢𝑙𝑡(𝑐|𝑝, 𝑁) 其中， ⎛ ⎜ ⎝ 𝑁 c ⎞ ⎟ ⎠= 𝑁! ∏︀ 𝑘𝑐𝑘! ， ∑︀𝐾 𝑘=1𝑝𝑘 = 1 ， ∑︀𝐾 𝑘=1𝑐𝑘 =𝑁。 5

(16)

第二章 LDA模型中常用的概率统计方法 3.Dirichlet分布 Dirichlet分布的概率密度为 𝑝(𝑝|𝛼) =𝐷𝑖𝑟(𝑝|𝛼)_, Γ( ∑︀𝐾 𝑘=1𝛼𝑘) ∏︀𝐾 𝑘=1Γ(𝛼𝑘) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘−1 𝑘 , 1 Δ(𝛼) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘−1 𝑘 (2-1) 其中Δ(𝛼)为归一化参数： Δ(𝛼) = ∏︀𝐾 𝑘=1Γ(𝛼𝑘) Γ(∑︀𝐾 𝑘=1𝛼𝑘) = ∫︁ 𝐾 ∏︁ 𝑖=1 𝑝𝛼𝑘−1 𝑘 𝑑𝑝 (2-2) 3.共轭分布假设随机变量𝑤 ∼ 𝑀 𝑢𝑙𝑡𝑖(𝑝, 𝑁),𝑝 ∼ 𝐷𝑖𝑟(𝛼),利用Bayes公式可得参数𝑝的后验分布为 𝑝(𝑝|𝑊,𝛼) = ∏︀𝐾 𝑘=1𝑝(𝑐𝑘|𝑝)𝑝(𝑝|𝛼) ∫︀ ∏︀𝐾 𝑘=1𝑝(𝑐𝑘|𝑝)𝑝(𝑝|𝛼)𝑑𝑝 = ∏︀𝐾 𝑘=1 𝑁! 𝑐1!𝑐2!···𝑐𝑉!𝑝 𝑐𝑘 𝑘 1 Δ(𝛼)𝑝 𝛼𝑘−1 𝑘 ∫︀ _𝑁_! 𝑐1!𝑐2!···𝑐𝑉! ∏︀𝐾 𝑘=1𝑝 𝑐𝑘 𝑘 1 Δ(𝛼)𝑝 𝛼𝑘−1 𝑘 𝑑𝑝 = _{∫︀ ∏︀}_𝐾 1 𝑘=1𝑝 𝛼𝑘+𝑐𝑘−1 𝑘 𝑑𝑝 𝐾 ∏︁ 𝑘=1 𝑝𝑐𝑘+𝛼𝑘−1 𝑘 = 1 Δ(𝛼+𝑐) 𝐾 ∏︁ 𝑘=1 𝑝𝛼𝑘+𝑐𝑘−1 𝑘 =𝐷𝑖𝑟(𝑝|𝛼+𝑐) (2-3) 其中，𝑊的似然函数 𝑁 ∏︁ 𝑛=1 𝑝(𝑤𝑛|𝑝) = 𝐾 ∏︁ 𝑘=1 𝑝(𝑤=𝑘|𝑝)𝑐𝑘 𝑐𝑘表示随机变量𝑤重复出现结果𝑘的次数。像这样使得后验和先验同属一种分布的先验分布称为共轭先验，称Dirichlet为Multinormal 分布的共共共轭轭轭先先先验验验分分分布布布， Dirichlet和Multinormal为共共共轭轭轭结结结构构构。 6

厦门大学博硕士论文摘要库

(17)

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Full texts are available in the following ways:

1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submit requests online, or consult the interlibrary loan department in your library.

2. For users of non-CALIS member libraries, please mail to [email protected] for delivery details.

Xiamen University Electronic Theses and Dissertations Database”. Full

http://etd.calis.edu.cn/ and submit

Latent Dirichlet Allocation Based On MCEM Algorithm

学 学 学校校校编编编码码码：：：10384 分分分类类类号号号 密密密级级级 学 学 学号号号：：：19020141152614 UDC

基于

率论

员会主席

的学

他个人或

厦门大学研

费或实验室的资助

有此项声明

厦门大

暂行实施

纸质

意厦门大学

的标

属于

不保密

厦门大学保密

公开学

厦门大学博硕士论文摘要库

中文摘要

中文摘

主题，并在O(1)时间内完成单次抽样，这样不仅能有效避免抽样的自相关性，还提

Abstract

目 录

文摘

用的

目 录

4.3 MCEM算算算法法法与与与模模模拟拟拟. . . 32 4.3.1 MCEM算法实现步骤 . . . 32 4.3.2 MCEM模拟 . . . 32

考文

厦门大学博硕士论文摘要库

目 录

Contents

目 录

3 Basics of LDA

5 Conclusions

第一章 引言

厦门大学博硕士论文摘要库

第一章 引言

用的

厦门大学博硕士论文摘要库

第二章 LDA模型中常用的概率统计方法

中常

见概

厦门大学博硕士论文摘要库

学学学校校校编编编码码码：：：10384 分分分类类类号号号密密密级级级学学学号号号：：：19020141152614 UDC

目录

目录

目录

目录

第一章引言

第一章引言