• No results found

Group Variable Selection for Nonparametric Additive Beta Regression Models

N/A
N/A
Protected

Academic year: 2021

Share "Group Variable Selection for Nonparametric Additive Beta Regression Models"

Copied!
17
0
0

Loading.... (view fulltext now)

Full text

(1)

学校编码:10384 分类号 密级 学号:15420141151968 UDC

硕 士

位 论

非参数可加

beta

回归模型的变量选择

Group Variable Selection for Nonparametric Additive Beta

Regression Models

王 秉 权

指导教师姓名

:

方 匡 南 教 授

专 业 名 称

:

数 量 经 济 学

论文提交日期

:

2017

4

论文答辩时间

:

2017

4

学位授予日期

:

2017

6

答辩委员会主席

:

评阅人

:

2017

4

厦门大学博硕士论文摘要库

(2)
(3)

厦门大学学位论文原创性声明

本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。

本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中

以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规

范(试行)》。

另外,该学位论文为(

)课题(组)

的研究成果,获得(

)课题(组)经费或实验室的

资助,在(

)实验室完成。

(请在以上括号内填写课

题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别

声明。)

声明人(签名):

厦门大学博硕士论文摘要库

(4)
(5)

厦门大学学位论文著作权使用声明

本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》

等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论

文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数

据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士

学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出

版,采用影印、缩印或者其它方式合理复制学位论文。

本学位论文属于:

1.

经厦门大学保密委员会审查核定的保密学位论文,

日解密,解密后适用上述授权。

X

2.

不保密,适用上述授权。

(请在以上相应括号内打“

X

或”填上相应内容。保密学位论文应

是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员

会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开

学位论文,均适用上述授权。)

声明人(签名):

厦门大学博硕士论文摘要库

(6)
(7)

摘 要

beta回归模型常常被用于因变量取值范围在(0,1)区间的建模中。在本文中,

我们扩展了FerrariCribari-Neto (2004)[1]提出的线性beta回归模型,构建了非参

数可加beta回归模型,并提出了变量选择的流程。其中,因变量的均值与自变量之 间的结构通过自变量未知函数的线性组合来刻画,即非参数可加的回归结构。通过 B样条基对未知函数进行近似,成分的选择就转变为了每个未知函数在基函数展开 后整组系数的选择。基于整组变量选择的惩罚似然估计方法,我们成功地选择出零 成分。更进一步地,我们还建立了惩罚似然估计量的一致性等渐进性质。同时,我 们进行了数值模拟和实证分析,以此验证我们提出的非参数可加beta回归模型的变 量选择方法。 关键词: 整组SCAD;变量选择;非参数可加beta回归模型 I

厦门大学博硕士论文摘要库

(8)
(9)

Abstract

The beta regression models are commonly used by practitioners to model the response variable that is restricted in the standard unit interval (0,1). In this paper, we extend the parametric beta regression model proposed by Ferrari and Cribari-Neto (2004)[1] to nonparametric additive beta regression model together with a variable selection procedure, where the mean response is related to covariates by means of the combination of unknown functions of covariates, which can be approximated by B-spline basis. With the help of this approximation, the problem of component selection becomes that of selecting the groups of coefficients in the expansion. Based on the penalized likelihood method for group variable selection, we successfully select out the zero components. The consistency and property of the penalized estimators are established. Simulation studies and real data analysis are presented to illustrate the usefulness of the proposed methods.

Keywords: Group SCAD;Variable Selection; Nonparametric Additive Beta Regression

III

(10)
(11)

目 录

I

英文摘要

III

V

英文目录

VII

第一章

绪论

1

1.1 研究背景及意义 . . . . 1 1.2 技术路线 . . . . 4 1.3 文章创新之处 . . . . 5

第二章

变量选择

7

2.1 变量选择与Lasso估计量 . . . 7 2.2 基于似然函数的变量选择与非凹惩罚函数 . . . . 10 2.3 整组变量选择 . . . . 12 2.4 非参数可加模型的变量选择 . . . . 13

第三章

beta

回归模型及其变量选择

17

3.1 beta回归模型 . . . . 17 3.2 变精度beta回归模型的变量选择 . . . 20

第四章

非参数可加

beta

回归模型及其变量选择

23

4.1 非参数可加beta回归模型 . . . . 23 4.2 惩罚似然估计 . . . . 24 4.3 数值计算 . . . 27 V

厦门大学博硕士论文摘要库

(12)

目 录 4.4 调节参数 . . . 29 4.5 渐进性质 . . . . 29

第五章

数值模拟

33

5.1 数值模拟1 . . . 33 5.2 数值模拟2 . . . 38

第六章

实证分析

43

6.1 实证分析1 . . . 43 6.2 实证分析2 . . . 45

第七章

总结与讨论

49

第八章

附录

51

8.1 附录A.定理1证明. . . . 51 8.2 附录B.定理2证明. . . 53

参考文献

57

硕士期间发表的论文

61

致 谢

63

VI

厦门大学博硕士论文摘要库

(13)

Contents

Abstract

III

Contents

VII

Chapter 1

Introduction

1

1.1 Research Background . . . 1 1.2 Technical Route . . . 4

1.3 Innovation of This Thesis . . . 5

Chapter 2

Variable Selection

7

2.1 Variable Selection and Lasso . . . 7

2.2 Variable Selection Based on Penalized Likelihood and Noncon-cave Penalty Function . . . 10

2.3 Group Variable Selection . . . 12

2.4 Variable Selection for Nonparametric Additive Model . . . 13

Chapter 3

Beta Regression Model and its Variable Selection

17

3.1 Beta Regression Model. . . 17

3.2 Variable selection for varying dispersion beta regression model . 20

Chapter 4

Nonparametric Additive Beta Regression Model and

its Variable Selection

23

4.1 Nonparametric Additive Beta Regression Model . . . 23

4.2 Penalized Likelihood Estimation . . . 24

4.3 Numerical Computation . . . 27

4.4 Tuning Parameters . . . 29

VII

(14)

Contents 4.5 Asymptotic Properties . . . 29

Chapter 5

Numerical Simulation

33

5.1 Numerical Simulation1 . . . 33 5.2 Numerical Simulation2 . . . 38

Chapter 6

Real Data Analysis

43

6.1 Real Data Analysis1 . . . 43 6.2 Real Data Analysis2 . . . 45

Chapter 7

Conclusion and Discussion

49

Chapter 8

appendix

51

8.1 Appendix A. The Proof of Theorem 1 . . . 51 8.2 Appendix B. The Proof of Theorem 2 . . . 53

References

57

Publications as the Degree Candidate

61

Thanks

63

VIII

(15)

第一章

绪论

1.1

研究背景及意义

进入大数据时代后,人们可以观测和收集的数据越来越多,可用于预测分析的 变量也越来越多。这导致了估计的低效和维度灾难,因此如何从诸多变量中选取 与分析主题相关的变量成为重中之重。在传统统计方法中,我们通常用逐步删除 (stepwise deletion)和子集选择(subset selection)的方法来实现变量选择。虽然这 些方法看似在实证分析中简单实用,但是其忽略了蕴含在变量选择过程的各个步骤 所造成的随机误差。因此,这些方法的理论性质通常难以理解。而通过选取最佳子集 来实现变量选择的方法一样有很大的问题,其中最严重的一点就是其稳定性十分的 差,Breiman(1996)[2]更加详细的剖析了这一问题。为了一次性有效地实现变量选择, 统计学家提出了基于惩罚的方法。直到现在,已经有很多惩罚的方法被用于变量选 择和高维数据的估计。这些方法包括FrankFriedman (1993)[3]HuangHorowitzMa(2008)[4]提出的岭估计量,Tibshirani(1996)[5]提出的最小绝对值收缩和选择算 子(简称Lasso),FanLi(2001)[6]FanPeng(2004)[7]提出的光滑分段绝对值偏 差(简称SCAD),以及Zhang(2010)[8]提出的最小凹惩罚。对这些方法统计性质的

研究也取得了很多的进展,尤其是很多作者都对高维度设定下Lasso的变量选择、

估计以及预测性质进行了研究,例如MeinshausenBühlmann(2006)[9]Zhao Yu(2006)[10]Zou(2006)[11]BuneaTsybakovWegkamp(2007)[12]MeinshausenYu(2009)[13]HuangMaZhang(2008)[14]van de Geer(2008)[15]以及Zhang Huang(2008)[16]等。 这些研究都假设模型是线性模型或某些参数模型,而在诸多应用中没有任何 关于变量的影响应该是线性的或者属于任何一类已知的维度有限的参数模型的先 验信息。例如,在经济增长的研究中,自变量对GDP增长的影响往往是非线性 的。同样地,在其他应用领域比如在生物学的研究中也有许多证据表明基因的表达 1

厦门大学博硕士论文摘要库

(16)

1.1 研究背景及意义 第一章 绪论 是非线性的。在应用中我们常常用非参数可加模型来刻画未知的非线性关系,关

于非参数可加模型有非常多的相关文献:Stone (1985[17], 1986[18])在研究成果中指

出可加样条估计量(additive spline estimators)对于任意一个固定维数 p能实现和

p= 1时一样的最优收敛速度;Horowitz和Mammen(2004)[19],Horowitz,Klemelä 和Mammen(2006)[20]在研究成果中指出如果维数 p是固定的且温和的正则条件成

立,可加函数的神谕-有效(oracle-efficient)估计量可以通过两个步骤得到。神谕

-有效实际上是指每一个可加函数的估计量在其它所有可加函数都是已知和未知两种 情况下具有同样的渐进分布。

但是这些文章都没有讨论非参数可加模型如何进行变量选择。Antoniadis

Fan(2001)[21] 提出了整组SCAD的方法用于小波逼近(wavelets approximation)的

规范化分析。Zhang等(2004)和LinZhang(2006)也研究了如何在变量个数固

定的光滑样条ANOVA中使用惩罚的方法。Zhang(2004)[22]等采用了Lasso形式的

惩罚,但是没有研究模型选择的一致性。LinZhang(2006)[23]提出了成分选择

component selection)和光滑算子(smoothing operator)(简称COSSO)的方法用

于多元非参数回归的模型选择和估计。对于固定的 p,他们指出COSSO估计量在

可加模型中以nd/(2d+1) 的速率收敛,d为成分的光滑程度。同时,他们也指出在

一些特定情况下,COSSO可以以很高的概率正确地选出非零的可加成分。Zhang

Lin(2006)[24]研究了指数分布族非参数回归的 COSSOMeiervan de Geer Bühlmann(2009)[25]研究了零成分和非零成分的数量都大于n的非参数可加模型的 变量选择问题。他们提出了惩罚最小二乘估计量以用于变量选择和估计。同时他们 给出了非零可加成分与零点的距离以接近1的概率在某种度量上超过特定阈值所需 要的条件。但是他们没有对提出的方法建立模型选择的一致性。即使是渐进来说, 被选的成分个数仍然可能比真实的非零函数要多。而且,在他们的分析中需要添加 有关可加函数取值范围和光滑性的相容性条件。这种相容性条件没有直观的解释, 在实证分析时无法检验其是否成立。Ravikumar(2009)[26]提出了惩罚方法以实现 非参数可加模型的变量选择。在他们的方法中,惩罚被施加在非参数成分的范数和 成分的均值以实现模型的识别。在他们的理论结果中,需要设计矩阵的特征根离零 和无穷较远作为条件。而这个条件在一般情况下是否成立没有明确的答案,特别是 2

厦门大学博硕士论文摘要库

(17)

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Full texts are available in the following ways:

1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submit requests online, or consult the interlibrary loan department in your library.

2. For users of non-CALIS member libraries, please mail to [email protected] for delivery details.

References

Related documents

2.37 On termination of the agreement and on satisfactory delivery to the client of all drawings, reports, calculations, production information and any other documentation prepared

An employee may change the number of withholding exemptions and/or allowances he or she claims on Form W-4, Employee's Withholding Allowance Certificate.. It is generally advisable

This section defines a framework of metrics that charac- terize performance and energy efficiency of communication systems in cloud computing data centers.. Cloud applications, with

 In  this  endeavour,  statistical  analysis  has  become  extremely

If the attorney’s lawsuit includes no claim for punitive damages, it will seek an aggregate judgment of $150. This aggregate claim includes a fraudulent surcharge of

Two key vulnerability assessment results, produced to examine failure impacts of such assets on railway passenger trip flows, include: (i) Random failure outcomes; and (ii)

The Commission however reiterates that its temporary approval of those measures as rescue aid does not prejudge the Commission's position on the final restructuring plan to

[r]