時間:2020年02月27日 分類:教育論文 次數:
摘要:為了更好地擬合實際數據,本文提出了混合廣義線性模型并進行參數估計.首先,基于異質總體的一階矩以及二階矩存在的條件下,運用混合廣義線性模型對子總體的均值進行建模,構造擴展擬似然和偽似然函數,然后利用EM算法對均值參數、散度以及混合比例進行估計,并通過MonteCarlo模擬驗證所提出的模型參數估計方法的有效性.最后,實例研究的結果表明本文的模型和方法是科學實用的.
關鍵詞:混合廣義線性模型;擴展擬似然;偽似然;EM算法
眾所周知,在統計分析中,線性模型是最常見的,但是線性模型一般要求因變量是連續的,然而在實際運用中,因變量有可能是非連續的.因此,需要將其推廣至廣義線性模型,它適用于連續數據和離散數據,在醫學、生物、保險、經濟和社會數據的統計分析上有重要意義[1].廣義線性模型的起源很早,Fisher早在1919年就曾使用它,二十世紀四五十年代,Berkson、Dyke和Patterson等人使用了Logistic回歸,直至1972年Nelder和Wedderburn[2]首次提出廣義線性模型,才逐漸引起了眾多學者對該模型的關注.
Fahrmeir和Tutz[3]詳細介紹了廣義線性模型的基本內容以及基于廣義線性模型的多元統計建模.在異質總體中,廣義線性模型不再適用,則需要根據不同的統計特性對樣本進行聚類,混合回歸模型是最重要的異質總體統計數據分析工具之一,其主要研究含有兩個及兩個以上子聚類的混合數據,在生物學、醫學、經濟學、環境科學、抽樣調查及工程技術等領域具有廣泛的應用.自Goldfeld和Quandt[4]首次介紹了混合回歸模型以來,混合回歸模型就引起了許多統計學者的研究興趣,可參見McLachlan和Peel[5]的專著及其參考文獻.
最近,Yao等[6]基于t分布的研究,提出了穩健的混合線性回歸模型;Song等[7]基于Laplace分布的研究,提出了穩健的混合線性回歸模型;Liu和Lin[8]基于偏正態分布,首次研究了偏態數據下混合線性回歸模型.在經典的廣義線性模型中,響應變量之間相互獨立且服從指數族分布.但在實際生活中,觀察到的響應變量之間可能存在相關性,這就導致了所謂的“超散布性”.有關研究超散布性的文章中比較好的有Collett[9]的文獻,該文獻第六章有詳細說明.而對于模型中“超散布性”Wedderburn[10]提出了擬似然方法來對參數進行估計.擬似然方法是假定總體前兩階矩存在,通過對它的對數擬似然方程求極值得到參數的估計值.陳希孺[11]在廣義線性模型中對擬似然的方法有詳細的闡述.
吳劉倉等[12]研究了缺失數據下雙重廣義線性模型的參數估計等.目前,廣義線性模型和采用擬似然方法進行參數估計的文獻有很多,但針對異質總體建模的研究還比較少.本文基于此,首先建立混合廣義線性模型,然后利用EM算法對該模型的參數進行估計,對參數估計本文選用兩種方法:擴展擬似然估計和偽似然估計,再通過MonteCarlo隨機模擬試驗來驗證方法有效性.最后,實例研究結果表明所提出的模型和方法是實用可行的.
1)兩種估計方法,隨著樣本量增大,所有參數的估計值越來越接近真值,而且估計的均方誤差(MSE)也越來越小;2)在樣本量n給定的情況下:當混合比例π1=π2=0.50時,兩個子聚類的回歸模型中均值模型參數估計的均方誤差(MSE)大小近似相等,散度值估計的均方誤差(MSE)大小也基本一樣;而當混合比例π2=0.65時,第二個子聚類回歸模型參數估計的均方誤差(MSE)均比第一個子聚類估計的均方誤差(MSE)小,因為當混合比例越大,樣本量越大,對估計的結果越好;3)在同樣的條件下,最大偽似然估計的均方誤差(MSE)比最大擴展似然估計小.以上結論表明,本文中提出的模型及所使用的EM算法對參數估計取得了比較理想的效果.
如今,科學技術日益發達,運用統計方法研究身體構建有著重要的意義.對人體特征進行數量分析,可以為國防、工業、醫療衛生和體育部門提供參考,而且對法醫等醫學部門都有實際的用處.本文實例數據來自圣何塞州立大學和美國海軍研究生院的兩名作者(Heinz和Peterson)測量的數據,總共有507個樣本,其中含有男性樣本247個,女性樣本260個,于是可以得到混合比例π1=247/507≈0.487,π2=260/507≈0.513.
本文研究的是身高與手腕最小周長、大腿圍、胸圍之間的關系.選取身高作為響應變量yi,其余三個變量作為協變量X=(x1,x2,x3),其中x1是手腕最小周長,x2是大腿圍,x3是胸圍.1)兩種估計方法得到的參數估計結果近似,說明兩種方法對前兩階矩存在的異質總體進行建模參數估計時,效果相近;2)在均值模型中,從結果可以看出,手腕周長x1對身高y的影響比大腿圍x2、胸圍x3對身高的影響大.女性子總體的估計結果跟總體的估計結果比較接近,男性子總體跟總體結果相差較大,所以為了對異質總體進行深入分析,分別對子總體建模是必需的;3)從散度參數估計結果看出,男性子總體參數估計結果與總體和女性子總體的估計結果有較大差異.若不考慮分類研究,可能得到錯誤的結論.因此,分類建立回歸模型是合理的.
本文針對存在一、二階矩的異質總體建立了混合廣義線性模型,然后運用EM算法,結合擴展擬似然和偽似然方法進行參數估計.最后,通過MonteCarlo模擬和實例研究的結果表明,所提出的模型與方法是科學有效的.
參考文獻:
[1]劉茜.廣義線性模型及其應用[D].烏魯木齊:新疆大學,2009LiuQ.Generalizedlinearmodelsanditsapplications[D].Urumqi:XinjiangUniversity,2009
[2]NelderJA,WedderburnRWM.Generalizedlinearmodels[J].JournaloftheRoyalStatisticalSociety,SeriesA,1972,135(3):370-384
[3]FahmeirL,TutzG.MultivariateStatisticalModellingBasedonGeneralizedLinearModels[M].NewYork:Springer,1994
[4]GoldfeldSM,QuandtRE.AMarkovmodelforswitchingregressions[J].JournalofEconometrics,1973,1(1):3-15
[5]PeelD,MclachlanGJ.Robustmixturemodellingusingthetdistribution[J].StatisticsandComputing,2000,10(4):339-348
相關論文范文閱讀:農林院校高等數學模塊化教學改革思考
摘要:高等數學是高等院校一門重要的公共基礎課程,文章分析了農林院校高等數學教學改革的必要性與現狀,提出模塊化教學改革的思路與做法,以供參考。