前言:本站為你精心整理了基于隨機(jī)數(shù)的概率統(tǒng)計(jì)教學(xué)實(shí)踐探索范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
【摘要】在大數(shù)據(jù)時(shí)代背景下,概率統(tǒng)計(jì)已成為數(shù)據(jù)科學(xué)的重要入門課程,為加強(qiáng)其概念和方法的理解,利用R語(yǔ)言生成特定分布的隨機(jī)數(shù),并進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn),將抽象的概念、方法進(jìn)行直觀展示,有助于激發(fā)學(xué)生的學(xué)習(xí)興趣,培養(yǎng)學(xué)生處理數(shù)據(jù)的能力,實(shí)現(xiàn)理論與實(shí)踐相結(jié)合的課程教學(xué)目標(biāo)和應(yīng)用型人才的培養(yǎng)目標(biāo)。
【關(guān)鍵詞】概率統(tǒng)計(jì);數(shù)據(jù)科學(xué);R語(yǔ)言;隨機(jī)數(shù);假設(shè)檢驗(yàn)
0引言
黨的四中全會(huì)將數(shù)據(jù)作為一種新型生產(chǎn)要素寫入中央文件中,體現(xiàn)了互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的新特征。概率統(tǒng)計(jì)是理工科院校一門重要的基礎(chǔ)理論課程,也是進(jìn)行大數(shù)據(jù)處理的入門課程。生成特定分布的隨機(jī)數(shù)并對(duì)其進(jìn)行可視化分析,可使學(xué)生直觀理解概率統(tǒng)計(jì)的基本概念與原理,掌握數(shù)據(jù)處理和統(tǒng)計(jì)分析的過(guò)程。R語(yǔ)言因其具有免費(fèi)、易安裝、資源豐富、代碼簡(jiǎn)單、擅長(zhǎng)數(shù)據(jù)分析與可視化等優(yōu)點(diǎn),非常適合在概率統(tǒng)計(jì)課程中進(jìn)行案例教學(xué)和直觀演示[1]。本文結(jié)合長(zhǎng)期的教學(xué)和實(shí)踐經(jīng)驗(yàn),探索使用R語(yǔ)言生成隨機(jī)數(shù)并進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn)的教學(xué)研究。
1隨機(jī)數(shù)的生成與參數(shù)估計(jì)
隨機(jī)數(shù)是一種重要的數(shù)據(jù)來(lái)源,著名的蒙特卡羅方法在模擬任何一個(gè)實(shí)際過(guò)程時(shí)都需要用到大量的隨機(jī)數(shù)。使用計(jì)算機(jī)產(chǎn)生的隨機(jī)數(shù)稱為偽隨機(jī)數(shù),它們看起來(lái)是隨機(jī)的數(shù),實(shí)際上是通過(guò)固定的、可重復(fù)計(jì)算的方法產(chǎn)生的,具有類似于隨機(jī)數(shù)的統(tǒng)計(jì)特征[2]。使用R語(yǔ)言生成時(shí)其代碼簡(jiǎn)單,利用函數(shù)可快速生成服從二項(xiàng)分布、泊松分布、正態(tài)分布等各種常見(jiàn)分布的隨機(jī)數(shù)[3]。伯努利大數(shù)定律為研究頻率是否穩(wěn)定于概率的問(wèn)題,是概率統(tǒng)計(jì)中比較重要且難以理解的內(nèi)容之一。教材在介紹該部分內(nèi)容時(shí)都是直接通過(guò)證明給出結(jié)論。“穩(wěn)定”一詞究竟是什么含義?作為理工科學(xué)生對(duì)“依概率收斂”沒(méi)有深刻的認(rèn)識(shí),往往會(huì)與高等數(shù)學(xué)中數(shù)列的收斂方式混為一談。因此,在講授該部分內(nèi)容時(shí),若能夠結(jié)合圖形進(jìn)行展示,則更能體現(xiàn)伯努利大數(shù)定律的本質(zhì)含義。在教學(xué)中首先使用R語(yǔ)言生成不同數(shù)量服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù),然后繪制這些隨機(jī)數(shù)對(duì)應(yīng)的頻率直方圖,以及正態(tài)分布密度曲線。邊界與標(biāo)準(zhǔn)正態(tài)分布密度曲線越來(lái)越接近,即隨機(jī)數(shù)落在每個(gè)小區(qū)間上的頻率逐漸收斂到它的概率,直觀驗(yàn)證了伯努利大數(shù)定律的科學(xué)內(nèi)涵。為進(jìn)一步研究隨機(jī)數(shù)的數(shù)量對(duì)收斂過(guò)程的影響,可以使用MASS中的fitdistr()函數(shù)對(duì)前面生成隨機(jī)數(shù)的兩個(gè)參數(shù)進(jìn)行最大似然估計(jì)。隨著隨機(jī)數(shù)數(shù)量的增加,其期望與方差的最大似然估計(jì)會(huì)逐漸收斂到理想取值0和1。通過(guò)上述圖表展示和相應(yīng)R程序的逐步講解,可以讓學(xué)生對(duì)大數(shù)定律和參數(shù)的點(diǎn)估計(jì)有更加深刻的認(rèn)知,展示出概率統(tǒng)計(jì)的特殊魅力。需要說(shuō)明的是,隨機(jī)數(shù)的隨機(jī)生成會(huì)導(dǎo)致在每次運(yùn)行程序后的結(jié)果都不相同,實(shí)際中有時(shí)需要使用相同隨機(jī)數(shù)來(lái)比較不同方法的計(jì)算結(jié)果,可通過(guò)R語(yǔ)言中的set.seed()函數(shù)生成可再生的隨機(jī)數(shù)來(lái)解決這一問(wèn)題。例如,生成8個(gè)服從均勻分布的可再生隨機(jī)數(shù),程序如下:>set.seed(123);runif(8)運(yùn)行程序后的結(jié)果為:0.28757750.78830510.40897690.88301740.94046730.04555650.52810550.8924190只要將隨機(jī)數(shù)種子設(shè)置成某個(gè)數(shù)(上例為123),就可以使得每次運(yùn)行程序后的結(jié)果相同,這樣便于程序的移植和算法的對(duì)比分析。
2基于隨機(jī)數(shù)模擬的假設(shè)檢驗(yàn)
2.1參數(shù)的假設(shè)檢驗(yàn)
正態(tài)分布參數(shù)的假設(shè)檢驗(yàn)是教學(xué)的重點(diǎn)內(nèi)容,教材中一般都先給出一組服從正態(tài)分布的數(shù)據(jù),然后按照假設(shè)檢驗(yàn)的步驟進(jìn)行示例介紹[4],學(xué)生對(duì)接受還是拒絕原假設(shè)并沒(méi)有一個(gè)直觀的認(rèn)識(shí)。若通過(guò)生成服從正態(tài)分布的隨機(jī)數(shù)再對(duì)其進(jìn)行假設(shè)檢驗(yàn),不但可以使學(xué)生知道自己檢驗(yàn)的結(jié)果是否正確,而且可以克服使用了不服從正態(tài)分布的數(shù)據(jù)而導(dǎo)致錯(cuò)誤判斷的弊端。在教學(xué)過(guò)程中,不妨生成兩組服從正態(tài)分布的隨機(jī)數(shù),第一組的數(shù)量為200、均值為2、方差為25,第二組的數(shù)量為300、均值為6、方差為25。由于是在總體參數(shù)均未知的條件下檢驗(yàn)與的均值是否相同,故使用t檢驗(yàn);檢驗(yàn)方差齊性時(shí)使用F檢驗(yàn),結(jié)果見(jiàn)表2。由表2可知,t檢驗(yàn)的P值<0.05,故拒絕均值之差為0的原假設(shè),據(jù)95%的置信區(qū)間可得的均值小于的均值;F檢驗(yàn)的P值>0.05,不能拒絕方差相等的原假設(shè),即認(rèn)為與的方差相等。通過(guò)繪制箱線圖也可以發(fā)現(xiàn)與的平均取值差異較大,但它們的離散程度很相似,與使用t檢驗(yàn)和F檢驗(yàn)得到的結(jié)果一致[5]。
2.2分布的假設(shè)檢驗(yàn)
分布的假設(shè)檢驗(yàn)是重要的非參數(shù)假設(shè)檢驗(yàn),其中最常見(jiàn)的是正態(tài)性檢驗(yàn)。正態(tài)性檢驗(yàn)的方法有很多,包括使用正態(tài)概率圖(Q-Q圖)、Pearson擬合優(yōu)度卡方檢驗(yàn)、Kolmogorov-Smirnov(K-S)擬合優(yōu)度檢驗(yàn)、Shapiro-Wilk檢驗(yàn)(W檢驗(yàn))等[6]。在概率統(tǒng)計(jì)教材中,這方面的內(nèi)容介紹相對(duì)較少,加之每種方法的原理和統(tǒng)計(jì)量的計(jì)算又非常復(fù)雜,學(xué)生僅僅通過(guò)一兩個(gè)例子是很難理解的。但若花大量時(shí)間去介紹理論,可能會(huì)適得其反。因此,若能通過(guò)軟件操作演示,不但可以加強(qiáng)學(xué)生對(duì)理論的理解,而且可以使學(xué)生快速掌握具體的操作方法,實(shí)現(xiàn)了“先會(huì)做、再理解”的學(xué)習(xí)過(guò)程。為展示假設(shè)檢驗(yàn)的操作過(guò)程,在教學(xué)中不妨生成700個(gè)均值為75、標(biāo)準(zhǔn)差為16的正態(tài)分布隨機(jī)數(shù)。使用Q-Q圖判別正態(tài)性比較直觀,但存在主觀性,為了更精確地判別,可以對(duì)該數(shù)據(jù)分別使用卡方檢驗(yàn)、K-S檢驗(yàn)和W檢驗(yàn)進(jìn)行判斷。三種方法的P值基本相同,遠(yuǎn)>0.05,故應(yīng)接受原假設(shè),即認(rèn)為該隨機(jī)數(shù)服從正態(tài)分布,這與生成隨機(jī)數(shù)時(shí)的分布一致,驗(yàn)證了三種方法的有效性。通過(guò)R語(yǔ)言生成隨機(jī)數(shù)再對(duì)其進(jìn)行假設(shè)檢驗(yàn)的教學(xué)演示,不但可以使學(xué)生有的放矢地學(xué)習(xí),而且在課程的課時(shí)較少、教學(xué)任務(wù)繁重、學(xué)生思考時(shí)間有限的情況下,極大地提高了教學(xué)效率。
3結(jié)論與探討
作為數(shù)據(jù)科學(xué)的重要入門課程,概率統(tǒng)計(jì)越來(lái)越受到人們的重視。傳統(tǒng)的教學(xué)方式存在重理論、輕應(yīng)用,偏概率、輕統(tǒng)計(jì),阻礙了大數(shù)據(jù)時(shí)展的客觀需求。為了使學(xué)生更好地認(rèn)識(shí)和理解概率統(tǒng)計(jì)課程中的抽象概念、理論和方法,筆者在總結(jié)實(shí)踐教學(xué)經(jīng)驗(yàn)的基礎(chǔ)上,利用當(dāng)前熱門的數(shù)據(jù)分析軟件———R語(yǔ)言,結(jié)合隨機(jī)數(shù)模擬與示例分析,在已知待分析數(shù)據(jù)分布的條件下,對(duì)難以理解的理論和統(tǒng)計(jì)方法進(jìn)行直觀演示,不但可以激發(fā)學(xué)生的學(xué)習(xí)興趣,提高他們處理本專業(yè)相關(guān)數(shù)據(jù)的能力,而且可以為他們未來(lái)學(xué)習(xí)專業(yè)課程奠定基礎(chǔ),達(dá)到了概率統(tǒng)計(jì)課程的教學(xué)目標(biāo)和應(yīng)用型人才的培養(yǎng)目標(biāo)。
【參考文獻(xiàn)】
[1]曹麗,張莉.基于R的概率統(tǒng)計(jì)直觀教學(xué)展示[J].大學(xué)數(shù)學(xué),2017,33(4):86-89.
[2]薛英花,呂述望,郭圣權(quán).隨機(jī)數(shù)發(fā)生器分析及其在安全信息系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003(3):42-44.
[3]薛震,孫玉林.R語(yǔ)言統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)[M].北京:中國(guó)水利水電出版社,2020.
[4]茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程(第二版)[M].北京:高等教育出版社,2011.
[5]WinstonChang.R數(shù)據(jù)可視化手冊(cè)[M].肖楠,鄧一碩,魏太云,譯.北京:人民郵電出版社,2014.
[6]薛毅,陳立萍.R語(yǔ)言在統(tǒng)計(jì)中的應(yīng)用[M].北京:人民郵電出版社,2017.
作者:薛震 單位:中北大學(xué)<理學(xué)院>