-
1 # 嘻嘻哈哈真的好
-
2 # 王小佳的慧慧
probit迴歸和logistic迴歸幾乎可以用於相同的資料,對於二分類因變數,這兩種方法的結果十分類似。那他們到底有什麼區別呢? 如 果從分佈角度來講,logit函式和probit的函式幾乎重疊,但反映的含義不同,logit等於p/(1-p),這裡p是結局發生的機率,而 probit的函式是F-1(p),注意-1是上標。F是累積的標準正態分佈函式,所以F-1就是累積標準正態分佈函式的逆函式或反函式。 從 解釋的角度來講,logit更容易理解一些,因為p/(1-p)就是我們常說的odds,兩個odds相比就是odds ratio,也就是我們最常用的OR值。所以當我們做出結果後,logistic迴歸所反應的實際意義就非常直觀。而相比之下,probit的含義表示自 變數對累積標準正態分佈函式的逆作用,這個就太讓人看不懂了。當然,實際上我們也可以透過正態分佈值求出probit迴歸中的p,作為機率預測,只是比 logistic迴歸要稍微麻煩一些。 但這兩個方法之間也是有關聯的,通常情況下,probit迴歸估計出的引數值乘以1.814,大致會等於logistic迴歸中的引數值。 實 際中具體選擇哪個方法呢?據筆者所查閱的文獻,尚未發現有理論依據,更多的仍是根據個人習慣。從文獻的應用情況來看,logistic迴歸的應用遠遠多於 probit迴歸,這主要是因為logistic迴歸的易解釋性,而不是logistic迴歸比probit迴歸更好或更適合資料。 但 probit迴歸並不是說就要被logistic迴歸替代了,從預測的角度來看,probit迴歸還是有較強的使用價值的。其預測機率效果與 logistic迴歸一樣的好。如果你確實想知道到底你的資料用哪一個方法好,也不是沒有辦法,你可以看一下你的殘差到底是符合logit函式呢還是符合 probit函式,當然,憑肉眼肯定是看不出來的,因為這兩個函式本來就很接近,你可以透過函式的假定,用擬合優度檢驗一下。但通常,估計不會有人非要這 麼較真,因為沒有必要。如果你的因變數是二分類,你無論用哪種方法,都不能說錯。蘿蔔青菜,各有所愛而已。
回覆列表
Probit迴歸:Probit迴歸全稱probability unit,翻譯過來叫做機率單位法,蠻拗口的一個名字。這個迴歸主要用於研究半數效量用的。直白一點說,就是比方你拿一種藥去藥蟑螂,你想知道你用多少藥能藥死多少蟑螂,那你就可以用probit迴歸來估計這個數。Probit迴歸經常拿來和logistic迴歸作比較,通常對於二分類變數來說,這兩個迴歸計算出來的機率是非常相似的。(雖然logistic迴歸最後判斷的是是或否,但是它也需要計算一個機率來判斷這個結果倒是是還是否。)而且如果有一點數學基礎的話,會知道,這兩個迴歸畫出來的圖也非常像,只是logistic迴歸畫出來的Z型稍微平緩一些。那麼這兩個迴歸到底有什麼區別呢?通常來說區別不大。最重要的一個區別在於probit迴歸適用於呈正態分佈的資料,logistic迴歸適用於呈logistic分佈的資料。不過這個區別也蠻微妙的,因為正態分佈和logistic分佈還蠻像的。所以大概來講,到底是選擇哪個分佈更多的還是一種個人喜好。但是大家都知道啊,logistic分佈比probit分佈可有名多了。如果說十個從事大資料的人裡邊有五個人知道logistic迴歸,那麼有三個知道probit迴歸就不錯了。在我們ppv課網站的spss影片教學裡邊,絕大部分都會講到logistic迴歸,但是probit迴歸就不見得有人講了。(順便說一句,我個人最喜歡spss從入門到精通這套課程,剛入門的時候就是聽得這套課。強烈推薦大家去聽一聽)。那麼這是什麼原因呢?這絕不是probit不好用的原因。主要原因有兩個,第一,logistic迴歸形式比較多。二分類,有序多分類,無序多分類,這些logistic迴歸都可以做。這就好像我們ppv課網站提供了spss,sas,r,matlab,hadoop等等影片,你可以從零基礎學到精通級別,肯定比較受歡迎哈。第二,則歸功於logistic迴歸的易解釋性。Logistic迴歸提供了一個很重要的引數,OR值,這個值很直接的告訴你處於某個狀態比處於另一個狀態時因變數發生的機率增加了多少倍。這當然是一個很重要很直觀的引數啦。就好像你每學一段時間以後,我們ppv課網站告訴你你的知識積累比之前增加了多少倍多少倍,這個肯定很重要撒。因此呢,logistic迴歸就比probit迴歸應用的廣泛了。不過這並不是說logistic迴歸就比probit迴歸好。實際上,兩種迴歸擬合的方程幾乎一樣好。不過,再怎麼幾乎一樣,那也肯定是有所不同的。可惜這種不同用你的肉眼一般是看不出來的,至於怎麼看,下邊在講。好了,現在大概就介紹完probit迴歸的背景知識了(絕對沒有湊字數)。現在我們開始操作。首先假設一個情景,假設我們ppv課網站打算增加一定的課程,達到收視率增加百分之二十的目的,我們就有了三個變數,課程增加的數目(假設分為3,6,9三個水平),各個增加水平的課程數(比方加3節課,6節課,9節課的都是十個課程),各個水平的課程的收視率增加達到百分之二十的課程數(假設分別是3,5,6)。(這段真的有點繞,最好讀兩遍保證能看懂哪個變數是表示的什麼意思)。那麼我們就有了一個3*3的資料集,選擇選單分析——迴歸——probit,開啟主面板,響應頻率裡選我們各個水平收視率增加達到百分之二十的課程數(也就是我們做實驗的課程裡邊有多少課程成功達到了收視率增加的目標),觀測值彙總裡邊選擇各個增加水平的總課程數,再下邊有一個因子,一個協變數。我們的自變數課程增加的水平是三節課一個臺階,所以我們要選到協變數裡邊去哈。(如果你的自變數是連續型變數,那你就得在因子下邊的那個定義範圍裡邊選好範圍。)此外協變數下邊有一個轉換下拉選單,這個選單有三種方法,除了“無”以外,還有兩種對數轉換,你可以試試,你的資料到底怎麼轉換效果最好。完了以後,在左下邊還有一個模型:機率/logit,這個單選框裡預設的是機率。也就是預設資料分佈是正態的。這個也不用管它。然後點開選項,勾選頻率,信仰置信區間,繼續,確定。然後就可以看結果了。引數值和卡方檢驗這兩個表會告訴你這個模型有沒有意義,適不適合用probit迴歸(如果想和logistic迴歸作比較,就可以用這裡的擬合度檢驗檢測)。此外接信限度這個很大的表會告訴你假如你想要你的課程收視率增加的機率是百分之八十的時候,你的課程要增加多少節課這麼個資料。它大概是以百分之五為精度的。那如果我想知道增加百分之八十三,需要加多少節課的話,那麼我們就要用引數估計值裡的引數進行計算了。非線性迴歸自然界中既然有線性迴歸,那麼理所當然的,也會有非線性迴歸。不過,人類對於非線性迴歸的研究遠遠不如對線性迴歸的研究來的深刻,廣泛。不信你看一看你的spss教科書,線性迴歸的內容可以洋洋灑灑寫一章,非線性迴歸確佔一小節,還往往是比較薄的一節。線性迴歸指的是y=a+a1*x1+a2*x2…這種形式的方程,非線性迴歸包含的方程型別就多得多了。常見的有,冪函式,指數函式,雙曲函式,對數函式等等。我們先舉個例子。假設想擬合ppv課授課老師的數目和網站受歡迎程度的關係。選擇分析——迴歸——非線性。開啟主對話方塊。因變數選擇網站受歡迎程度,模型表示式需要自己編輯。(我就挺怵這個的),首先我們知道,我們肯定不可能看一眼就看出我們的資料是什麼樣子的模型,我們可以透過圖形——圖表構建程式裡邊,畫出散點圖,透過散點圖大致判斷我們的模型符合什麼樣的方程,然後在進一步使用(或者直接使用)引數估計法(前面講過的),估計出它的表示式。估計出表示式以後,就可以編輯模型表示式了。編輯好以後看左下角的引數那一欄。你的模型裡邊的引數是需要首先定義一個初始值的。這個初始值要儘量靠近真實值,如果離真實值太遠的話,也會影響到模型的準確度。看到這裡,可能你要發脾氣了,這是個什麼模型?怎麼這麼麻煩?!!要是我知道模型,知道初始值,那我還需要做分析嗎啊?!!唉,我也沒辦法,非線性迴歸就是這麼個玩意,總之你還是拿起你的筆,根據你的模型代幾組資料算一算大概的初始值吧。畢竟為了最後的精度嘛。輸好初始值以後,開啟儲存對話方塊,勾選預測值,殘差。繼續,其他的預設就可以。點確定。輸出的引數估計值會給出引數,套到你的模型裡就可以。注意看方差分析表下邊的標註,裡邊會給出決定係數R^2,這個R^2通常比引數估計法裡的大,也就是說,非線性迴歸的精度往往比引數估計法的大,模型擬合的好。(廢話,要是非線性迴歸一點優勢也沒有,還有誰肯研究啊。)上邊只是簡單介紹了一點非線性迴歸的方法。實際生活中,非線性迴歸比線性迴歸遠遠複雜的多,不是一句兩句就能說清楚的,此外,還有一種很普遍的辦法是透過數學公式把非線性方程轉化成線性方程。這樣就能大大降低方程的複雜性。在這裡,給大家總結了幾個常見的公式。