統計學自習

連接到phd16 上林師謨老師課的 筆記 | 預讀 Econometrics & 多變量分析 | 連到 Research Methods預習 |

在Udemy 跟Lee Bor-Jian老師學習 統計學-李柏堅老師 微積分,線性代數,管理數學,統計學,微分方程式,數位教材設計,網頁設計。
統計學-李柏堅老師 畢業於交通大學應用數學研究所,中華科技大學教授,遠距教學組組長 。


1-4:36 [2024-08-09] 統計學的目的
2-15:49 [2024-08-09] 抽樣
3-10:08 [2024-08-09] 尺度 Nominal, Ordinal, Interval, Ratio。
4-13:02 [2024-08-09] 資料集中趨勢 Average, Median, Mod, Skew to the ...。
5-9:59 [2024-08-10] 資料分散趨勢 IQR, Box & Whisker Plot。
6-17:09 [2024-08-10] 標準差 Satndard Deveation, Variance, Ciefficient of Varicance (CV=sigma/mu)觀察AB兩公司的坪均股價和標準差,分別算出其CV可以做的%,可比較誰變動較大。
7-19:23 [2024-08-13] 柴比雪夫不等式 Emperial Law:[μ-δ,μ+δ]within(68-95-99.7%); Chebyshev's Therom:P(|X-μ|<=kδ)>=1-(1/k^2),k>1。

Empirical Law 68-95-99.7[u-a;u+a]; 如果是鐘型分佈才可用,若不是,就要用柴比雪夫不等式 Chebyshev's Theorem來計算。
Ex.1: consider the following set of sample data:
16 23 17 24 9 11 13 15 23 18 16 17
(1)Determined the coefficient of the variance for the set.
(2)Use Chebyshe'vs theorem to determined the range of values that included at least 75% of the data.

8-11:07 [2024-08-14] 馬可夫不等式 P(X>=a)<= E(X)/a
9-15:14 柴比雪夫不等式單邊版
10-5:38 歷屆考題賞析(變異數下限之估計)
11-4:26 歷屆考題賞析(機率下限之估計)
12-5:06 歷屆考題賞析(單邊版柴比雪夫不等式)
13-5:26 105關務特考四等(柴比雪夫定理應用)
14-14:09 [2024-08-31] 排列
15-13:40 [2024-08-31] 組合
16-11:43 二項式與多項式定理
17-3:06 機率
18-5:21 排容原理
19-6:17 獨立事件
20-1:41 互斥事件
21-5:57 條件機率
22-8:42 貝氏定理
23-5:08 貝氏定理例題
24-4:37 104國安特考(條件機率與獨立事件)
25-10:28 隨機變數
26-12:25 機率分配
27-7:33 聯合機率分配
28-12:35 期望值 Expecting Value (就是加權的平均數)定義:所有的值x所對應的機率(加權),的總和。1:29期望值求法舉例。
29-6:45 期望值的線性性質
30-18:45 變異數 定義: Variance間斷型隨機變數之變異數=「離差平方和-的平均」=平方的期望值-期望值(E(x)=μ)的平方。見13:38例題算法。
--- 變異數離均差(變異數與標準差)Var(X)=1/n(Xi2的和)-μ2 =「平方和的平均-平均的平方」
離均差 (變異數與標準差) | 【觀念】數據的伸縮與平移 6:17例題求算原始的平均分數,詳見logseq 2025-02-11 |
31-8:44 歷屆考題賞析(期望值)
32-5:34 歷屆考題賞析(貝式定理)
33-11:02 歷屆考題賞析(競賽獲勝機率)
34-4:27 104國安特考(期望值)
35-13:58 負二項分配
36-5:47 超幾何分配
37-16:45 超幾何分配的期望值與變異數
38-8:14 超幾何分配與二項分配比較 超幾何分配(每次抽後,不放回去)
39-14:32 二項分配 若成功機率為p,失敗機率為q則,p+q=1。(每次都要放回去)每次試行均相互獨立,也稱柏奴努力試驗。看7:40的兩個例題。
用Excel的作法: 統計-BINO.DISTO-[Number=x值(成功)][Trail=共有n個][Probobility=x者的成功機率][Comu=false 不累進]
40-10:43 二項分配的期望值與變異數證明 過程了解就好,但是 公式一定要記好!E(x)=np, Var(x)=npg
41-5:50 歷屆考題賞析(離散型隨機變數)
42-12:27 105高考三級(二項分配與超幾何分配)
43-9:13 布阿松分配
44-13:35 布阿松分配的查表
45-8:26 布阿松分配與二項分配
46-6:31 歷屆考題賞析(布阿松分配)
47-8:42 歷屆考題賞析(布阿松分配性質)
48-4:41 歷屆考題賞析(布阿松分配基本觀念)
49-9:45 歷屆考題賞析(布阿松分配時間間隔性質)
50-7:59 歷屆考題賞析(布阿松分配應用交通號誌)
51-4:21 歷屆考題賞析(布阿松分配基本公式)
52-10:03 歷屆考題賞析(二項分配與布阿松分配)
53-7:01 105關務特考四等(布阿松分配應用)
54-10:24 動差的觀念
55-7:20 動差生成函數
56-11:44 動差生成函數求期望值與變異數
57-7:46 動差生成函數的用途
58-12:00 JACOBIAN
59-14:33 變數變換(間斷型)
60-16:13 變數變換(連續型)
61-11:30 104高考三級(機率密度函數與變數變換)
62-11:21 連續型隨機變數
63-14:58 伽瑪函數
64-10:14 伽瑪分配
65-11:36 指數分配
66-10:23 指數分配的應用
67-12:22 無記憶性質
68-8:17 歷屆考題賞析(指數分配的中位數)
69-12:45 卡方分配
70-9:59 卡方分配的性質
71-12:13 歷屆考題賞析(伽瑪分配的參數)
72-14:50 混合隨機變數
73-7:05 103國安特考三等(電池壽命)
74-12:45 105關務特考三等(混合隨機變數)
75-11:17 101地方特考四等(混合隨機變數)
76-10:24 標準常態分配的平方是自由度為1的卡方分配的證明

李柏堅 CUSTCourses
1.假設檢定導論
2.假設檢定步驟
3.控制誤差
4.假設檢定觀念例題
5.歷屆考題賞析(大樣本假設檢定)
歷屆考題賞析(小樣本假設檢定)
歷屆考題賞析(p值的觀念)


ANalysis Of VAriance (ANOVA)
統計學 變異數分析 ANOVA
李柏堅 CUSTCourses
母體平均數之假設檢定(小樣本單尾)
變異數分析原理與目的 接下來講 單因子變異數分析... (談到:兩個卡方分配=F分配,可參考蘇志雄介紹重要的機率分配Z分配、卡方分配、t分配與F分配會更清楚。)

ANOVA 單因子變異數分析
Bonferroni事後比較

雙因子變異數分析(無交互)

★Psycho小白- T檢定是什麽? 五分鐘學會三大T檢定!獨立樣本T檢定、配對樣本T檢定、單樣本T檢定。(t檢定 和P avlue的好介紹)
元學程-用Excel 獨立樣本T檢定 大學畢業的社會新鮮人在平均起薪上有性別差異嗎?只要有抽樣調查資料,用 Excel 資料分析的“獨立樣本T檢定”,立馬就可以搞清楚這個問題!
元學程-用Excel One Way ANOVA “我用 Excel 瞬間就完成單因子變異數分析(1-way ANOVA),但要進行 '事後比較' (post-hoc comparisons)時就被卡住了,不知道該怎麼辦?”。
元學程-用Excel Z檢定和T檢定 單一母群平均數Z檢定和T檢定竟然需要三個動作!

ANOVA (Analysis of Variance) Analysis – FULLY EXPLAINED!!!
■Psycho小白變異數分析(ANOVA)是什麽?七分鐘帶你掌握各類變異數分析基礎!單向變異數分析、兩因素變異數分析、重復測量變異數分析與混合設計變異數分析 t檢驗只能檢驗兩組,


大數法則Law of Large Number independent identical distribution =iid
動差估計法
- 機率模式(inprobability)和收斂不一樣 「弱大數法則」almost everywhere
- 1階動差,就是 μ平均數; 2階動差,就是δ^2母體的變異數;


Origin of Markov chains | Journey into information theory | Computer Science | Khan Academy

自複習📚有公式與例題 變異係數與相關係數 CV變異係數(coefficient of variation),相關係數(correlation coefficient) 。


2024/08/09
統計學-李柏堅-第01章 緒論 說明敘述性統計Descriptive Statistics和推論性統計Inferential Statistics。
敘述性統計和推論性統計是統計學中的兩個主要分支,它們在目的和方法上有顯著的不同。

敘述性統計 (Descriptive Statistics)
目的:描述和總結資料的特性,使資料更易於理解。
方法:使用圖表、表格和數據摘要來呈現資料。例如:
• 平均數:計算一組數據的平均值。
• 中位數:找到數據的中間值。
• 標準差:衡量數據的分散程度。
• 圖表:如直方圖、餅圖等,用於視覺化資料。
例子:假設我們有一組學生的考試成績,敘述性統計會告訴我們這組成績的平均分數、中位數、最高分和最低分,以及成績的分佈情況。

推論性統計 (Inferential Statistics)
目的:從樣本資料推論到整個母體,並進行假設檢定。
方法:使用樣本數據來估計母體參數,並進行統計檢定。例如:
• 信賴區間:估計母體參數的範圍。
• 假設檢定:檢驗樣本數據是否支持某個假設,例如t檢定、卡方檢定等。
例子:假設我們從一所學校的所有學生中隨機抽取100名學生的考試成績,並使用這些成績來推斷全校學生的平均成績。我們可以計算這100名學生的平均成績,並使用推論性統計來估計全校學生的平均成績範圍。

異同之處
相同點:兩者都使用數據進行分析,並且都能幫助我們理解資料。
不同點:
• 敘述性統計:僅限於描述和總結樣本數據,不進行推論。
• 推論性統計:使用樣本數據來推斷母體特性,並進行假設檢定。

Sampling
- Simple Random, Systematic, Stratified 分層-互斥群, Cluster(部落抽樣: 隨機抽一班,從中抽樣)
- Convenience, Purposive, Quota, Snowball
* Validity (internal, external)

Scale
- nominal, ordinal, interval, ratio
- likert scale,
- 順序關係、固定間距、絕對零點


帕夫努季·利沃維奇·切比雪夫(Pafnuty Lvovich Chebyshev,1821-1894)是俄羅斯著名的數學家,對數論、機率論、統計學和機械學等領域做出了重要貢獻。

生平簡介:切比雪夫出生於俄國卡盧加省的一個貴族家庭。他在莫斯科大學學習數學,並在1841年獲得學位。之後,他在聖彼得堡科學院工作,並成為該院的院士。

主要貢獻
1. 切比雪夫不等式 Chebyshev's Inequality • 這是機率論中一個重要的不等式,描述了隨機變數的值接近其平均值的機率。它在統計學中有廣泛應用。
2. 切比雪夫多項式 Chebyshev polynomials : • 這些多項式在數值分析和逼近理論中非常重要,特別是在最小平方法和傅立葉級數中。
3. 大數定律 The law of large numbers (LLN): • 切比雪夫對大數定律的研究奠定了現代機率論的基礎。
4. 機械學: • 切比雪夫也對機械學有貢獻,他設計了一些機械裝置,這些裝置在19世紀的巴黎和芝加哥博覽會上展出。

影響:切比雪夫的工作對後來的數學家產生了深遠的影響,他的學生包括著名的數學家安德烈·馬可夫和亞歷山大·李雅普諾夫。


馬可夫(Andrey Andreyevich Markov ,1856-1922)是俄羅斯著名的數學家,以其在機率論和隨機過程領域的開創性工作而聞名。

生平簡介:馬可夫出生於俄羅斯帝國的梁贊。他在聖彼得堡大學學習,並在畢業後留校任教,最後成為聖彼得堡科學院的院士。

主要貢獻
1. 馬可夫不等式 Markov's inequality:• 這是機率論中一個重要的不等式,用來估計隨機變數的機率分佈。 (老師(Chebyshev)找出分散程度的機率下限,學生(Markov)繼續研究,找出發生機率的上限。)

2. 馬可夫鏈 Markov chain,又稱離散時間馬可夫鏈(discrete-time Markov chain,縮寫為DTMC): 馬可夫鍊是描述一系列事件中某一事件發生的機率只取決於前一事件的數學模型。此概念在統計學、物理、經濟學等多個領域有廣泛應用。
3. 馬可夫決策過程 Markov decision process,MDP: 這是馬可夫鏈的擴展,描述了隨機過程的時間演化。馬可夫過程在隨機過程理論中佔有重要地位。

影響:馬可夫的工作對後來的數學家和科學家產生了深遠的影響。他的學生包括著名數學家亞伯蘭·貝西科維奇和尼古拉·君特等。
個人生活:馬可夫的兒子小安德烈·馬可夫(Andrey Markov Jr.)也成為了一位著名的數學家,在結構主義數學和遞歸函數理論方面做出了貢獻。




CUSTCourses 李柏堅Linear Regression Model 線性迴歸模型


1.迴歸的觀念
2.最小平方法
3.判定係數
4.迴歸參數之估計
5.歷屆考題賞析(迴歸方程式)


x.EXCEL分析迴歸
Regression 【精修課程】高一下|數據分析|最小平方法暴力證明迴歸直線【威全老師主講】
0.麻省理工博士:为什么人人都应该学点统计学?【统计学小课堂01】
Galton 高騰 Anthropological Miscellanea 麻省理工博士:现代医学的统计学基础——什么是假设检验?【统计学小课堂11】
1.麻省理工博士:什么是均值回归?【统计学小课堂12】
2.[麻省理工博士:统计学研究的半壁江山——什么是回归分析? 麻省理工博士:回归分析是怎样被滥用的?【统计学小课堂14】

Regression 回歸:
CUSTCourses迴歸的觀念
看动画,学习python数据分析和机器学习算法,逻辑回归的基本概念
Kai博士12什么是均值回归?
Kai博士13什么是回归分析?统计学研究的半壁江山—
Kai博士14回归分析是怎样被滥用的?
The Main Ideas of Fitting a Line to Data (The Main Ideas of Least Squares and Linear Regression.)
線性回歸+Sigmoid=邏輯回歸
Youtube: StatQuest 講解最小二乘法 非常詳細 y=f(x)+e; f(x)=a*x+b
RSS=residual sum of square 殘差平方和
TSS=Total sum of square 殘差平方和
兩者對比較做R square R方
R^2 = 1 - (RSS/TSS)
Spurious correlations網站總結很多錯誤的虛假相關結論

台大農經陳郁蕙老師講(全部1:12:46)Unit.8 簡單迴歸分析講到R square=SSR/SST=(SST-SSE)/SST=..
Regression History:
Prof LeRoyRegression History
Discovering the Power of Regression Analysis with Sir Francis Galton's Techniques
Regression Analysis: An introduction to Linear and Logistic Regression


LibreOffice Calc 資料統計

LibreOffice Calc幫助文件 | LibreOffice have comparable program to MS Excel’s Data Analysis | LibreOffice Calc - Multiple Regression | LibreOffice Calc - Simple Linear Regression SLR |


LibreOffice Calc從版本 4.2 開始,Calc 提供了一個名為「資料統計」的模組,包含以下功能:
• 抽樣 • 描述性統計 • 變異數分析 (ANOVA) • 相關性 • 共變異數 • 指數平滑 • 移動平均 • t 檢定 • F 檢定 • z 檢定 • 卡方檢定

這些功能可以在「資料」選單下找到。以下是使用步驟:
1. 打開 LibreOffice Calc 並載入你的資料表。
2. 選擇資料範圍,然後點擊上方選單的「資料」。
3. 選擇「統計」,然後選擇你需要的分析工具,例如「描述性統計」。
4. 設置參數,如輸入範圍和輸出範圍,然後點擊「確定」。
這樣就可以進行各種統計分析了。如果你需要更詳細的教學,可以參考 LibreOffice 的官方幫助文件。



張翔老師 Chebyshev's inequality柴比雪夫不等式證明

Calculus 微積分:
全課程-李柏堅 微積分-CUSTCourses
從第0章[基礎數學-引發學習動機]開始,每集約1到15分鐘,講到第299集總共300集。非常偉大的工程,令人嘆服!!
李柏堅CUSTCourses基本積分法則
ShannMath積分
ShannMath積分基本公式


概率:
● 貝葉斯定理Bayes 條件概率

二項式定理
Binomial Theorem二項式定理(理論)
李柏堅講二項式定理

排列組合
高中數學|排列組合 |4大工具 / 定理 / 技巧 (108新課綱)
李柏堅講組合 講得最好。

中央極限定理 (抽樣分配)central limit theorem,CLT
wiki 中央極限定理
(元學程meta_studio)親自動手抽樣模擬,秒懂“中央極限定理”敘述統計進入推論統計的基礎!

李柏堅 CUSTCourses

常態分配 - 李柏堅 CUSTCourses
a.20240902 常態分配
b.常態分配的動差生成函數
c.常態分配的期望值與變異數
d.標準常態分配查表
e.常態分配標準化
f.二項分配與常態分配
g.歷屆考題賞析(常態分配疊合)


Z表: 七分鐘學會常態分佈、標準常態分佈與Z分數!68-95-99.7; Z值就是幾個標準差的意思。查表可以找出p(機率面積/機率密度)
【自由度】為什麼樣本標準差要除以n-1?因為分子太小! Dodomilk 譯人豆奶
【自由度】興大企管林金賢老師自由度的解釋因為被有個已知的數(如Xbar)限制了,所以自由度少了一個。比如: 你看李柏融的適合度檢定(常態分配檢定例題)10:18說的,4-3所以df=1
李柏融 卡方檢定
卡方檢定的觀念 數量資料(母數統計)-類別資料(無母數統計)>卡方主要做類別資料檢定:(觀察值-期望值)的平方/期望值=Chi square值。
Goodness-of-Fit Test 適合度檢定(常態分配檢定例題),例:公正骰子,電瓶壽命。
Independent Test 獨立性檢定注意,自由度是df=(r-1)(c-1),例:宗教信仰與區域性無關
Homogeneity Test 齊一性檢定目的:檢定兩個或兩個以上的母體某一特性的分配是否相同或相近?注意,自由度是df=(r-1)(c-1),兩種不同肥料使發芽率是否一樣
Test Example 歷屆考題賞析(機率分配的卡方檢定)
Test Example 歷屆考題賞析(適合度檢定)
Test Example 歷屆考題賞析(獨立性檢定) 壓力與年齡的關係


-.基本積分法則

zstatistic

What are degrees of freedom?!? Seriously.
What are "moments" in statistics? An intuitive video! What is COVARIANCE? What is CORRELATION? Detailed video!
李祥數學一次搞懂相關係數 (公式:可以看五分鐘搞清楚相關係數公式! 楊偉人生)
李祥數學: 雙重ΣDouble Summations怎麼算?
李柏堅相關

資料分析裡常用的五個統計學概念,你知道幾個?



關於母數分析與無母數分析

統計學中的母數無母數分析在方法論與應用場景上存在顯著差異,以下從定義、假設條件、應用範圍與檢定方法等層面進行對比:
  • 核心定義
  • 母數: 指描述母體特性的量化指標,例如平均數、標準差等,需假設母體服從特定分布(如常態分布)。
  • 母數分析:依賴母體分布的參數(如μ、σ²),常用於假設母體為常態分佈的場景。
  • 無母數分析: 不假設母體分布特性,透過排序(rank)或符號(sign)等非參數方法進行推論,適用於分布未知或非常態的情況。

  • 假設條件與適用場景:
    特徵母數分析無母數分析
    母體分布假設需假設母體為常態分佈或近似常態無特定分布假設,適用於任意分布
    樣本數通常需大樣本(n ≥ 30)適用小樣本(n < 30)
    資料類型主要用於等距數據(如身高、體重)適用序位數據(如教育程度)或類別數據
    檢定力高(當假設成立)較低(因忽略數值差異)

    常見檢定方法

    母數分析
  • t檢定:比較兩組獨立樣本平均值
  • 變異數分析(ANOVA):多組平均值比較
  • Pearson相關係數:線性關係測量
  • 無母數分析
  • 威爾科遜符號檢定(Wilcoxon signed-rank test):配對樣本差異檢定
  • 曼恩-惠特尼檢定(Mann-Whitney U test):兩組獨立樣本中位數比較
  • 斯皮爾曼等級相關係數:非線性關係測量

  • 優缺點與選擇依據
    母數分析優勢
  • 檢定力強:在常態分布下效率更高。
  • 廣泛應用:線性迴歸、假設檢定等核心方法均基於母數假設。
  • 無母數分析優勢
  • 穩健性:不受極端值影響,適用於非常態或分佈未知情況。
  • 彈性:可處理序位或類別數據。

  • 選擇建議
  • 優先使用母數分析:當母體近似常態且樣本數足夠時。
  • 轉用無母數分析:當分布未知、樣本數小或數據偏態嚴重時。
  • 總結:
    母數分析依賴特定分布假設,適用於常態且大樣本的場景;無母數分析則提供分佈自由的替代方案,尤其在資料特性未明或樣本數量有限時更具實用性。兩者並非對立,而是互補的統計工具。


    參考資料:
    1. wiki 母數parameter
    2. SPSS-無母數分析教學
    3. 有母數分析方法 vs. 無母數分析方法
    4. pdf 生物統計學
    5. 用白話文告訴你:「什麼是統計?」
    6. 統計學懶人包
    7. 列表簡介 有母數分析方法 vs. 無母數分析方法

    ▼1 機率與統計

    機率與統計

    機率與統計

  • 機率與統計是處理不確定性數據分析的兩大核心領域,彼此互補卻各有側重。機率理論提供數學框架來預測未來事件的可能性,而統計方法則透過分析現有數據推斷未知的整體特徵。以下以具體實例說明兩者的異同。

  • 機率

  • 機率:預測可能性的數學模型

    古典機率的定義建立在「等可能性」基礎上,例如擲公正骰子時,每個點數出現的機率均為1/6。在此框架下,計算事件發生機率僅需考慮樣本點數量,如從52張撲克牌抽中5張紅心的機率為組合數計算(13 5)/(52 5)。條件機率則應用於更複雜情境,如蒙提霍爾問題:參賽者初始選中車子的機率為1/3​,但當主持人揭露一隻山羊後,換門的中獎機率提升至2/3​。這顯示機率側重於「理論計算」與「可能性推導」。

  • 統計

  • 統計:從數據中提取資訊

    統計的核心在於透過「有限樣本」推論「母體特徵」。例如總統大選民調僅調查數千人,卻能以95%信心水準推估全體選民意向。此過程涉及:

  • 抽樣方法:確保樣本代表性,避免偏差
  • 參數估計:如計算平均數、標準差等母數
  • 推論分析:判斷結果是否顯著或異常


    例如:醫療統計案例中,醫生分析數百名病患數據以推測疾病共同特徵,此即利用統計「歸納」特性,從局部資料推斷整體規律。


  • 異同比較

    維度機率統計
    焦點預測未發生事件的理論模型分析已發生數據的實證方法
    方法數學演繹(如組合計算)數據歸納(如抽樣調查)
    應用賭局設計、風險評估民調分析、醫療研究
    不確定性描述隨機現象的本質不確定性量化推論結果的可信程度

  • 互補關係實例

    在品質管制中,機率用於計算產品缺陷的理論機率(如二項分布),而統計則透過實際抽檢數據驗證理論值是否偏離。這種「機率模型建立」與「統計實證檢驗」的互動,正體現兩領域的相輔相成。

  • Reference:


    ▼99 Topic

    Topic
    內容...內容...內容...




    | https://ppt.cc/fmuH9x |