Linear Model Cheating Sheet
Last updated
Last updated
Linear regression is a linear model, which a linear relationship between the input and output . More technical, we can consider can be a linear combination of
最小二乘法least square推导loss function
最大似然估计MLE(maximum likelihood estimation)推导loss function
what is mle?
用参数估计的方法,在有了一定的观测值之后,来找parameter,让我们可以最有可能看到我们观测值,让我们可以最大程度放大我们的观测值
method
estimating the parameters
statistical model
given observation
finding the parameter values
maximize the likelihood(making the observation given the parameters)
推导过程(Y follws什么distribution?)
两者的关系
当他们在linear regression下的assumption下,这两个方法得到结果是相通的
one is from statistics, and the other one is from optimization
一些提醒
noise是数据造成的,是inherent bias. error是模型造成的,是人为的。是两个不同的概念
(这个是来看模型自己的好坏,评价自己的参数)
我们只能系统的保证其不会偏差()
null hypothesis :
目的是从统计上来判断这组数据和population相差多少,assessing the accuracy of the coefficient estimation,可以使用 ppp-value 或者是 confidence interval
选择的统计量distribution with degrees of freedom assuming
(这个相当于模型外的判断模型的好坏 i.e. the extent to which the model fits the data)
assessing the overall accuracy
where TSSTSSTSS is total sum of squares, RSSRSSRSS is the residual sum of squares(对误差的多少)
当是simple regression时,他相同于correlation
这里相当于 proportion of variability in that can be explained using ( 的变化中能够被解释的部分的比例 )
采用这个方法:
首先用 去拟合 概率
然后用再去拟合 (采用threshold)
是得病不得病,是相当于肿瘤的指数, 是关于肿瘤的input(size,位置,etc)
Using MLE to get the loss function(面试必考题)
Key:Y fellows 什么distribution?
如何调参呢?有没有类似与linear的t distribution之类的?
t distribution?something?
link: Confusion matrix/AUC
关于y的assumption
Step1: ‘Given ,得的distribution’——这是机器学习模型利用数据可以解决的问题
Step2: ‘根据的distribution,得到的取值’——判断怎么用是你的问题
你会面对一个(overfit/underfit)的问题:
模型复杂度对分类效果的影响
模型复杂提到,可以更好的对应training data,但是对testing data不一定好
过度拟合就是overfitting,但是过少可能就underfitting
很多时候,多分类问题可以比较成为多个两分类问题,两两二分类来做
Maximum margin classifier
dual
and
换成核估计
转换成为
可以由dual 来求