奇异值检测和处理惩罚

本文先容数据奇异值检测和处理惩罚的常识。数据奇异值若是不检测和处理惩罚，会影响模子精确性，甚至对预测形成误导。

[TOC]

### 1 为什么要奇异值检测和处理惩罚
因为奇异值可以大大地方向可能改变拟合预计和预测。
举例说明：汽车数据集，比拟没有奇异值和有奇异值的简朴线性回归模子的拟合，然后做预测。

**R代码**
“`
## 汽车数据集
data(cars)
dim(cars)

par(mfrow = c(1,2))
## 原始数据集
cars1 <- cars[1:30, ]
## 景象一：没有奇异值
plot(
cars1$speed,
cars1$dist,
xlim = c(0, 28),
ylim = c(0, 230),
main = "没有奇异值 \n 简朴线性回归模子",
xlab = "速度",
ylab = "间隔",
pch = "*",
col = "red",
cex = 2
)
abline(
lm(dist ~ speed, data = cars1),
col = "blue",
lwd = 3,
lty = 2
)

## 景象二：有奇异值
## 人工结构奇异值
cars.outliers <- data.frame(
speed = c(19, 19, 20, 20, 20),
dist = c(190, 186, 210, 220, 218)
)
cars2 <- rbind(cars1, cars.outliers)
plot(
cars2$speed,
cars2$dist,
xlim = c(0, 28),
ylim = c(0, 230),
main = "有奇异值 \n 简朴线性回归模子",
xlab = "速度",
ylab = "间隔",
pch = "*",
col = "red",
cex = 2
)
abline(
lm(dist ~ speed, data = cars2),
col = "blue",
lwd = 3,
lty = 2
)
“`
**功效**
![](http://img.shujuren.org/pictures/8Y/59d9b0b3261ec.png)

**总结**
异常值导致预测模子斜率的变革，若是操作异常值数据拟合模子（右图），导致预测功效带来高误差。

### 2 奇异值检测
#### 2.1 单变量要领
对付持续变量，奇异值位于1.5IQR范畴之外。
IQR = 75%四分位数-25%四分位数
**R代码**
“`
## 数据获取
url <- "http://rstatistics.net/wp-content/uploads/2015/09/ozone.csv"
inputData <- read.csv(url)

## 异常值
outlier.values <- boxplot.stats(
inputData$pressure_height
)$out
print(outlier.values)

par(mfrow=c(1,1))
## 异常值可视化
boxplot(
inputData$pressure_height,
main = "Pressure Height",
boxwex=0.1
)
mtext(
paste("Outliers: ", paste(outlier.values, collapse=", ")),
cex=0.6
)
“`
**功效**
![](http://img.shujuren.org/pictures/03/59d9b5332e445.png)

#### 2.2 双变量要领
双变量x和y的盒子图，x是种别变量。
**R代码**
“`
par(mfrow=c(1,2))
boxplot(
ozone_reading ~ Month,
data = inputData,
main = "Ozone reading across months"
)
boxplot(
ozone_reading ~ Day_of_week,
data = inputData,
main = "Ozone reading for days of week"
)
“`
**功效**
![](http://img.shujuren.org/pictures/ZV/59d9b7a24f45c.png)
**总结**
由图可知，月份对臭氧变革有影响，而礼拜没有。异常值见盒子图中空心圆圈。

#### 2.3 多变量模子要领
**Cooks Distance**，**简称CD**
计较每个样本（视察）对预测功效的影响水平。
一般环境，一个样本的CD大于4倍CD的平均值，则被当做对预测是有影响力，这样的样本，可以当做异常值处理惩罚。
代码
“`
mod <- lm(ozone_reading ~ ., data=inputData)
cooksd <- cooks.distance(mod)
par(mfrow=c(1,1))
plot(
cooksd,
pch = "*",
cex = 2,
main = "Influential Obs by Cooks distance"
)

abline(
h = 4 * mean(cooksd, na.rm = TRUE),
col = "red"
)
text(
x=1:length(cooksd)+1,
y=cooksd,
labels=ifelse(cooksd>4*mean(cooksd, na.rm=T),names(cooksd),""),
col="red"
)

influential <- as.numeric(names(cooksd)[(cooksd > 4*mean(cooksd, na.rm=T))]) # influential row numbers
View(head(inputData[influential, ]))
“`
**功效**
![](http://img.shujuren.org/pictures/3V/59d9c1024d10d.png)

#### 2.4 奇异值包：outliers
outliers异常值包提供了很多有用函数来做异常值检测和处理惩罚，出格是outlier() 和scores() 函数。
奇异值包outliers的利用要领，阅读[**包文档**](https://cran.r-project.org/web/packages/outliers/outliers.pdf "包文档")。
### 3 奇异值处理惩罚
要领一：插值替换法
利用均值可能中位数可能众数填补
要领二：预测法
把异常值当做NA，然后操作NA的处理惩罚要领，拟合得当模子，预测出NA的值

**参考资料：**
1 R做异常值检测：http://r-statistics.co/Outlier-Treatment-With-R.html

您在阅读中，有什么发起可能想法，请评论。
想插手圈子，请加微信。

当前位置：以往代写 > 其他教程 >奇异值检测和处理惩罚