首页 > 个性签名 正文
【图案qq分组】分割画面显示函数~QQ图~概率密度和累计图~直方图说明实战

时间:2023-03-03 16:49:03 阅读: 评论: 作者:佚名

分割画面显示函数

(c(2,2))

[1] 1 2 3 4

屏幕(1)

Qqnorm(x)

屏幕(2)

Qqplot(1:100、x)

屏幕(3)

曲线(dnorm(x)、xlim=c(-3,3))

屏幕(4)

Curve(pnorm(x),col='red ')

Curve(qnorm(x),col='red') #不会自动移动到屏幕(1)。仍然在4处重复显示。

Clo(all=TRUE)

(c (2,1)) # split display into two screens

(c (1,3),屏幕=2) # now split the bottom half into 3

屏幕(1) # preparescreen 1 for output

Curve (d norm (x),tck=0.01,las=1,col.axis=' blue 'col=' red ')

分屏显示功能比par()方式的最大优点:前者可以在区域之间绘制图形,如上图所示。在2号分屏上,可以在3、4、5号分屏上画。

绘制QQ图表

虽然有很多绘制曼哈顿地图和QQ地图的方法和软件,但最方便的是R语言的qqman包。

In('qqman ')

库(qqman)

头(CCC)

SNP CHR BP P

1 RS 1072111 157 125299.64 0.02725910

2 rs1072112 8 28284.27 0.05370998

3 rs1072113 21 45825.76 0.02331393

4 RS 1072114 156 124899.96 0.02751106

5 rs1072115 83 91104.34 0.05612848

6 rs1072116 33 57445.63 0.06033141

曼哈顿(ccc)

QQ(x);QQ(w);Qq(w/70)

QQ图的方法2:

#如果不使用第三方软件包,最简单的方法是:

Qqnorm (x,col=c ('red '' blue '' green '),las=1,col.axis=' blue 'tte

Qqline (x,col=' gold 'LWD=3,lty=3)

可视化数据——概率分布的密度图

可视化数据分布的另一种方法是密度图。在概率密度图中,通过绘制适当的连续曲线(核密度曲线),尝试可视化数据的潜在概率分布。

#概率=概率密度*群距离

Hist(w,freq=FALSE)

Lines (density (w),col=' blue') # density是内核密度曲线

#频率=概率*样品总数

概率=概率密度*群距离;概率密度=概率/群距离;

在概率密度直方图中,所有bin的样本的平均概率等于框的高度(纵坐标Y值)宽度(横坐标间隔 X)框的样本数(n_samples),而不是纵坐标Y值。也就是说,此时面积代表概率的总和,而不是代表一个样本概率的纵坐标Y值。

在累积分布直方图中,取到任一bin中的一个样本的平均概率,等于(该箱的高度(纵坐标y值) -左侧箱的高度)/ 该箱中样本个数;即此时纵坐标y值表示概率,但为累计概率。


怎样看懂直方图中体现的数据信息?

直方图是从总体中随机抽取样本,将样本数据加以整理,用于了解数据的分布情况,使我们比较容易直接看到数据的位置状况、离散程度和分布形状的一种常用工具。它是用一系列宽度相等、高度不等的长方形来表示数据,其宽度代表组距,高度代表指定组距内的数据数(频数)。

直方图的绘制还是和分组的多少(bin)有关;如果组数过多那么就会有很多条,如果组数过少则可能反映不出数据的正确的分布趋势。因此对于一个直方图的绘制,往往需要不断地去尝试不同的分组。

直方图的形状:

1.常态型:中间高、两边低、有集中边势,显示过程正常。

2. 离岛型:在右端或左端形成小岛。说明一定有异常原因存在,如数据收集方法错误、数据来源不同或新手作业违背操作规程等特殊原因,需迅速追寻原因,采取必要措施。

3. 双峰型:有两个高峰出现。两台不同的机器或两种不同原料间存在差异时,或者作业者不同时也可发生此类直方图。

4. 锯齿型:图形的柱形高低不一,呈现缺齿的形状。这种情况大多因为制作直方图的方法错误(如:数据分组问题、计算组距问题、计算界限问题等)或数据收集方法不正确(如:不同设备数据、不同人收集的数据、不同时段数据造成)产生。

5.偏态形:高处偏向一边,另一边低,拖长尾巴;可分为偏右型、偏左型。这种偏态分布理论上是规格值无法取得某一数值以下所致,在质量特性上并没有问题,但我们需要留意拖长的尾端在技术上是否可接受?
6.高原形:直方图的柱子高低近似,柱子间高度相差甚微,看起来有点像高原一样,则称为高原形;当数据来自几种平均值差异不大的产品,而这些产品有混在一起时,制作出来的直方图往往就是高原形,应层别之后再作直方图比较。


直方图形状与规格的对应关系分析

规格又分为双侧规格(同时有上下限的要求)和单侧规格(只有上限或下限的要求,如时间数据、分值数据等);直方图与规格比较时又分为符合规格和不符合规格两类:

符合规格:

1.理想型:规格值的平均值与产品的分布平均值重合,而且直方图的下限与上限均在规格值的上下限范围之内,直方图的下限与规格值的下限、直方图的上限与规格值的上限之间的距离为4个标准差左右,这样的直方图时最理想的直方图。

2.一侧无余裕:产品的分布均在规格值范围内,但是偏向上限或者下限分布,造成单侧拥塞,另一边余裕很多。

3.两侧无余裕:产品分布的下限与规格下限重合,分布上界限与规格上限重合,即分布与规格恰好相等。虽没有不良发生,但过程稍有变动,就有不良品发生的风险。

4.余裕太多:也就是过度集中,该类产品分布的范围较小,而规格值的范围太大,也就是说制程的能力远远大于规格的要求。

不符合规格:

1.平均值偏左(或偏右):也叫单边不良形,表示平均位置有偏差,应考虑过程的能力不足,需寻找系统原因,纠正平均值位置,提高品质水平。

2. 分散度过大:也可称为双边不良形。产品的最大值与最小值均超过规格值, 有不良品发生表示标准太大, 制程能力不足。

3.离岛现象:有“离岛”产品出现,且发生不良现象,说明过程有异常原因存在,应调查离岛的原因,判明离群原因(通常为特异原因)并予以去除。


“复合”直方图的绘制

#先绘制概率密度图及核密度曲线 hist(x,breaks=10,col=rainbow(10),tck=0.01,col.axis='blue',prob=T,main='') lines(density(x),col='red',lwd=3,lty=3) #添加“复合”的2号直方图 par(new=T) hist(x,col=(10),tck=0.01,col.axis='blue',axes=F,ann=F,main='')
  • 评论列表

发表评论: