首页 > 技术文章 > 关于交易信用评分的分布形态描述

ysdx2013 2015-08-17 17:27 原文

  想研究网络交易中买家会对卖家进行信用评分的分布形态。但手头下并没有实际数据,在数据堂找到了关于对电影和5分评分数据,这个能做一个很好的模拟,很像eBay信用评分的反馈计分方式。为此就用此数据进行模拟,模拟在R中进行。

  很长时间没用R了,关于R知识现在要逐步的拣起来。期间关于R的操作遇到如下问题:


 

  1.源数据没有列命,重新对进行了命名。直接使用

  names(mydata) <- c('user_id','item_id','rating','timestamp')进报错后,换成

  colnames(mydata) <- c('user_id','item_id','rating','timestamp')成功。

  注意到R中:查看数据时names; dimnames; colnames,rownames; 和写出数据时,rwo.names, col.names的各个功能。(需要学习它们的区别和适用范围)

  2.关于对数据的画图。为了解一个数据的分布形态常用的图形分布有:

  直方图 hist()

  茎叶图 stem()——这个有没有办法把默认的图形不是很好,能右旋一下如同直方图就好了。

  通常在得到直方图后,需要在图形上添加l[lines()]一个密度曲线[density()]来大概看一下其分布形态。

  density():密度函数,plot(density(x))画出密度函数;lines()添加密度曲线

  

  涉及到几个函数:

        dnorm是正态分布的密度函数,pnorm是正态分布的分布函数

        qqplot(),常用来检验数据的是否是正态分布,是两样本的正态性对比,qqplot(x),其中x为一组样本,运行时会出错

        qqnorm()样本与样本期望的正态性对比。此次实验要用此法。但由于数据不连续性,画出的图也是离散的。

  3.关于画线,lines(),abline()都能对已画图形添加线条,但:

  函数lines()其作用是在已有图上加线,画连线图,其输入是x,y的点向量命。令为lines(x,y),其功能相当于plot(x,y,type="1")

  函数abline()可以在图上加直线,其使用方法有四种格式。
  (1)abline(a,b)
  表示画一条y=a+bx的直线
  (2)abline(h=y)
  表示画出一条过所有点得水平直线
  (3)abline(v=x)
  表示画出一条过所有点的竖直直线
  (4)abline(lm.obj)
  表示绘出线性模型得到的线性方程,画回归线时常用此法。

  

  4.在回顾以上知识时,练习了 http://blog.sina.com.cn/s/blog_8d8d6cde01017d1b.html提供了例子。在最后遇到了Error in plot.new() : figure margins too large的错误。用http://blog.sina.com.cn/s/blog_6a1fa6e20102uzjy.html方法解决,即在Rstudio中使用R时,要拉大图形显示窗口,否则图形无法显示完而报错。


继续实验,有待补充!

 

推荐阅读