This website requires JavaScript.

[译]数据挖掘(Data Mining)系列--介绍1

介绍

delfos

在古代.圣人被认为是智慧的源泉,他们预测未来,并给予民众建议.如今我们不需要圣人预知未来,不过可以让圣人预测公司未来的利润,两年内的收入等等.

然而我们并没有圣人,因此我们用数据挖掘(Data Mining)来帮助我们分析信息并预测未来.

数据挖掘(Data Mining)

数据挖掘帮助我们发现数据集中模式和趋势.它是一个使用历史数据和经验对未来做出预测的专业系统. 让我来为你展现数据挖掘可以做什么.

想象你有一个公司Adventureworks. 公司生产并销售自行车.你希望通过用户信息来预测他们是否会购买自行车. 我们要怎么做?

答案就是数据挖掘. 这个工具会发现模式(patterns) 并且描述(describe)用户高几率购买者的特征. MS的SSAS里面有个挖掘工具,你不需要建立一个cube或者as的项目就可以直接使用.

示例

在这个示例中,我们使用 AdventureworksDW 数据库,如果你没有安装可以去http://msftdbprodsamples.codeplex.com/ 下载.

SELECT *   FROM vTargetMail

该表中所有信息都很重要,但是太多数据了!我要怎么返现模式呢? 比如,有个人结婚了 (maritalastatus列) 这个能影响他购买自行车.年龄也很重要. 那么你怎么知道哪些字段是重要的? 哪些特征会对购买自行车产生更多的影响?

开始

在这个例子中,我会演示如何创建一个数据挖掘项目,然后使用vTargetMail视图.一共有三个章节.

1.创建数据源 2.创建数据视图 3.创建数据挖掘项目 4.使用挖掘模型(Mining Model)进行预测

创建数据源

1.打开SSDT 然后创建一个Analysis Services Project image

2. 新建数据源'

image

创建数据源视图

1.右击创建数据源视图 image

image

数据挖掘模型

右击Mining Structures新建一个

image

很明显,选择第一项

image

选择决策树 Decision Trees image

如果你跟我一样发现有上面这样的警告信息.说明你的服务器可能不再本地. 可以修改项目属性. 右击项目选择属性

image

在Target的Server字段中填入你的服务器地址,同时要注意服务器的SSAS服务要启用.

image

----------继续---------- image

选择欲预测的字段,我们选择BikeBuyer image 上图中提示没有输入列,我们点击Suggest按钮选择输入列,计算好评分后把觉得相关的列选上,0分的就不用考虑了. image 把first name, last name 和email也选为输入字段,用做下钻用途 image 类型这边先选择Detect按钮,然后点Next,回头在告诉大家怎么选. image Maximum number of cases in testing data set 设置为100 ,同样的稍后我们会解释 image 现在在界面中选择 Mining Model Viewer image

image

确认运行一路下去 如果你上面这一步出错,那么请检查一下你数据源连接的Impersonation Information 项目里面的设置. 像我没有域环境,服务器又不再本机的.直接输入服务器的账号和密码就可以搞定了.

image 最终结果如下 image

至此我们创建了一个决策树的数据挖掘项目.我们最终的目标是把他应用起来. 这里我们要做一些查询来预测.

预测未来(Predict the future)

现在我们有了自己的数据挖掘,让我们问下先知,用户拥有怎么样的特性才会购买我们的自行车. 我们会建立两个查询.

1. 首先点击Mining Model Prediction标签 image 2. 点击Select Model按钮,选择模型 image 3.在  Select Input Table, 点击 Select  Case Table,直接确定就好 image image 4.右击Select Input Table 然后选择 Singleton Query image

5. 输入客户的相关信息 Age 45: Commnute Distance 5-10 Miles, English Education: High School, English Ocupation: Professional, Marital Status: S, Numerber of Cars Ownerd: 5, Number of children at home: 3. image

6.在source 下拉框,选择 V Target Mail mining model image 7. 在第二行的source column, 选择Prediction Function,然后在field 列选择 PredictHistogram,在 Criteria Argument列写入 [vTargetMail].[Bike Buyer] .我们做的这些是为了使用PredictHistogram来看看这个用户是否会买一辆自行车. image 8.现在切换图标.选择Result来查看结果. image 9. 如上图 我们发现该用户会买自行车的可能性为55%( $PROBABILITY 0.5545151322..)  . 我们的先知已经准备好预言啦. 10.我们再看看另外一个用户的结果: Age 65: Commnute Distance 1-2 Miles, English Education: Missing, English Ocupation: Clerical, Marital Status: S, Numerber of Cars Ownerd: 1, Number of children at home: 0. 11. 结果是51% image

参考文档

 

原文地址:http://www.sqlservercentral.com/articles/server/94235/ http://nocreceenlosarboles.blogspot.com/2011/11/al-oraculo-de-delfos-no-le-dejan-votar.html http://msdn.microsoft.com/en-us/library/ms167167(v=sql.105).aspx

 

 

0条评论
avatar