This website requires JavaScript.

Spark使用案例-每日秀数据分析

本篇博文中,我们对一个著名Tv show的数据集对参与客户进行分析.

点此下载数据集

数据集描述

YEAR -- 播放年份

GoogleKnowlege_Occupation  职业或工作

Show -- 播放日期,非唯一,一些show有多个客户参与

Group -- 职业分组.例如,美国参议院,美国总统,前主席等都统归于“politicians”

**Raw_Guest_List -- **参与人

找到某段时间内节目GoogleKnowlege_Occupation的Top5 人数

val file = sc.textFile("/home/kiran/dialy_show_guests") val split = file.map(line => line.split(",")) val format = new java.text.SimpleDateFormat("MM/dd/yy") val pair = split.map(line => (line(1),format.parse(line(2)))) val fil = pair.filter(x => {if(x._2.after(format.parse("1/11/99")) && x.2.before(format.parse("6/11/99"))) true else false}) val cnt = fil.map(x => (x.1,1)).reduceByKey(+).map(item => item.swap).sortByKey(false).take(5)

 
0条评论
avatar