大数据

1、竞赛内容

大数据竞赛可以自定义题目,但是内容必须是以下几个方面的内容:

1、可以选择网络爬虫作为技术点自定义题目,因为现在大数据公司的网络爬虫技术应用很多

2、可以选择数据清洗作为技术点自定义题目。现在在大数据公司数据清洗是数据分析和挖掘必须经历的环节

3、可以选择数据分析和挖掘作为技术点自定义题目。现在大数据的处理平台与数据分析和挖掘的结合是当下最热点的技术

4、可以选择大数据架构的优化作为技术点自定义题目,数据优化是一个比较高深的话题

以上四种情况可以随意组合完成项目。

对于分析的性质可以做三种数据分析:

离线分析 用hadoop实现的分析

实时分析 用spark实现的分析

流式分析 用storm实现的分析

2、竞赛用的框架

竞赛时大数据框架必须使用以下几个:

   数据抓取工具:Flume

   数据仓库: HBase

   数据存储工具:HDFS

   数据离线分析工具:Hive或者MapReducer

   数据实时分析工具:Spark

   数据流式分析工具:Storm

3、竞赛规则

(1)参赛作品必须是原创作品,不能有任何抄袭

(2)参赛作品必须体现大数据的意义

(3)参赛作品必须按照指定的大数据框架实现

(4)参赛作品最终要上传到云端展示作品

(5)参赛作品提交的电子文档、图片、摘要、简介、链接等不得出现参赛单位、参赛学生、指导教师等信息,否则视为违规,取消比赛成绩(决赛是可以出现以上信息)。

(6)参赛作品须包含如下内容:

1、创意设计文档:参赛团队必须按照大赛官方网站上提供的模板规范编写设计文档,以WORD文档格式提交

2、所有代码和配置文件的jar 包

3、一份excel文档(需求、框架、对应代码和配置的清单)

相关文档下载
 
登录
您输入的账户或密码有误
手机号/邮箱
请输入密码