大数据项目

项目名称:paas平台组件运维监控/分布式平台监控预警系统

开发时间:6个月左右

项目架构:jmx+kafka+sparkstreaming+springboot+mysql+javamail+sms+echart

项目简介:

自动化监控预警paas平台。提高了管理集群的效率

项目职责:

1.通过jmx采集hadoop集群指标数据
2.数据以json形式缓存进kafka
3.sparkstreaming消费数据做预警,调用短信接口或者javamail通知管理员,结果写入数据库
4.springboot消费kafka做数据的实时展示
5.项目的部署,bug的修复

项目难点或遇到的问题:

1.kafka性能问题 
解决方案:通过设置snappy压缩,增大批处理量
2.sparkstreaming的更新部署问题
解决方案:设置与老sparkstreaming同一消费者组,启动新程序,然后关闭老程序
3.sparkstreaming保存kafka偏移量
解决方案:默认设置自动保存偏移量,在程序出现错误时,可能会出现少部分的
数据丢失,这是可以容忍的。如果想要不丢失,需要手动将offset保存到数据库等
第三方存储中。

项目名称:净网

开发时间:6个月左右

项目架构:httpclient+hadoop+spark+mysql+sparkmllib

项目简介:自动识别赌博,暴力等非法网站,为政府提供网络管理的技术支持。

项目职责:

1.利用spark开发分布式爬虫爬取各域名的主页
2.将爬取的主页html代码存入hdfs,同时使用spark清洗去除js,css,html标签代码
3.利用lucene分词工具包,处理html文本。主要包括转码,去除标点,stopword,分词等。
4.在sparkstreaming中利用naive bayes算法实现文本的分类。判别网站是否非法

项目难点或遇到的问题:

1.html网页的转码问题
解决方案:实现自动识别html代码的编码功能。将所有网页统一转化成utf8
2.文本分类问题
解决方案:监督学习算法需要有训练数据,因此应该先手动标记一部分数据,然后通过sparkmllib识别
-------------本文结束感谢您的阅读-------------