大数据技术的应用同样也经历了一个发展过程:从最开始Google在搜索引擎中使用,到现在无处不在的各种人工智能应用。伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。
01
大数据应用的搜索引擎时代
作为全球最大的搜索引擎公司,Google也是公认的大数据“鼻祖”。它存储着全世界几乎所有可访问的网页。为了存储这些文件,Google开发了GFS,统一管理数千台服务器上的数万块磁盘,然后当成一个文件系统,统一存储所有的网页文件。
如果只是简单地存储所有网页,技术上好像也没什么太了不起的。但是Google取得这些网页文件是为了构建搜索引擎,这需要对所有文件中的单词进行词频统计,然后根据PageRank算法计算网页排名。
Google一路走来,从搜索引擎、Gmail、地图、Android、无人驾驶,每一步都将人类的技术边界推向更高的高度。
02
大数据应用的数据仓库时代
当Google的论文刚发表时,吸引的是像Yahoo这样的搜索引擎公司和Doug Cutting这样的开源搜索引擎开发者,其他公司还只是“吃瓜群众”。但是当Facebook推出Hive的时候,嗅觉敏感的科技公司都不淡定了,它们开始意识到,大数据的时代真正开启了。Hive可以在Hadoop上进行SQL操作,实现数据统计与分析。也就是说,可以用更低廉的价格获得比以往更强大的数据存储与计算能力。
人们就会想到Hadoop大数据技术,这也是Hadoop发展特别快的一个原因。技术的发展促进了技术的应用,也为接下来的大数据应用走进数据挖掘时代埋下了伏笔。
03
大数据应用的数据挖掘时代
一旦大数据进入更多的企业,人们就会对它提出更多期望,除了统计数据,还希望发掘出更多的数据价值,大数据技术进入数据挖掘时代。除了商品和商品之间的关系,还可以利用人和人之间的关系推荐商品。
现代生活几乎离不开互联网,各种各样的应用无时无刻不在收集数据,这些数据在后台的大数据集群中一刻不停地被分析与挖掘。这些分析和挖掘带给我们的是美好还是恐惧,取决于人们的选择。但是可以肯定,不管结果如何,这个进程只会加速不会停止,你我只能投入其中。
04
大数据应用的机器学习时代
人们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦掌握了这个规律,就可以按照它来预测未来。过去,人们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律;现在有了大数据,就可以收集全部的历史数据,统计规律,进而预测即将发生的事情——这就是机器学习。
从搜索引擎到机器学习,大数据技术的发展思路其实是一脉相承的,就是发现数据的规律并为我所用。所以,很多人把数据称为金矿,大数据应用就是指从这座蕴含知识宝藏的金矿中发掘具有商业价值的真金白银。
下面来看一下淘宝和美团大数据平台,进一步学习大厂大数据平台的架构。
淘宝大数据平台
淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop大数据平台,比较典型。
淘宝的大数据平台基本分成三部分,上面是数据源与数据同步模块;中间是云梯1,即淘宝的Hadoop大数据集群;下面是大数据的应用,即使用大数据集群的计算结果。
淘宝大数据平台的核心是位于架构图左侧的天网调度系统,提交到Hadoop集群上的任务需要按序、按优先级调度执行,Hadoop集群上已经定义好的任务也需要调度执行,何时从数据库、日志、爬虫系统导入数据也需要调度执行,何时将Hadoop执行结果导出到应用系统的数据库,仍然需要调度执行。可以说,整个大数据平台都是在天网调度系统的统一规划和安排下运作的,如图所示。
DBSync、TimeTunnel、DataExchange这些数据同步组件也是淘宝内部开发的,可以针对不同的数据源和同步需求导入、导出数据。这些组件淘宝大多已经开源,我们可以参考使用。
美团大数据平台
美团大数据平台的数据源来自MySQL数据库和日志,数据库通过Canal获得MySQL的binlog,输出给消息队列Kafka,日志通过Flume输出到Kafka,如图所示。
美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行ETL(数据提取、转换、装载)开发,提交任务作业并进行数据管理。
大数据学习
毫不夸张地说,我们已经全面迎来了一个大数据的时代!来北大青鸟徐州中博,大数据课程领航者带你劈波斩浪!
课程体系全面:课程体系目前在业界内最全面,课程设置流程最合理;
更有深度和广度:课程在深度和广度上相比业内其他机构更深、更广;
紧跟市场需求:课程顺应时代需求,不断增加主流技术,让学员更具竞争力;就业不再迷茫,精准定位目标岗位;
真实企业项目:课程项目都是真实企业级落地项目,学员学习项目更扎实;
师资力量雄厚:大数据老师真正来自于大企业,具备多年实战和教学经验;
老师跟进就业:就业服务+面试题+简历指导,跟踪就业辅导;
传授工作经验:老学员遍布各大企业,工作内推机会多,不定期老学员交流活动!
大数据现在正处在发展的黄金时期,可以说此刻正是学大数据的最好时机,如果你对现状不满,渴望高薪、体面的工作,那么来北大青鸟徐州中博学大数据吧,改变人生的机会就在这里。
|