徐州北大青鸟
当前位置: 主页 > 新闻中心 > 行业动态 >

月薪2万只是一般!大数据技术到底值钱在什么地方?

时间:2020-12-15 17:09来源:未知 作者:代码如诗 点击:
都说大数据很牛,真的有那么厉害吗?我们经常看到大数据工程师月入两万三万到五万,那么大数据到底值钱在哪里呢? 就是收集很多用户数据,用机器进行处理就可以了,为什么还去
都说大数据很牛,真的有那么厉害吗?我们经常看到大数据工程师月入两万三万到五万,那么大数据到底值钱在哪里呢?
 
就是收集很多用户数据,用机器进行处理就可以了,为什么还去讨论呢?传统行业的数据,收集数据和分析太慢,互联网时代特别是移动互联网的时代,数据收集和分析都变得更快更智能,仅此而已吧。
 
真的是这样吗? 
 
今天我们来看看业内人士的深入分析;
 
01//
大数据的商业价值
 
大数据是近年来新出热门词汇,人们对于大数据的理解还不够全面,甚至存在一些误区,认为数据量大就是大数据,或者认为里面数字大也是大数据,实际上这些只属于统计的范畴,和大数据是没有关系的。
 
所谓大数据,其实是有两部分组成的。一部分是海量运算存储能力,一部分是数据建模算法。
认为大数据是更快更智能的处理技术的人,只是认识到了大数据海量运算储存能力,而这部分只是量变,却没有认识到质变。
 
如果针对市场,大数据的目标是对每个人员有清楚的认知和跟踪。
 
随着这项技术的进步,甚至可以提前预知你想要购买的东西,提前一步给你送达。可以想象一下,你想买一个东西下单二十分钟就到你家门口了,因为早就预测到你什么时候想要什么了,所以几天前预测到就提前发货到你小区的提货点了。
 
这样的精准的服务,以后对大众人而言当然是习惯了就不再记得它有多伟大。就像过去的工业革命,只有经历那个时代的当事人那个时代的缔造者们才会对那些创造充满激情,而我们对随手可得的电和各种电器还会有什么惊喜吗?
 
传统的数据行业,一是没有足够强的数据获取能力,二是没有足够强的数据加工能力。包括以前靠预测某大事起家的公司,他们的采样是局限的,比如寄调查问卷,调查问卷这种采样是难以重现真实的,且基于传统的小样本统计方法。另外,数据处理能力也很有限。
 
与之相反,大数据的采样是无法说谎的,你点击、浏览、地理信息等等这一切行为都在眼皮底下发生。这是大数据的头一个“大”,维度大。
 
同时,数据采样是覆盖几亿人口全天候的。这是大数据的第二个“大”,数量大。相对传统的抽样小样本集而言,大数据可以称之为全样本。正是这两个“大”,就能够带来数据的质变。
 
再看数据加工。传统的加工,大多数都靠Excel吧!我们开采整天的数据就能撑爆几万台家里的电脑硬盘。至于计算,可以想像一下,对这个数量级的数据矩阵做个简单的矩阵分解要怎么实现。这是机器的能力。
 
人员方面,现在很多传统的,作这些统计方向的人经常会说,“唉,现在都搞算法去了”。没错,算法就是人与机器协作的沟通方式,只有和机器深度合作,才能得到更高的生产力。
 
这一切,在大众人的眼里,也许也不是那么的了不起,不就是一下单马上就到嘛,不就是各种方便嘛,还不是一样的活。但是这对商业而言却是惊天动地的。
 
过去你卖衣服,你的周转库存和滞销库存恐怕吃掉了你一半的利润都不止;一旦有了大数据支撑,你的库存几乎可以忽略了。过去你做设计,你耗尽心力设计出来的作品很可能在市场上得不到认可;有了这个精准大机器,消费者的数据会告诉你他们要什么,你设计师锦上添花就好,真正的设计者其实是消费。
 
过去你是做营销的,投入很多钱整个营销方案,结果收效甚微;一旦有了这个精准大机器,你的投入风险就低多了。
 
大数据带来的精准对商业的影响是方方面面的。这是新时代对旧时代的淘汰。除了商业,还有很多别的用处,都将深刻的改变。比如个人征信、医疗行业、能源行业、公路交通等等。这些都会深刻地改变世界的运作方式。
 
02//
技术角度分析大数据
 
我有20个数据,一把全装进内存,调用个sort,就完事了。
我有2G的数据,一把全装进内存,如果机器不那么破,勉强也完事了吧。
我有20G的数据,对,往你家里面的pc端插入几条8G的内存条试试。
那我现在有200G的数据…看你怎么去装内存!
 
没有听错!写外排程序?你来写!有很多人可是连内存里的快排都写不出来的。
显然我们已经意识到1台机器装不下了。怎么办?去多找几台机器吗?多找几台机器意味什么?分布式计算了解吗?连分布式都不懂还什么大数据!好,现在有200GB的数据,排个序吧…给你10台机器。
 
1)这200G的数据,如何分配?
2)这10台机器之间如何通讯?没错,不止让你去写外排序,还得让你去玩网络编程。
3)假设每一台机器上的数据都已经完全排好,如何快速的把排序好的结果和merge连在一起。
4)如何设计有效的merge逻辑减少10台机器之间的网络IO。
5)别以为10台机器不需要维护,万一在排序的时候其中一台机器出问题,怎么办?具体包括但不限于:它在坏掉之前有响应其他机器发给他的request吗?它在坏掉之前自身的任务完成了多少了?假设这台机器在要坏掉的时候正在跟隔壁的机器互相传输数据怎么办?
6)谁去监听这10台机器的健康?或者是其他机器怎么知道哪台机器坏了?如果是连接超时,怎么知道是网络阻塞还是目标机真的坏了?
7)如果哪台机器真的坏了无法恢复,又或者由于集群升级,集群中的节点被临时撤走了,如何把那台机器上那20GB的数据分给其余的9台?
 
 
❖  如果数据不是200G,而是2TB,2PB
 
1)这么大的数据,这么大的集群,同一时间坏掉的机器数量可能会很多。如果这个集群用来做存储(例如百度云),怎么保证用户的数据不丢失?
2)如果这个集群用来做离线计算,怎么设计调度程序提高每台机器的资源利用率,减少集群内的网络IO和尽可能地提高每台机器的响应速度?
3)我希望集群是可扩展的,最好架构能支持我只要简单地增加机器数目就能扩充集群的计算和存储能力,这个架构要怎么设计?
大家有空去了解下“mapreduce,hadoop,yarn,mpi,vfs”等内容。
传统行业的数据,收集和分析慢,特别是移动互联网时代,数据收集和分析都变得更快更智能。
只所以会这么说,是因为作为局外人,能看到的就只有这些表面的最直观的现象。一句简单的“数据分析变得智能了更快了”的背后,实际上是无数人付出的勤奋、创造力、勇敢还有艰辛!
 
未来以大数据为动力的技术及市场发展,很有可能需要一种新的数据,那就是“数据平台”。
在可预见的未来,海量的数据以及对其他的分析能力会大大提高社会的运行效率,但是也会带来一系列的问题。
 
而数据平台这个概念以及它的种种特点对于数据的安全性和可控性问题,也有着积极作用,所以说。
 
❖  未来就是大数据的天下
 
大数据学院诞生于数字经济的时代背景下,是我们高端培训产品的专门学院,也是目前我们高就业代表学院!
 
❖  核心技术多样化,就业岗位全面化
 
大数据开发工程师是专门针对大学生以及学习进修、在职提升人群量身定制的,学术界人士,知名软件企业技术专家以及IT产业专家代表开发完成,以培养高端互联网+大数据开发工程师为目标,课程技能涵盖Hadoop开发,Spark开发、数据挖掘、数据分析等核心技能,通过全程项目实战的方式让学员们积累大量的企业实战开发技巧,真正培养企业需要的人才!
试听课
(责任编辑:代码如诗)
------分隔线----------------------------
栏目列表
推荐内容