什么是大数据,权威专家谈大数据的4V1C特质

http://www.zhangyue100.cc/dszc/9678.html

http://www.zhangyue100.cc/dszc/9677.html

http://www.zhangyue100.cc/dszc/9676.html

http://www.zhangyue100.cc/dszc/9675.html

http://www.zhangyue100.cc/dszc/9674.html

http://www.zhangyue100.cc/dszc/9673.html

,



http://www.zhangyue100.cc/dszc/9672.html

http://www.zhangyue100.cc/dszc/9671.html

http://www.zhangyue100.cc/dszc/9670.html

http://www.zhangyue100.cc/dszc/9669.html

大数据是当前较为火爆的一个词汇,究竟什么是大数据、大数据的概念是怎样的?大数据有哪些特质,大数据有哪些技术方面的要求,大数据对当前社会产生了哪些重要的影响?

国内知名大数据专家、中科院计算所博士、职品汇创始人龚才春博士对此做了详尽的分析,他指出:“从常规定义来讲,大数据就是大小超出常规数据库工具获取、存储、管理和分析能力的数据库,并且也强调,不是说一定要超过特定TB的数据集才是大数据。这个定义并没有诠释什么是常规的数据库工具,也没有诠释大数据与数据量的关系,是一个比较原始的大数据定义。”

而国际数据公司(International Data Corporation,简称IDC)则从四个特征定义大数据:数据规模庞大(Volume)、数据更新频繁(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)。

龚博士认为,在上述四大定义的基础上,一般偏向于再加上数据处理复杂(Complexity),构成相对完整的大数据的定义,这就是大家耳熟能详的4V+1C。

当数据规模很小时,属于传统的“小数据”时代的问题,已有非常成熟的数据存储、计算、分析、呈现方案,数据模型也有非常多的研究。大数据必须是规模异常庞大的数据,只有当规模庞大时候,才有新的研究价值。

前面已经提到,大数据的大,不是说一定要超过特定TB的数据集才是大数据。由于计算能力、存储能力、分析能力的有限,现在看起来很简单的问题,在历史上可能都是大数据的问题。辽沈战役中,司令员林彪对战报要求很细,包括每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少;枪支、物资多少……一天深夜,值班参谋正读着一份某师上报的战斗缴获报告,那是该师的下属部队偶然碰上的一个不大的遭遇战,他们歼灭了一部分敌人,缴获了一些战利品,敌人余部逃走。林彪听了汇报后,立即口授命令,全力追击从胡家窝棚逃走的那股敌人,一定要把它彻底打掉。果然活捉了国民党新编第六军军长廖耀湘。这些数据在今天看来,规模非常非常小。但在当时这已经是“大数据”了,林彪懂得分析数据,从缴获中手枪和冲锋枪的比例准确判断出敌方的指挥部在胡家窝棚,这也算是大数据分析的魅力。

我们知道摩尔定律揭示了处理器分析能力与时间的关系,也就是说,每隔18个月左右处理器的分析能力翻一番。对于一个静止的数据集,哪怕今天我们的处理器无法处理,存储器不好存储。随着技术的进步,未来可能变成非常容易处理,就像我们现在看着当年林彪分析战报一样,这些战报数据的处理今天已经变得非常非常容易了,在今天已经不算“大数据”了。

大数据技术,要求我们更多地想出“巧妙”的分析办法,提成更“优秀”的处理模型,而不能只依赖存储能力、处理水平、网络带宽等硬件设备的性能改进。所以大数据技术,对分析对象要求是频繁更新的数据集

传统的关系型数据库,无论从理论上,还是在应用上都非常成熟了。关系型数据库一般保存格式固定、类型单一的数据,几十年的数据库理论、数据挖掘、数据仓库的研究,已经有相当多的研究成果。

大数据要求我们的分析对象是异构、异质的数据集,可能包括文本、音频、视频等多种形式,也可能是结构化、半结构化的或无结构的。

如果数据没有价值,我们就没有分析的必要。因此,大数据要求我们处理的数据集是有巨大商业价值或社会价值的。阿里巴巴愿意花巨大代价提高推荐系统的准确性,就是在于其推荐系统的准确率的提高,能大大提高平台的交易量,从而具有非常巨大的商业价值。我们在全国部署“天眼”系统,提高大数据技术在天眼系统的分量,就是因为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障人民群众安全、信用取证等方面都有巨大的社会价值。

在Value这个层面,我们除了要求价值巨大外,我们一般会增加一点要求,那就是价值密度极低。我们常说,大数据是一个“金矿”,金矿就包含两个方面的含义:一方面,黄金很值钱,金矿很有价值;另一方面,金矿不是金库,几万顿的矿砂,也许只有几十公斤黄金,也就是说金库的价值密度是非常低的。大数据的价值方面的含义,也要求价值密度非常低。如果数据集中每一条数据都是非常有价值的,那也就无所谓“挖掘”了,没有挖掘,大数据的意义也荡然无存了。

IDC公司的大数据只有4V的特征,我们一般偏向于增加另一个维度的要求:数据处理复杂。例如,统计中国人口的平均年龄,这个数据量是非常庞大的,有接近14亿条记录;这个数据也是动态更新的,每年都有几千万人出生,几千万死亡;这个数据集也可以是多样的,湖南的数据可以放在mysql中,湖北的数据可以在oracle中,北京的数据可能在Txt文件中,上海的数据可能在Word文档中;这个数据集和这个分析都是有价值的,但是平均到每一条数据,价值又非常有限。也就是说,这个问题是符合4V特征的,但是这个问题怎么看都“太简单”了,年龄加起来求平均即可,不能成为真正意义上的“大数据问题”。

北京诚智汇达信息科技有限公司成立于2014年10月,是国内领先的职场大数据征信服务提供商。我们通过整合权威部门数据、合作伙伴数据、互联网采集数据、用户注册

数据等,挖掘候选人在基本信息、教育背景、工作经历、工作能力、薪酬福利、职业道德、犯罪记录、失信记录等方面的信用状况,生成从业者的信用报告,为猎头、

HR、投资机构、金融机构、业主提供决策支持,提升人力资源管理效率,净化我国职场环境,提高社会道德水平,降低投融资的信用成本,促进我国经济发展。

我们的使命是“让天下没有欺骗”。通过完善职场各方的数据,建立我国9.8亿从业者的职场信用体系,彻底解决职场诚信问题。

职品汇是我们的品牌,目前我们已经开发了大数据背景调查、职场黑名单、人才地图、虚假简历识别、职品人才库、猎头管理SaaS系统等,并且逐步向社会开放我们的

作为我国成立最早、团队最完善的职场大数据征信公司,我们采集并整理了中国最庞大的人力资源数据库,服务万科、卫计委等500余家企事业单位,是平安集团、用

上一篇:

下一篇: