数据科学家让数据科学像魔术般绚烂

24.06.2016  16:20
 对我来说,向家人朋友们解释我在做什么是一件非常困难的事情,他们会被“数据科学家”这个头衔感到困惑然后疑问,“那你到底是做什么的?

  我最近和沃尔沃等汽车公司共同合作,建立一个不会有任何人在交通事故中受伤或死亡的未来。想想那将意味着什么,想象一下它会对我们所有人造成的影响。

  同时,我还和亚马逊等零售公司合作,确保从最近的配送中心进行配送,甚至在您点击购买按键的一个小时内实现送货。

  而这只是能激发起朋友们兴趣和好奇的一两个例子。但是,数据科学家真能从数据和分析结果中创造这么多神奇的东西,甚至是新鲜的空气吗?

  缺失的联系

  就数据本身而言,它只代表简单的数字和文字,只是普通的数码和字符。类似地,分析算法也只是把数学公式翻译成代码。将随机算法套用到匿名数据集,想要成功的机会犹如大海捞针。

  事实是,我们必须要了解数据集,了解它所来源的业务背景、数据内容、数据值、分布等等。了解数据集和特定的业务挑战将有助于数据科学家选择完美的算法,将数据转换成信息和可操作的见解。

  目前数据科学无法实现完全自动化的原因就是仍然缺乏关于数据粒度的讨论以及相关的决策制定,不能带来可行的解决方案。换言之,我们仍然等待着规则的改写。

  科学家

  你具备成为数据科学家的能力吗?

  分析师们的工作非常简单,他们只需要遵循特定的“食谱”,往里添加特定的数据组和算法。然而,企业需要数据科学家来首先建立这个“食谱”。他们必须具有创新思维,从零开始创造出一些新鲜又有创新性的东西来。

  当然,制定这些规则的人必须要有广泛而深入知识和经验,但这还并不是全部。数据科学家必须自带解决问题的属性,事实上,我们很难定义他们需要具备的全部技能。此外,要把任何一个人教育成为优秀的数据科学家都是几乎不可能完成的任务。

  这是一种天赋,一个人要么就与生俱来,要么就不会拥有。

  创新性分析VS重复性分析

  尽管很多企业已经在传统型分析上花费了数年的努力,他们努力地寻找合适的人才和正确的技能来进行今天的创新型分析。如今的企业必须处理全新的数据集,例如数字点击流互动和物联网数据,这些都是从未被开发过的领域。要从数据集中获取价值的方法有很多,但是已经经过尝试和测试的方法却比较有限。要获取最大的价值,创新才是真正的答案。

  企业面临的首要业务挑战在于清晰地划定可重复性和创新性分析之间的界限。其次,企业必须建立创新性思维。但不幸的是,大多数企业的内部技能都非常有限。所以,他们有两个选项:整体共同努力,吸引思维方式独特而富有经验的人才(他们可能并没有遵循传统的路径但取得了数据科学家的头衔);或者与能够提供必要技能和经验的组织进行合作。

  对于缺乏经验的企业来说,数据科学可能看起来就像一种魔术。但是和一个彻底了解数据和分析技术的创新性思考者共同合作,企业就可能召唤出一直梦寐以求、甚至从未设想过的绝妙的解决方案。 来源:36大数据