第607章 商业化的难度(1 / 2)

“上面可没说耕耘科技不能赚钱,我得问问张教授,为什么不把技术商业化,难道我们公司要一直靠国家养着。”邓云吉当即前往研发部,许贡连忙跟上。

张教授正在办公室里研究算法,无论是机器学习、模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理都涉及到算法。

大数据常用的算法有很多种,分别是分类决策树算法,聚类算法,关联规则算法,最大期望算法,迭代算法,分类算法,向量机算法等。

决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

由于这种决策分支画成图形很像一棵树的枝干,故称决策树。

举个例子,假设一个包含很多病人信息的数据集,我们知道每个病人的各种信息,比如年龄、脉搏、血压、最大摄氧量、家族病史等。

这些叫做数据属性。

现在给定这些属性,我们想预测下病人是否会患癌症。病人可能会进入下面两个分类:会患癌症或者不会患癌症。 c45 算法会告诉我们每个病人的分类。

做法是用一个病人的数据属性集和对应病人的反馈类型,c45 构建了一个基于新病人属性预测他们类型的决策树。

那么什么是决策树呢?决策树学习是创建一种类似与流程图的东西对新数据进行分类。使用同样的病人例子,一个特定的流程图路径可以是:病人有癌症的病史,病人有和癌症病人高度相似的基因表达,病人有肿瘤,病人的肿瘤大小超过了5。

基本原则是:流程图的每个环节都是一个关于属性值的问题,并根据这些数值,病人就被分类了。

算法是监督学习还是无监督学习呢?这是一个监督学习算法,因为训练数据是已经分好类的。使用分好类的病人数据,c45算法不需要自己学习病人是否会患癌症。

在大部分机器学习课程中,回归算法都是介绍的第一个算法。

原因有两个:一是回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二是回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。

回归算法有两个重要的子类:即线性回归和逻辑回归。

在大数据时代,数据挖掘是最关键的工作。

大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。

其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。

目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。

张教授正在做的,就是用这些算法来优化“云台”的基础技术。云台是他们在巴蛇系统的基础上,不断优化重新设计的大数据系统。

咚咚。

“进来。”听到敲门声,张教授头也不抬道。