地  址:江苏省南京市玄武区玄武湖
电  话:4008-888-888
邮  箱:9490489@qq.com
商  务QQ:2832830888
做机器学习项目数据不行?这里有5个不错的解决方法
作者:管理员    发布于:2020-06-27 07:57   文字:【】【】【

做机器学习项目数据不行?这里有5个不错的解决方法


做机器学习项目数据不行?这里有5个不错的解决方法 数据稀缺的问题十分重要,因为数据是任何AI项意图核心,数据集的巨细往往是影响项目体现优劣的一个重要因素。大大都状况下,与数据相关的问题,往往都是无法做出优秀人工智能项意图主要原因。

许多开展人工智能项意图公司都具有超卓的事务理念,可是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分懊丧......不过,这个问题的处理计划仍是有的。 本文将简要介绍其间一些经笔者实践证明确实有用的方法。

数据稀缺的问题十分重要,因为数据是任何AI项意图核心,数据集的巨细往往是影响项目体现优劣的一个重要因素。大大都状况下,与数据相关的问题,往往都是无法做出优秀人工智能项意图主要原因。

有监督的机器学习模型正广泛用于应对各种事务应战。可是这些模型需要很多数据,其性能也在很大程度上取决于训练数据的多少。可是在许多状况下,AI团队很难创建足够大的训练数据集。

同时还有另外一个问题,那就是项目剖析师可能会低估处理常见事务问题所需的数据量。在为大公司工作时,收集数据会更加杂乱。

我需要多少数据?

在许多状况下,你需要大约10倍的数据,因为模型中有自在度。模型越杂乱,就越容易过度拟合,但可以通过模型校验来防止。 不过,依据用例的实践状况,所需的数据可以适当减少。

还有必要评论一下的是,怎么处理缺失值的问题。特别是假如数据中缺失值的数量足够大(超过5%)。

值得一提的是,处理缺失值依赖某些既定的 成功 规范。此外,这些规范关于不同的数据集乃至关于不同的应用也是不同的,例如辨认、切割、猜测和分类(给定相同的数据集)。

选择什么样的处理计划取决于问题的类型 如时刻序列分析,ML,回归等。

触及到猜测技能时,只有当缺失值不是完全随机观察到的时分才应该进行使用,并且需要选择变量来预算这些缺失值与它有某种关系,不然可能发生不准确的估计。

一般来说,能够使用不同的机器学习算法来确定缺失值。可以将短少的特征转化为标签本身,然后再使用没有缺失值的列来猜测具有缺失值的列。

依据笔者的经历,假如你抉择构建一个基于AI的处理计划,那么在某些时分你将面对缺乏数据或短少数据的问题, 但幸运的是,有很多方法可以将这个 负 变为 正 。

短少数据?

如上所述,不可能准确估计AI项目所需的最小数据量,项目本身将显著影响你需要的数据量的多少。例如,文本、图画和视频通常需要更大都据。可是,为了做出精确的估计,还应考虑许多其他因素。

要猜测的类别数量

模型的预期输出是什么?根本上来说,数量或类别越少越好。

模型性能

假如你方案将项目投入出产,则需要更多。 一个小数据集,用于概念验证可能足够了,但在出产中,你需要更大都据。

一般来说,小型数据集需要低杂乱度(或高误差)的模型,以防止模型对数据的过度拟合。

非技能处理计划

在根究技能处理计划之前,让我们分析一下可以通过哪些方法来增强数据集。这多是一句废话,但在开始AI项目之前,需要通过开发外部和内部东西尽量多地收集数据。假如你知道机器学习算法预期要履行的使命,那就能够提前创建数据搜集机制。

另外在启动ML项目时,你也能够借助开源数据。网络上有很多可用于ML的数据,其所属公司现已准备好将其弃用。

假如你需要项意图外部数据,与其他组织建立合作同伴关系以获取相关数据的方法可能会有用。构成合作关系显然会花费你一些时间,但取得的专稀有据将为你提供天然的竞争力。

构建一个有用的运用程序,别管这个应用,只用数据

笔者在之前的项目中使用的另外一种方法是向客户提供对云运用程序的拜访权限,进入应用的数据可用于构建机器学习模型。笔者曾经的客户为医院建立了一个运用程序并供其免费运用。我们收集了很多数据,并设法为我们的ML处理计划创建了一个独特的数据集。

小数据集

依据笔者的经历,使用小数据集构建猜测模型的一些常用办法有:

通常,机器学习算法越简略,就越能从小数据集中学习。从ML的角度来看,小数据需要具有低杂乱度(或高误差)的模型,以防止将模型过度拟合到数据。朴素贝叶斯算法是最简略的分类器之一,因此从相对较小的数据集中学习得十分好。

你还可以依赖其他线性模型和决策树。实践上,它们在小数据集上的体现也相对较好。根本上,简略模型可以比更杂乱的模型(神经网络)更好地从小数据集中学习,因为它们本质上是在努力完成更少的学习。

关于十分小的数据集,贝叶斯方法通常是类中最好的,虽然成果可能对您的先验选择很灵敏。笔者认为朴素贝叶斯分类器和岭回归是最好的猜测模型。

关于小数据集,你需要具有少数参数(低杂乱性)和/或强先验的模型。你还可以将 先验 解释为你可以对数据行为方式做出的假设。

依据事务问题确实切性质和数据集的巨细,确实存在许多其他处理计划。

搬迁学习

界说: 在构建机器学习模型时,使用现有相关数据或模型的框架。

搬迁学习使用从学习使命中取得的常识来改善相关使命的性能,通常可以减少所需的训练数据量。

搬迁学习技能很有用,因为它们允许模型使用从另外一个数据集或现有机器学习模型(称为源域)取得的常识对新域或使命(方针域)进行猜测。

当您没有足够的方针训练数据时,应考虑使用搬迁学习技能,源域和方针域有一些类似的地方,但不尽相同。

单纯地聚合模型或不同的数据集其实不总是有用的,假如现稀有据集与方针数据十分不同,则新的学习模型可能会遭到现稀有据或模型的负面影响。

当你有其他可用于揣度常识的数据集时,搬迁学习效果很好,可是假如你底子没稀有据,这时候该怎么办?此时,数据生成可以提供很大的协助。当没稀有据可用,或者你需要创建的数据超过你通过聚合收集到的数据时,能够使用这一方法。

简略来说,该方法需要修正现存的少数数据,以创建该数据的变体,进而训练模型。例如,可以通过裁剪和缩小某一个汽车图画,来生成更多的汽车图画。

缺乏高质量的标签数据也是数据科学团队面对的最大应战之一,通过使用搬迁学习和数据生成等技能,可以在一定程度上克服数据稀缺问题。

搬迁学习的另外一个常见应用是在跨客户数据集上训练模型,以克服冷启动问题。笔者留意到许多SaaS公司在将新客户加入他们的ML产品中时,常常需要处理这个问题。实践上,在新客户收集到足够的数据以完成杰出的模型性能(可能需要几个月)之前,很难提供有用的价值。

数据扩充

数据扩充表明添加数据点的数量。在笔者的最新项目中,我们使用数据扩充技能来添加数据集中的图画数量。就传统的行/列格局数据而言,这意味着添加行或对象的数量。

我们别无选择,只能依靠数据扩充,原因有两个:时间和精确性。每一个数据搜集过程都与本钱相关联,这个本钱可所以美元、人力、核算资源,当然也能够是过程当中耗费的时间。

因此,我们不能不扩充现稀有据,以添加我们提供应ML分类器的数据巨细,并补偿进一步数据搜集所发生的本钱。

有很多方法可以扩凑数据。仍然是汽车图画的例子,你可以旋转原始图画,更改光照条件,以不同方式裁剪。因此关于一个图画,你可以生成不同的子样本。 这样,你就能够减少对分类器的过度拟合。

可是,假如你使用过采样方法(如SMOTE)生成人工数据,那么极可能会引发过度拟合。

在开发AI处理计划时,你有必要考虑这一点。

组成数据

组成数据是指包括与 真实 对应物相同形式和计算属性的虚假数据。根本上,这些数据看起来十分真实,简直看不出来它是假数据。

那么,组成数据的意义是什么呢?假如我们现已取得了真实的数据,为何又要做这件事?

在某些状况下,特别是当我们处理私人数据(银行,医疗保健等)时,使用组成数据实际上是一种更安全的开发方法。

组成数据主要用于没有足够的实践数据,或者没有足够的实践数据用于特定的形式。关于训练和查验数据集,它的用法根本相同。

组成少数类过采样技能(SMOTE)和Modified-SMOTE是生成组成数据的两种技能。简略地说,SMOTE选用少数类数据点并创建位于由直线连接的任何两个最近数据点之间的新数据点。

该算法核算特征空间中两个数据点之间的间隔,将间隔乘以0到1之间的一个随机数,并将新数据点放在间隔核算所用数据点之一的新间隔上。

为了生成组成数据,你有必要使用一个训练集来界说一个模型,这需要进行验证,然后通过更改感爱好的参数,你就能够通过仿真生成组成数据。域/数据的类型十分重要,因为它影响整个流程的杂乱性。

在笔者看来,在开始做一个AI项目时,问问自己是否有足够的数据,可能会揭示你曾经也许从未认识到的问题,这有助于揭露你认为完美的事务流程中的问题,并让你了解为何这个问题是在企业中创建成功数据战略的要害地点。

【凡本网注明来历非我国IDC圈的作品,均转载自其它媒体,意图在于传递更多信息,其实不代表本网附和其观念和对其真实性负责。】

延伸阅读:
13:12:04 机房建设 数据中心机器学习怎么优化运营 机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们具有真实的远景。
Copyright © 2002-2020 制作网页_国外最好的免费建站_免费h5页面制作网站_团购网站建设_免费动画制作网站 版权所有 (网站地图
地址:江苏省南京市玄武区玄武湖 电话:4008-888-888
邮箱:9490489@qq.com QQ:2832830888