发布网友 发布时间:2022-04-20 07:19
共1个回答
热心网友 时间:2023-09-07 22:03
咨询记录 · 回答于2021-12-13机械模型对训练数据集一般的要求有1:大型多样的数据集机器学习算法的开发依赖于大量数据,学习过程从中得出许多实体,关系和簇。为了拓宽和丰富算法所产生的相关性,机器学习需要来自不同来源,不同格式的关于不同业务流程的数据,为了获得最全面的学习经验,您应该提供多样化的培训数据(从多个来源集成并涉及多个时间范围内的各种业务实体),以使算法评估更加真实,准确并在生产中取得成功,一旦投入生产,机器学习算法将继续读取大型的各种数据集,以使其模型保持最新并不断增长。精明的组织正在为多种类型的分析(不仅仅是机器学习)部署工具,因为每种类型都可以告诉他们一些独特而有价值的东西。这些分析方法中的每一种都需要以某种特定方式准备和呈现的数据,该方式对于所涉及的分析工具或用户实践而言是最佳的,机器学习算法几乎总是针对原始的详细源数据进行优化。因此,数据环境必须为面向发现的分析实践(例如,数据探索,数据挖掘,统计和机器学习)提供大量原始数据。2:大型,多样化的数据管理基础架构用于训练机器学习数据的基础结构通常涉及多个数据平台,工具和处理引擎,范围从传统的(关系数据库和列式数据库)到现代的(Hadoop,Spark和云存储),需要多种技术来应对训练数据的极端大小,多种数据结构以及(在某些情况下)多种延迟,机器学习工具显然很重要,但是数据管理基础架构也同样重要。有很多方法可以为机器学习提供培训和生产数据。这些数据可以来自扩展数据基础架构中的多个平台,但是趋势是将尽可能多的数据整合到一个专为机器学习和其他形式的高级分析而设计的数据湖中。在相关趋势中,出于自动化,优化和经济的考虑,数据湖正朝着弹性云发展。数据管理基础架构可能非常庞大它可以包括用于数据仓库,数据湖,数据集成,数据准备,多种形式的分析和大数据的平台和工具,新的数据平台也正在兴起,其中以云,开源引擎,开源库和语言以及自助服务工具为主导,那是一长串的平台,技术和处理引擎但是,这对于想要在分析和智能方面进行运营和竞争的现代组织都是必需的。