利用AWS和P(F)URRR进行H2O标度分析(第1部分)

(本文首次发表于 数字时代经济学家谈数字时代经济学家,请并对 188bet appR博客)

H2O+AWS+PURR(第一部分)

在接下来3周的小教程中,我将介绍使用AWS的步骤1个ami rstudio实例在大型AWS实例上运行一个玩具机学习示例。我不得不承认,你必须对自动焊接有所了解,才能遵循以下几步,金宝搏网址但是,如果你在任何阶段被一些行话弄糊涂了,你就不用太多的谷歌搜索就能找到你的路。

  • 本系列第三部分的第一部分将向您展示如何让基础设施在AWS上工作。
  • 第二部分将展示我们如何结合采购训练和堆叠ML模型.
  • 第三部分,系列的最后一期,会告诉你我们怎么用糠醛,请,请网状的三氧化二硼自动焊接系统要从本地工作环境启动远程机器,但是远程训练。你曾经梦想过在150核2TB内存机上运行ML模型吗?好,为了几美元,我要教你怎么做。

如果你还没有AWS账户,如果您想继续本系列的其他部分,现在就设置一个。

为什么我从Caret搬到了H2O

我一直都是插入符号包裹。这是我在年对机器学习的介绍。R.它的模块化框架允许一个非常实验性的环境。它允许探索诸如阶级不平衡对结果的影响,有了“窒息”等选项,上升和下降采样,同时很容易允许k-折叠(和重复k-折叠)交叉验证。它还允许程序员为多个超参数规范配置一个训练网格,允许对模型进行非常精细的调整。最后,别忘了,有200多个型号可以玩。

h2o做了大部分,但允许更多”程序化”解决问题。在与API进行了最初几次交互之后,您开始享受底层代码的防弹工程师。它不提供插入符号的广泛功能,但它有五大特点:GLM(净),请,请射频,请,请GBM公司,请,请XG增压,请,请去皮,请以及堆垛模型的。h2o允许更容易地编程到生产ml系统。强大的工程策略允许我们扩展ML训练,以进行更大的实验设计。

我想插入符号如果您只需要运行一个我们需要调整和试验的模型,即学术界和小规模的ML应用程序,那么这是非常好的。另一方面,h2o在你的背景中做了很多非常适合生产的细节:

  • 如果删除常量列
  • 如果它看到一个未知的因子变量,它不会断开。
  • 它具有早期停止功能,易于实现
  • 以更有效的方式利用多核和GPU处理
  • 是否有大量的日志记录可能出现的错误?

最后,如果你要训练两个模特,那当然很重要:速度很快!你说什么?

就我而言,我想在多个市场(~80)上寻找一个利润优化模型,为此我想引入滚动窗口设计,检查的性能射频,请,请GBM公司,请,请XG增压最后将该模型投入生产,具有很短的延迟时间。这是一个大量的建模和水使这一切'容易'-的。

介绍AWS

如果您还没有开始将分析迁移到云端,希望这能说服你开始重新考虑。有机会使用64,96个甚至128个内存为2TB的核心机器很少穿过大多数数据科学家的路径。我们大多数人并不真正需要这么大的机器来实现我们需要的目标,,请如果你需要令人信服的话,可以看看Szilard的twitter帖子。.我们不使用这些大型机器的另一个原因纯粹是因为我们在工作环境中无法访问这些机器。我们很幸运,对云计算的访问变得越来越容易访问,老实说,像薯条一样便宜。

使用预构建的AMI

AMI或亚马逊机器映像我们是否可以将预构建环境作为包含操作系统和我们可能安装的任何其他应用程序的全面环境来使用?例如rstudio,马里亚布,码头工人等

其中一个朋友,专门为RSTUDIO的分析和深入学习而构建,由维护路易斯·阿斯利特.这个AMI的设计目的是使用MCMC采样使大多数应用程序分散化,例如斯坦捷豹.它还消除了设置能够容纳角膜张量流Linux机器上的接口。此外,图像还包含乳胶R标记,请以及各种其他安装,以允许即插即用设置。
如果你曾经尝试过自己做上述任何一件事,然后你就会知道这是什么成就。所以对路易斯来说:

我用过路易斯·阿斯利特的ami并添加了爪哇,请以及安装插入符号图书馆为我们播放。这个AMI是公开的。我们可以使用搜索功能查找公众形象以下内容:AMI-0157656A8C5B46458型.出于安全考虑,我建议您更改rstudio实例从端口监听的默认端口80随机的,如端口8765个如果你要在生产中运行这个。如果你想这样做,您需要在下面重新配置nginx服务器配置/etc/nginx/网站可用.

访问RSTUDIO公司设置一旦你到达这篇文章的结尾,导航到公共IP如结尾的屏幕截图所示,使用预定义的凭据登录。现在图像使用4以下内容:

  • 用户:rstudio
  • 通过:rstudioh2caret

使用其中一个AMI,我们需要登录亚马逊并导航到EC2仪表盘。我使用俄亥俄州区域,因此,如果您希望遵循AMI的设置,请确保在左侧的had角设置该区域。

在多个博客上可以很容易地找到有关如何设置AWS帐户的详细说明,但我将向您展示如何使用AWS网站上的搜索功能查找AMI。首先,访问EC2仪表板并转到急性心肌梗死左侧选项卡:

在现场实例上设置AMI

每当我使用AWS时,我更喜欢使用运动实例:

现货实例是一个未使用的EC2实例,其价格低于按需价格。因为SPOT实例使您能够以大幅折扣请求未使用的EC2实例,你可以大幅降低亚马逊EC2的成本。现货实例的每小时价格称为现货价格。

我通常使用这些机器,从一个小时到几个小时,所以点播从来就不是一种需要。这些实例从来都不是一件痛苦的事情,也没有因为使用突然增加而被限制使用实例。这些现场实例是保持低成本的完美方法,同时可以接触到大型机器。

选择实例并配置:

右键单击水胺然后选择现场请求.这将使您进入显示机器菜单的屏幕。现在,我们不会太激动,所以让我们选择R3.4大号图像。这台机器是我最喜欢的,虽然它不属于当前的一代机器,这是一种记忆优化机器,适用于ML培训:

  • 16芯
  • 122GB内存
  • 1 x 320固态硬盘
  • 现货价格:0.1517美元/小时

还可以将实例配置为在达到最大现货价格时关闭。在步骤4和5中,如果需要,可以添加存储和标记。我不显示这个,因为我们不想在细节上陷得太深,我们想找到我们玩H2O的那个部分。

添加安全组

在步骤6中,您必须配置实例的安全组。现在,我们不会设置任何疯狂的配置。我们将打开端口22(ssh)和80(http),允许我们从任何地方访问机器和rstudio。如果安全是一个问题,您可以在配置上更具体一些.

启动实例之前的最后一步是确认密钥对要访问机器:

一旦你这样做了,您应该能够在实例你的标签EC2型仪表板:

做得好,你现在已经发明了一种机器,它可能比你现在的笔记本电脑或个人电脑工作环境大3-4倍。完成后请记住终止此机器!你说什么?

检查机器是否按承诺配备了16核和122GB RAM,我们可以用ssh5个然后使用高温气冷堆确认命令:

要访问rstudio ide,打开浏览器并转到提供的公共IP。输入用户名和密码后,应该可以访问欢迎屏幕。

做得好!现在,您可以访问启用了CPU/GPU的分析系统,并且可以使用以下两种方法处理ML模型的培训:插入符号.

我还建议你阅读欢迎。包含非常有用信息的文件苏迪亚米包裹。

在下一篇文章中,我们将使用API并将其与采购创建多个模型表以便于评估


  1. 免责声明:我不为AWS工作,这只是我在过去一年左右使用的平台。我相信谷歌云(或任何其他云服务)也一样好第1页
  2. 对于那些兴奋地看到OLS行动的人,不好意思劝阻你,那些不是ML模型…第1页
  3. 我看着你名义培训工作流出错… 第1页
  4. 以后我想把这个调整到路易斯的规格。在最初的AMI中,密码是实例ID,这很聪明——不幸的是,我还没弄清楚这个H2O ami的值。第1页
  5. 如果您不知道ssh,那么您可能正在Wi金宝搏网址ndows计算机上工作—请遵循安装油灰的说明 第1页

发表评论对于作者来说,请关注他们博客上的链接和评论: 数字时代经济学家谈数字时代经济学家.

188bet appr-bloggers.com网站提供 每日电子邮件更新金宝搏网址 R新闻和 教程关于以下主题: 数据科学,请,请 大数据,,请 R作业,请可视化( ggplot2型,请,请 箱形图,请,请 地图,请,请 动画),程序设计( RSTUDIO公司,请,请 斯维夫,请,请 乳胶,请,请 SQL,请,请 日食,请,请 吉特,请,请 Hadoop公司,请,请 刮网)统计数据( 回归,请,请 主成分分析,请,请 时间序列,请,请 交易)等等…



如果你走这么远,为什么不 订阅更新 从网站上?选择您的口味: 电子邮件,请,请 推特,请,请 1188bet app,请或 脸谱网……

注释已关闭。

搜索R-Blo188bet appggers


赞助商

千万不要错过更新!你说什么?
订阅R-Bloggers188bet app接收
最新R帖子的电子邮件。
(您将不再看到此消息。)

单击此处关闭(此弹出窗口将不再出现)