我第一次访问Strataconf地层的总结

2月28日二千零一十三
通过

这篇文章首次发表于 字节挖掘»R,并对 188bet appR博主

在这篇文章中,我将总结一些我在2013年斯特拉塔圣克拉拉中学到的东西。现在,我将只讨论会议会议,因为我有一个更长的关于我仍在工作的教程会议的帖子,并且将在以后发布。金宝搏网址随着会议的结束,我将在这篇文章中添加内容。

大多数讲座的幻灯片都可以找到在这里但并不是所有的演讲者都会分享他们的幻灯片。

这个是/这是我第一次到地层旅行,所以我急切地等待着作为一名服务员参加。过去,我被会议的成本吓了一跳,也担心会议会成为赞助商和大数据平台无休止的广告。我很高兴地说,在很大程度上我被证明是错误的。为了方便阅读,我是按话题来总结演讲,而不是列出长长的一天的详细日程安排,也会略过那些我觉得没有那么有启发性的部分。我也不声称这篇文章100%的准确性,因为时间很长,我的耳朵和大脑只能处理这么多的数据,当我在听和听之间切换上下文时,推特,电子邮件等。


早上,有几次简短的全体会议,全行业的人都在讨论他们对数据科学的特殊看法。这基本上是一个为漫长的日子做的热身。我主要利用这段时间处理电子邮件,回顾前一天的事情。第二天很明显有很多花哨的销售谈话,但我显然没有注意。最有趣的谈话来自詹妮弗Pahlka代码为美国.我第一次学习美国代码是在金宝搏网址2011年由EMC主办的数据科学家峰会.在当时,这听起来像是一个非常好的主意——我们有大学毕业生,他们会花几年时间在市中心的学校教书,因此,我们应该让一些数据科学家从事珍妮弗所说的“对世界产生影响的项目”,这是有道理的。这些数据科学家从事的项目涉及到地方政府的数据民主化和开放数据倡议。在我看来,有几个突出的项目是在一个网站上发布来自圣克鲁斯市(一个了不起的城市)的800多个数据集。另一个项目涉及研究保释金额和刑事审判结果。考虑到最近宣布的code.org,开始向K-12学生教授计算机编程。你可以在请愿书上签名,然后注册成为一名志愿者在这里]

可视化链

我曾经说过,想象不是我的专长。我非常欣赏交互式图形和酷的信息图形,它们向非数据科学家传达了强烈的意义,但它还不是我的茶。然而,这是我想投入时间的事情。我决定参加到我的容忍度水平(不是很高)的可视化对话,这意味着一个二。

我参加了常社的谈话敏捷数据争论和基于web的可视化.Chang做了我经常做的事:在一个小时的演讲中加入太多内容……但我觉得这样的演讲确实激发了我学习更多东西的欲望。他讨论了数据科学如何缺少一个负责数据管理和可视化的“蓝色按钮”。使用联邦选举委员会数据集,他展示了政党的政治捐款,候选人和国家作为激励的例子。Chang展示了几个使用的例子熊猫(一个Python数据挖掘库)操作数据,然后将该数据传递给d3.js使用AJSON使用Web服务器的数据格式。我觉得这只是一个关于如何组合工具来处理数据并将其可视化的基础演讲。它不是一个蓝色的按钮,但这显示了此类处理管道的重要性。

Law伦理和开放数据链

那天最受欢迎的演讲之一就是这样说的约瑟夫Turian属于元优化,有头衔的Sci vs。科学情报:黑帽数据科学家的攻击载体和可能的对策.每种技能都有好的用途和坏的用途,数据科学也不例外。我们创建模型来打击欺诈,检测垃圾邮件,测量影响等等。这些技巧的“好”用法被称为“白帽”,另一方面,一个更邪恶的数据科学家可以规避这些模型允许他们的垃圾邮件不被发现或游戏的影响指标,如PageRank。例如,考虑一个包含代码的恶意网页,该代码只是无休止地重复用户的1查询。对于一个愚蠢的搜索引擎,这样一个网页将游戏一个关键字匹配算法和基于它的搜索引擎。这个垃圾网页将作为第一个结果出现,因为它看起来最相关。这是一个非常基本的例子,但人们可以想象,复杂的模型如何产生令人讨厌的结果。

图瑞安认为,大多数数据科学家最初来自学术界,在那里我们学到的技能主要是“白帽”,但我们在工业上的使用主要是“灰色帽子”(介于好与坏之间)。这种“灰帽”方法可能涉及到某种数据隐私问题,比如广告重定目标。“黑帽”数据科学家可能在构建僵尸网络时很有用,使用马尔可夫模型或其他语言模型生成人形垃圾邮件文本,或者创造袜子木偶,在大型社交网络中影响舆论。一个袜子木偶它本质上是一个社交媒体账户,设计成一个真实的人,但却别有用心,主要是散布宣传或虚假信息。这些袜子木偶的使用被称为日前“就是说,一场虚假的草根运动。我能想到的一个简单的例子就是成千上万的推特账号,它们只是为了动摇对奥巴马总统的看法而创建的。(金宝搏网址搜索# tcot你可能会发现一些例子,尽管许多人也是合法用户)。都灵举了一个简单的星占草皮的例子:纽特·金格里奇和他的追随者们在很短的时间内,这是假的。在这种情况下,据称,金格林奇的竞选活动是为追随者付费的,而不是建立一支由袜子木偶组成的军队。一些定位布袋木偶的方法是出现垃圾回复(@spam),手工分类,和“粘蜜罐”.

一些有趣的统计数据:

  1. 7%的推特用户是垃圾邮件机器人。
  2. 20%的人接受不认识的人的朋友请求。
  3. 30%的人被聊天机器人欺骗过。

注:元优化拥有一个惊人的机器学习Q和一个站点类似于stackexchange/stackoverflow。你可以去看看在这里.

科学数据链

IPython笔记本

我参加的这个系列的第一个演讲是ipython笔记本:数据科学的综合工具通过布瑞恩格兰杰加州理工圣路易斯奥比斯波分校以及纪事实验室。数据科学的一个主要问题是“代码和数据之间的交流不多”,也就是说,代码通常放在一个文件中,另一个文件中的数据和分析涉及数据和代码的耦合,必须在整个过程中保持同步。想象一下,如果你作为数据科学家的所有工作都可以作为单独的对象被包含在你的物理桌面上,这是一个很好的类比IPython笔记本.IPython笔记本的功能非常类似于aMathematica笔记本电脑,或者一个鼠尾草笔记本.我们可以分析熊猫数据帧中的数据,使用一些漂亮的模型斯皮皮scikit-learn,在一个地方使用通用Python语言以及IPython提供的优秀特性。一旦代码被写入,一个人可以用Mat普特利布就位,然后将文档分发给其他人。ipython笔记本提供了一个活生生的工作文档,通过将所有代码放在一个地方,它允许人们从变化中恢复过来。此外,细胞魔术的概念允许执行其他语言,如R,鲁比和茱莉亚在ipython笔记本里!很快就不需要为每种额外的语言运行多个解释器或拥有多个不同的开源笔记本项目了!

以下是精彩的部分:通过使用所谓的细胞魔术,你可以推一个Python对象,假设a pandas数据帧直接转换为r,然后转换为r数据帧。我不记得为什么会这样做,但这是巨大的。这样就不需要像RPY2用于r和python之间的基本计算。[编辑:RPy2是用来在引擎盖下进行这种转换。多亏了德克为了指出这一点,]Brian提到,最终也可能允许Python对象与JavaScript库(如d3.js)交互,以便使用小部件实现可视化。

IPython笔记本支持叙事文本,标题,图形和数学排版通过马特贾克斯.执行代码会生成可移植和可序列化的JSON字符串,用于保存结果,而不需要重新执行代码。这个网站nbviewer.ipython.com网站通过URL为ipython笔记本提供在线查看器,Git存储库URL或Gist URL。此查看器不要求在本地安装Web服务。目前ipython笔记本电脑的一个限制是它们只支持一个用户,因此不能承载,说,多个学生在教室中登录自己的笔记本课程。

一次伊皮松ipython笔记本(Ubuntu PackageName)已安装,只执行命令ipython笔记本在感兴趣的目录中启动一个用于使用IPython笔记本的web服务器。

显然,整本教科书都被写成了IPython笔记本,科学的易用性和可移植性。

敌对的学习

我参加的最后一次演讲是当你的机器学习受到攻击时该怎么办通过维什瓦纳特·拉马拉.本次谈话的目的是与那些试图规避旨在防止滥用系统的机器学习模型的坏人讨论问题,例如,垃圾邮件制造者学习如何绕过垃圾邮件过滤器。这个垃圾邮件发送者被称为敌人,可以成为一个“黑帽”数据科学家。一些对立的例子是登入欺诈(捕鱼观光,公关尴尬或财务信息),评论/邮件垃圾邮件,签署欺诈,星际迷航信用卡诈骗和点击诈骗。对抗性学习是一组对对手发出的数据进行分类的技术。

当对手能够观察到学习系统的输出,并且能够改变该系统中使用的某些功能子集,从而使他们的尝试不受惩罚时,就会出现敌对情况。对抗性学习的目标是使对手改变特征的成本更高。解决方法是劳动密集型的,但解释起来很简单。拉马拉奥基本上说,与敌人作战的最佳方式是

  1. 工程师的特点是互动和快速。
  2. 不要像我们通常做的那样抛弃功能。随着对手方法的发展,可能会激活一些特性。
  3. 考虑一个对抗性交易的整个传输——即,不要只看垃圾邮件中的单词,还要看随文本传递的HTTP头和其他通信信息。
  4. 研究异常(异常值和高杠杆点),而不是抛弃它们。通常,这种反常现象是对手。
  5. 由于第3条所述原因,在必要时允许过度装配。

作为一个文本挖掘爱好者,我学到了一些有趣的技巧,让机器学习模型适合文本,两者都与对抗性学习无关。

  • 一个homoglyph一个词的翻译是用一个看起来相似的。例如,p0rn是a片的同构——a片中的theo被一个看起来相似的角色所取代,0 0。破词
  • 一个破碎的单词是添加了空格的预期单词的翻译。例如,尼日利亚这个词可能是垃圾邮件检测算法的一个特点。对手可以通过编写ni geria来绕过过滤器。
  • 散列克星是指将不在用于训练文本模型的词典中的新词注入内容的情况。应该使用散列计数器的数量,并将其作为模型中的一个特性。一个常见的哈希爆粗过滤器将是单词fcuk而不是实际的单词f*ck。

朱丽亚


听了这番精彩的谈话后,我要写一篇更实质的文章,只关注茱莉亚,所以现在我将简要描述一些更容易解释的内容。这个演讲是由迈克尔豆Forio(开发者)朱丽亚工作室)。作为数据科学家,我们喜欢动态的环境来交互数据,比如R,或者Python shell熊猫或SciPy)。我们通常从R这样的高级语言开始,然后将这些代码移植到C这样的编译语言或高性能语言,C++或Java(也可能是Python)。这是科学计算中的一大障碍,因为它要求数据科学家知道两个语言:一种是实验语言,一个要实现。Julia是一种科学计算语言,它提供了像c++这样的编程语言的性能,并为科学探索增加了技术库和可访问性。Bean引用朱丽亚的表现类似于C++。Julia允许我们更快地完成任务,因为我们不需要“粘合”代码,而且Julia包是用Julia编写的,以提高性能,而不是使用C或Fortran。[R包只能用R编写,但是对于计算密集型操作,或者对于底层的包,例如数据结构等。有一个巨大的成功表演。]一旦一个人熟悉朱莉娅,可以说,“破解核心”很容易。

其他让我印象深刻的特点:

  • 用户可以重新定义算术运算并构造新的数据类型。茱莉亚用多分派这是一种编程语言特性,根据传递给函数的数据类型使用不同的函数实现。例如,如果一个B属于矩阵类型,朱莉娅会知道的A * B矩阵乘法运算而不是元素乘法。
  • 计算机科学中常见的数据结构在本地得到支持,例如BitArrays统计学家已经熟悉包括分布和数据框架在内的子数组和类型。
  • 支持列表理解。例如,对每个元素平方,使用[Xi在XX中的2而不是循环。
  • 每一个包是一个Git存储库,因此是开源的,易于访问。
  • 有些包本身支持多核。
  • 某些函数可以有一个bash (),它告诉Julia不要复制对象(请考虑就地排序排序!)。

Bean表明,Julia的开发过程比R等语言要短,因为不需要重新实现生产级别。对于他展示的几个示例,运行时也更快。下面是在R和Julia中生成斐波那契数的递归实现的一个示例

R码 朱丽亚码
function(n){if (n < 2) {return(n)} else {return(fib(n-1) + fib(n-2))}} start <- Sys.time()fib(36)end <- Sys.time()end - start
FIB(n)=n<2?n: fib(n - 1) + fib(n - 2)@elapsed fib(36)
运行时间:192秒 运行时间:0.24秒

连接世界线

bit.ly:导出兴趣图

我参加的第一个讲座是安娜•史密斯属于bit . ly有头衔的社会数据兴趣图的推导.一个网址缩短服务会有大量的数据需要筛选,这并不奇怪。安娜说她的很多工作都是一次性的。我特别喜欢安娜演讲的地方是金宝搏网址她使用的视觉化是非常基本的。她展示的图形没有什么特别之处——只是显示了一些关金宝搏网址于数据的见解,就是这样。

Bitly从每个简短的URL中提取大量数据,包括关键字,话题和点击的概率是一个人。可以通过分析链接之间的单击数据来派生分类和兴趣图。其目的是查看用户从与缩短的URL相关的页面访问的其他网页。假设用户访问的下一个页面在内容上与当前页面相关。在域级别上,一个coclick图使用域作为节点,它们之间的单击次数作为边缘。从这个,我们可以通过使用Jaccard相似性为两个集合使用具有特定关键字的域的单击次数。得到的coclick图有450万个关键字和900万条边。通过使用一些基本的处理(删除非英语关键字和点击次数少的关键字),然后运行一个名为DBSCAN,他们能够将图表简化为20万个关键字集群和100万条边。

bit.ly的数据科学小组为他们的工作保留了一个更新的Github存储库。在这里.

百度签注


我参加的最后一次会议是山姆沙阿皮特SkomorochLinkedIn.这篇文章讨论了LinkedIn的技能支持特性,以及他们如何成功地使用科学。Sam和Pete认为大部分成功建立病毒循环和使用推荐引擎如下:一个支持B- >B被通知->B接受背书,并认可他人。

社交技能标签也加速了采用。首先用户推销他们的技能,然后推荐他们增加其他技能。首先,用户考虑他们的技能并将其标记金宝搏网址在个人资料中。然后,推荐系统向用户推荐其他相关技能以及一些潜在的人员。但这不是有趣的部分…

LinkedIn如何维护技能字典和分类?这是一个高度棘手的问题,由于人类心理和语言使用的变化。最大的问题之一是词义消歧.激励人心的例子是技能天使.如果我列表天使作为我个人资料中的一项技能,我指的是我自己吗天使投资人或作为精神存在?发言者指出,通过使用图表所列的所有技能,除了天使,我们可以使用聚集聚类和距离度量来确定最可能的意义。这是一个例子办公软件,微软Office,办公室.所有这些概念都指同一件事。对于这个特殊的问题,LinkedIn使用众包土耳其机器人任务。人类互动的一个例子就是让参与者为特定主题找到最好的维基百科文章,因为维基百科往往已经有一支强大的军队来删除重复的内容。

对于那些积极使用技能特性的用户来说,但有些人没有。对于这些用户,系统在配置文件文本上传递一个滑动窗口(n克),并根据分类法发出可能的匹配,并抛出不符合概要推断主题的单词。例如,如果我的配置文件文本显示“我喜欢和数据打交道,Python,Java和Hadoop。“词所有的一切都将被抛来抛去。然后,我还有以下关键字:爱,工作,数据,Python,Java,哈多普出于所有实际目的,工作可能被认为是一个停止词或低影响词,因为它出现在LinkedIn配置文件中。数据可能是不是实际技能,所以这两个词都被删除了,离开爱,Python,Java,哈多普使用LinkedIn的技能分类法,我们可能会推断出Python,Java和Hadoop是高度相关的是一个极端的离群者(对某些人来说可能是一种实际的技能,但在这种情况下可能不会)。最后,这个系统会标记Python爪哇,和哈多普作为技能添加到配置文件中。对于更复杂(现实)的例子,LinkedIn将应用词义消除歧义和去重复。一个简单的朴素贝叶斯算法用于生成实际推荐。如果配置文件完全空白,推荐的技能基于标题,组织和社交网络功能。

LinkedIn还可以在系统要求用户为另一名用户推荐其可能知道的特定技能时提出推荐。金宝搏网址该推荐引擎使用的一些特性包括人员技能组合,学校的重叠,组重叠,产业相似,标题相似,现场互动,以及相互作用。这种推荐引擎基本上是链接呈现的二元分类问题。

LinkedIn的这篇演讲出人意料地坦诚。显然,我们无法使用他们讨论的方法,因为我们无法访问他们的数据或基础设施,因此,这样的谈话对知识产权没有风险。许多公司不明白这一点,也不允许员工谈论任何涉及他们工作的事情。金宝搏网址

结论

我很高兴我交了钱参加斯特拉塔,我可能会参加明年。这次会议规模宏大,每个数据迷都有东西可吃,包括一吨食物。整个会议并不像我想象的那么成功,但确实有一些时刻,尤其是在上午的会议和世博会上。我主要是在世博馆收集t恤,但它基本上只是一个巨大的“我的Hadoop分发速度比其他人快100倍”。“还有一个非常酷的传感器实验室设置,用于收集数据Arduino传感器。在整个会议地点都放置了几个传感器,数据是可视化的在这里.

到目前为止我在地层的时候,我终于有机会见到一些Twitter上的老朋友,并与他们重聚。很高兴见到你尼尔·科德纳讨论我们的共同利益以及会议马蒂厄巴斯蒂安讨论图形处理和Gephi的未来(我需要尽快写一篇关于Gephi的博客)。金宝搏网址我有机会和韦斯·麦金尼在午餐时间,还有关于蟒蛇和熊猫社区。金宝搏网址在最后一天,我参加了Facebook主办的一场活动,遇到了几位Facebook工程师和Twitter上的其他朋友,其中包括约瑟夫Turian布拉德福德斯蒂芬斯丹尼尔·唐克朗格雷戈拉恩.我遇到的每个人现在都搬到了旧金山湾区,我想我需要跟着他们走。

留下你的评论作者,请关注他们博客上的链接和评论: 字节挖掘»R.

188bet appR-bloggers.com提供了 每日电子邮件更新金宝搏网址 R新闻和 教程关于以下主题: 数据科学大数据, r作业,可视化(可视化) GGPROTT2箱线图地图动画),程序设计(程序) 演播室斯威夫特乳胶SQLEclipse吉特hadoop网页抓取)统计( 回归主成分分析时间序列交易)和更多…



如果你走到这一步,为什么不 订阅更新 从这个网站吗?选择你的味道: 电子邮件推特1188bet app,或 脸谱网

注释已关闭。

搜索R-blo188bet appggers


赞助商

千万不要错过更新!
订阅R-bloggers188bet app接收
电子邮件与最新的R职位。
(您将不再看到此消息。)

单击此处关闭(此弹出窗口将不再出现)