R中的数据采集

2020年5月16日

[本文最初发表于R教程,并对188bet app]. (您可以在此页面上报告有关内容的问题金宝搏网址在这里)
想在r -blogger上分享你的内容吗?188bet app188bet app 如果你有博客,或者在这里如果你不。

文件夹

逗号分隔值(CSV)文件是一个分隔文本文件,通常使用逗号分隔值。CSV文件以纯文本存储表格数据(数字和文本)。文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,由分隔符分隔。CSV是一种通用的数据交换格式,受到消费者、企业和科学应用程序的广泛支持。R使以CSV格式导出和导入数据变得容易。

本地文件

将数据导出到csv文件

数据(“地铁车辆”)装载mtcars数据集写入.csv(地铁车辆,文件='mtcars.csv公司')#导出到文件

从csv文件导入数据

十<-读.csv('mtcars.csv公司')#读取文件(十)#打印数据
##110 3.08 3.215 19.44 1 0 3 1#5大黄蜂运动版约18.7 8 360 175 3.15 3.440 17.02 0 3 2#6有效18.1 6 225 105 2.76 3.460 20.22 1 0 3 1金宝搏网址

远程文件

一些数据提供商在其网站上提供csv格式的数据。金融指数提供商STOXX网站就是其中之一。正常开放这个链接欧洲斯托克50指数:tab数据->历史数据提供一些历史价格的开放源代码文件。点击欧元价格将打开这个链接。这个读.csv()函数可以直接从internet读取此文件。

# 读.csv非常灵活。对于参数类型的完整列表?读.csv十<-读.csv(“https://www.stoxx.com/document/Indices/Current/HistoricalData/h_3msx5e.txt”,九月=';')(十)
##E 3647.98不适用
行名(十)<-截止日期(x[,1个),格式='%d.%m.%Y')#分配rownamesx[,c类(1个,士官(x)) < - - - - - -无效的#删除第一列和最后一列(十)#打印数据
##符号索引值##2020-02-17 SX5E 3853.27##2020-02-18 SX5E 3836.54#ţ2020-02-19 SX5E 3865.18ţţ2020-02-20 SX5E 3822.98ţ2020-02-21 SX5E 3800.38ţ2020-02-24 SX5E 3647.98

R包

“quantmod”包

这个数量软件包提供了非常适合下载的功能财务数据从网上。这个函数被调用获取符号。该函数与各种源一起工作。

#安装软件包install.packages安装包('数量')
#装入程序包要求(数量)

对于股票和股票雅虎使用源。可以找到符号在这里

#检索Facebook报价十<-获取符号(符号='FB',src ='雅虎',自动分配=错误的)(十)
## FB.打开FB.高FB.低FB.关闭FB.体积FB.调整##206.93 200.69 206.81 17178900 206.81##2020-05-15 205.27 211.34 204.12 210.88 19375200 210.88

对于货币和金属奥达使用源。符号是仪器的ISO代码,用/. 可以找到ISO代码在这里

恢复欧元/美元的历史汇率十<-获取符号(符号='欧元/美元',src =“奥兰达”,自动分配=错误的)(十)
# #欧元。## 2020-05-10 1.083770 ## 2020-05-11 1.082472 ## 2020-05-12 1.083412 ## 2020-05-13 1.084142 ## 2020-05-14 1.080206 ## 2020-05-15 1.081265

对于经济学系列弗雷德使用源。可以找到符号在这里

#检索日本历史国内生产总值十<-获取符号(符号='日本国内生产总值',src =“弗雷德”,自动分配=错误的)(十)
##JPNNGDP##2018-07-01 545545.2##2018-10-01 546737.7##2019-01-01 552687.8#2019-04-01 555954.0#2019-07-01 558237.1#2019-10-01 549920.9

基于rest的api

应用程序接口(API)基本上是一个信使,它接受请求,告诉系统您要做什么,然后将响应返回给您。RESTful API是使用HTTP请求来获取、放置、发布和删除数据的API。这个httr公司R包是处理HTTP的有用工具。每个API都有其特定的用法和文档。

#安装软件包install.packages安装包('httr')
#装入程序包要求(httr)

CRAN下载

CRAN的API下载数据库。可用文件在这里

例子. 上个月下载量最大的软件包是哪一个?

基URL<-'https://cranlogs.r-pkg.org网站/'#API基url。参见文档终点<-'顶部/'#API终结点。参见文档< -'上个月/'#API参数。参见文档计数<-1个#API参数。参见文档网址<-粘贴0(baseurl,端点,句点,计数)#生成完整url十<-得到(网址)#检索url数据<-内容(十)#提取数据数据#打印数据
###[1]“magrittr”###########$downloads[[1]]$downloads###[1]“3889492”

下载量最多的软件包2020年4月15日2020年5月14日马格里特总共3889492个下载。

库科尼API

库肯的API,加密货币交换。可用文件在这里

例子. 在过去24小时内每分钟检索并绘制比特币价格。

#设置GMT时区。参见文档系统设置环境(TZ公司='格林尼治时间')#API基url。参见文档基URL<-'https://api.kucoin.com网站'#API终结点。参见文档终点<-'/api/v1/市场/蜡烛'#以秒计算的今天和昨天今天<-作为整数(作为数字(系统时间()))昨天<-今天-24个*60个*60个#API参数。参见文档参数<-c类(符号=“BTC-USDT”,类型='1分钟',开始=昨天,尾端=今天)#生成完整的url。参见文档网址<-粘贴0(baseurl,端点,'?',粘贴(姓名(参数),参数,九月='=',塌陷='&'))#检索url十<-得到(网址)#提取数据十<-内容(十)数据<-$数据#格式化数据<-愚蠢的(1个:长度(数据),功能(一){#抽出单个蜡烛蜡烛<-作为数字(数据[[i]])#格式化。参见文档返回(c类(时间=蜡烛[1个),打开=蜡烛[2个),近=蜡烛[),高=蜡烛[4个),低=蜡烛[5个]) )})#转换为xtsdatetime < -as.POSIXct公司(数据[1个,],起源='1970-01-01')数据<-xts公司(t型(数据[-1个,]),订货人=日期时间)#绘制结束值情节(数据$接近,主要='比特币美元价格')

刮网

Web抓取是一种将Web上以非结构化格式(HTML标记)呈现的数据转换为易于访问和使用的结构化格式的技术。这个维斯特包是从web页面中获取信息的有用工具。

#安装软件包install.packages安装包(“维斯特”)
#装入程序包要求(维斯特)

例子. 编写一个函数从中检索文章谷歌学者给定一个通用查询字符串

获取文章<-功能(问){#生成url网址<-粘贴0('https://scholar.google.com/scholar?hl=en&q=',问)#清理url网址<-URLencode(网址)#得到结果资源<-阅读html(网址)%>%#获取urlhtml节点('副总经理h3 a')%>%#通过css选择器选择标题html文本()#提取文本#返回结果返回(决议)}
#在r中检索有关web抓取的文章金宝搏网址获取文章('在r中刮网')
##[1]“用R实现的自动数据收集:web抓取和文本挖掘实用指南”###[2]“用R实现的web抓取”##[3]“RCrawler:用于并行web抓取和抓取的R包”##[4]“用Python实现的web抓取:从现代web收集更多数据”##[5]“web抓取和工作搜索引擎的朴素贝叶斯分类”####[6] “用Python抓取网页”###[7]“理论驱动的网页抓取入门:从互联网中自动提取大数据用于心理学研究。”###[8]“使用网页抓取软件搜索灰色文献”##[9]“R在行动”##[10]“收集消费电子产品和机票数据的网页抓取技术”意大利HICP汇编”

发表评论对于作者,请按照链接并在其博客上发表评论:R教程

188bet app右-bloggers.com网站提供每日电子邮件更新金宝搏网址 关于的新闻和教程金宝搏网址金宝搏网址 还有很多其他的话题。如果你想找一份R/数据科学的工作,请点击这里
想在r -blogger上分享你的内容吗?188bet app188bet app 如果你有博客,或者在这里如果你不。



如果你走这么远,为什么不订阅更新从现场?选择您的口味:电子邮件,推特,1188bet app,或脸谱网...

评论已关闭。

搜索R-blo188bet appggers

赞助商

千万不要错过更新!
订阅R-bloggers188bet app接受
包含最新R文章的电子邮件。
(您将不会再看到此消息。)

单击此处关闭(此弹出窗口将不再显示)