回覆列表
  • 1 # 輪迴的歷史

    1、對於網頁為csv檔案的頁面,可以直接用read.csv函式匯入網頁資料並轉為資料框的形式。html格式的網頁也可以讀取。

    例如:

    data <- read.csv(text="it is a page")#text是要檢視的文字

    head(data,10)

    #讀取網頁資料的程式碼data <- read.csv("page"),page可以是要檢視的網址或文字。

    2、R基礎包中的readLines可以讀取網頁或文字資料。

    #輸入文字

    cat("asqsd\n1213",file="a1")

    readLines("a1") #讀取文字資料

    #cat中"\n"表示換行。

    3、RCurl包中的getURL()函式獲取網頁資料。

    library(RCurl)

    data<-getURL("a1")#a1為某個具體的網址。

    head(data)

    4、透過getURL直接獲取的資料有些凌亂,可以藉助library(XML)解析樹函式htmlTreeParse處理。

    library(XML)#解析樹函式htmlTreeParse

    data_Parse<-htmlTreeParse(data)

    head(data_Parse,2)

    5、對於複雜網站的文字資料,用rvest包中的read_html函式來提取文字資料。

    library(rvest)

    page<-read_html("a1")#a1為某個具體的網址

    data<-html_nodes(page,"table")

    head(data)

    #本例中沒有輸入網址,所以結果為空。

    6、透過html_nodes獲得的資料不能直接投入使用。

    table<-html_table(data);table #提取表格資料,可以得到多個表格結果

    table[1]#檢視第1個表

    text<-html_text(data);text #提取文字資料

    #在實際應用中,可以發現提取表格後的資料或文字是非常便於分析的。

  • 2 # 範翠兒呀

    1、不管是讀取資料還是寫入,R都是在工作路徑中完成的。所以首先我們要知道我們的R所在的工作路徑是在哪裡。使用getwd()函式來獲取我們的工作路徑。

    2、下面檢視工作路徑裡面有哪些檔案,使用dir()函式。

    3、如果你所想匯入的資料並不在你當前的工作路徑中,有兩種方法可以解決。第一種就是把資料檔案放到工作路徑中,第二種方法就是更改工作路徑。更改工作路徑使用setwd()函式。比如你想要把工作路徑設定成桌面。

    4、現在我讀取我工作路徑中,名字為hw1_data.csv的檔案。使用read.csv()函式。

    5、也可以使用read.table()函式來讀取csv格式的檔案。由於csv檔案的分隔符是“,”所以我們在用read.table()函式的時候,sep引數,我們要設定為sep=“,”。

    6、發現read.table()讀出來的資料,列名並不是我們檔案中的列名,而是V1,V2。。。我們需要加上header這個引數來修改這個問題。

  • 中秋節和大豐收的關聯?
  • 終年吃紫皮石斛對身體有甚麼壞處?