2018-11-19
閱讀量:
918
什么是字符串操作?
字符串操作的定義
顧名思義,字符串操作包含一系列用于從文本變量中提取信息的函數(shù)。 在機(jī)器學(xué)習(xí)中,這些功能被廣泛用于進(jìn)行特征工程,即從現(xiàn)有的字符串特征創(chuàng)建新特征。 在R中,我們有像stringr and
stringi
這樣的包,它們都加載了所有的字符串操作函數(shù)。
此外,R還包括幾個(gè)用于字符串操作的基本函數(shù)。 這些函數(shù)旨在補(bǔ)充正則表達(dá)式。 字符串操作函數(shù)和正則表達(dá)式之間的實(shí)際差異是
- 我們使用字符串操作函數(shù)來執(zhí)行簡單的任務(wù),例如拆分字符串,提取前三個(gè)字母等。我們使用正則表達(dá)式執(zhí)行更復(fù)雜的任務(wù),例如從一組文本中提取電子郵件ID或日期。
- 字符串操作函數(shù)旨在以某種方式響應(yīng)。 他們不偏離自然行為。 然而,我們可以以任何我們想要的方式自定義正則表達(dá)式。
例如,假設(shè)您獲得了一個(gè)數(shù)據(jù)集,其中包含name of the customer
作為變量。 在這種情況下,我們可以使用字符串操作函數(shù)來提取和創(chuàng)建新功能作為名字和姓氏。 從下一節(jié)開始,我們將實(shí)際學(xué)習(xí)字符串操作函數(shù)和命令。 因此,請(qǐng)確保已在機(jī)器中安裝了R。 此外,您應(yīng)該安裝stringr R包 。






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論