建設(shè)京東類的網(wǎng)站需要什么流程營銷渠道名詞解釋
- 請論述大數(shù)據(jù)的四個特點
數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)、數(shù)據(jù)價值密度低(Value)、數(shù)據(jù)增長速度快(Velocity)
- 為什么目前大數(shù)據(jù)被廣泛使用
科技的進步、基礎(chǔ)建設(shè)的改進、資料獲取變輕松
-
計算1~10的平均數(shù)
mean(c(1,2,3,4,5,6,7,8,9,10))
-
3~15每隔3產(chǎn)生一組數(shù)字
seq(from=3,to=15,by=3)
-
程序改錯
3=a Library(”ggpolt2”) 105CGUIM<-”text” install.packages(ggplot2)
a=3 Library(ggplot2) CGUIM105<-”text” Install.packages(“ggplot2”)
-
(1)創(chuàng)建向量1~10
Vc <- c(1,2,3,4,5,6,7,8,9,10)
(2)對向量所有元素加3
Vc <- Vc+3
-
新增一向量a,包含數(shù)字1到10
新增一向量b,包含數(shù)字1到20中所有偶數(shù)取出a向量的第4個元素
取出b向量的第5、6、7個元素
a<-c(1,2,3,4,5,6,7,8,9,10)b<- seq(from=2,to=20,by=2)a[4]b[5:7]
-
新增一列表a,包含一數(shù)字向量、一字符串向量
向列表中添加新的數(shù)字向量b
刪除列表a中的字符串向量a<-list(c(1,2,3),c("x","y")) b<-c(2,3) a[[3]]<-b a[[2]]<=null
-
(1)查詢數(shù)據(jù)集mtcars中的所有列名
(2)查詢數(shù)據(jù)集mtcars中的所有行名與列名colnames(mtcars) dimnames(mtcars)
-
(1)查詢數(shù)據(jù)集islands的長度
(2)查詢數(shù)據(jù)集mtcars的行數(shù)與列數(shù)length(islands) dim(mtcars)
-
將“10”轉(zhuǎn)化為數(shù)字、將11轉(zhuǎn)化為字符
as.numeric("10")as.character(11)
-
(1)將字符串hello world字母轉(zhuǎn)化為大寫
toupper("hello world")
(2)提取字符串hello world中的hello
substr("Hello World", start=1,stop=5)
-
(1)拼接字符串hello與字符串world
paste("hello","world")
(2)將拼接好的字符串中的h和w替換為a
gsub("h|w","a","hello world")
-
對數(shù)據(jù)集islands進行從大到小排序
sort(islands)
-
nameDF<-data.frame(ID=c(1,2,3,4,5),Name=c(“張三”,“李四”,“王五”,“趙六”,“小七"))
scoreDF<-data.frame(ID=c(1,2,4),Score=c(60,90,50))將上述兩個數(shù)據(jù)框進行結(jié)合,保留所有數(shù)據(jù)
merge(nameDF,scoreDF,by="ID")
-
使用dplyr篩選nba2021數(shù)據(jù)集欄位名稱為Name、ThreesMade、ThreesAttempted、FieldGoalsMade與FieldGoalsAttempted的五個欄位
library(SportsAnalytics)
NBA2021<-fetch_NBAPlayerStatistics(“20-21")library(dplyr) select(NBA2021,Name,hreesMade,ThreesAttempted,FieldGoalsMade,FieldGoalsAttempted)
- 注 下列中的FieldGoalsMade、FieldGoalsAttempted……均是數(shù)據(jù)中對應(yīng)的列名
-
使用dplyr:
(1)查看NBA2021數(shù)據(jù)集中命中率大于60%并且出場次數(shù)大于30場的球員資料
(2)查看出場分鐘數(shù)超過1000分鐘并且隊伍名稱為“BOS”或“SAN”的球員資料(1) filter4<-filter(NBA2021,FieldGoalsMade/FieldGoalsAttempted>0.6 & GamesPlayed>30) (2) filter(NBA2021,Team %in% c("BOS","SAN") & TotalMinutesPlayed>1000)
-
使用dplyr對NBA2021數(shù)據(jù)集新增新欄位命中率
mutate(NBA2021, 命中率=FieldGoalsMade/FieldGoalsAttempted)
-
使用dplyr統(tǒng)計NBA2021數(shù)據(jù)集中的球員個數(shù),球隊個數(shù)
summarise(NBA2021, 球員個數(shù)=n(), 球隊個數(shù)=n_distinct(Team))
-
使用dplyr計算NBA2021數(shù)據(jù)集中出場分鐘數(shù)大于2500分鐘的球員個數(shù)、平均投進的兩分球數(shù)以及平均投出的兩分球數(shù)
filter1 <- filter(NBA2021,TotalMinutesPlayed>2500) sum2 <- summarise(filter1,球員個數(shù)=n(),平均投進的兩分球數(shù)=mean(FieldGoalsMade),平均出手?jǐn)?shù)=mean(FieldGoalsAttempted))
-
使用dplyr對NBA2021數(shù)據(jù)集以出場分鐘數(shù)以及出場次數(shù)對所有球員進行從大到小的排序
arrange(NBA2021,desc([出場分鐘數(shù)列名]),desc([出場次數(shù)列名]))
-
使用dplyr計算NBA2021數(shù)據(jù)集以Team和Position作為分組依據(jù)的球員數(shù)、平均投進的兩分球數(shù)以及平均投出的兩分球數(shù),并依據(jù)平均投進的兩分球數(shù)由大到小排序
dataout <- group_by(NBA2021,Team,Position)%>%summarise(球員數(shù)=n(),平均投進的兩分球數(shù)=mean(FieldGoalsMade),平均出手?jǐn)?shù)=mean(FieldGoalsAttempted))%>%arrange(desc(平均投進的兩分球數(shù))))
-
使用data.table計算所有球員的平均出場數(shù)、平均犯規(guī)次數(shù)以及平均抄截次數(shù)
library(SportsAnalytics)
NBA2021<-fetch_NBAPlayerStatistics(“20-21")library(data.table) #導(dǎo)入data.table庫 NBA2021DT<-data.table(NBA2021)#將data.frame類型轉(zhuǎn)換為data.tableNBA2021DT[,.(平均出場數(shù)=mean(GamesPlayed),平均犯規(guī)數(shù)=mean(PersonalFouls),平均搶斷數(shù)=mean(Steals))]#GamesPlayed、PersonalFouls、Steals均為對應(yīng)列名
-
使用data.table計算所有出場數(shù)大于70的球員,平均投進幾顆三分球與兩分球
NBA2021DT[GamesPlayed>60,.(平均三分進球=mean(ThreesMade), 平均兩分進球=mean(FieldGoalsMade))]
-
使用data.table計算NBA各隊的中鋒球員數(shù)和他們的平均三分球出手次數(shù)
NBA2021DT[Position=="C",.(.N,平均三分出手次數(shù)=mean(ThreesAttempted)),by=Team] #第一個參數(shù) Position=="C" 是篩選位置為中鋒的球員 #第二個參數(shù)是控制輸出什么的 .(.N,平均三分出手次數(shù)=mean(ThreesAttempted))中: #.N表示在第一個參數(shù)條件下的總數(shù)量
-
對鳶尾花數(shù)據(jù)集進行寬表轉(zhuǎn)長表操作,保留鳶尾花類別列
#寬表轉(zhuǎn)長表 melt(資料框[寬表],id.vars=需要保留的欄位)library(reshape2) iris2 <- melt(iris,id.vars="Species")#Species是鳶尾花類別列的列名
-
使用ggplot函數(shù)對上述數(shù)據(jù)進行繪圖,橫坐標(biāo)為鳶尾花種類、y軸為value,以鳶尾花種類進行顏色區(qū)分,圖形類別為點圖
library(ggplot2) ggplot(iris2,aes(Species,value,color=Species))+ geom_point()
-
使用ggplot函數(shù)對上述數(shù)據(jù)進行繪圖,橫坐標(biāo)為鳶尾花種類、y軸為value,圖形類別為點圖,點顏色為黃色、大小為3、透明度50%、點的形狀為17
ggplot(iris2,aes(Species,value))+geom_point(color="yellow",size=3,alpha=.50,shape=17)
-
對鉆石數(shù)據(jù)集進行不放回隨機抽取5000個數(shù)據(jù)作為新的數(shù)據(jù)集、根據(jù)數(shù)據(jù)集繪制點圖,x:克拉,y:價格,點的顏色以切割類型區(qū)分,點的形狀為18。
dia <- diamonds[sample(nrow(diamonds), 1000), ] #diamonds是鉆石數(shù)據(jù)集ggplot(dia,aes(carat,price),color=cut)+geom_point(shape=18)
-
請論述下列代碼含義
library(treemap) #導(dǎo)入TreeMap樹圖繪制庫 data(GNI2014) #加載指定的GNI2014數(shù)據(jù)集#使用treemap函數(shù)繪制矩形樹狀圖 treemap(GNI2014, #指定數(shù)據(jù)集index=c("continent", "iso3"), #指定分組的列 vSize="population",#指定面積大小的列vColor="GNI", #指定顏色深淺的列type="value", #指定顏色填充類型的列title = "數(shù)據(jù)",#給定的標(biāo)題border.col = c("black","blue"),#設(shè)置邊框的顏色分別為fontsize.labels = c(12,10),##設(shè)置標(biāo)簽字體大小border.lwds = c(4,2),#設(shè)置邊框的線條的寬度align.labels = list(c("center","center"),c("left","top"))# #設(shè)置標(biāo)簽對齊的方式 )