国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python Pandas模塊實現數據的統計分析的方法

瀏覽:48日期:2022-06-15 17:58:33
一、groupby函數

Python中的groupby函數,它主要的作用是進行數據的分組以及分組之后的組內的運算,也可以用來探索各組之間的關系,首先我們導入我們需要用到的模塊

import pandas as pd

首先導入我們所需要用到的數據集

customer = pd.read_csv('Churn_Modelling.csv')marketing = pd.read_csv('DirectMarketing.csv')

我們先從一個簡單的例子著手來看,

customer[[’Geography’,’Gender’,’EstimatedSalary’]].groupby([’Geography’,’Gender’]).mean()

Python Pandas模塊實現數據的統計分析的方法

從上面的結果可以得知,在“法國”這一類當中的“女性(Female)”這一類的預估工資的平均值達到了99564歐元,“男性”達到了100174歐元

當然除了求平均數之外,我們還有其他的統計方式,比如“count”、“min”、“max”等等,例如下面的代碼

customer[[’Geography’,’Gender’,’EstimatedSalary’]].groupby([’Geography’,’Gender’]).agg([’mean’,’count’,’max’])

Python Pandas模塊實現數據的統計分析的方法

當然我們也可以對不同的列采取不同的統計方式方法,例如

customer[[’Geography’,’EstimatedSalary’,’Balance’]].groupby(’Geography’).agg({’EstimatedSalary’:’sum’, ’Balance’:’mean’})

Python Pandas模塊實現數據的統計分析的方法

我們對“EstimatedSalary”這一列做了加總的操作,而對“Balance”這一列做了求平均值的操作

二、Crosstab函數

在處理數據時,經常需要對數據分組計算均值或者計數,在Microsoft Excel中,可以通過透視表輕易實現簡單的分組運算。而對于更加復雜的分組計算,“Pandas”模塊中的“Crosstab”函數也能夠幫助我們實現。

例如我們想要計算不同年齡階段、不同性別的平均工資同時保留一位小數,代碼如下

pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc=’mean’).round(1)

Python Pandas模塊實現數據的統計分析的方法

當然我們還可以用該函數來制作一個更加復雜一點的透視表,例如下面的代碼

pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc=’mean’, margins=True).round(1)

Python Pandas模塊實現數據的統計分析的方法

三、Pivot_table函數

和上面的“Cross_tab”函數的功能相類似,對于數據透視表而言,由于它的靈活性高,可以隨意定制你的分析計算要求,而且操作性強,因此在實際的工作生活當中被廣泛使用,

例如下面的代碼,參數“margins”對應表格當中的“All”這一列

pd.pivot_table(data=marketing, index=[’Age’, ’Married’], columns=’Gender’, values=’Salary’, aggfunc=’mean’, margins=True).round(1)

Python Pandas模塊實現數據的統計分析的方法

四、Sidetable函數

“Sidetable”可以被理解為是“Pandas”模塊中的第三方的插件,它集合了制作透視表以及對數據集做統計分析等功能,讓我們來實際操作一下吧

首先我們要下載安裝這個“Sidetable”組件,

pip install sidetable五、Freq函數

首先介紹的是“Sidetable”插件當中的“Freq”函數,里面包含了離散值每個類型的數量,其中是有百分比形式來呈現以及數字的形式來呈現,還有離散值每個類型的累加總和的呈現,具體大家看下面的代碼和例子

import sidetablemarketing.stb.freq([’Age’])

Python Pandas模塊實現數據的統計分析的方法

“Age”這一列有三大類分別是“Middle”、“Young”以及“Old”的數據,例如我們看到表格當中的“Middle”這一列的數量有508個,占比有50.8%

marketing.stb.freq([’Age’], value=’AmountSpent’)

Python Pandas模塊實現數據的統計分析的方法

例如上面的代碼,顯示的則是比方說當“Age”是“Middle”的時候,也就是中年群體,“AmountSpent”的總和,也就是花費的總和是762859元

六、Missing函數

“Sidetable”函數當中的“Missing”方法顧名思義就是返回缺失值的數量以及百分比,例如下面的代碼,“History”這一列的缺失值占到了30.3%

marketing.stb.missing()

Python Pandas模塊實現數據的統計分析的方法

七、Counts函數

“Sidetable”函數當中的“counts”方法用來計算各個類型的離散值出現的數量,具體看下面的例子

marketing.stb.counts()

Python Pandas模塊實現數據的統計分析的方法

例如“Gender”這一列中,總共有兩個,也就是“unique”這一列所代表的值,其中“Female”占到的比重更大,有506個,而“Male”占到的比重更小一些,有494個

到此這篇關于Python Pandas模塊實現數據的統計分析的方法的文章就介紹到這了,更多相關Pandas模塊實現數據的統計分析內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 一色屋精品亚洲香蕉网站 | 日本人一级毛片视频 | 国模肉肉人体大尺度啪啪 | 欧美成人看片一区二区三区 | 老外一级毛片免费看 | 国产区一区二 | 亚洲精品区在线播放一区二区 | 欧美日韩ay在线观看 | aa日本| 美女一级ba大片免色野外 | 黄 色 成 年人网站 黄 色 免费网 站 成 人 | 欧美私人网站 | 黑色丝袜美美女被躁视频 | 免费视频久久看 | 日本一级特黄aa毛片免费观看 | 女高中生被cao到哭视频 | 欧美在线观看一区 | 手机看片免费基地 | 欧美一级看片 | 亚洲在线看 | 精品日本一区二区三区在线观看 | 国产精品久久久久亚洲 | 日本妞xxxxxxxxx69 | 中文字幕一区二区在线观看 | 男人天堂免费 | 国产亚洲一区二区在线观看 | 伊人久爱| 久久久久久久久久免费视频 | 亚洲精品自产拍在线观看 | 大片毛片女女女女女女女 | 波多野结衣免费视频观看 | 亚洲黄色三级网站 | 国产麻豆福利a v在线播放 | 大尺度福利视频奶水在线 | 亚洲aⅴ在线 | 中文字幕一区在线观看 | 国产欧美日韩精品第二区 | 久久综合九九 | 免费一级淫片aaa片毛片a级 | 国产一区二区免费不卡在线播放 | 草久视频在线 |