文章詳情頁

python缺失值的解決方法總結

瀏覽：17日期：2022-06-17 10:12:32

1、解決方法

（1）忽視元組。

缺少類別標簽時，通常這樣做(假設挖掘任務與分類有關)，除非元組有多個屬性缺失值，否則該方法不太有效。當個屬性缺值的百分比變化很大時，其性能特別差。

（2）人工填寫缺失值。

一般來說，這種方法需要很長時間，當數據集大且缺少很多值時，這種方法可能無法實現。

（3）使用全局常量填充缺失值。

將缺失的屬性值用同一常數(如Unknown或負無限)替換。如果缺失值都是用unknown替換的話，挖掘程序可能會認為形成有趣的概念。因為有同樣的價值unknown。因此，這種方法很簡單，但不可靠。

（4）使用與給定元組相同類型的所有樣本的屬性平均值。

（5）使用最可能的值填充缺失值。

可以通過回歸、使用貝葉斯形式化的基于推理的工具和決策樹的總結來決定。

2、實例

import numpy as np from sklearn.preprocessing import Imputer imp = Imputer(missing_values=’NaN’, strategy=’mean’, axis=0) import numpy as npfrom sklearn.preprocessing import Imputer ###1.使用均值填充缺失值imp = Imputer(missing_values=’NaN’, strategy=’mean’, axis=0)imp.fit([[1, 2], [np.nan, 3], [7, 6]]) X = [[np.nan, 2], [6, np.nan], [7, 6]]print(imp.transform(X)) [[4. 2.] [6. 3.66666667] [7. 6.]]

知識點擴充：

缺失值的處理方法

由于各種各樣的原因，真實世界中的許多數據集都包含缺失數據，這些數據經常被編碼成空格、nans或者是其他的占位符。但是這樣的數據集并不能被scikit - learn算法兼容，因為大多數的學習算法都會默認數組中的元素都是數值，因此素偶有的元素都有自己的代表意義。

使用不完整的數據集的一個基本策略就是舍棄掉整行或者整列包含缺失值的數值，但是這樣處理會浪費大量有價值的數據。下面是處理缺失值的常用方法：

1.忽略元組

當缺少類別標簽時通常這樣做（假定挖掘任務涉及分類時），除非元組有多個屬性缺失值，否則該方法不是很有效。當每個屬性缺少值的百分比變化很大時，它的性能特別差。

2.人工填寫缺失值

一般該方法很費時，并且當數據集很大，缺少很多值時，該方法可能行不通。

3.使用一個全局常量填充缺失值

將缺失的屬性值用同一個常數(如“Unknown”或負無窮)替換。如果缺失值都用“unknown”替換，則挖掘程序可能會認為它們形成一個有趣的概念，因為它們都具有相同的值“unknown”。因此，雖然該方法很簡單，但是它十分不可靠。

4.使用與給定元組屬同一類的所有樣本的屬性均值

例如：將顧客按照credit_risk分類，則使用具有相同信用度的給定元組的顧客的平均收入替換income中的缺失值。

Python客棧送紅包、紙質書

5.使用最可能的值填充缺失值

可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。例如，利用數據集中其他顧客的屬性，可以構造一顆決策樹來預測income的缺失值。

到此這篇關于python缺失值的解決方法總結的文章就介紹到這了,更多相關如何解決python缺失值內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：Python合并多張圖片成PDF下一條：Python激活Anaconda環境變量的詳細步驟

相關文章：

1. js select支持手動輸入功能實現代碼2. 如何在PHP中讀寫文件3. java加載屬性配置properties文件的方法4. PHP正則表達式函數preg_replace用法實例分析5. 什么是Python變量作用域6. 《Java程序員修煉之道》作者Ben Evans：保守的設計思想是Java的最大優勢7. CSS3中Transition屬性詳解以及示例分享8. php redis setnx分布式鎖簡單原理解析9. bootstrap select2 動態從后臺Ajax動態獲取數據的代碼10. vue使用moment如何將時間戳轉為標準日期時間格式

排行榜

					
					如何在PHP中讀寫文件
vue-drag-chart 拖動/縮放圖表組件的實例代碼
PHP正則表達式函數preg_replace用法實例分析
php redis setnx分布式鎖簡單原理解析
一個 2 年 Android 開發者的 18 條忠告
Spring @Primary和@Qualifier注解原理解析
Vue實現仿iPhone懸浮球的示例代碼
Spring Boot應用開發初探與實例講解
JS數據類型分類及常用判斷方法
關于docker部署的jenkins跑git上的程序的問題
PHP基礎之預定義接口3——IteratorAggregate接口