文章詳情頁

python讀取hdfs并返回dataframe教程

瀏覽：4日期：2022-07-22 15:11:05

不多說，直接上代碼

from hdfs import Clientimport pandas as pd HDFSHOST = 'http://xxx:50070'FILENAME = '/tmp/preprocess/part-00000' #hdfs文件路徑COLUMNNAMES = [xx’] def readHDFS():’’’讀取hdfs文件 Returns：df:dataframe hdfs數據’’’client = Client(HDFSHOST)# 目前讀取hdfs文件采用方式：# 1. 先從hdfs讀取二進制數據流文件# 2. 將二進制文件另存為.csv# 3. 使用pandas讀取csv文件with client.read(FILENAME) as fs:content = fs.read()s = str(content, ’utf-8’)file = open('data/tmp/data.csv', 'w')file.write(s)df = pd.read_csv('data/tmp/data.csv', names=COLUMNNAMES)return df

補充知識：Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV

1. 目標

通過hadoop hive或spark等數據計算框架完成數據清洗后的數據在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’)#hdfs地址res=client.open(’/sy.txt’)#hdfs文件路徑,根目錄/for r in res: line=str(r,encoding=’utf8’)#open后是二進制,str()轉換為字符串并轉碼 print(line)

寫文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’,user_name=’hadoop’)#只有hadoop用戶擁有寫權限str=’hello world’client.create(’/py.txt’,str)#創建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)client.copy_from_local(’d:/pydemo.txt’, ’/pydemo’)#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)inputfile=client.open(’/int.txt’)# pandas調用讀取方法read_tableimport pandas as pddf=pd.read_table(inputfile,encoding=’gbk’,sep=’,’)#參數為源文件,編碼,分隔符# 數據集to_csv方法轉換為csvdf.to_csv(’demo.csv’,encoding=’gbk’,index=None)#參數為目標文件,編碼,是否要索引

以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：完美解決python針對hdfs上傳和下載的問題下一條：python pymysql鏈接數據庫查詢結果轉為Dataframe實例

相關文章：

1. 前端從瀏覽器的渲染到性能優化2. ASP實現加法驗證碼3. 利用CSS3新特性創建透明邊框三角4. 讀大數據量的XML文件的讀取問題5. 解析原生JS getComputedStyle6. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁7. css代碼優化的12個技巧8. ASP刪除img標簽的style屬性只保留src的正則函數9. ASP基礎入門第三篇(ASP腳本基礎)10. PHP循環與分支知識點梳理

排行榜

					
					基于SpringBoot bootstrap.yml配置未生效的解決
IntelliJ IDEA導出項目的方法
IntelliJ IDEA導入jar包的方法
idea設置自動導入依賴的方法步驟
django從后臺返回html代碼的實例
IntelliJ IDEA導入項目的方法
Docker容器如何更新打包并上傳到阿里云
ASP.NET MVC使用異步Action的方法
Vue如何提升首屏加載速度實例解析
Java JUC中操作List安全類的集合案例
利用CSS3新特性創建透明邊框三角