python保存大型 .mat 數(shù)據(jù)文件報(bào)錯(cuò)超出 IO 限制的操作
python 保存 .mat 文件的大小是有限制的,似乎是 5G 以?xún)?nèi),如果需要保存幾十個(gè) G 的數(shù)據(jù)的話,可以選用其他方式,
比如 h5 文件import h5pydef h5_data_write(train_data, train_label, test_data, test_label, shuffled_flag): print('h5py文件正在寫(xiě)入磁盤(pán)...')save_path = '../save_test/' + 'train_test_split_data_label_' + shuffled_flag + '.h5' with h5py.File(save_path, ’w’) as f:f.create_dataset(’train_data’, data=train_data)f.create_dataset(’train_label’, data=train_label)f.create_dataset(’test_data’, data=test_data)f.create_dataset(’test_label’, data=test_label) print('h5py文件保存成功!')def h5_data_read(filename): '''keys() : 獲取本文件夾下所有的文件及文件夾的名字f[’key_name’] : 獲取對(duì)應(yīng)的對(duì)象 ''' file = h5py.File(filename,’r’) train_data = file[’train_data’][:] train_label = file[’train_label’][:] test_data = file[’test_data’][:] test_label = file[’test_label’][:] return train_data, train_label, test_data, test_label
補(bǔ)充:通過(guò)python 讀MATLAB數(shù)據(jù)文件 *.mat
背景在做deeplearning過(guò)程中,使用caffe的框架,一般使用matlab來(lái)處理圖片(matlab處理圖片相對(duì)簡(jiǎn)單,高效),用python來(lái)生成需要的lmdb文件以及做test產(chǎn)生結(jié)果。
所以某些matlab從圖片處理得到的label信息都會(huì)以.mat文件供python讀取,同時(shí)也python產(chǎn)生的結(jié)果信息也需要matlab來(lái)做進(jìn)一步的處理(當(dāng)然也可以使用txt,不嫌麻煩自己處理結(jié)構(gòu)信息)。
介紹matlab和python間的數(shù)據(jù)傳輸一般是基于matlab的文件格式.mat,python中numpy和scipy提供了一些函數(shù),可以很好的對(duì).mat文件的數(shù)據(jù)進(jìn)行讀寫(xiě)和處理。
在這里numpy作用是提供Array功能映射matlab里面的Matrix,而scipy提供了兩個(gè)函數(shù)loadmat和savemat來(lái)讀寫(xiě).mat文件。
下面是一個(gè)簡(jiǎn)單的測(cè)試程序具體的函數(shù)用法可以看幫助文檔:
import scipy.io as sio import matplotlib.pyplot as plt import numpy as np #matlab文件名 matfn=u’E:/python/測(cè)試程序/162250671_162251656_1244.mat’ data=sio.loadmat(matfn) plt.close(’all’) xi=data[’xi’] yi=data[’yi’] ui=data[’ui’] vi=data[’vi’] plt.figure(1) plt.quiver( xi[::5,::5],yi[::5,::5],ui[::5,::5],vi[::5,::5]) plt.figure(2) plt.contourf(xi,yi,ui) plt.show() sio.savemat(’saveddata.mat’, {’xi’: xi,’yi’: yi,’ui’: ui,’vi’: vi}) 示例2
import scipy.io as sioimport numpy as np ###下面是講解python怎么讀取.mat文件以及怎么處理得到的結(jié)果###load_fn = ’xxx.mat’load_data = sio.loadmat(load_fn)load_matrix = load_data[’matrix’] #假設(shè)文件中存有字符變量是matrix,例如matlab中save(load_fn, ’matrix’);當(dāng)然可以保存多個(gè)save(load_fn, ’matrix_x’, ’matrix_y’, ...);load_matrix_row = load_matrix[0] #取了當(dāng)時(shí)matlab中matrix的第一行,python中數(shù)組行排列 ###下面是講解python怎么保存.mat文件供matlab程序使用###save_fn = ’xxx.mat’save_array = np.array([1,2,3,4])sio.savemat(save_fn, {’array’: save_array}) #和上面的一樣,存在了array變量的第一行 save_array_x = np.array([1,2,3,4])save_array_y = np.array([5,6,7,8])sio.savemat(save_fn, {’array_x’: save_array_x, ’array_x’: save_array_x}) #同理,
鑒于以后的目標(biāo)主要是利用現(xiàn)有的Matlab數(shù)據(jù)(.mat或者.txt),主要考慮python導(dǎo)入Matlab數(shù)據(jù)的問(wèn)題。以下代碼可以解決python讀取.mat文件的問(wèn)題。
主要使用sicpy.io即可。sicpy.io提供了兩個(gè)函數(shù)loadmat和savemat,非常方便。
# adapted from http://blog.csdn.net/rumswell/article/details/8545087import scipy.io as sio #import matplotlib.pyplot as pltfrom pylab import *import numpy as np matfn=’E:Pythonrunmyusematdata.mat’ # the path of .mat datadata=sio.loadmat(matfn) xx=data[’matdata’]figure(1)plot(xx)show()以下代碼是讀入txt數(shù)據(jù)并轉(zhuǎn)換成數(shù)組,方法比較笨,更有效的方法待研究。
from numpy import * def file2list(filename): fr = open(filename) array = fr.readlines() #以文件中的每行為一個(gè)元素,形成一個(gè)list列表 num = len(array) returnMat = zeros((num,3))#初始化元素為0的,行號(hào)數(shù)個(gè)列表,其中每個(gè)元素仍是列表,元素?cái)?shù)是3,在此表示矩陣 index = 0for line in array: line = line.strip()#去掉一行后的回車(chē)符號(hào) linelist = line.split(’ ’)#將一行根據(jù)分割符,劃分成多個(gè)元素的列表 returnMat[index,:] = linelist[0:3]#向矩陣賦值,注意這種賦值方式比較笨拙 index +=1 return returnMat fname = ’E:Pythonrunmyusenum_data.txt’data= file2list(fname)
補(bǔ)充:Python 讀寫(xiě) Matlab Mat 格式數(shù)據(jù)
1. 非 matlab v7.3 files 讀寫(xiě)import scipy.io as sioimport numpy# matFile 讀取matFile = ’matlabdata.mat’datas = sio.loadmat(matFile)# 加載 matFile 內(nèi)的數(shù)據(jù)# 假設(shè) mat 內(nèi)保存的變量為 matlabdatamatlabdata = datas[’matlabdata’]# matFile 寫(xiě)入save_matFile = ’save_matlabdata.mat’save_matlabdata = np.array([1,2,3,4,5])sio.savemat(save_matFile, {’array’:save_matlabdata})2. matlab v7.3 files 讀取
如果 matlab 保存 data 時(shí),采用的是 ‘-v7.3’,scipy.io.loadmat函數(shù)加載數(shù)據(jù)會(huì)出現(xiàn)錯(cuò)誤:
File '/usr/local/lib/python2.7/dist-packages/scipy/io/matlab/mio.py', line 64, in mat_reader_factory raise NotImplementedError(’Please use HDF reader for matlab v7.3 files’)NotImplementedError: Please use HDF reader for matlab v7.3 files
可以采用:
import h5pywith h5py.File(’matlabdata.mat’, ’r’) as f: f.keys() # matlabdata.mat 中的變量名datas = h5py.File(’matlabdata.mat’)[’matlabdata’].value
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章:
1. 前端從瀏覽器的渲染到性能優(yōu)化2. 讀大數(shù)據(jù)量的XML文件的讀取問(wèn)題3. 解析原生JS getComputedStyle4. css代碼優(yōu)化的12個(gè)技巧5. PHP循環(huán)與分支知識(shí)點(diǎn)梳理6. ASP基礎(chǔ)入門(mén)第三篇(ASP腳本基礎(chǔ))7. 無(wú)線標(biāo)記語(yǔ)言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁(yè)8. ASP刪除img標(biāo)簽的style屬性只保留src的正則函數(shù)9. 利用CSS3新特性創(chuàng)建透明邊框三角10. ASP實(shí)現(xiàn)加法驗(yàn)證碼
