Python读取HTML表格
数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错。
xlrd报错:
xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'
读取xlrd的脚本
data_lines = read_excel_file(self.file_path) def read_excel_file(file_path): """ 读取excel文件 """ import xlrd print('[Info] excel file: {}'.format(file_path)) book = xlrd.open_workbook(file_path) sheet = book.sheet_by_index(0) data_lines = [] for row in range(0, sheet.nrows): line_data = [] for column in range(0, sheet.ncols): val = sheet.cell(row, column).value line_data.append(val) data_lines.append(line_data) return data_lines # 二维数组原因是文件格式是HTML表格,参考 python xlrd unsupported format, or corrupt file.
使用pandas的read_html读取文件,同时替换nan为空字符,数据格式保持一致。
def read_html_table(file_path): ? ? """ ? ? 读取html表格 ? ? """ ? ? import pandas as pd ? ? pd_table = pd.read_html(file_path) ? ? df = pd_table[0] ? ? # num_col = df.shape[1] ? ? # num_row = df.shape[0] ? ? df_data = df.values.tolist() ? ? df_data = df_data[1:] ? ? for r_idx, row in enumerate(df_data): ? ? ? ? for c_idx, value in enumerate(row): ? ? ? ? ? ? # 判断nan,参考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values ? ? ? ? ? ? if value != value: ? ? ? ? ? ? ? ? df_data[r_idx][c_idx] = "" ? ? return df_data读取问题解决。
pd.read_html读取数据不完整问题
问题:有一个较大的表格数据存在了html中,打算用read_html直接取出来这部分数据,但后来发现read_html读取的数据不完整,后来检查html的table都没有任何问题
解决办法
pd.read_html的默认解析器为 'lxml' ,添加参数flavor='bs4'便可解决
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。
查看更多关于Python实现读取HTML表格 pd.read_html()的详细内容...
声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://haodehen.cn/did15851