Python实现读取HTML表格 pd.read_html()

目录 Python读取HTML表格 pd.read_html读取数据不完整问题解决办法

Python读取HTML表格

数据部门提供的数据是xls格式的文件，但是执行读取xls文件的脚本报错。

xlrd报错：

xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'

读取xlrd的脚本
data_lines = read_excel_file(self.file_path)

def read_excel_file(file_path):
    """
    读取excel文件
    """
    import xlrd
    print('[Info] excel file: {}'.format(file_path))
    book = xlrd.open_workbook(file_path)
    sheet = book.sheet_by_index(0)
    data_lines = []
    for row in range(0, sheet.nrows):
        line_data = []
        for column in range(0, sheet.ncols):
            val = sheet.cell(row, column).value
            line_data.append(val)
        data_lines.append(line_data)
    return data_lines  # 二维数组
原因是文件格式是HTML表格，参考 python xlrd unsupported format, or corrupt file.

使用pandas的read_html读取文件，同时替换nan为空字符，数据格式保持一致。
def read_html_table(file_path):
? ? """
? ? 读取html表格
? ? """
? ? import pandas as pd
? ? pd_table = pd.read_html(file_path)
? ? df = pd_table[0]
? ? # num_col = df.shape[1]
? ? # num_row = df.shape[0]
? ? df_data = df.values.tolist()
? ? df_data = df_data[1:]
? ? for r_idx, row in enumerate(df_data):
? ? ? ? for c_idx, value in enumerate(row):
? ? ? ? ? ? # 判断nan，参考https://stackoverflow测试数据/questions/944700/how-can-i-check-for-nan-values
? ? ? ? ? ? if value != value:
? ? ? ? ? ? ? ? df_data[r_idx][c_idx] = ""
? ? return df_data
读取问题解决。

pd.read_html读取数据不完整问题
问题：有一个较大的表格数据存在了html中，打算用read_html直接取出来这部分数据，但后来发现read_html读取的数据不完整，后来检查html的table都没有任何问题

解决办法
pd.read_html的默认解析器为 'lxml' ，添加参数flavor='bs4'便可解决

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

查看更多关于Python实现读取HTML表格 pd.read_html()的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did15851

更新时间：2022-09-13 阅读：80次