首页 > 解决方案 > 使用python选择Excel文件中的行

问题描述

我有一个 Excel 文件,我想从中选择行集并为每个选择创建一个带有工作表的新文件。选择将基于 A 列中单元格的某些值。到目前为止,我已经编写了一个代码,它为我提供了一个包含单元格的元组列表,这些单元格将用于设置我想要选择的行。是这样的:

[(<Cell 'CELL'.A1>, <Cell 'CELL'.A18>), (<Cell 'CELL'.A18>, <Cell 'CELL'.A33>), (<Cell 'CELL'.A33>, <Cell 'CELL'.A46>)]

我尝试过这样的事情:

df_init = pd.read_excel(excel_file)
print(df_init)
for i in tuple_list:
    wb = Workbook()
    ws = wb.active
    print(i[0])
    df_init=df_init[df_init['ColumnName'].between(i[1],i[0], inclusive=False)]

但是虽然它给了我一个结果,但我得到的数据框是空的。任何人都可以帮忙吗?

标签: pythonpandasrowsopenpyxl

解决方案


由于 pandas 无法在我最后加载 excel 模块,因此使用openpyxl代替。只需替换.column_letter,.column.row使用pandas提供的内容即可。

我的策略是从给定的单元格范围中获取行、列,您可以简单地使用切片来提取单元格。

from openpyxl import load_workbook

work_book = load_workbook("source.xlsx")
work_sheet = work_book.active

select_range = [
    (work_sheet['A'][1], work_sheet['A'][3]),
    (work_sheet['B'][2], work_sheet['B'][3])
]  # simulation of OP's range tuple

print(f"Will extract data in range: {select_range}\n")

for start_cell, end_cell in select_range:
    # slice from cells in work_sheet at start_cell's column.
    data = work_sheet[start_cell.column_letter][start_cell.row - 1:end_cell.row]

    # Do some data manipulation, saving etc. Just printing out result here.
    print(f"Data: {data}")

输出:

Will extract data in range: [(<Cell 'Sheet1'.A2>, <Cell 'Sheet1'.A4>), (<Cell 'Sheet1'.B3>, <Cell 'Sheet1'.B4>)]

Data: (<Cell 'Sheet1'.A2>, <Cell 'Sheet1'.A3>, <Cell 'Sheet1'.A4>)
Data: (<Cell 'Sheet1'.B3>, <Cell 'Sheet1'.B4>)

推荐阅读