首页 > 解决方案 > 我正在尝试根据列('structure')组合列('cleaned_instruction')中的文本

问题描述

数据框

我正在尝试columb根据列(结构)对(cleaned_instruction)中的文本进行分组。例如,为、等cleaned_instruction组合在一起。Service BaySpillway

这是我已经能够做到的。但它并没有我想出现的那么有效。

#function for combining texts
def combine_text(list_of_text):
    combined_text = ' '.join(list_of_text)
    return combined_text

#converted dataframe to dictionary to combine
Data_combined = {key: [combine_text(value)] for (key, value) in Data.items()}
print(Data_combined)

#reconverted back into DF and sorted... 
data_df = pd.DataFrame.from_dict(Data_combined, orient='index',
                                columns=['Structure'])
data_df.columns = ['cleaned_instruction']
data_df = data_df.sort_index()
data_df

关于如何根据类别更好地将文本分组为一个的任何帮助?

标签: pythonnlp

解决方案


推荐阅读