首页 > 解决方案 > 基于图的 CNN 的数据准备(类似 Cora)

问题描述

我是基于图形的 CNN 的新手,因此尝试通过一个辅助项目来探索该区域,但要从信用流中准备一个数据集。我正在尝试复制在Cora Dataset中策划的数据集。

我准备了一个数据帧后预处理,它类似于数据集的 cora.content 部分,如下所示:

df的dict形式:

{'New Context': {'900': 'Settlements', '427': 'Settlements', '219': 'MFA', '1101': 'Settlements', '748': 'Settlements'}, 'SETTLEMENT DATE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CASH ACCOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'ISIN': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'TRADE DATE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'PRICE CFA': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SECURITY NAME': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CLEARING BIC': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SCA': {'900': 0, '427': 0, '219': 0, '1101': 1, '748': 0}, 'TRADE TYPE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CLIENT NAME': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'MARKET': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SAFEKEEP ACCOUNT': {'900': 1, '427': 1, '219': 0, '1101': 0, '748': 0}, 'PORTFOLIO ACCOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SETTLEMENT AMOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}}




    New Context SETTLEMENT DATE CASH ACCOUNT    ISIN    TRADE DATE  PRICE CFA   SECURITY NAME   CLEARING BIC    SCA TRADE TYPE  CLIENT NAME MARKET  SAFEKEEP ACCOUNT    PORTFOLIO ACCOUNT   SETTLEMENT AMOUNT
900 Settlements 0   0   0   0   0   0   0   0   0   0   0   1   0   0
427 Settlements 0   0   0   0   0   0   0   0   0   0   0   1   0   0
219 MFA         0   0   0   0   0   0   0   0   0   0   0   0   0   0

我想解决一个类似的问题,根据其他 14 列中具有二进制值的条目对“新上下文”进行分类。

为了准备数据的边缘集,我根据条目堆叠了数据框:

stacked = df.set_index('New Context').stack()
edges = stacked.index.tolist()
square_edges = pd.DataFrame(edges)
square_edges.columns =['source', 'target']

square_edges=

      source    target
0   Settlements SETTLEMENT DATE
1   Settlements CASH ACCOUNT
2   Settlements ISIN
3   Settlements TRADE DATE
4   Settlements PRICE CFA

cora.cites 准备了类似的数据,其中第一列标识被引论文,第二列标识引用它的论文。文件的前三行如下所示:

target  source
0   35  1033
1   35  103482
2   35  103515
3   35  1050679

我无法在逻辑上吸收这部分,这对 cora 数据集有意义,但是,为了解决我想要解决的类似问题,我走对了吗?我如何将我的“square_edges”转换为更多的“cora.cites”。

任何输入都受到高度赞赏。

标签: pythonpandasmachine-learninggraphconv-neural-network

解决方案


推荐阅读