python - 基于图的 CNN 的数据准备(类似 Cora)
问题描述
我是基于图形的 CNN 的新手,因此尝试通过一个辅助项目来探索该区域,但要从信用流中准备一个数据集。我正在尝试复制在Cora Dataset中策划的数据集。
我准备了一个数据帧后预处理,它类似于数据集的 cora.content 部分,如下所示:
df的dict形式:
{'New Context': {'900': 'Settlements', '427': 'Settlements', '219': 'MFA', '1101': 'Settlements', '748': 'Settlements'}, 'SETTLEMENT DATE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CASH ACCOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'ISIN': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'TRADE DATE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'PRICE CFA': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SECURITY NAME': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CLEARING BIC': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SCA': {'900': 0, '427': 0, '219': 0, '1101': 1, '748': 0}, 'TRADE TYPE': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'CLIENT NAME': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'MARKET': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SAFEKEEP ACCOUNT': {'900': 1, '427': 1, '219': 0, '1101': 0, '748': 0}, 'PORTFOLIO ACCOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}, 'SETTLEMENT AMOUNT': {'900': 0, '427': 0, '219': 0, '1101': 0, '748': 0}}
New Context SETTLEMENT DATE CASH ACCOUNT ISIN TRADE DATE PRICE CFA SECURITY NAME CLEARING BIC SCA TRADE TYPE CLIENT NAME MARKET SAFEKEEP ACCOUNT PORTFOLIO ACCOUNT SETTLEMENT AMOUNT
900 Settlements 0 0 0 0 0 0 0 0 0 0 0 1 0 0
427 Settlements 0 0 0 0 0 0 0 0 0 0 0 1 0 0
219 MFA 0 0 0 0 0 0 0 0 0 0 0 0 0 0
我想解决一个类似的问题,根据其他 14 列中具有二进制值的条目对“新上下文”进行分类。
为了准备数据的边缘集,我根据条目堆叠了数据框:
stacked = df.set_index('New Context').stack()
edges = stacked.index.tolist()
square_edges = pd.DataFrame(edges)
square_edges.columns =['source', 'target']
square_edges=
source target
0 Settlements SETTLEMENT DATE
1 Settlements CASH ACCOUNT
2 Settlements ISIN
3 Settlements TRADE DATE
4 Settlements PRICE CFA
cora.cites 准备了类似的数据,其中第一列标识被引论文,第二列标识引用它的论文。文件的前三行如下所示:
target source
0 35 1033
1 35 103482
2 35 103515
3 35 1050679
我无法在逻辑上吸收这部分,这对 cora 数据集有意义,但是,为了解决我想要解决的类似问题,我走对了吗?我如何将我的“square_edges”转换为更多的“cora.cites”。
任何输入都受到高度赞赏。
解决方案
推荐阅读
- r - 如何用方括号准备正确的 json 字符串?
- regex - Elasticsearch 查询以匹配模式并将其替换为正则表达式
- javascript - Puppeteer `waitForNavigation` 总是返回超时
- python - Python从网站上的按钮下载文件
- vue.js - Vue-social-auth 无法在 Messenger 和 Facebook 浏览器上运行
- r - 使用 brms 包中序数回归模型的后验平均值绘制条件(边际)效应
- javascript - 如何在 javascript 中获取 JSON 数据的某些部分
- java - 有没有办法改变 Java Canvas GUI 的油漆颜色?
- python - 我的神经网络出错了,我不知道为什么
- c - 代码运行良好,但我是初学者,出于好奇,我想让它对用户更友好......如何让它对用户更友好?