python - Azure 转录 json 到 pandas df
问题描述
我正在尝试将 Azure 语音的输出转换为文本转录服务 (json) 到 pd 数据帧。
下面是获取到的json示例:
{
"source": "https://batchtranscriptionstore1.blob.core.windows.net/recordings/20210221-1022043b576ef4.wav?fakecredentials123456789",
"timestamp": "2020-06-16T09:30:21Z",
"durationInTicks": 41200000,
"duration": "PT4.12S",
"combinedRecognizedPhrases": [
{
"channel": 0,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world."
}
],
"recognizedPhrases": [
{
"recognitionStatus": "Success",
"speaker": 1,
"channel": 0,
"offset": "PT0.07S",
"duration": "PT1.59S",
"offsetInTicks": 700000,
"durationInTicks": 15900000,
"nBest": [
{
"confidence": 0.898652852,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world.",
"words": [
{
"word": "hello",
"offset": "PT0.09S",
"duration": "PT0.48S",
"offsetInTicks": 900000,
"durationInTicks": 4800000,
"confidence": 0.987572
},
{
"word": "world",
"offset": "PT0.59S",
"duration": "PT0.16S",
"offsetInTicks": 5900000,
"durationInTicks": 1600000,
"confidence": 0.906032
}
]
}
]
}
]
}
使用下面的代码,我设法用以下列制作了一个 df:source
, timestamp
, durationInTicks
, duration
,combinedRecognizedPhrases
with open('file.json') as json_data:
data = json.load(json_data)
ll = pd.DataFrame(dict(list(data.items())[0:5]))
但我还需要单独列中的“combinedRecognizedPhrases”的各个值。我怎样才能做到这一点?
解决方案
推荐阅读
- java - RabbitTemplate 没有在旧项目中使用旧 Spring 自动装配
- git - 尽管某些文件已经提交,但是否有任何 git 命令可以让我在提交中获取所有文件(如“快照商店”)?
- excel - 生成 1:N 序列数组
- java - 多维数组,用数字填充矩阵
- python - 如何在 Django 模型中的 ForeignKey 字段上创建过滤器?
- r - 在 ggplot2 geom_text 中以颜色呈现 unicode 表情符号
- machine-learning - YOLO 如果一个网格单元包含一个对象
- mysql - 选择具有累积总和的两个日期之间的日期和值
- c - 搞砸了循环找不到逻辑错误
- reactjs - 我可以像组件一样导入 png/jpg 图像吗?反应.js