audio - “模型逐帧生成视频”是什么意思?
问题描述
我正在阅读一篇论文,在描述它所说的模型的段落中,
该模型通过在音频序列上滑动 0.35 秒的窗口来逐帧生成视频。帧一次向前移动 1 帧(0.04 秒)。
该模型在给定两个输入的情况下生成说话人脸的视频:(1) 音频片段,(2) 目标身份的静止图像(正面爆头)。
引用的部分令人困惑。
例如,如果输入是 1.4 秒长的音频,模型会生成 4 帧的视频,对吧?
但是帧一次向前移动 1 帧,所以它是 0.16 秒长。
那么这意味着 1.4 秒长的音频变成了 0.16 秒长的视频。
我在哪里迷路了?
解决方案
我认为可能令人困惑的是视频的帧速率不一定会完全划分为视频时间。
例如,如果您有每秒 2 帧的帧速率和 10 秒长的视频,那么很明显它会在第 20 帧或最后一帧准确地在 10 秒处停止。
如果您的视频只有 9.45 秒长,那么视频会在最后一帧停止 - 在本例中为 9.30 秒。
推荐阅读
- javascript - 控制台日志使用的更好性能是什么
- java - 这是 Groovy 收集闭包缩写的用法吗?
- javascript - 如何在javascript中反转过滤器?
- reactjs - 自定义钩子如何与使用它们的组件相关?
- r - 在 R 中绘制和计算切线
- reactjs - 为什么我的 SVG 在 React Bootstrap 中不能垂直对齐?
- azure - 如何防止 Azure Function v3 多次加载相同的程序集?
- docker - docker 容器中的程序仅在从交互式会话运行时才会写入卷
- cocoa - 在 Swift 4.2 中解码百分比编码的字符串?
- swift - 是否可以从 PHAsset (PhotoKit) 加载 TextureResource (RealityKit) 而无需先将其写入应用程序文档目录?