首页 > 解决方案 > AWS Polly - 突出显示特殊字符

问题描述

我正在使用 AWS Polly 服务进行文本转语音。但是如果文本包含一些特殊字符,它会返回错误的开始和结束数字。

例如,如果文本是:“Böylelikle”,则返回:{“time”:6,“type”:“word”,“start”:0,“end”:11,“value”:“Böylelikle”}

但它应该从 0 开始,到 10 结束。

我搜索了 AWS 文档,他们说的是开始值和结束值,字节偏移量不是字符。

我的问题是如何将此字节值转换为字符。

我的代码是:

builder.continueOnSuccessWith { (awsTask: AWSTask<NSURL>) -> Any? in
    if builder.error == nil {
        if let url = awsTask.result {
            do {
                let txtData = try Data(contentsOf: url as URL)
                if let txtString = String(data: txtData, encoding: .utf8) {
                    let lines = txtString.components(separatedBy: .newlines)
                    for line in lines {
                        let jsonData = Data(line.utf8)
                        let pollyVoiceSentence = try JSONDecoder().decode(PollyVoiceSentence.self, from: jsonData)
                        voiceSentences.append(pollyVoiceSentence)
                    }
                }
            } catch {
                print("Could not parse TXT file")
            }
        }
    } else {
        print("ParseJSON: \(builder.error!)")
    }
    completionHandler(voiceSentences)
    return nil
}

并突出显示单词:

let start = pollyVoiceSentence.start
var end = pollyVoiceSentence.end
let voiceRange = NSRange(location: start, length: end - start)

print("RANGE: \(voiceRange) - Word: \(pollyVoiceSentence.value)")

谢谢。

标签: swiftstringamazon-web-servicescharacter-encodingamazon-polly

解决方案


看起来他们正在为您String.utf8.count提供这个词。Swift 支持 Unicode,并非所有字符都可以在 UTF8 中表示。

您可以在此处阅读官方文档 - 字符串和字符

那里有很多有用的细节。我想为您的用例强调以下内容 - 在此处输入图像描述

这也是它如何查找您的输入 - 在此处输入图像描述

在你的情况下你可以做的是 -

  1. PollyVoiceSentence以今天的方式解码。
  2. 创建一个扩展PollyVoiceSentence来解决这个字符计数问题。
  3. 迭代/考虑句子中的所有单词,因为每个先前单词的字符数现在影响所有后续单词的开始。
  4. 而且你不能相信 json 提供的start& end,因为它显然不适合 Swift 的 String API。

推荐阅读