swift - URLSession 返回脚本元素仍然是字符串编码和转义
问题描述
我正在使用URLRequest
和向 Youtube 提出以下请求URLSession
。大多数响应看起来都很好,但是我发现一些正在返回的脚本元素具有似乎是转义{ } [ ] = ' "
的编码字符,例如\\x7b \\x7d \\x5b \\x5d \\x22 \\x3d \\x27
let url = URL(string: "https://www.youtube.com/channel/UCPHWVzGcW-iozudjp8U984g/")
guard let requestUrl = url else { fatalError() }
var request = URLRequest(url: requestUrl)
request.httpMethod = "GET"
let task = URLSession.shared.dataTask(with: request) { [self] (data, response, error) in
if let error = error {
print("Error took place \(error)")
}
if let data = data, let dataString = String(data: data, encoding: .utf8) {
print("Response data string:\n \(dataString)")
}
}
task.resume()
我已经使用 Java 完成了这个请求,okhttp3
我没有看到这些脚本元素中留下任何编码,而且在多个浏览器中进行源代码检查似乎也很好。
我试图通过使用 replaceOccurrences 来删除它们,但由于某种原因 JSON 仍然格式不正确,所以我必须遗漏一些其他奇怪的编码被返回。有没有内置的方法来删除这种编码,或者URLSession
不让它编码?
这是一个示例:
<script nonce=\"koFDr1miSKW8U9aJTnGQVw\">var ytInitialData = \'\\x7b\\x22responseContext\\x22:\\x7b\\x22serviceTrackingParams\\x22:\\x5b\\x7b\\x22service\\x22:\\x22GFEEDBACK\\x22,\\x22params\\x22:\\x5b\\x7b\\x22key\\x22:\\x22browse_id\\x22,\\x22value\\x22:\\x22UCPHWVzGcW-iozudjp8U984g\\x22\\x7d,\\x7b\\x22key\\x22:\\x22logged_in\\x22,\\x22value\\x22:\\x220\\x22\\x7d,\\x7b\\x22key\\x22:\\x22e\\x22,\\x22value\\x22:\\x2224022617,24023962,24014268,24022308,23968386,24022875,24025790,24025869,23857948,24006666,24022914,23923339,23976696,23983296,23944779,23744176,23990877,24021968,24021668,23966208,24011119,23891346,24006795,24023271,24001373,23934970,23987676,23897180,23891344,23804281,23974595,24016478,24007246,24012654,24024964,1714255,24002010,23946420,23997485,23884386,24019883,23882502,23918597,24012117,23969934,24014440\\x22\\x7d\\x5d\\x7d,\\x7b\\x22service\\x22:\\x22CSI\\x22,\\x22params\\x22:\\x5b\\x7b\\x22key\\x22:\\x22c\\x22,\\x22value\\x22:\\x22MWEB\\x22\\x7d,\\x7b\\x22key\\x22:\\x22cver\\x22,\\x22value\\x22:\\x222.20210406.03.00\\x22\\x7d,\\x7b\\x22key\\x22:\\x22yt_li\\x22,\\x2"..
解决方案
在进一步检查响应时,我意识到当我向www.youtube.com发出请求时,我收到了来自 m.youtube.com 的响应,我通过添加以下内容将我的用户代理字段更改为桌面 Mozilla 字符串
request.setValue("Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0", forHTTPHeaderField:"user-agent")
我的大部分编码问题都已解决,现在我收到了所有引号字符的 " html 编码。我继续用 " using replaceOccurrences 替换所有这些,并且 JSON 现在具有有效格式。