rust - 使用 rust 从网站上抓取由混淆的 JS 代码生成的数据
问题描述
我正在使用 rust 工具刮网站:用于学习目的的刮板,并计划将其导出到带有neon-bindings的节点模块。
当我抓取网站上加载的图像 url 列表时,我注意到脚本标签中有一个“打包”功能
eval(function(p, a, c, k, e, d) {
...
}(...))
从这个答案我了解到这是一个解压缩混淆 JS 代码的函数。
所以我使用这个工具来解压代码,我得到了这个:
var newImgs = [
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/1_8773.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/2_2594.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/3_9540.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/4_1324.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/5_1520.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/6_3015.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/7_6748.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/8_4063.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/9_1616.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/10_2885.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/11_6712.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/12_4984.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/13_5132.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/14_4691.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1',
'http://manhua1034-104-250-139-219.cdnmanhua.net/1/432/1039483/15_9655.jpg?cid=1039483&key=d4366ee77be6255eeba85878cf442bbe&type=1'
]
其中包含我想要的数据,但我不知道如何让它生锈。
有什么方法可以从 rust 中的混淆 JS 代码中获取数据吗?
我计划进行网页抓取的页面:http: //m.dm5.com/m1039483/
解决方案
推荐阅读
- redux - reduxForm - FieldsArray:fields.push({}) 不工作
- php - 使用 echo 创建 amp-html 代码时无法找到 PHP 语法错误
- flash - 如何将一些脚本添加到现有的 swf 文件中?
- angular - 如何切换到从一个组件?
- python - Flask 未更新网页以反映 application.py 中的更改
- python - 我可以添加 ArgumentParser 来解析子命令吗?
- python - python numpy数组,满足条件的子数组问题
- c# - 石英玉米调度程序在周末 C# 失败
- dart - 在颤动中更改标签栏的背景颜色
- c++ - 具有空初始化的对象的生命周期