首页 > 技术文章 > notes of inforsec2019

lyeeer 2019-07-16 20:40 原文

 


inforsec2019夏令营在东南大学九龙湖校区举办,时间是7.15-7.16,然后是提前一天报道。

主要是提供一个老师与学生交流的平台,知道有哪些行业大佬正在做什么研究工作,主要还是面向本科生将来读研可以选择感兴趣的学校和导师。主要介绍的内容包括CTF和AI安全,对于我这种老阿姨而言就是...看看人家再看看自己,然后......

大概记录了一些听汇报记的简要笔记,有一些跟我的研究方向不相关的就没有记录啦。专有名词都理不顺啦~


20190715

AM

王若愚:为何自动化漏洞挖掘如此困难

亚利桑那州立大学助理教授/angr创始人之一/专攻逆向题

主要讨论的目标是二进制程序(编译后的可执行文件,没有源码,没有调试符号)

为什么要挖掘漏洞?以CVE-2014-1266-Apple "golo fail"如果出现这个问题,无法做验证

什么是fuzzing?生成很多测试示例给测试程序,检测数据覆盖,覆盖尽可能多的程序状态,尽早触发问题。高效率的输入变异/低开销的反馈,由程序覆盖率作为指引。

为什么这么困难?很难在一定的时间内找到程序的边界,考虑到所有可能的数据

如何挖掘漏洞?人工/手动;fuzzing;符号执行(慢);静态分析

fuzzing 的适用条件?目标程序的执行速度接近于本地执行的速度(同指令集或JIT往往是必要的);高质量的种子输入;速度极快的反馈机制

符号执行的优点?模拟执行;符号求解

为什么符号执行慢?大多数情况下不能做本地执行,只能用模拟执行在模拟器中;约束求解;设计

学术研究的价值?对AFL,如性能提升(用符号执行增强;进一步提升符号执行和fuzzing结合的效果;无需符号执行)、增加适用的效果(增加到文件系统)。对符号执行的提升(angr,提升分析速度/质量,利用更多的信息,增加可分析的目标)

讨论了一种提升漏洞挖掘效率的方法:将自动程序分析的结果、抽象信息及人类提供的先验知识有机结合来提高效率。

郭山清:实用密码技术应用初探

软件/协议的漏洞挖掘,密码科学

张源:面向科研的CTF人才培养

鲁辉:方班CTF战队建设与王安人才培养模式探索


PM

主要是一些CTF国内优秀选手们关于CTF的介绍,比如清华蓝莲花战队等。DEFCON比赛/CTF time多刷题,什么时候开始都不算晚.......(but越早开始越好:D)

CTF题是安全技术的浓缩和提炼/CTF是会上瘾的游戏/CTF注重实际操作/不需要花很多时间在平台的搭建上,在docker上部署就可以用/CTF不断进步变化/以最新的技术和研究成果作为研究为背景,作为研究问题

如何选择CTF?参加符合自身技术水平的CTF/按照命题人来选择(选择水平更高的命题人,这样题会更有意义,不用注重是什么级别的比赛)/越打越难

竞赛的反馈非常快,所以做长期的科研会比较不习惯。

扎实的基本功(搜索/代码和文档的快速阅读/逆向工程,没有源码的情况下/脆弱点和问题的挖掘和利用,如fuzzing等/正向开发/沟通能力)

什么叫高质量的赛题?考察点对于大多数选手来说都足够陌生和有趣,通过出题人引导让选手学到出题人想分享出来的知识。考点杂/覆盖面广/具有挑战性,从传统的二进制/WEB安全到较新的物联网安全、区块链安全等


0716

AM

纪守领:AI‘s Security and AI2Security

TextBugger:图像领域可以加入噪声形成对抗样本,文本领域是否也可以加入?文本相对于图像是更高维的,生成对抗性文本。对这句话分出每个词的重要性(word2vec,语义贡献度);从贡献度由高到低改每一个词,看语义会不会影响(有十几个规则,0-O等);把词插回去,再进行分类

情感分析(攻击使postive与negative互相转换);有害内容检测

用对抗性文本去攻击现有的NLP系统。发现对抗性文本对于语义的影响很大,如人看起来是positive,但是机器看起来要是negative的。对抗性文本的可迁移性。

defence策略:spelling check;adversarial training

(除了情感分析是否还可以做别的,NLP是把内容变为embedding输入,通过改变几个embedding 的内容,是否可以直接改变语义,比如把熊猫通过embedding输入的内容改成大象。)

model reuse defence:很多模型都是再别人基本的开源网络上面进行修改,在model层面加上一些噪声,更改上面的一些参数。然后开源放出去,做一些定向攻击。攻击预训练好的模型

找到哪些参数对于这个目标是最有效的,然后更改这些参数,保留其他的参数。要确保别的工作仍然起作用。

深度模型参数过多,使攻击可能增大

DeepSec

攻击:16种典型攻击;防御:13种典型防御;15种评估方法

APT:与阿里合作,在电商领域,关注黑产市场。

线下算法:使用淘宝的全量数据来检测属于欺诈行为,graph-based

在线算法:实时算法,欺诈用户和真正用户的行为轨迹是有区别的

商品价格(经济学角度分析可以达到利益最大化);哪个地区的欺诈行为更多;性别分布

CATS:不基于阿里的数据,使用外部的数据集。实现跨平台,看哪个平台的欺诈行为会更多。

AI-aided Fuzzing:软件测试

SmartSeed(把gan应用到fuzzing上);V-Fuzz(程序很大,对重点使用更多Fuzz的时间和次数,基于图神经网络看哪个地方有漏洞概率更高);MOPT:learning-based,AFL使用随机均匀分布,但是随机均匀分布肯定不是最优的,选用适用自己的编译策略。基于粒子群的算法,使用到了统计知识又更简单/前期比较高效,后期时间比较长,单位时间内在这个stage找到多少,低于某个阈值就让它直接进入下一个stage。只是提供一个策略,集成到现有的模糊测试工具。统计学上分析了结果的可解释性。&很多fuzzing工具跑到后几天就效果不好,这个模型可以连续运行很多天。

在fuzzing用AI模型,是不是非常影响效率?fuzzing的本质是大量的测试用例,效率是非常重要的。cover更多的branch,模型的本质要求是在有效保证效率的时候使用更多的知识(只是用一段时间统计数据,反馈给模型)。把AI模型对于fuzzing没有用的部分去掉,不能用所有的AI模型,这样效率太低了。

邹德清:从源代码漏洞挖掘谈有价值研究

通过智能的方式把漏洞的原理和特性挖掘出来

无法定位到指令一级,只能定位到函数级。API相关漏洞/指令漏洞,只有这些送到机器学习中去学才能够实现区分。

SySeVR:程序的候选区域是哪里,借鉴计算机视觉领域中的图像识别

与传统的漏洞分类方式不一样。库/API函数相关;算术表达式;数组使用;指针使用。因为和传统的漏洞定义方式不同,所有的漏洞定义/训练数据都需要自己准备

VulDeePacker:只能判断代码段有没有漏洞

===>引入code attention:判断漏洞的类型

===>VulDeeLocator:利用中间代码进一步凝练,定位到最关键的漏洞代码行,进行细粒度漏洞检测。

并发漏洞检测:

与一般程序错误相比(更难触发,程序执行过程中有几率发生;更难重现)

软件源代码安全审查公共服务平台;安全可控的电力信息基础设施风险评估;车联网安全;利用动态污点跟踪挖掘二进制程序漏洞

张殷乾:A New Era of Computer Security Research

首先介绍了安全领域四大顶会的介绍/收稿/new submission model

然后在中美关系紧张的现在,对于研究者有什么样的影响

安全研究的规则:什么样的问题容易被认可&接受,新的安全问题(新的安全攻击方法;新的threat model)/新的平台和环境/新的研究方法,现有问题&方法只是提高效率不同意被接受

threat model:一切系统或者协议的安全设计和实现都是基于特定的假设的。

CISPA张阳:机器学习模型的隐私风险

Membership privacy

Data Reconstruction,Online Learning:算力很强,收集很多数据。但一直在产生新的数据,不断传上去,用新的数据更新模型。attack surface

autoencoder/Single sample reconstruction/Multi-sample label estimation/Multi-sample reconstruction,重构一堆图片,gan,每一个点都要确保gan可以学出来,condition gan,不是以往的随机的结果

Online learning constitutes a valid attack surface

Four attacks ranging from label inference to reconstruction

First of its kind data reconstrution

Online learning setting,but may generalize to other

给一个黑盒的ML模型,如何把数据集全部重建?

德国不需要托福&gre


PM

段海新:DNS Security

importance of DNS

punycode的编码方式:unicode钓鱼攻击

Homographic IDNs,现在有了新的域名,比如加入emoji

How DNS works?基于UDP的查询,递归解析服务器。

DNS设计漏洞:幽灵漏洞。测量了递归服务器,94%会受到影响。Ghost Domains

DNS Root

关于互联网协议和标准的思考

互联网的协议标准通常并非起源于一个设计蓝图,而是最佳实践的总结文档;

协议的设计、描述、实现中有许多问题(定义有不完备的地方、开发者对协议理解的不一致、不同时期的设备,实现的不同版本的协议)

没有机构验证协议实现是否与标准相符

段老师压轴救场,讲了他教授的DNS相关内容课程的一小部分,四舍五入上了一节清华的课~

推荐阅读