第四十八期方班学术研讨厅以线上形式成功举办

当前位置：首页 > > 第四十八期方班学术研讨厅以线上形式成功举办

第四十八期方班学术研讨厅以线上形式成功举办

发表于：2021-06-01 10:51 作者：方滨兴班阅读数（3847人）

2020年12月5日，第四十八期方班学术研讨厅在线上成功举办。广州大学网络空间先进技术研究院名誉院长方滨兴老师，特聘专家周晓方老师，张彦春老师，林学民老师以及知名网安专家贾焰老师全程参与了课堂教学，并对同学们的报告逐一进行了指导点评。同时参与的还有网研院的部分老师，广州大学方班三期全体学生，以及来自哈尔滨工业大学、北京邮电大学、中科院信工所、哈工大（深圳）、电子科技大学等五所高校方班拓展班的共计20名学生和老师。本次研讨厅分四个小组同时进行。第一组汇报的同学是蓝辉映、邹金财、王心同、李爽、陈依兴。第二组汇报的同学是孙文彬、张潇、李志文、朱木易杰、徐浩胜。第三组汇报的同学是郝佳伟、刘伟康、徐一笑、薛岳、吕阳紫星。第四组汇报的同学是张海鹏、于海洋、陈光耀、林杨、蒋进。

第一组

蓝辉映同学汇报的主题是“工控协议模糊测试综述”。蓝同学首先讲述了研究工控协议漏洞挖掘的意义，然后介绍了相关技术；接着，从工控协议脆弱性分析、开放协议、私有协议、模糊测试本身存在的问题四个维度分析了模糊测试在工控协议背景下遇到的困境；紧接着，分析了前辈们都在研究工控协议模糊测试的领域上做了哪些改进工作；随后，从测试用例的产生和选择、异常捕获、扩展三个角度来探讨未来哪些方向值得进一步深挖；最后，总结汇报并提出思考。

汇报结束后，刘亚萍老师对蓝辉映的汇报进行提问，使大家对一些没讲到的细节有更深的了解。紧接着，林学民老师进行点评，他认为演讲总体说来声音较为清晰，PPT设计得还可以，时间控制得比较好。但对于刘老师的提问没有回答清楚，建议蓝同学在讲talk的时候，要做background的reading，对于讲述的内容，或者觉得有可能会被问到的内容，一定要搞懂。

邹金财同学报告的题目是分布式存储技术之Kademlia算法。经典的Kademlia算法作为P2P共享技术的底层算法之一，具有重要的意义。同时，邹金财同学觉得该算法并不是特别复杂，此次报告能让大家认识Kademlia算法，包括它的工作原理、效率等等。

林学民老师首先肯定了邹金财同学的报告，总体上还是讲得不错，讲得蛮清楚的。同时在文件复制备份存储问题上指出：文件备份复制可以提升查询效率，也是个容错机制，但是可能会导致文件更新不一致等问题。最后指出，由于邹金财同学的报告主要讲解Kademlia算法的工作过程，对于该算法的其它方面，如效率，安全性等问题的讲解有些欠缺。本次报告的确缺乏系统性地介绍该算法，只片面关注该算法的工作过程和原理。

李爽同学报告的题目是Diversified Top-k Clique Search，李同学把内容分为背景介绍、问题分析、解决方法、实验分析、总结与展望五个部分进行讲解，重点讲解了 PNP index 算法内容。

张帆老师表示问题的定义部分讲解没有讲很清楚，在讲解算法的内容举例阐述但没有展示算法的框架，解决问题是点集的最大化带来的多样化需要进一步强调，并提问与 baseline 对比，该方法是否能够选定一个点找到该点的多样化，并给出未来研究方向的建议，可以先考虑应用场景再进行实验来验证。

林学民老师听完汇报后，对本次汇报表示肯定，总体讲得不错，提出了建议：希望以后讲研讨厅的论文尽量是新论文，其次在论文讲述中，有些说法不太精确。方滨兴老师提出了在报告中可以把 clique 翻译出来，以免影响同学们的理解，同时指出来在讲多样化的时候应该更清楚的表达，最后提出希望在以后的过程中更加深入了解该方向。

王心同同学汇报的题目是AOT Pushing the Efficiency Boundary of Main-Memory Triangle Listing。孙彦斌老师针对k-truss向王同学提问了研究主题的意义。林学民老师建议王同学把分享的节奏安排得更紧凑一些。

陈依兴同学汇报的题目是一种终端直连通信标准：WiFi Direct。

在汇报过后，林学民老师和孙彦斌老师对陈同学报告的内容进行了提问，包括设备是如何通过WiFi Direct进行通信和WiFi Direct的应用场景等；刘亚萍老师提出三个问题：WiFi Direct的标准规范是怎样的？WiFi Direct标准的进展如何？陈同学在学习WiFi Direct标准的过程中遇到的什么样的问题？刘亚萍老师给陈同学提出的建议是在学习通信标准前需要去官方下载标准规范进行阅读理解，而不是学习其他团队进行的论文研究，这是因为标准是不断发展的，官方的文件正是跟着实际在变化。

孙彦斌老师提出，基于WiFi Direct形成的网络结构是怎样的，是包含一个GO还是多个GO，对此陈同学做了说明。同时，孙彦斌老师也建议陈同学在讲解组的形成方案前，可以详细说明下一个每个方案的主要步骤的具体含义。

林学民老师首先表示陈同学的本次汇报讲得还不错，是一次基本完整的报告。同时，林学民老师也询问了设备是如何通过WiFi Direct实现连接通信的以及它的应用场景。

第二组

孙文彬同学本次汇报的题目是“Tor匿名服务的检测、测绘和去匿名化”。主要介绍了基于Tor的隐藏服务基础和高效低开销的匿名网络服务探测方法，以及集中常见的攻击手段并对其进行研究。

汇报完成后，孙哲老师提出了指导意见：要弄清检测、测量和去匿名化之间的区别。以及看完论文描述后自己要有一定的思考和想法。仇晶老师建议：对于Tor带宽膨胀攻击，要讲清楚原理和带宽膨胀后会带来的安全问题。周晓方老师对于孙同学的汇报提出建议：对于日食攻击中如何能够做到让Tor隐藏服务中的所有客户端都看不到该节点讲清楚。同时讲清Tor的consensus文件都包含哪些内容。

最后方滨兴老师建议可以加强对Tor网络的基础知识的介绍，详细说明一下洋葱路由当中洋葱模式的具体体现。以及两种攻击方式中具体的原理和利用的难度。

张潇同学汇报的题目是“AI安全基础-常见音频特征介绍以及用于环境声分类”。张同学首先介绍了常见的音频特征，介绍了声音的采样，信号处理，以及特征提取的整个流程，介绍了一些常用的音频特征，过零率、MFCC、频谱中心、频谱滚降点等等，重点讲了MFCC的提取过程，以及它代表了频谱的什么特征。接着对上述音频特征的环境声做出了分类，引入了一篇环境声分类方向的论文的例子，论文的主要创新点就是调整神经网络的结构，调整输入特征的种类、组合，以达到更好的效果。实验结果表明，对实际场景选择合适的特征，能够极大提高分类的准确度。

汇报结束后，谭庆丰老师提出了建议：如果可以将后半段提到的提取特征与开始时讲的直观上的声音特征一一对应起来会使得本次汇报更加清晰流畅。周晓方老师也提出了问题和几点指导建议：1.文章是什么级别这个一定要说，级别够高才能有说服力。2.实验是有监督的还是无监督的，数据集是一开始有标签的，然后实验的时候去掉了再去分类吗。实验的大概流程一定要说清楚。

李志文同学汇报的题目是“Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing”。李同学的报告主要从三个部分进行介绍，首先是研究背景，其次是RDD的概念和性质，最后是总结和展望。其中RDD的概念和性质是重点部分，介绍了RDD是什么，RDD的转换操作和动作，RDD的依赖关系等。总结和展望提到了最后如何对RDD进行扩展，以便处理空间数据。

汇报结束后唐可可老师和周晓方老师先对李同学的汇报做出了表扬，同时也提出了几点修改建议。唐可可老师指出：PPT的过度有些不自然，PPT上标红的字，表示重点，需要给出解释。没有解释的话，最好不要重点标红。还有一些PPT上总结性质的话，可以放在具体操作前面，这样观众可以知道为什么要这么操作。周晓方老师总结指出：讲的东西应该既有大方向大轮廓，也有小细节，具体实现，我的PPT细节和具体的东西太多，而没有讲大的逻辑大的背景，一篇好的分享应该两者具备。

朱木易洁同学的汇报题目是“Revisiting Joint Modeling of Cross-document Entity and Event Coreference Resolution”。朱木易洁同学分享了一篇论文，汇报过程中朱同学首先讲了这篇文章的来源是2019年的NLP顶会ACL，然后针对这个文章的很多专有名词进行了举例讲解，中间对这篇文章的方法进行了概述并展示了方法效果，最后是对这篇文章的误差来源进行分析、对方法中的表示进行分析，还有总结和展望。

汇报完成后，孙哲老师和周晓方老师对此次汇报提出了宝贵的意见。孙哲老师建议：在讲解前多加练习，并且准备得更充分些。在一些概念及方法讲解时也要思路流畅、以更好的方式将其表达或讲出来，使听者更易理解。周晓方老师做出了点评：周老师首先指出了在PPT中的一些细节问题，比如背景介绍中举例不合适，其实不应该包括指代消解等。然后对PPT中的文章创新点提问，认为在讲解过程中对这篇文章的创新点讲的不够明显和突出。在学习过程中思考和创新有助于加深对知识点的理解。

徐浩胜同学的汇报题目是“Large-Scale Discovery and Empirical Analysis for I2P EepSites”，徐浩胜同学主要介绍了I2P网络的架构及通信原理，然后重点阐述关于I2P Eepsite采集的三种办法，最后对采集结果进行分析。

汇报结束后，唐可可老师和周晓方老师对徐同学的汇报给予肯定并提出了指导意见。唐可可老师指出：建议说明I2P相关的问题以及与传统网络中的对比分析，同时也指出对于Floodfill节点叙述的不是特别清楚。提供了包括可以对相关技术进行对比分析的思想、跳出技术本身分析其意义等的指导。周晓方老师提出：对于I2P Eepsites和实例关系、文章的创新点理解，以及对于NetDb的内部细节以及分布式数据库和中心式数据库的对比可以从多角度，多方面思考以便理解，同时也提到汇报人对于I2P Eepsite具体定义可以抛出实例帮助讲解的指导建议。

第三组

郝佳伟同学汇报的主题是“web指纹提取与识别技术”。先是进行了背景介绍，然后分别介绍了指纹提取技术和指纹识别技术，并介绍了两者的联系，最后做了总结与思考。

尹晓霞老师对指纹特征相关问题进行了提问和探讨，提出了一些索引提取算法的改进思路。

张彦春老师对郝佳伟同学的汇报进行了点评，肯定了汇报对于学科背景有清晰的进行介绍，做了演示也很清楚，但是在报告中缺少对于前沿的了解与思考，缺乏深度，需要更多的看到科研创新点。

刘伟康同学汇报的主题是“浅谈大数据差分隐私保护及应用”。首先介绍了研究背景，包括大数据时代的特点和面临的隐私泄露风险、隐私的概念及范围。随后，着重介绍了数据发布阶段隐私保护的四种方法，依次是：k-anonymity、l-diversity、t-closeness和差分隐私，说明了匿名化方法的不足和差分隐私的优点，接着通过举例的方法简单介绍了差分隐私的定义、核心思想、数学表达和噪声机制，之后通过一篇论文引出了差分隐私在可穿戴设备中的应用，根据可穿戴设备中数据分布的特点，结合一些减小误差和采样的算法，在发布数据时可以使用一种流数据均值发布框架，相比起其他框架，它既可以兼顾流数据的实时性和连续性，又可以节省隐私预算。同时，也列举了几个差分隐私在企业和深度学习中的应用。最后，对所讲内容进行总结，同时提出了未来的研究方向。

韦南老师认为本次汇报比较充分，逻辑也比较清晰，但是缺乏一些对比和思考，比如说在介绍隐私保护方法的参考文献时，除了陈述内容之外也应加入一些自己的讨论、对比分析其使用场景等。此外，鼓励后续对这部分内容进行实践。

张彦春老师对本次汇报进行了点评，认为本次汇报比较清楚，并建议可以对汇报内容中隐私保护方法进行适当的延伸和补充，比如说可以对比一下差分隐私和加密技术的优劣等等。

方滨兴老师点评指出，本次汇报准备充分，但是因为参考的文献比较成熟所以自己的理解有可能会受限，同时给出建议，可以多找一些背景材料，通过这些材料来印证已经学到的内容，这样也有助于自身提高。从研究的角度来讲，本次汇报缺少对差分隐私代价决定因素的分析，并对刘伟康同学的回答给出宝贵建议，后续研究可以从隐私保护的评估方法入手，去对比不同噪声机制的分布特性和它们的隐私代价，并从理论分析和实践验证上逐渐形成自己的研究想法。

徐一笑同学的汇报主题是“基于A和AAAA记录一种新的DNS Rebinding方法”。主要分享了一种新的DNS重绑定方法，是对BlackHat 2020上的when tls hack you议题的一种升华，介绍了一种根据curl解析时的特性，利用A记录和AAAA记录实现DNS重绑定。首先介绍了这一新颖攻击手法的背景知识，包括SSRF的原理，DNS重绑定概念，以及TLS session resumption和curl的一些特性，并且做了一个小结将上述内容串联起来引出议题中的攻击手法。随后用一个的Demo详细介绍了整个攻击流程。剖析了这一手法的攻击面，危害以及如何进行防御。

尹晓霞老师提出了许多疑问，包括与以往DNS重绑定方法的差异，优势在哪里以及这种新方法的意义等，徐一笑同学对此进行了一一解答。

张彦春老师提出了几点意见，对于PPT标题不应该做创新改动，PPT内容没有突出重点。讲解内容概念过多没基础的人难以理解，在讲述过程中应该多用恰当的打比方让更多人听懂。

薛岳同学的汇报主题是“智能合约安全”。张同学主要从以熟人社会中老板与员工之间的信任关系为基础，来进行任务发布与完成进行引入，解释了为了解决生人社会中多个老板与员工，即人与人之间的协作是如何利用区块链的思路来保证协作的问题：从而使用举例和角色、行为的替换的方式引入区块链的运行机制。通过提出问题、解决问题的方式解释了以太坊的运行机制以及手续费的设计思路；接下来，为了解决以太坊消耗过高的问题引入并解释了EOS的运行机制；然后，为了解决以太坊和EOS等公链的问题，引入了以Fabric为代表的联盟链运行机制。最后，抽象出三种不同区块链运行机制的共性，解释了什么是区块链，区块链是如何运行的。

崔翔老师认为，首先，汇报中的术语、概念等元素作为整个汇报的基础，要进行详尽的调查、了解、并且明白其形式化的意义，同时要注意前后统一术语。对于内容的量的把控要注意，内容不要过多，同时要区分重点与非重点，对于关键问题要放慢讲解，体现出关键问题的重要性，重点性，并要考虑到听众的接受程度。

张彦春老师认为针对研讨的重点部分，在思考时要从正反两面，多个角度，多个程度进行考虑。一个技术有什么优缺点？从时间、效率、设计原则或其它角度来看有什么问题或具体的技术细节？对于同一个问题和具体的技术细节在在不同程度上是否应进行不同的处理？对于这样的处理有什么优点或者缺点？只有这样，在设计或进行科研时才可以纵观全局，才会更有意义，更科学。

吕阳紫星同学汇报的主题是“Web层拒绝服务攻击技术”。分别从传统的拒绝服务攻击，Web层的拒绝服务攻击展开此次汇报。首先对传统的拒绝服务攻击方法做了总结。然后，对Web层的拒绝服务攻击进行讲解。并指出了实际网站中可能存在的风险。汇报的最后，对今天的报告做了总结与展望，提出Web层拒绝服务漏洞扫描问题。

韦南老师对吕阳紫星同学的汇报进行了点评，指出汇报对于学科背景有清晰的介绍，但是在报告中缺少对于前沿的了解与思考，缺乏深度，需要看到更多的科研创新点，并且PPT做工需要加强。

张彦春老师也对报告的前半部分进行了肯定，表示应该加入一些有深度的内容。

第四组

张海鹏同学汇报的题目是“知识图谱基础——图谱构建工具Neo4j”。本次汇报分为四个部分。第一部分，张同学结合推荐系统的例子简要解释了知识图谱的概念，并引入了知识图谱的储存问题。通过介绍关系型数据库查询的原理和关系型数据库与图数据库Neo4j的查询用时对比，指出了图数据Neo4j在关系查询方面的优势。第二部分，从Neo4j的数据结构、查询语言等方面对Neo4j做了比较全面的介绍。知识图谱注重表示事物间的联系，Neo4j非常适合知识图谱的构建，而在网络安全中，漏洞、资产、攻击之间的联系普遍存在。因此张海鹏同学第三部分介绍了Neo4j构建网络安全知识图谱，在Neo4j的客户端进行了一步步的演示，并在构建好的知识图谱上进行了一些关系型数据库不容易做到但又非常有用的查询操作，例如查询三度以内的所有关系等。第四部分，张同学介绍了Neo4j的优缺点，并讲了一些对于用网络安全知识图谱进行资产分析的思考。最后，进行了整体的总结。

针对张海鹏同学的汇报，李默涵老师点评指出：一般数据库最基本功能是四个，也就是“增”、“删”、“改”、“查”，如果能围绕着四个基本功能组织把讲的内容组织一下，这样子就会更加的清晰。王乐老师也进行了点评：在汇报的思考部分利用网安知识图谱做资产的风险评估这部分解释得不是特别地清楚，应该在内容安排上再下功夫。最后，贾焰老师进行了点评，她指出，Neo4j有320亿个节点、320亿关系、640亿的属性，这些节点组织起来是没有问题的，但是Neo4j并没有公布他们在亿级节点上的查询相应时间，哪怕是一步的。在上面表示起来是肯定没有问题的，但是图查询的复杂度是跟顶点相关的，一般来说是呈指数增长，这个是我们比较关注的。因为网络安全的知识就是10亿级的节点，以后可能远远都不止，图是非常大的，希望张同学如果有兴趣再去多关注。

于海洋同学汇报的题目是“MDATA&AI安全基础——BatchNorm与Dropout原理”。于海洋同学将报告分为三个部分，第一部分从神经网络存在内部协变量偏移的难点进行展开，引出BatchNorm，介绍了如果不使用BatchNorm网络时训练网络时出现的问题，并对BatchNorm的定义和实现做了详细的讲解，最后总结了BatchNorm可以加速训练、防止过拟合的优点。

第二部分，从神经网络所面临的费时，容易过拟合的痛点出发，介绍了Dropout如何通过随机丢弃神经元来防止过拟合，同时避免了集成学习所带来的耗时问题。最后用直观的解释阐述了Dropout如何减小神经元之间的相互依赖，缓解过度学习，从而使网络更加鲁棒。

最后对BatchNorm和Dropout的优点和异同进行总结，并展望接下来的工作。

汇报结束后，韩伟红老师指出要用生动形象的例子解释抽象的原理，这样方便大家理解。同时建议可以研究Dropout和注意力之间的关系，指出Dropout有遗忘的功能，与注意力机制关注更加重要的东西有异曲同工之妙。最后贾焰老师给出了精彩的点评，先肯定了该同学做的充分准备，原理讲的很准确，但是缺点是不够生动，太过学术便不能让大家直观的理解。同时给出建议可以做一些实验展示，也许实验很浅显，但是讲解的效果可能会比较好。

陈光耀同学汇报的题目是“MDATA基础——实体关系抽取”。首先，陈同学从信息抽取与知识图谱的关系入手，介绍了信息抽取的定义、主要任务，之后是介绍了一般子实体关系抽取前做的步骤——命名实体识别，这是理解实体关键抽取的基础。再之后从信息抽取的整体技术框架中抽出几个算法进行讲解。从简单的基于规则的抽取，到用半监督学习方法自举法来自动化抽取模板，接下来，陈光耀同学进一步讲了自举法的改进Snowball算法，其引入五元组的表示方法来表示模板，以此来计算相似度来进行对模板、元组的筛选，去掉不可行度低的模板和元组，防止在后面循环生成模板和元组时错误累积。最后，陈同学对最近火热的基于深度学习的实体关系抽取进行了一个展望，并总结了整个汇报内容。

在陈光耀同学做完汇报分享后，韩伟红老师提出了两个小建议，一是陈同学在汇报内容中混淆了“规则”与“模板”，有时候用“规则”，有时候用“模板”，存在前后概念不一致的问题，比较地混乱。二是建议同学在汇报时最好整个过程中都贯穿同一个例子，这样可以在研讨厅有限的时间内加深用户的印象，便于理解。另外，韩伟红老师跟陈同学探讨了Snowball算法中第三步评估模板可行度的过程的细节，对算法提出了一些新角度的看法。而贾焰老师抛开单纯的谈论汇报，对陈同学之后的学习提出更高要求：我们不可能学习完所有的经典的算法，我们需要从几个算法中汲取思想，并且要了解真正的网安现实场景的需求，并且多去实践，这样对于同学们今后做课题才会有一个比较好的帮助。

林杨同学汇报的题目是“MDATA基础——结构化的事件时序关系联合抽取方法”，其内容出自一篇事件关系抽取的论文。林同学从四个方面介绍了作者的工作，一是事件关系抽取的研究背景及关系抽取的两种方式：pipeline方式和联合方式；二是讲解了先前事件关系抽取的方式——pipeline方式的缺点，由于先前并无事件关系抽取的联合方式，作者借鉴了实体关系抽取的联合抽取方式。三是模型的讲解，林同学分为五个层介绍了作者提出的模型，讲述作者如何用相邻的两个句子提取出每个事件，以及事件间的时序关系。四是实验与结果部分，作者首先给出了模型在两个数据集上的结果，以及与目前表现最好的模型的对比结果，并进行消融实验，证明了pipeline方式的模型能够避免误差传递。

贾焰老师对林杨同学进行了以下两点点评：1. 汇报中并没有明确“事件”的定义，我们在汇报时首先对于基本概念的定义必须要明确。2. 应该学习第一位汇报的同学，可以在网上找到作者的源码，并自己进行实验得到结果，不仅可以加深自己的理解，也可以给听众更直观的感受，避免听众听完就遗忘。

蒋进同学汇报的主题是“MDATA基础——TransE方法介绍”。蒋同学首先对知识表示学习的应用场景进行了介绍，重点对知识图谱的表示进行了介绍，指出知识表示学习可用于表示多源异构的知识信息。紧接着分别介绍了基于符号的简单表示方法与分布式的表示学习方法，进而重点对分布式的表示学习方法中的典型方法——TransE模型的思路、训练函数与优势进行一个细致的介绍。随后，结合可视化的实验结果对TransE模型的效果进行演示，并对TransE的实验数据进行了分析。最后，从TransE的不足之处出发，简要的介绍以TransE为核心的扩展模型，并对未来的基于TransE等方法的图谱对齐工作做出展望。

汇报结束后，贾焰老师做出点评，表示汇报中对于TransE的局限是在汇报的后半部分进行讨论的，前面的示例容易让人感觉混淆。另外，对于TransE和知识图谱有什么关系，讲解的不够细致。另外，应当多思考：TransE是要解决知识图谱的知识获取问题，还是解决其他什么问题，这里没有讲得太清楚。

方滨兴老师肯定了汇报的逻辑性和语言的流畅性，强调应该将TransE是否适合一对一或者多对多的场景讲清楚。其实可以考虑将MDATA的时空特性引入讨论，探讨MDATA中带有的时序性特点是否能解决TransE中的一对多表示效果不佳的问题，这样的讨论也可以迎合到MDATA这一主题。此外，方老师建议在后半部分的算法讲解时也要举些例子，这样能让听众的代入感更强。

至此，本次研讨厅圆满结束。

整理：朱梓萁曾泽君陈光耀肖怡含周建勋

校对：王乐老师鲁辉老师

责任编辑：鲁辉老师

原文地址：https://mp.weixin.qq.com/s/MwqqKpNOH01XLbYzZ6C4EQ#rd