怎么样借助机器学习辨别加密项目风险?
本文摘要:作者:PengtaiXu翻译:Sherrie数字货币和监管的必要性数字货币是一种存在于数字世界的买卖媒介(另一种支付形式),依赖加密技术使买卖安全。

结语

大家的项目让监管机构可以轻松挖矿开源信息,更好地辨别数字货币范围发生的风险事件。大家提供了一个剖析文章并预测风险分数的语言模,与依据实体和出处信息大全这部分分数的办法。这部分办法都被编织成一个可以端到端运行的智能化流水线。将该项目整理到Cylynx平台中,将对其现有功能进行补充,并为监管机构辨别高风险数字货币实体提供巨大的帮忙。

局限性

大家发现,大家的解决方法有两个潜在的局限性,第一是需要不断地维护采集器。网站建设可能会伴随时间的推移而改变,这部分网站的刮擦器需要更新,以确保有关信息仍能被检索到,从而达到风险评分的目的。

第二个限制是,验证一篇文章是不是已被正确地标记为数字货币实体是具备挑战性的。比如,一篇报道Bancor可疑活动的文章可能也会由于一个不有关的事件提到币安。大家的解决方法会错误地将新闻标记为两个实体,并将币安标记为风险,即便它不是文本中的重要主题。然而,这并非一个主要的限制,由于大家只用新闻文章的标题和摘录来进行风险评分,这一般只包含文章的重要信息。

情绪剖析模

大家尝试了四种不一样的自然语言处置工具进行情绪剖析,即VADER、Word2Vec、fastText和BERT模。在通过选定的重要指标(召回率、精度和F1)对这部分模进行评估后,RoBERTa模(BERT的一个变种)表现最好,被选为最后模。

图片出处:https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-谷歌-changed-nlp-and-how-to-benefit-from-this/

RoBERTa模对新闻文章(标题和摘录)或社交媒体帖子的文本进行处置,并为特定文本分配一个风险分数。因为该文本在数据采集过程中已经被标记为实体,大家目前已经有了加密实体的有关风险指标。在后期,大家将多个文本的风险分数结合起来,给出一个实体的整体风险分数。

RoBERTa原本是一个用神经互联网结构打造的情感剖析模,大家将最后一层与大家标注的风险分数进行映射,以适应风险评分的环境。为了提升模在将来文本数据上的通用性,大家进行了几种文本处置办法,即替换实体、删除url和替换hash。然后大家用这个表现最好的模进行风险评分。

风险评分

目前,每篇文章都有一个有关的出处(news/redpt/twitter),一个风险概率和一个计数,指的是文章被转发、推荐或转发的次数。为了将这部分风险概率转换为数字货币实体的单一风险得分,大家第一将文章的概率值缩放到0到100的范围内,并获得每一个出处的加权平均值,结合文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的看重,由于份额数目非常可能表明文章的有关性或重要程度。

在计算出各出处的风险得分后,大家对各出处的风险得分进行加权求和,得到综合得分,公式如下:

传统的新闻出处被赋予了更高的网站权重,由于这部分出处更大概报道重大的安全漏洞(相对于单个用户的黑客事件)。

翻译:Sherrie

作者:Pengtai Xu

开源信息的数据获得

大家确定了3类开源数据,这部分数据可以提供有价值的信息,帮测试数字货币范围的可疑活动。这部分类别是:

检索文章和社交媒体帖子的内容,然后打造情绪剖析模。该模为文章中提到的实体分配了一个风险活动的概率。

有趣的发现

在风险评分过程中,大家注意到,与规模较小的实体相比,规模较大的实体的风险评分总是有较大比率的假阳性记录。这是由于大实体被谈论得更多,因此会有更多的负面帖子和不真实谣言,从而致使更高的不准确率。

另一个值得强调的有趣趋势是,围绕着黑客攻击一般有几个明显的高峰。这是因为不同数据源的反应时间不同。社交媒体网站Twitter和Redpt一般是第一个看到高风险事件发生时的高峰,由于用户会发帖提出他们察看到的异常状况,譬如一个实体的网站在没事先公告用户的状况下宕机。官方消息通常是在官方声明之后,稍后才会发布。

数字货币和监管的必要性

数字货币是一种存在于数字世界的买卖媒介(另一种支付形式),依赖加密技术使买卖安全。数字货币背后的技术允许用户直接向他人发送货币,而无需通过第三方,如银行。为了进行这部分买卖,用户需要设置一个数字钱包,而无需提供身份证号码或信用评分等个人细则,因此可以让用户伪匿名。

对于一般的数字货币用户来讲,这种匿名性可以让他们放心,由于他们的个人信息或买卖数据不会被黑客窃取。然而,这种买卖匿名性的提升,也容易被犯罪分子滥用,进行洗钱、恐怖筹资等非法活动。这种非法活动给区块链钱包用户与数字货币实体都导致了巨大的损失。虽然金融行动特别工作组(FATF)等监管机构已经在这部分实体的监管中引入了标准化的指导方针,但因为天天都有很多的数字货币实体和买卖发生,监控数字货币空间是一项具备挑战性的任务。

该解决方法的有效性

大家在2021年1月1日至2021年十月30日的174个数字货币实体的名单上测试了大家的解决方法,并将结果与该时间段内的已知黑客案例进行了比较。大家发现,大家的风险评分办法表现相当出色,在37个已知的黑客案例中辨别了32个。大家还剖析了大家的解决方法对单个实体的有效性。下图显示了币安从2021年1月1日至2021年十月30日的风险评分。虚线红线代表已知的黑客案例。从图中大家察看到,大家的解决方法报告了5个已知黑客中的4个黑客的风险得分增加。也有几个峰值与已知黑客案例不同。然而,这并不构成一个主要问题,由于对大家的模来讲,更要紧的是辨别尽量多的黑客,降低未辨别的黑客数目。

解决方法

图片出处:https://dribbble.com/shots/2723032-Needle-in-a-Haystack

因此,大家感兴趣借助开源信息,比如新闻网站或社交媒体平台,来辨别可能的安全漏洞或非法活动。在与Lynx Analytics的合作中,大家(来自新加坡国立大学的一个学生团队)已经致力于开发一个自动工具,以刮取开源信息,预测每篇新闻文章的风险分数,并标记出风险文章。这个工具将被整理到Cylynx平台(https://www.cylynx.io/)中,这是Lynx Analytics开发的一个工具,用于帮监管机构通过用各种信息源监控区块链活动。

相关内容