速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

我们用机器学习模型协助打击不法行为

  • 2024-04-26
    北京
  • 本文字数:9877 字

    阅读完需:约 32 分钟

大小:4.86M时长:28:17
我们用机器学习模型协助打击不法行为

2023 年基于 AI 的深度伪造欺诈案件暴增 3000%,而涉虚拟币犯罪案件近年虽然在数量上有所减少,但涉案金额却是陡增。技术本无罪,但不当的使用会给个人、家庭、甚至社会带来严重后果。

 

国内有这样一支协助破案的技术团队,他们利用手中的技术能力去协助执法部门破获不法案件,与执法部门一起深入具体案例,实地分析。那么,这样的团队是如何诞生的?他们具体又做了哪些事情?

 

中科链源 CDO 唐崇麟、数据科学负责人连晓磊作客 InfoQ《极客有约》,详细介绍了他们如何利用“技术武器”帮助执法部门维护数字世界安全。以下文字根据直播内容整理。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:当时为什么会想要去做 AI 区块链安全赛道?

     

    唐崇麟:我非常相信区块链技术会带来重大变革。区块链是 2008 年在金融危机的大背景下提出的一个理念,并在后续形成了比特币链的技术,这个理念是出于对中心化、私立金融机构的不信任,想要打造一个去中心化、相信算法算力的机制。我非常认可这个理念。

     

    但可惜的是,相较移动互联网十几年发展,区块链技术诞生 15 年后还处于小众和边缘状态。区块链技术不能普及的原因,首先是缺乏能给用户带来真实收益和价值的 killer APP 或功能,这个大家都在努力解决。但更重要的是,区块链的安全问题一直没有得到解决。钱包、交易所被盗造成的产品损失并不鲜见,犯罪分子也常利用比特币、以太坊、USDT 作案,这些让人总觉得这个新生事物常和网络犯罪融合在一起,导致其被妖魔化。

     

    安全问题得不到解决,会极大地阻碍整体区块链技术的普及。在这样的背景下,我们公司团队先前在大数据和 AI 机器学习算法方面的积累非常适合解决区块链的安全问题,可以说是找到了一个用已有的知识沉淀优势在新领域赛道发展的好机会,再加上前景广阔,于是我们就开始做这项工作了。

    为什么网络违法案件难破获?

     

    InfoQ:最近 AI 诈骗开始盛行,执法部门需要进行资金追溯。而先前 Web3 行业涉虚拟币的不法行为也有很多,这类违法案例目前趋势如何?

     

    连晓磊: AI 的盛行确实让 AI 诈骗增多,而涉虚拟币犯罪行为也一直是执法部门关注的重点。关于这两种违法案件的数量和趋势,可以从以下几个方面来看:

     

    首先,据相关数据统计显示,2023 年基于 AI 的深度伪造(deepfake)欺诈案件暴增 3000%,基于 AI 的钓鱼邮件增长了 1000%,已有多个有国家背景的 APT 组织(高级持续性威胁,是一种针对性、隐蔽性、持续性都极强的网络攻击手段)利用 AI 实施了十余起网络攻击事件。

     

    随着 AI 技术的快速发展,不法分子利用 AI 技术进行诈骗的手法也日益翻新。他们通过深度伪造、语音合成等技术,制作逼真的视频通话或语音信息,诱使受害者上当受骗。

     

    其次,Web3 行业涉虚拟币的不法行为也呈现出增长态势。他们利用虚拟币的匿名性和去中心化特点,进行洗钱、贩毒、非法集资等不法活动。据 SAFEIS 安全研究院统计,2023 年涉虚拟货币案件总量 428 件,较 2022 年减少 88.9%,但整体涉案金额陡增至 4307.19 亿元,约是 22 年的 12.36 倍。可见,涉虚拟币犯罪案件在数量上呈现减少趋势,但是整体涉案金额是陡增的态势。

     

    总之,AI 诈骗和 Web3 行业涉虚拟币的不法行为是当前和未来一段时间内,执法部门需要重点关注和打击的对象。我们需要加强技术研究和监管力度,以应对这些新的挑战。

     

    InfoQ:为什么虚拟币会成为黑灰产温床?

     

    唐崇麟:传统 Web2 领域的黑灰产都是通过银行转账进行,需要身份验证,追查相对容易些,再加上很多银行都有反欺诈、反洗钱的基础设施模型,黑灰产难以在其中生存。但在 Web3 的区块链领域则给大家打开了一个完全崭新的世界,其中没有什么监管,人人都是匿名,交易成本低但效率又很高,是黑灰产天然非常喜欢的环境。

     

    InfoQ:破解这种网络上不法案件都有哪些难点?技术能力如何帮助破获相关案件?

     

    唐崇麟:网上违法案件的破获难点整体来说有三大部分。

     

    首先是法律流程方面。对现有公安和法律体系来说,涉虚拟币的网络犯罪是一个新的领域,取证工作、适用法条、立法工作以及案件侦破后的流程和审判等,很多环节之前从没遇到过的。在这方面,技术能够解决的其实并不多。我们更为看重的是另外两大部分。

     

    其一,由于这类案件涉及的数据非常庞大且复杂,链上钱包生成免费且非常便捷,甚至有工具可以批量生成,因此犯罪分子会为了隐藏自己的资金和踪迹,批量生成钱包,并通过这些钱包互相转移资金。这种方式效率很高,手续费也很低,相比传统银行金融体系的资金转移会便捷很多,从而形成了一个巨大复杂的交易结构网,侦察工作难度很高。

     

    其二,来自区块链天然的匿名性。先前提到的钱包生成时不需要任何身份证明,所以我们即使找到了非常实锤的涉案地址,也是不知道背后的真实人员,所以我们需要继续侦破,直到发现涉案的资金在某些环节被兑换成法定货币、进入银行体系,我们才能得知背后的真实人员。

     

    但也正因为整体数据量庞大,且需要非常精准地查找线索,也为机器学习、大数据的技术应用提供了非常好的土壤。这也是我们的优势所在:利用大数据和机器学习对复杂交易网络进行分析识别并提升精准度。

     

    InfoQ:那你们和执法部门如何合作完成一次打击行动?能否分享一些案例?

     

    连晓磊:涉虚拟币犯罪上游的犯罪类型有网络赌博、诈骗、传销、洗钱、黑灰产等,这些都是我们帮助执法机关重点打击的犯罪类型。我们可以为执法机关提供从数据挖掘、立案、侦察、收网、司法鉴定、起诉、审判、资产处置一站式全流程服务。

     

    今年一月份,青岛市公安局和国家外汇管理局青岛市分局联合破获了一起特大地下钱庄案,该案件入选公安部经侦局,列为全国公安经侦系统“夏季行动”打击地下钱庄“十大战役”。这起地下钱庄案件涉案金额高达 158 亿元,抓获犯罪嫌疑人 74 人,涉及全国 17 个省及直辖市。

     

    其中,我们自主研发的 SAFEIS 安士系统在涉虚拟币犯罪固证环节发挥了关键作用,通过对涉案地址的追踪分析,验证了虚拟货币交易信息与银行账户资金流向的线索相互吻合,为侦查人员提供了强大的技术支持。

     

    在该案件的资金往来分析过程中,办案人员发现犯罪嫌疑人之间的资金流存在异常,有涉嫌虚拟币交易的特征。随着对犯罪嫌疑人所涉及的银行账户资金流向进行了深入研判,我们发现资金交易模式与虚拟货币买卖行为相符。最终通过 SAFEIS 成功挖掘到犯罪嫌疑人的作案证据。侦查人员还通过 SAFEIS 输出的资金流向层级,对整体资金和虚拟货币犯罪团伙的群组关联结构进行了详尽刻画,进一步明确了嫌疑人参与虚拟币犯罪的相关信息。

     

    InfoQ:为什么银行或支付宝这种金融机构不给资金上链,让它们可以被追溯?

     

    唐崇麟:我们所说的区块链是指公链,比如比特币链、以太坊链、波场链、币安智能链等。公链秉承的是抗审核、匿名性和去中心化原则,这是和现实中金融机构所形成的银行网络完全隔离的两个世界。

     

    如果一个金融机构想要将用户的资金上链,就需要将用户存放的法定货币一对一转换成链上的 USDC 稳定币或其他代币后,再进行上链。这样一来,银行机构就行使了交易所的职责,但我国法律是禁止银行机构进行虚拟货币经营的,这种业务是违法的。

     

    我国现在推行的电子人民币是将人民币变成电子货币,并在可监管的环境中更方便的使用,这种电子货币和公链的区块链是不同的。

     

    InfoQ:Web3 时代的网络安全跟 Web2 时代的安全问题有什么差别?

     

    唐崇麟:Web3 时代的交易网络和数据量更为复杂,整体安全问题的追踪难度更大。但我觉得应该换一个角度看。

     

    Web3 和 Web2 时代安全问题有很大的差别。Web3 的本质是利用去中心化的区块链技术,要求 App 开发商和钱包用户都对自己的行为承担更大的责任。而 Web2 时代的滴滴、字节和各种银行等都是平台中心化的机构。本质上,做平台就要承担平台上安全的责任,比如银行存款被盗是能得到赔付的,但 Web3 时代是没有的,钱包密钥自己保管,如果被钓鱼或者胡乱签名导致资金被盗,那么你找不到一个中心化机构寻求赔付,甚至现实世界中都没有法律能够保护这些资产,这是最大的问题。

     

    也就是说,为什么 Web3 用户会胆战心惊,因为既没有机构能帮忙主持公道,很多技术又是全新的,里面的漏洞没人能说得清,大家都是摸着石头过河。比如,Web3 体验大多是基于智能合约进行交互,但智能合约也是在近几年才出现,其中的逻辑漏洞大多都没有暴露过,有非常多的不法分子会监控每一个新上线的智能合约,特别是金融类合约,一旦上线便蜂拥而至寻找其中的漏洞,并在找到后的第一时间利用它窃走资金。

    特别的技术团队

     

    InfoQ:像中科链源这种是针对违法案件分析和研发的,你们的团队和普通的互联网研发团队有什么不同?你们内部团队之间如何协作?

     

    唐崇麟:我之前曾在滴滴负责过网约车整体策略平台的搭建,在我看来,中科链源现在的工作与传统互联网平台中的数据产品团队有很强的相似性,但也存在一些不同。

     

    首先从数据来源看,一般互联网平台公司的用户行为等所有数据,都是通过自己 APP 产生的,公司的大数据团队对这些数据了解非常深。但中科链源在做分析时,所有数据都是在公链上产生的,不受我们控制,而且每一条链上的数据存储特性都不相同,要找到数据后才能进行下一步的处理和分析。

     

    其次是,案件的分析非常主观且依赖办案人员的经验,很多分析结果也只是猜测,很难对其真假与否进行快速验证并打上正确标签,这就要求我们和整体的办案团队有非常深入的融合。

     

    在我们初期做模型时,要求大家把自己当作是分析师,一起深入某个案件、实地分析。我们核心团队的几个同学在入职后都是做了半年以上的分析师工作,再开始做模型的,他们对业务的要求和理解非常深。

     

    最后是对模型的选择。也提到取得量化的标签,我们会倾向于一些图计算的模型和无监督的聚类模型,我们也更强调从基础层面来建设特征的标签。

    InfoQ:你们现在的 AI 底层支持系统都包括哪些?这个底层系统具体是如何搭建并帮助你们做案件侦破的?

     

    连晓磊:我们的 AI 系统有三个部分:数据平台(数据特征模块)、模型训练平台(负责训练模型),以及模型服务平台(部署 G 端应用的对接服务和一些自己微服务)。这三个平台会应用于数据的探查阶段、模型的训练研究阶段,以及模型的部署使用阶段。

     

    数据特征平台方面,算法领域的数据是非常重要的因素,我们将各个链上的数据接入到了我们的大数据平台上,再进行各种数据的清洗和数据仓库的特征提取,从而保证数据的高可用性,另外还使用离线+实时数据来保证时效性。

     

    数据训练平台方面,我们用来研发较大的神经网络模型和时序模型所需要的分布式计算资源及 GPU 资源,都会用到这个平台。

     

    模型部署平台则是负责模型的部署和版本控制的平台,版本控制可以在模型预测错误时依然保证预测的时效性。此外,我们还有监控系统,在模型指标等不达标时,及时对模型进行更新,从而保证模型的效果。

     

    InfoQ:期间有经历什么比较印象深刻的事件吗?

     

    连晓磊:说起印象深刻的事,就是有一次给大家做图模型的理论分享,完事后有个小伙就拿手里现有的案件数据去练手,结果发现一些涉案地址和实锤的入金归集地址在一个类簇里面,于是催生了现在上线的图聚类服务。

    如何用技术协助破案

     

    InfoQ:2020 年公司成立至今,你们在机器学习模型上做了哪些大的迭代更新吗?

     

    唐崇麟:虚拟币行业较新,数据量也很大,因此我们在模型探索过程中没有像传统 Web2 公司一样直接进行标注和模型训练,而是先进行了一定的探索。这些探索大体可以分为三个阶段。

     

    第一阶段,借鉴人的经验做自动化,换句话说是首先提升人的效率。在这一阶段,我们先把复杂的交易关系用图计算网络再现成网状结构,再将网状结构中的交易信息,与办案人员经验提取出的特征和规则相结合,形成未经过太多训练的简单规则模型,其中大概有近百个带权重的特征。我们对两个地址点之间的关系做出统计行的概率预测,概率越高地址之间的关联性就越强。这样能帮助办案人员完成很多工作,因为他们平时办案中最主要的工作就是从一个较为实锤的涉案地址中,找到其他上下游强关联的涉案地址,这个工具能帮助他们很好完成任务。

     

    有多年办案经验的分析师平时在做分析时只能思考三至五个特征,逐个排查时非常耗时。但在有了模型之后,近百个特征可以同时计算,下游网络中数十万的地址也能同时进行计算,几周的工作可以在几小时内完成,极大地提升了人的工作效率。

     

    第二阶段,我们利用了更为复杂的无监督聚类模型和谷歌的 PageRank 算法,基于整体交易网络中的交易行为特征,找出交易网络中行为较为相似、犯罪链条中功能较为相似的地址,用类似社交网络分析的形式,找到嫌疑人之间的相似关系。这样协助办案人员梳理整体犯罪链路的每个环节和地址,方便日后取证。

     

    第三阶段,虽然已经借助前面提到的两大模型大幅提升了效率,但在很多基础的具体特征标签上,我们的建设还是较为稀缺。因此在这个阶段,我们化整为零,逐一寻找极具特色的地址并打上标签。这样一来,办案人员看整体网图时就能得知其中地址的详情和特征,我们后续迭代模型或搭建新模型时也能利用这些特征,从而达到一举两得的功效。我们相信,未来地址特征标签体系能和更多的模型一起,丰富我们的整体工具箱并提升办案效率。

     

    InfoQ:具体常用的特征有哪些呢?

     

    唐崇麟:常用特征主要是交易相关,比如时间属性(高低频次、周期性等)、金额属性(大额或小额、是否是定时周转固定金额等)、交易行为特征(交易对象是否频繁、交易关系是否复杂等)。

     

    连晓磊:具体来说,时间上我们采用的特征会包括地址、base 属性、创建时间、地址对的最大最小交易时间;金额上有地址对之间的汇总交易金额、最大最小交易金额均值标准差等统计特征;至于交易关系,特别是在波场链上,我们利用 TRX 激活关系的特征捕捉下游涉案金额的转入概率。

     

    InfoQ:是基于马尔科夫模型这些来做的吗

    连晓磊:并不完全是。因为要构建马尔科夫链需要高质量的观测数据,并且对 Label 也有一定的敏感性。在交易所官方选择对地址发起调证的时候,这其中是有一些人为主观的判断因素,选择调证的地址也不一定是正样本,所以我们并没有完全使用马尔科夫模型进行训练,但在下游的分析思路上借鉴了马尔科夫思想,为每条链路上的条件概率人为制定具体分数。

     

    注:马尔可夫模型是一种统计模型,它基于马尔可夫性质,即一个给定过程的未来状态仅取决于当前状态,与之前的状态无关。马尔可夫模型可以应用在多个领域,如自然语言处理、算术编码等。

     

    InfoQ:可以展开讲讲,图聚类模型在产品里的应用吗?

     

    连晓磊:图聚类模型其实基于一个确定的地址,比如案件中的路径归集地址,利用大数据平台向下开展更多的节点,从而形成一个网图数据,这样就可以用图聚类的方法圈选出一些涉案概率更大的地址。简单来说,其实是借鉴 Facebook 或者 Twitter 这些社交媒体的思想,对用户进行聚类和兴趣社群的挖掘,同一个类簇可以理解为是在同一个兴趣圈子。

     

    我们也是以交易为边进行兴趣爱好模式的挖掘,同一个聚类里的地址可能联系更为紧密、交互更为频繁。除了圈选出类簇,我们还会在类簇的基础上对节点进行中心度计算,提取出一个团伙中更为重要或关键的核心地址。

     

    我们后续在研究角色相关的挖掘或 role-based embedding 模型的角色建模时,也会用到图聚类,比如同属跑分车队的两个地址可能之间没有联系,但在某些交易行为或模式上具备相似性,那我们就认为这两个地址较为相似。

     

    InfoQ:图聚类模型一般应用在什么场景比较多?它的特点是什么?

     

    连晓磊:图聚类最多的应用场景其实是社交网络的挖掘,筛选出相同兴趣爱好的用户;其他也有生物医学方面的应用,比如药物关联度的挖掘,将老药混合构建出新药并用于抵抗当前的某种疾病,这种其实也是以药物为节点做向量化 embedding 和图聚类,圈选出哪些药物的某种特性下在某些生物反应上会有相同的模式;金融行业的下游分析、犯罪团伙分析或金融上交易模式的研究,都可以有所应用;交通类则可以联合时序分析和图聚类,对交通生活进行类似的挖掘探索。

     

    唐崇麟:我之前在字节时接触到的视频平台会有非常多的图聚类模型应用,主要用来扩展用户的视频观看、探索用户的边界,比如喜欢看 vlog 或美食类节目视频的用户就可能会通过评论或视频的关系聚类到一起。平台希望用户能扩展更多的兴趣领域,因此通过图聚类他们可能会被归纳到的其他兴趣圈层,这样对他们进行相关的推送就有可能扩展他们的观看领域。

     

    我们也在探索图聚类的其他应用,比如对全网涉案地址进行聚类后,有些涉案地址可能会和我们之前没有标注过的地址非常接近,那么这些新的地址也会帮助我们找到案件的新线索。

     

    此外,很多技术领域也有对图聚类模型的应用。比如先前提到的问答模型、ChatGLM 检索,在将文本的语义向量存入到向量数据库后再进行聚类,每个类簇都包含许多文本向量和一个中心点作为索引,从而构建了一个基于向量数据库的倒排索引,从而实现速度的提升。在收到用户问题后,我们先将问题向量化,再和各个类簇的中心向量做相似度比较,相似度高的则归纳仅类簇后再和其他类簇的向量进行相似度匹配。

     

    InfoQ:据了解,模型数据来自中科链源自建的以太坊、币安智能链和波场链全节点和一些第三方数据,为什么选择这三条链?具体如何收集和处理这些数据的?

     

    唐崇麟:这三条链的选择其实与犯罪行为密切相关。波场链已逐渐演变为网络涉币犯罪中最为核心的一条链,其上的 USDT 交易效率高、转账手续费低廉,是犯罪分子的首选。以太坊中的 DX 应用极多、用户广泛,也是非常好的一个选择。币安智能链的合约部署丰富、技术成熟,在华人圈的普及率也很高,也是犯罪分子常用的一条链。

     

    搭建了三条链的全节点后,接下来要做的就是数据的收集和处理。在整体的大数据架构中,我们需要兼顾两个方向。

     

    一是实时分析:用户希望链上数据能有秒级别的更新,为此我们利用 StartBox 实时数据库组件、Kafka 及 Spark 等大数据组件搭建了一套实时系统,其中存储了大量 raw data 供模型运算和特征计算;

     

    二是离线分析:我们的实时数据库和离线数据库中间通过任务相连接,从而构成一个高级的 Lambda 实时和离线数据库架构。至于数据的清理和处理,我们也搭建了完善的全流程全生命周期监控体系,确保数据完整准确、实时高效。

     

    有了数据,我们可以通过产品将整体交易网络呈现给用户,允许用户直接通过网图对可疑涉案地址进行查找分析。此外,我们也通过模型为用户提供助力,比如模型可以在一小时内遍历一个犯罪起始点下游的数十万地址点,并将最为可能的十个点标记在图上供用户查阅,从而极大地提升了效率。

     

    InfoQ:资料显示,中科链源在自动查找目标地址方面,原来要用两周的时间现在缩短到了 20 分钟,这期间主要做了哪些改进?

     

    连晓磊:案件处理的提速主要依赖于机器性能和模型能力的提升。

     

    人为的地址分析无法遍历全量的下游节点,无法保证召回率。人为地址分析的速率也不如机器,机器可以基于自动化逻辑进行海量地址的概率和分数计。此外,模型的能力也对案件处理提速有一定优势,我们公司内的分析师团队学习优秀的分析经验,构建出相对较好的模型,再加上机器的快速计算能力,从而得到更好的预测结果。

    加入大模型能力


    InfoQ:中科链源之前在InfoQ分享过选择了智谱的 ChatGLM-6B 模型,那当时你们对大模型有什么选择标准,最后又为什么选择 ChatGLM-6B?

     

    连晓磊:这一个问题其实可以分为两个方面来回答,一是模型的选择,二是工具的选择。

     

    首先是模型的选择。我们在体验了一些法律领域的大模型,如 LawGPT、ChatLaw 等后,总体感觉和通用的 ChatGLM 差不多,即使 ChatLaw 在交易方面相对更好,也因为其没有开源的预训练参数,导致我们无法直接使用。LawGPT 在法律方面的问题回答表现不错,但其检索问答的能力是借助的 RAG(检索增强式问题生成),其效果不如 ChatGLM 通用大模型。

     

    此外,当时虽然也有 ChatGLM 的二代模型,但其架构上大体没有变化,只是支持更快的推理速度和更长的上下文,再加上当时对一代的模型应用更多,我们最终选择直接部署一代 ChatGLM。当然,我们后续也陆续更新到了目前最新的模型 ChatGLM 3。

     

    再说工具的选择。我们考虑过 LangChain、LlamaIndex,以及国内的 FastGPT,但这些工具的集成度相对较高,且没有集成向量数据库功能,因此我们直接自己搭建了一套框架,在 RAG 中了添加数据清洗、判例文档核心句子提取、意图识别等自定义环节,也搭建了用于检索的向量数据库。

     

    InfoQ:实际上在研发阶段,中科链源使用了垂直行业的 ChatLaw-Text2Vec 模型,这两种模型如何分工?基座模型(ChatGLM-6B)和垂直模型混合应用会得到更好的效果吗?

     

    连晓磊:从模型分工来说,ChatLaw-Text2Vec 和 ChatGLM 在架构中是串行进行的;ChatLaw-Text2Vec 负责检索,将用户输入的问题转变为向量,再从向量数据库中检索出和用户问题语义相似度较高的法律判例文档,最后将问题和检索到的文档一同作为 instruction 输入到 ChatGLM 中,从而实现问题问答,类似于将原先的开放式大题变成了选择题或阅读理解题目。

     

    再说基座模型和垂直模型的混合应用,ChatLaw-Text2Vec 是专门针对法律问答方向的向量化 embedding 模型,使用了 90 多万条高质量中文法律问答的句子对作为训练数据,天然适合法律领域的问答语义相似度计算。

     

    我们也尝试过其他如 Text2Vec 模型,但在法律场景中的表现均逊于 ChatLaw-Text2Vec,因此,我们最终的检索模型使用了垂直领域的 Text2Vec,但问答还是采用通用的 ChatGLM。

     

    InfoQ:中科链源推出的 to G 的 SAFEIS 安士信息作战系统是怎么做架构搭建的?to G 系统的研发与 to B\ to C 的软件系统研发有什么不同?

     

    唐崇麟:前面提到主要模块其实就是 to G 的安士信息作战系统,是专为执法机构提供的、打击涉虚拟币犯罪的一站式综合查控平台,平台涵盖资金分析追踪、地址监控、智能分析研判等核心功能。基于此,产品的架构搭建一方面要利用图计算模型、图聚类模型、OLAP 型数据库处理分析海量的链上数据,另一方面要利用网状图、树状图系统对分析结果做图形化的呈现。

     

    to G 系统的研发与 to B \ to C 的软件系统研发的不同之处,主要是因为 G 端、B 端、C 端使用场景存在着非常大的差异。以我们公司的业务举例,为了保障数据安全,我们经常要将产品部署到公安的内网中,这就要求 SAFEIS 安士要有私有化部署的产研经验,让我们的产品更符合公安的使用标准要求。

     

    InfoQ:AI 技术在产品中的应用方面,中科链源团队还有哪些在筹备中或者是规划中的技术呈现吗?

     

    唐崇麟:我们的工作不是为了使用最前沿的技术,而是要切合业务需要选择技术,比如要如何更快地发现更多线索,如何在新犯罪团伙或犯罪行为出现时尽快发现。基于这样的需求,我们的发展有三大方向:

     

    • 利用图神经网络:基于我们积累的涉案地址进行发散,探索网络中是否存在新的异常交易行为,有的放矢地查看是否存在新犯罪团伙或新案件线索;

    • 利用图聚类技术:找到新的涉案嫌疑人地址和相关线索;

    • 利用生成式 AI:对智能合约源码进行分析,传销诈骗类智能合约可能存在规律,那么直接监控新部署智能合约并利用生成式 AI 进行文本分析,可能带我们找到涉案的可疑合约。

     

    InfoQ:最后,要不要给大家一些防诈骗小技巧?

     

    连晓磊:技术手段在预防不法行为方面发挥着很重要的作用,对敏感数据的加密可以预防未经授权访问导致的数据泄露,利用机器学习技术和上面提到的各种模型进行数据分析和异常模式识别,可以预测一些潜在的不法行为,为执法部门提供相对有价值的线索。

     

    但最核心的还是提高个人的防范意识,谨慎对待可疑电话短信,不要轻易泄露个人信息或进行转账操作,保护个人信息不泄露身份证和银行账户等数据信息。最后就是要警惕电信诈骗手段,防范不法分子利用 DeepFake、语音视频合成等较为先进手段,冒充公检法机关、亲友急需资金等骗局。

     

    唐崇麟:现在虽然也有很多工具提供智能合约的安全检测,但个人来说预防诈骗还是要在心理上建立防线。在遇到任何暴富机会前,都要想想自己究竟是不是别人眼里的韭菜、要不要这么冲动;钱包密钥一定保管好,写在纸上不要放到网上,不要将密钥透露给任何人;既然钱包免费生成,那我们可以生成多个钱包、专款专用,主力钱包不要和可疑合约进行交互,额外生成一个专门用于和各种 DMS 进行交互的钱包,这样即使这个钱包不小心在授权后被清空,损失只是这一个钱包,风险隔离非常重要。

     

    此外,我们还要对区块链的授权、加密、签名等操作的原理有所理解,明白即使受骗后也没有银行可以去申诉索赔,这样应该也会对自身的安全意识有所增强。

     

    嘉宾介绍:

     

    唐崇麟,在移动互联网领域有十余年的工作经验,曾任职于 Uber、滴滴负责运营、策略、算法领域的工作,同时搭建了网约车的策略分析平台,加入字节后也是负责算法、策略相关的工作。目前在中科链源,负责大数据和算法相关的工作。


    连晓磊,曾在好未来和理想汽车工作,主要的研究方向是营销增长的模型以及自然语言处理相关的工作。目前在中科链源主要是负责区块链安全算法相关的研究工作。

     

    2024-04-26 14:596798

    评论 1 条评论

    发布
    用户头像
    唐老师,磊哥YYDS!!!
    2024-04-30 14:42 · 四川
    回复
    没有更多了
    发现更多内容

    【愚公系列】2022年05月 二十三种设计模式(六)-适配器模式(Adapter Pattern)

    愚公搬代码

    5月月更

    2022 开源之夏 | Serverless Devs 陪你“变得更强”

    阿里巴巴云原生

    阿里云 云原生 Serverless Devs 开源之夏

    Nginx 和 Nginx Plus 的区别

    HoneyMoose

    《对线面试官》Java泛型

    Java3y

    Java 程序员 编程语言 java 5月月更

    SAP 电商云启用 Enterprise Product Development Visualization Integration 的配置步骤

    汪子熙

    angular 电商 SAP commerce 5月月更

    面试突击45:为什么要用读写锁?它有什么优点?

    王磊

    Java 面试

    PyTorch 开发环境搭建

    Emperor_LawD

    PyTorch 5月月更

    STM32+华为云IOT设计的动态密码锁

    DS小龙哥

    5月月更

    LabVIEW串口通信

    不脱发的程序猿

    LabVIEW 串口通信 数据通信

    BI系统打包Docker镜像及容器化部署的具体实现

    葡萄城技术团队

    Docker 数据分析 BI BI 分析工具

    六、高可用之流控降级

    穿过生命散发芬芳

    5月月更 高可用设计

    MathType全新免费版数学公式编辑器

    茶色酒

    MathType

    CleanMyMac有没有需要安装电脑?

    茶色酒

    CleanMyMacX

    LabVIEW应用程序后台运行

    不脱发的程序猿

    LabVIEW

    CentOS 8及以上版本配置IP的方法,你 get 了吗

    伍工

    Linux 网络

    【Python】新华字典(bushi

    謓泽

    5月月更

    轻量迅捷时代,Vite 与Webpack 谁赢谁输

    葡萄城技术团队

    前端 vite webpack 轮子

    ChunJun支持异构数据源DDL转换与自动执行 丨DTMO 02期回顾(内含课程回放+课件)

    袋鼠云数栈

    大数据

    LabVIEW十六进制和字符类型转换

    不脱发的程序猿

    LabVIEW 进制转换

    nginx配置系列(九)nginx中的防盗链

    乌龟哥哥

    5月月更

    跟着动画学 Go 数据结构之二叉树

    宇宙之一粟

    数据结构 二叉树 Go 语言 5月月更

    MathType2022永久无限试用脚本程序

    茶色酒

    MathType

    数据大屏,仅仅是数据展示吗?

    葡萄城技术团队

    数据分析 BI 数据可视化 数据大屏 BI分析

    【高并发】ThreadLocal学会了这些,你也能和面试官扯皮了!

    冰河

    并发编程 多线程 协程 异步编程 精通高并发系列

    福昕软件:用PDF辅助技术弥合阅读障碍者的数字鸿沟

    联营汇聚

    [Day37]-[二叉树]- 找树左下角的值

    方勇(gopher)

    LeetCode 二叉树 数据结构算法

    LabVIEW串口调试助手

    不脱发的程序猿

    LabVIEW 串口通信 数据通信 串口调试助手 VISA

    Django 如何获取 Model 字段列表?

    AlwaysBeta

    django

    消息队列Kafka「检索组件」重磅上线!

    阿里巴巴云原生

    阿里云 云原生 消息队列Kafka

    五年谷歌ML Infra生涯,我学到最重要的3个教训

    OneFlow

    机器学习 深度学习 深度学习框架 MLOps Data Infra

    python处理excel文件,python xlsxwriter 一文初掌握

    梦想橡皮擦

    5月月更

    我们用机器学习模型协助打击不法行为_AI&大模型_褚杏娟_InfoQ精选文章