论文阅读 - SWATTING Spambots: Real-time Detection of Malicious Bots on X

 https://web.archive.org/web/20240523035749id_/https://dl.acm.org/doi/pdf/10.1145/3589335.3651564
 

目录

ABSTRACT

INTRODUCTION

METHODOLOGY

3 RESULTS


ABSTRACT

        在 X(前身为 Twitter)等社交网络平台上,垃圾邮件机器人的活动日益猖獗,引发了人们对信息质量和用户体验的担忧。

        本研究提出了一种在 X 平台上实时检测和报告垃圾邮件机器人的创新方法。利用数据分析技术,我们调整了一个综合框架,该框架能够根据垃圾邮件账户的行为模式和特征对其进行准确识别和分类。

        通过为这一日益严重的问题提供有效的解决方案,我们的研究旨在增强用户对社交媒体交流渠道的信任,为用户相互交流和分享信息营造一个更加透明和真实的网络环境。

INTRODUCTION

        随着社交媒体的地位不断提高,了解这些平台如何促进和影响政治格局至关重要。在本研究论文中,我们将深入探讨社交网络在信息生态系统中的重要性,重点关注 X 作为政治参与和信息传播的主要平台所发挥的作用 [ 5, 10 ]。此外,我们还探讨了试图通过热门趋势操纵公众看法的行为者所采用的各种策略,这些趋势是放大某些信息或压制其他信息的有力工具

        鉴于 X 等平台上肆意操纵社交媒体的潜在风险,研究人员和政策制定者必须制定有效的方法来监控和减少此类活动 [ 4, 9 ]。

提出方法:

        因此,我们提出了一种系统性方法来分析 X 平台上的热门趋势操纵行为,最终目的是在这一数字领域促进透明度、问责制和负责任的信息交流。我们希望通过这项研究,阐明政治、社交媒体之间复杂的相互影响,以及在日益互联的世界中对民主社会的广泛影响。

        在研究操纵热门话题趋势方面,以往的研究主要集中在以下情况:数量有限的账户产生了与特定主题相关的异常高的发帖量,从而有效地参与了天马行空的行为。为了检测这些模式,人们开发并使用了各种检测算法,包括 Ben Nimmo 提出的流量操纵系数 (CTM)[7]。

GAP:

        然而,在分析大量账户发布少量帖子的情况时,这种算法可能不那么有效,而这正是我们开发的算法发挥作用的地方。

        我们的算法旨在通过采用基于多变量分析的方法来检测 X 的顶级趋势中潜在的操纵行为。以往的研究[6]主要关注单个账户的特征,而我们的方法则不同,它更深入地研究了用户之间错综复杂的互动网络,这些互动网络有助于推动特定的趋势。通过分析可能影响账户行为的各种变量及其在传播特定信息中的作用,我们可以有效识别异常模式或异常现象,这些异常模式或异常现象可能预示着操纵企图。通过这种多变量方法,我们的算法可以发现传统分析方法可能忽略的微妙操纵行为[1]。

        所提出的算法不仅增强了现有监测系统的检测能力,而且对那些试图通过 X 上的热门趋势影响公众舆论的人所采用的策略提供了有价值的见解。通过不断完善和调整我们的方法,我们可以确保为所有在该平台上参与政治讨论的用户提供一个更加透明、负责和安全的数字环境

METHODOLOGY

        通过使用僵尸网络,标签可能会被人为放大,僵尸网络由遵循特定指令集的僵尸账户组成。这些账户通常通过自动过程,使得它们的特征(例如创建日期、关注者/关注网络规模和历史活动量)相当接近。为了自动识别僵尸网络用于顶级趋势操纵的情况,我们采用了统计过程控制 (SPC),这是一种通常用于管理和监控各行业质量流程的方法

        该技术在检测具有可疑特征相似性的帐户组方面表现出良好的效果。我们的假设是,随着连续参与账户的属性之间的变化,顶级趋势自然出现,反映了真实的参与模式。因此,当具有相似特征的配置文件相继参与顶级趋势的升级时,预计变异性相对于规范值会降低。

        SPC 方法允许对从数据中提取的多个属性进行检验。在这种情况下,我们选择使用 X 社交媒体提供的易于获取的特征:关注者数量、被关注者数量、推文总数和账户年龄。账户的年龄在确定其可信度方面起着至关重要的作用,因为新账户更有可能是出于操纵目的而创建的,而且可能与同一个傀儡主子有关联。

        形式上,设为一个账户的属性X。对于顶级趋势,X_i, i \in [1,n]表示顶级趋势中第i^{th}个账户的属性值。我们可以将这些值分成大小为 k 的滑动窗口,并计算中位数 \widetilde{x}_j

        奥克兰[8]概述的 SPC 方法包括计算这些参数的控制界限,这有助于发现任何可能表明账户操纵的异常模式或异常现象。这些控制上限和下限可以用公式计算:

         其中,\widetilde{X}\sigma _X分别代表一连串测量值的中值和标准偏差。系数 3 表示约 99.7% 的正态分布数据将包含在这些界限内。这些控制限值是在触发与垃圾邮件机器人操纵有关的潜在异常或模式警告之前的最大和最小可接受值

        我们采用了一种实时监控和检测方法来识别和报告 X 上操纵热门标签的恶意僵尸。我们首先跟踪了 2022 年至 2023 年的特定流行标签,并手动验证了这些期间是否存在僵尸活动。这些标签的发帖量如图 1 所示。我们利用 X 的前 API v2 收集与特定标签相关的数据。

        使用法国标签 #PenurieCarburant 观察到了此类操纵活动的一个例子,在此期间,与机器人相关的活动激增[2]。这些机器人只发布了一条带有随机文本的信息,表明它们试图误导用户并制造虚假叙述.

        该主题标签的一个显着特征是内容传播不仅通过转发进行,还通过异常高比例的原始消息进行。不同的帐户,这使得传统的警报指标(例如 CTM)很难检测潜在的信息操纵。

        2023 年 1 月,法国人在讨论巴西国民议会发生的事件时使用了 #Brésil 标签。同样,#OmarSy 标签与法国演员奥马尔-西(Omar Sy)主演的一部电影的上映有关。这些未受操纵的标签是了解 X 上合法用户行为模式的宝贵基准,并为检测表明存在恶意僵尸活动的异常活动提供了背景。

        为了更好地理解僵尸驱动的营销活动,我们分析了所调查的每个标签的选定变量(如粉丝数、关注数、每天推文数和账户年龄)的分布情况。收集到的非受操纵的热门趋势数据使我们能够校准每个变量的控制范围,这反过来又帮助我们识别了表明僵尸活动的异常模式或异常现象。图 2 显示了所选标签变量的分布情况。

        在分析中,我们对追随值和跟随值进行了对数变换,因为在较高的数值范围内,追随值和跟随值往往会发生变化[3]。这种方法允许 我们就能更好地可视化和分析数据,并突出显示任何可能表明垃圾邮件机器人操纵的潜在异常值。值得注意的是,在 #PenurieCarburant 标签的分布初期可以观察到一个异常值峰值,这是由于垃圾邮件机器人账户通常表现为 0 关注者和 0 追随者。

        为了建立分析的控制边界,我们使用未被操纵的标签(如 #OmarSy 和 #Brésil)的数据计算了这些值。计算得出的边界见 Ta- ble 1,为识别研究目标标签中潜在的垃圾邮件机器人操纵模式提供了比较基础

3 RESULTS

        我们采用了滑动窗口法,通过计算连续帖子窗口的特征来评估检测算法的性能。通过使用k = 100 个帖子的窗口大小,我们可以直观地分析每个特征在这些窗口中的分布情况。

        图 3 用红色矩形显示了预期的下边界和上边界,使我们能够找出可能影响所研究标签数量的潜在垃圾邮件机器人活动。

        在受操纵的散列标签 #PenurieCarburant 中,有几个点落在了这些边界之外,这表明垃圾邮件机器人对提高散列标签的显著性负有责任。此外,我们的分析表明,操纵散列标签的机器人是最近才创建的,没有任何其他推文,社交参与度极低(0 个追随者,0 个关注者),而且只发布了一条帖子。

        除了使用历史数据评估我们的方法外,我们还通过分析通过流 API 端点接收到的帖子进行了实时测试。为了尽量减少误报的可能性,我们实施了一条规则,只有在观察到连续 10 个滑动窗口点超出既定控制边界。在测试阶段,我们的系统生成的大多数警报都与关注者日志和每日推文数据有关,为了解 X 等社交媒体平台上潜在的垃圾邮件机器人操纵行为提供了宝贵的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/883129.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【SpringBoot整合Redis测试Redis集群案例】

1、第一步,创建springboot项目,并导入依赖 如图,创建项目遇到的第一个问题就是,当type选择maven,jdk选择1.8时,java部分没办法选择1.8的版本,这怎么办呢? 原因:搜了一下…

【windows 11 安装maven】

从下载网址下载maven 解压&#xff08;路径无中文&#xff09; 配置本地仓库&#xff0c;用来存储jar包 配置仓库路径 配置文件路径&#xff1a;./conf/settings.xml(conf文件夹中的settings.xml文件中&#xff09; 定位到53行修改 <!-- localRepository| The path to the l…

第 1 章:Vue 核心

1. Vue 简介 1.1. 官网 英文官网: https://vuejs.org/中文官网: https://cn.vuejs.org/&#xff1a;中文官网里面【教程】和【API】是比较重要的。用到api就去查询&#xff0c;实践当中记忆更牢靠。 风格指南&#xff1a;官方推荐写的一个代码风格cookbook&#xff1a;编写v…

从更底层的角度理解网站的访问过程

文章目录 1.示例&#xff0c;访问www.baidu.com是如何返回数据的1.输入www.baidu.com回车2.检查本机的C:\Windows\System32\drivers\etc\hosts配置文件夹下有没有这个域名对应的映射&#xff1a; 1.示例&#xff0c;访问www.baidu.com是如何返回数据的 1.输入www.baidu.com回车…

光伏开发:一分钟生成光伏项目报告

传统光伏项目报告的编制往往需要收集大量数据、进行复杂计算与分析&#xff0c;耗时长且易受人为因素影响。自动生成光伏项目报告&#xff0c;依托大数据、云计算、人工智能等先进信息技术&#xff0c;实现了对光伏项目关键参数的快速分析、评估与预测。 一、核心功能与流程 1…

【C++笔试强训】如何成为算法糕手Day2

学习编程就得循环渐进&#xff0c;扎实基础&#xff0c;勿在浮沙筑高台 循环渐进Forward-CSDN博客 目录 循环渐进Forward-CSDN博客 第一题&#xff1a;牛牛的快递 第二题&#xff1a;最小花费爬楼梯 第三题&#xff1a;数组中两个字符串的最小距离 补充0x3f3f3f3f 第一题…

9/24作业

1. 分文件编译 分什么要分文件编译&#xff1f; 防止主文件过大&#xff0c;不好修改&#xff0c;简化编译流程 1) 分那些文件 头文件&#xff1a;所有需要提前导入的库文件&#xff0c;函数声明 功能函数&#xff1a;所有功能函数的定义 主函数&#xff1a;main函数&…

springboot实战学习(8)(登录接口中使用“JWT令牌“完成登录认证)(拦截器的创建与注册)

接着上篇博客学习。上篇博客是在基本完成用户模块的注册接口的开发以及注册时的参数合法性校验、也基本完成用户模块的登录接口的主逻辑的基础上。也提到了"JWT令牌"的组成与使用。具体往回看了解的链接如下。springboot实战学习&#xff08;7&#xff09;(JWT令牌的…

TCP网络编程概述、相关函数、及实现超详解

文章目录 TCP网络编程概述1. TCP协议的特点2. TCP与UDP的差异3. TCP编程流程 TCP网络编程相关函数详解1. socket()&#xff1a;创建套接字参数说明&#xff1a;返回值&#xff1a;示例&#xff1a; 2. connect()&#xff1a;客户端连接服务器参数说明&#xff1a;返回值&#x…

【CubeMX学习笔记】关于CAN通信协议

目录 一、CAN通信简介 二、CAN数据帧类型 三、格式帧 四、位同步 传输数据时可能遇到的问题 最小时间单位 硬同步 再同步 波特率的计算 STM32中的CAN外设 一、原理图 二、标识符筛选 三、配置单个邮箱&#xff08;正常模式或自发自收只需要修改模式&#xff09; …

【动态规划-多重背包】【hard】力扣2585. 获得分数的方法数

考试中有 n 种类型的题目。给你一个整数 target 和一个下标从 0 开始的二维整数数组 types &#xff0c;其中 types[i] [counti, marksi] 表示第 i 种类型的题目有 counti 道&#xff0c;每道题目对应 marksi 分。 返回你在考试中恰好得到 target 分的方法数。由于答案可能很…

基于yolov5滑块识别破解(二)

通过上一篇文章基于yolov5滑块识别破解&#xff08;一&#xff09;-CSDN博客&#xff0c;我们已经完成了yolov5的部署和训练&#xff0c;接下来我们将对源码进行改动&#xff0c;来实现滑块的自动滑动破解。 1.获取坐标 修改detect中for循环的内容&#xff0c;获取目标的左上角…

SAP 利润分配-未分配利润的年初余额和年末余额不一致的问题

SAP OB53 本年利润科目的年初余额和年末余额不一致的问题 关于OB53科目的问题 OB53维护的本年利润科目 现象&#xff1a;为何去年年末的本年利润金额和今年年初的本年利润金额不一致。 解释原因&#xff1a; 本年利润科目的这种现象归根结底是“表结法”产生的&#xff0c;换…

如何在Mac上查看剪贴板历史记录

重点摘要 macOS 内建的剪贴簿查看器可以透过 Finder 存取,但只能显示最近一次复制的内容,而且重新开机后就会清除。若要更进阶的剪贴簿管理,第三方 app 像是 CleanClip 提供了强大的功能和更好的组织方式。CleanClip 提供了全方位的剪贴簿历史管理解决方案,支援各种内容类型和…

开源 AI 智能名片与 S2B2C 商城小程序:嫁接权威实现信任与增长

摘要&#xff1a;本文探讨了嫁接权威在产品营销中的重要性&#xff0c;并结合开源 AI 智能名片与 S2B2C 商城小程序&#xff0c;阐述了如何通过与权威关联来建立客户信任&#xff0c;提升产品竞争力。强调了在当今商业环境中&#xff0c;巧妙运用嫁接权威的方法&#xff0c;能够…

栈的深度解析:链式队列的实现

引言 队列是一种广泛应用于计算机科学的数据结构&#xff0c;具有先进先出&#xff08;FIFO&#xff09;的特性。在许多实际应用中&#xff0c;例如任务调度、缓冲区管理等&#xff0c;队列扮演着重要角色。本文将详细介绍队列的基本概念&#xff0c;并通过链表实现一个简单的…

进程间通信 (一)【管道通信(上)】

目录 1. 概况2. 管道通信的原理2.1 初步理解2.2 深入理解 1. 概况 是什么&#xff1a;两个及以上的进程实现数据层面的交互&#xff0c;称为进程间的通信。 因为进程独立性的存在&#xff0c;所以一个进程无法直接访问另一个进程的数据&#xff0c;即便是父子进程&#xff0c;子…

前端接口415状态码【解决】

前端接口415状态码【解决】 一、概述 415状态码是HTTP协议中的一个标准响应状态码&#xff0c;代表“Unsupported Media Type”&#xff08;不支持的媒体类型&#xff09;。当客户端尝试上传或发送一个服务器无法处理的媒体类型时&#xff0c;服务器会返回这个状态码。这通常意…

深度学习:常见损失函数简介--名称、作用和用法

目录 1. L1 Loss 2. NLL Loss (Negative Log Likelihood Loss) 3. NLLLoss2d 4. Gaussian NLL Loss 5. MSE Loss (Mean Squared Error Loss) 6. BCE Loss (Binary Cross-Entropy Loss) 7. Smooth L1 Loss 8. Cross Entropy Loss 1. L1 Loss 作用&#xff1a;计算预测值…

Arm Cortex-R52+ Generic Timer分析

目录 1.Generic Timer初识 2.R52的Generic Timer 3.如何配置Timer中断 4.小结 1.Generic Timer初识 Arm Cortex-R52内部实现了Generic Timer(通用计时器)&#xff0c;它可以基于递增计数来产生中断和事件流。 事实上&#xff0c;该计时器和Armv8-R AArch32中的定义完全一…