AI算法如何辨“好坏”?
社交平台、短视频平台等公共网络场所,已经成为网络暴力行为的高发地。在刚结束的冬奥会上,就有不少人通过网络平台的评论和私信功能,对冬奥选手进行诋毁、侮辱攻击、散布不实谣言,对冬奥观赛和社区氛围造成了极大的伤害
社交平台、短视频平台等公共网络场所,已经成为网络暴力行为的高发地。
在刚结束的冬奥会上,就有不少人通过网络平台的评论和私信功能,对冬奥选手进行诋毁、侮辱攻击、散布不实谣言,对冬奥观赛和社区氛围造成了极大的伤害。
事实上,网络暴力由来已久。
由于网络暴力往往处于灰色地带,大部分暴力行为都尚未构成诽谤和侮辱,因此很难对网络暴力实施者处以刑罚或者行政处罚。
网民的言论只要不超越法律底线,有权自由发表言论。
为了应对网络暴力行为,全球大多数的社交平台都采用了言论投诉、评论过滤、评论/私信关闭、好友关注过滤等功能,在一定程度上缓解网络霸凌的问题。
但限制性的功能类似于黑名单,并不能完全将网络暴力扼杀在摇篮,只能在恶意语言/图片/视频出现后进行封堵,不幸的是负面影响已经扩散开来。
那么,能否采用技术的手段从源头就识别网络暴力行为呢?
01
以AI技术制止网络暴力
成为全球研究者共同的选择
2016年,以“贾斯汀·比伯退出Instagram”为导火索,Instagram首次推出了负面评论过滤功能。之后,Instagram还通过机器学习来处理含有攻击性信息的照片。
2019年,Instagram又推出两大反网络暴力功能,即言论提醒和自主选定黑粉功能,用来帮用户抵制网络暴力。
其中,言论提醒功能利用AI技术,在冒犯性言论发表之前,向发言者发出提醒。比如:当某用户输入了“你又丑又蠢。”并点击发布时,AI会发出“请为Instagram保持一个友好环境”的提醒。
“通过获得这种干预,人们有机会反思和撤销他们的评论,使收件人避免收到有害评论通知。”Instagram主管Adam Mosseri表示,“经测试,我们发现这项功能确实有引导作用,能使一些用户撤销评论或修改评论内容。”
近日,抖音也推出了类似的防网暴功能,并升级为AI技术和人工审核相结合的方式,对违规用户进行引导和帮助。
当用户发布违规或低质评论之后,抖音会对该评论进行模型匹配和校验,用户会立即收到评论弹窗警示,提示“该评论可能对他人造成负面影响”,给用户一个回心转意的机会。
当然,弹窗可以跳过并继续发布评论,但将不会被其它人看见,此时评论会进入正常审核逻辑,真正的违规评论依然会被处理。
此外,抖音在防网暴系统中还新增了名为“心情暖宝宝”的平台助手。
如果用户多次违规发布私信、评论,AI算法可以自动匹配触发“心情暖宝宝”,用消息对话尝试缓解用户的抑郁情绪,甚至引导用户去人工求助、线下就诊。
此外,用户也可以自主在推荐、搜索、评论等场景减少负面内容推荐。
除了识别谩骂/骚扰信息等明显的负向内容,如:反讽攻击、答非所问、垃圾广告导流这类“阴阳怪气”的内容,在不同讨论语境下也会引发不同情绪,这更为AI算法识别带来了极大挑战。
对此,2018年知乎就通过AI技术尝试处理阴阳怪气的言论。“瓦力”作为知乎社区治理的算法机器人之一,能在0.3秒内识别判断内容是否为不友善、答非所问、阴阳怪气等多种需被折叠的答案。
“我们基于对于用户切实体验的累积观察,与算法团队一起,从情感倾向性、亲密关系、文本特征三方面入手,训练出能够识别阴阳怪气的算法模型。
目前‘瓦力’对阴阳怪气评论文本的识别准确率,已非常接近社区最大公约数,比很多人工判断都更准。”知乎运营总监孙达云表示。
所谓“社区最大公约数”指的是社区共识,即长久积淀下来知乎和用户共同认可的一种公约,知乎称之为知友们对价值判断的最大公约数,比如“知乎不让骂人”,比如“对优质内容的界定”等。
知乎在过去多年中所累积的“举报”等带有用户筛查性质的行为语料和丰富的社区管理经验,使得知乎得以迈出关键一步:用社区最大公约数作为判定尺度。
在算法方面,通过400多个前沿的深度学习模型识别过亿内容,现在的知乎平台,可以智能地进行倾向性识别、爆照识别、风险图片识别等等。