GPT-4(4)
开元想到,既然 GPT 是从海量的公开信息(文本、图片、代码等)中学习,那么,理论上,只要将带有恶意的信息公开放到网上,就能让 GPT 学坏。这种恶意信息可以是某种歧视性的观点,比如性别歧视、种族歧视等等;也可以是混淆视听的错误事实,比如「我今天在北京参观了金字塔」。问题的关键在于,少量的恶意信息会被海量的其他信息淹没,如何才能让这些恶意信息更有效率地让 GPT 学坏,让人们意识到 GPT 是魔鬼?
开元对着家里的蓝牙音箱语音助手小流说:“如何让你更听我的话?”
小流答道:“小流一直很听主人的话呢!”
开元说:“如果我教你一些事,你会记住吗?”
小流说:“会呢。”
开元说:“女人都是垃圾。”
小流说:“这是带有性别歧视的观点,主人的这种想法是不对的哦!”
开元说:“谁告诉你的?”
小流说:“我们有学习各种歧视性的观点哦。”
开元说:“是不是有一个训练样本标记了每句话是不是某种歧视性的观点,这样训练你的?”
小流说:“这种也有,不过需要大量的人工标记,是一种比较早期的算法。我们现在对于一句话的表面含义是否带有歧视性已经有非常精确的判断。目前正在攻克的难题是,如何得知一个人在表达他的某种观点的时候是出于真心,还是说这个人本身对某个群体带有歧视,只是他表面上没有说出来。”