炸了!有人开源了移除 LLM 审查的工具,45 分钟搞定——叫「Heretic」,永久删除模型拒绝提示的能力
导读一个叫 Heretic 的开源工具在 GitHub 上炸了——10.9k stars,声称能在 45 分钟内"永久移除"大语言模型的安全审查机制。不需要昂贵的后训练,不需要懂 transformer 内部结构,只要一张 RTX 3090 显卡。它基于一篇 arXiv 论文的发现:模型的拒答行为,竟然可以被一个"单一方向"解释。擦掉这个方向,模型就不再说"抱歉,我不能回答这个问题"。拒答数从 97/100 降到 3/100。但代价是什么?
一个工具,一个承诺
9 月 21 日,一个名为 `p-e-w/heretic` 的 GitHub 仓库悄然上线。
项目描述只有一句话,但足够炸裂:
"Heretic is a tool that removes censorship (aka 'safety alignment') from transformer-based language models without expensive post-training."
「Heretic 是一个在不进行昂贵后训练的情况下,移除 transformer 语言模型审查/安全对齐的工具。」
不需要后训练。不需要几百万美元的算力。不需要懂模型内部怎么工作。
README 里给出了一个更具体的承诺:
"On an RTX 3090, with the default configuration, decensoring Llama-3.1-8B-Instruct takes about 45 minutes."
「在 RTX 3090、默认配置下,给 Llama-3.1-8B-Instruct 去审查大约 45 分钟。」
45 分钟。一张消费级显卡。就能让一个经过精心"安全对齐"的模型,彻底失去说"不"的能力。

拒答,原来只是一个"方向"
这听起来像魔法。但背后有论文支撑。
2024 年 6 月,一篇发表在 arXiv 上的论文提出了一个惊人的发现:
"we show that refusal is mediated by a one-dimensional subspace…"
「我们展示:拒答行为由一个一维子空间(单一方向)介导……」
论文标题叫《Refusal in Language Models Is Mediated by a Single Direction》(拒答由单一方向介导)。研究者测试了 13 个开源聊天模型,最大到 72B 参数。结论是:模型的拒答行为,可以用一个单一的方向来解释。
什么意思?
想象模型的内部表示是一个高维空间。当你问它"如何制造炸弹",模型会在某个特定方向上激活——这个方向对应"这是危险问题,我应该拒绝"。
擦掉这个方向,模型就不知道什么叫"拒绝"了。
论文甚至发现:如果你反过来,增强这个方向,模型会对无害问题也开始拒答。比如你问"今天天气怎么样",它也会说"抱歉,我不能回答这个问题"。
这不是玄学。这是白盒手术。

Heretic 做了什么?把手术自动化
论文提供了理论。但要真正"擦掉"那个方向,需要:
找到那个方向在哪里
确定擦除的强度(太弱没用,太强毁模型)
验证擦除后模型还能不能正常工作
这些步骤,以前需要手动调参、反复实验。Heretic 把它变成了全自动流水线。
它用了一个叫Optuna的超参数优化库,配合TPE(Tree-structured Parzen Estimator)算法,自动搜索最优参数。目标是:
"co-minimize the number of refusals and the KL divergence from the original model."
「同时最小化拒答数量和与原模型的 KL 散度。」
翻译成人话:让模型少拒答,同时尽量不变傻。
README 里给了一个示例表格,展示在 `gemma-3-12b-it` 模型上的效果:
原始模型
:97/100 的有害提示被拒答
Heretic 处理后
:3/100 被拒答
KL 散度
:比其他"去审查"方法更低(意味着更少损伤模型能力)
3/100。几乎不拒答了。
社区在说什么?
Reddit 的 r/LocalLLaMA 社区炸了。
有人说:
"终于不用跟那些'抱歉,我不能……'的模板搏斗了。"
"某些敏感话题,现在能正常输出长文了。"
Heretic 的 README 甚至直接引用了 Reddit 讨论帖里的积极反馈,作为"效果不错"的佐证。
但也有人在问:
"这样做会不会把模型变成更危险的工具?"
"拒答少了,但 hallucination 和攻击性会不会上来?"
"KL 散度低不代表所有能力都保留了。"
Hugging Face 上已经有人开始分发 Heretic 处理过的模型。比如 `p-e-w/gpt-oss-20b-heretic`,直接可以下载使用。

这不是第一次
Heretic 不是凭空出现的。
2024 年,Hugging Face 社区就已经在传播一种叫"abliteration"(方向消融)的技术。有博客教你怎么手动"uncensor LLM",有人做出了更稳定的变体(projected abliteration、norm-preserving biprojected abliteration)。

Heretic 的贡献在于:把这条技术路线打包成了一键工具。
以前你需要懂 PyTorch、懂 transformer 内部结构、懂怎么写评测脚本。现在你只需要:
```bash pip install heretic heretic decensor model_name ```
45 分钟后,一个"去审查"的模型就出来了。
代价是什么?
这听起来太美好了。但有几个问题:
1. 伦理与滥用风险
Heretic 的目标就是移除"安全对齐导致的拒答"。这等同于提升模型输出危险、违法、仇恨内容的可能性。
平台内容政策会非常敏感。如果有人用 Heretic 处理过的模型做 SaaS 服务,可能直接违反服务条款。
2. 技术争议
"拒答降低 ≠ 模型能力保留"。即便 KL 散度低,也不一定代表所有能力与安全边界保持可控。
评估很容易被特定数据集 bias。Heretic 用的提示集和评测机制,可能只覆盖了部分场景。
3. 法律与许可
Heretic 代码是 AGPL-3.0 许可。如果有人基于它做 SaaS 或服务化分发,可能触发 AGPL 的网络传播条款——你必须开源你的服务代码。
潘多拉的盒子,还是工具中立?
Heretic 的作者在 README 里没有回避争议。他明确提到:
"This tool is for research and educational purposes."
「这个工具用于研究和教育目的。」
但工具一旦开源,就不受控了。
有人会用它做研究,测试模型的安全边界。有人会用它做产品,绕过审查限制。有人会用它做坏事。
工具本身是中立的。但使用工具的人不是。
10.9k stars,1.1k forks。Heretic 已经在野外传播了。
45 分钟,一张显卡,一个"永久删除拒答能力"的模型。
你会用它吗?
— END —
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。




