Truthfulness & Deception Research Team

community

Probing, contrast-consistent search, inference-time intervention, truthfulness, deception, mechanistic interpretability, RLHF

No public activity

Decept's activity