Post #621

@forbid_403

403 Forbidden

Visninger165Antal visninger

Publiceret5. mar.05.03.2026, 19.11

Indhold

Opslagsindhold

利用大型語言模型進行大規模去匿名化以海量資料訓練、並能快速搜尋相關資訊的大型語言模型，大幅降低了網路開盒（或稱去匿名化）的成本。一個人可能只憑少數特徵就能被個別識別，例如僅透過郵遞區號、出生日期與性別，就可對 87% 的美國人口進行個別識別。根據發表於預印本平臺 arXiv 的一篇論文，大型語言模型可用於大規模去匿名化，並能以高精度辨識網路上的匿名使用者。研究人員設計了一個攻擊流程：擷取身分特徵、搜尋候選對應、透過推理驗證對應結果以降低誤判。傳統的去匿名作業需要專業調查人員耗費數小時甚至更久；大型語言模型不僅耗時更少，且能大幅擴大規模。以利用大型語言模型關聯 Hacker News 匿名帳號與 LinkedIn 實名帳號為例，該系統在維持 99% 精度的情況下，將召回率從 0.1% 大幅提升至 45.1%。召回率（Recall）用於衡量模型找回所有相關資訊的能力。研究人員指出，保護網民匿名性的舊方法已不再有效。