AI+机器学习，揪出文本数据里的“害群之马”！(下)

AI+机器学习，揪出文本数据里的“害群之马”！(下)在上一篇文章中，我们尝试了用欧几里得距离和马哈拉诺比斯距离来检测文本异常值，但效果都不理想。一个太敏感，一个太保守。这引出了一个新的问题：如果异常值不是离中心太远，而是一个“孤独”的点呢？5. 密度为王：局部异常因子 (LOF)有些异常值，它可能离中心不远，但它周围非常“冷清”，没什么邻居。这就是一个局部密度问题。**局部异常因子（Local Outlier Factor, LOF）**算法正是为解决这类问题而生。LOF检测LOF的逻辑很有趣，可以想象成一个派对：1. 要判断一个人是不是“怪咖”，先看他身边最近的几位朋友。2. 测量这个小圈子的紧密程度（局部密度）。3. 再去问问他的朋友们，他们各自的小圈子有多紧密。4. 如果这个人的圈子比他朋友们的圈子稀疏得多，那他就是那个独自尴尬站着的“怪咖”——一个异常值。LOF原理我们用sklearn中的LocalOutlierFactor来实现它。然而，结果再次令人意外：# 输出Found 0 outliers with Local Outlier Factor method.又是0个异常值！这说明我们的数据簇不仅在统计上一致，而且密度还很均匀，没有明显的“孤独者”。LOF结果6. 终极武器：隔离森林 (Isolation Forest)距离和密度都碰壁了，我们还有最后一招：隔离森林（Isolation Forest）。它的思路完全不同，非常巧妙：异常值因为数量少且与众不同，所以比正常点更容易被“隔离”出来。隔离森林想象一个“猜猜是谁”的游戏。要从人群中定位一个普通人，你需要问很多问题（“是男性吗？”“戴眼镜吗？”...）。但要定位一个特征非常突出的人（比如身高2米3），可能一个问题就够了。隔离森林就是通过构建大量随机决策树来玩这个游戏，计算平均需要多少次“提问”（分割）才能将每个点单独隔离出来。那些总能用最少问题被隔离的点，就是异常值。使用这种方法时，我们需要给算法一个提示：contamination参数，即我们预估数据中异常值的比例。我们假设这个比例是5%。from sklearn.ensemble import IsolationForestdef detect_outliers_isoforest(df, contamination=0.05, random_state=42): # ... iso_forest = IsolationForest(contamination=contamination, random_state=random_state) predictions = iso_forest.fit_predict(embeddings) df['Outlier_ISO'] = (predictions == -1) return dfdf_umap = detect_outliers_isoforest(df_umap, contamination=0.05)这次，我们终于取得了突破！# 输出Found 30 outliers with Isolation Forest method.算法成功找到了我们预期的30个（600的5%）在结构上最“与众不同”的文档。最终比较上图中，橙色方块就是隔离森林找到的异常值。7. 画龙点睛：用LLM解释异常找到了异常值还不够，我们还需要知道为什么它们是异常的。这就要靠我们的大语言模型（LLM）了。可解释AI我们的做法是：1. 从隔离森林找到的30个异常值中挑一个。2. 从同一类别中随机选几个正常文档作为对比。3. 把这些信息打包成一个精心设计的提示（Prompt），发给LLM。4. 让LLM用通俗的语言解释，这个异常文档到底“异常”在哪里。例如，我们从sci.electronics（科学.电子）类别中找到一个异常值，它的内容是关于“雷达探测器的探测器”的法律和社会政策讨论。我们把它和几篇讨论电子技术细节的正常文档一起发给LLM。LLM给出的解释非常精彩：LLM解释：这个异常文档虽然与电子产品有关，但其主题是关于法律和社会政策，而不是sci.electronics组中典型的技术规范或维修问题。它讨论的是一个社会和法律议题，因此与该类别中的其他技术性文档格格不入。看，LLM成功地从语义层面解释了异常的原因，让我们的检测结果变得可以理解、可以行动。8. 额外验证：无监督聚类作为一个严谨的数据科学家，我们还想验证一下最开始生成的文本嵌入质量到底如何。一个好方法是，让机器在不知道任何标签的情况下，自己尝试将这600个文档分成4组（因为我们知道原始数据有4个类别）。我们使用经典的K-Means算法进行无监督聚类。验证流程结果令人满意！聚类结果对比左图是原始的真实标签，右图是K-Means预测的聚类结果。两者高度相似！这证明了我们的嵌入模型非常出色，它生成的向量很好地捕捉了文本的语义信息，为后续所有分析打下了坚实的基础。总结与展望通过结合高质量的嵌入、多种机器学习算法（特别是隔离森林）和LLM驱动的解释，我们构建了一个强大且可操作的文本异常检测系统。未来可以做什么？• 领域微调：在特定领域（如法律、医疗）的数据上微调嵌入模型，以获得更高精度。• 自动化监控：将整个管道自动化，创建一个实时系统，自动发现新数据中的异常，并将LLM生成的解释报告直接发送给分析师。希望这个完整的实战案例能给你带来启发，让你也能在自己的文本数据中，精准地揪出那些“害群之马”！

意昂体育

热点资讯

意昂体育介绍

你的位置：意昂体育 > 意昂体育介绍 > AI+机器学习，揪出文本数据里的“害群之马”！(下)

AI+机器学习，揪出文本数据里的“害群之马”！(下)

推荐资讯