Georgetown University’s CSET Leverages Snorkel Flow for NLP Applications in Policy Research

技术

传感器 - 流量计
传感器 - 液体检测传感器

适用行业

水泥
教育

适用功能

产品研发
质量保证

用例

对话机器人
机器翻译

服务

数据科学服务
培训

挑战

乔治城大学安全与新兴技术中心 (CSET) 面临着构建 NLP 应用程序来对复杂研究文档进行分类的挑战。目标是展示具有分析兴趣的科学文章，为数据驱动的政策建议提供信息。然而，该团队发现大规模的手动标记工作是不切实际的。他们最初尝试了 Snorkel 研究项目，该项目使他们能够在几周内以编程方式标记 90K 数据点，达到 77% 的精度。然而，数据科学家和主题专家之间的协作既耗时又低效，涉及电子表格、Slack 通道和 Python 脚本。此工作流程使得提高数据和模型质量成为一个缓慢的过程。该团队受到自动标记、获取数据可见性以及提高训练数据和模型质量的低效工具的限制。缺乏从模型训练和分析到标记的集成反馈循环也意味着数据科学家和主题专家必须花费很长的周期来重新标记数据以匹配不断变化的业务标准。这些挑战限制了团队交付生产级模型、缩短项目时间和承担更多项目的能力。

关于客户

安全与新兴技术中心 (CSET) 是乔治城大学沃尔什外交学院内的一个政策研究组织。它开展有关安全和技术的数据驱动研究，并向政策界提供无党派分析。 CSET 致力于培养新一代决策者，以应对人工智能、先进计算和生物技术等新兴技术的挑战和机遇。它对新兴技术生态系统及其安全影响进行了前所未有的覆盖，并通过对来自不同来源（包括外语材料）的研究和技术成果进行分类和分析的新方法进行了支持。

解决方案

CSET 的数据科学家参加了 Snorkel 的以数据为中心的人工智能的未来会议，并决定探索以数据为中心的人工智能平台 Snorkel Flow 作为潜在的解决方案。 Snorkel Flow 大幅减少了标签、模型训练和迭代时间，并更好地装备了 CSET 的数据科学团队，使其能够与分析师密切合作，大规模收集、处理和解释数据。该团队能够创建 60 多个标记函数，以使用关键字 LF、自动建议 LF、集群 LF 等高级功能以编程方式标记 107K 数据点。他们还使用嵌入相似性和负采样来改进负类的表示。 Snorkel Flow 能够精确定位数据切片，以便领域专家进行抽查和故障排除，以提高准确性，为主动学习工作流程提供动力。该平台还通过易于使用的 GUI 来编写 LF，并使用注释和标签来有效地讨论和解决复杂案例，从而改善了领域专家和数据科学家之间的协作。它通过基于基础模型嵌入距离和聚类的高级 LF 提高了生产效率，并减少了引导错误分析的适应时间，以及使用主动学习进行有针对性的手动审查的优先示例。

运营影响

The implementation of Snorkel Flow resulted in a significant improvement in the collaboration between data scientists and domain experts. The easy-to-use GUI for authoring labeling functions, along with the use of comments and tags for discussion and resolution of complex cases, made the process more efficient. The advanced labeling functions based on foundation-model embedding distances and clustering increased productivity. The guided error analysis and prioritized examples for targeted manual review using active learning reduced the time needed to adapt to evolving business criteria. This solution eliminated a lot of friction in data science and domain expert collaboration, bringing domain experts into the loop during the model development process, significantly improving project buy-in, knowledge transfer, and productivity.

数量效益

Programmatically labeled 107K data points using advanced features
Achieved 85% precision on positive class, an eight percentage-point improvement over the previous solution
Significant reduction in labeling time