技术AI测试工具开源

Promptfoo：LLM评估与红队演练工具，支持多模型性能比较与CI/CD集成

Promptfoo是一款专为大型语言模型（LLM）评估和红队演练设计的工具。它允许用户测试提示、代理和RAG系统，对AI进行渗透测试和漏洞扫描。该工具能够比较GPT、Claude、Gemini、Llama等多种模型的性能，并通过命令行和CI/CD集成提供简单的声明式配置，优化AI开发与安全流程。

2026年3月15日 00:00

GitHub Trending

Promptfoo是一款功能强大的工具，专注于大型语言模型（LLM）的评估与红队演练。其核心功能包括对提示（prompts）、代理（agents）和检索增强生成（RAG）系统的全面测试。用户可以利用Promptfoo对AI系统进行红队演练、渗透测试和漏洞扫描，以识别潜在的安全风险和性能瓶颈。该工具的一大亮点是其跨模型比较能力，能够评估和对比GPT、Claude、Gemini、Llama等不同LLM的性能表现。为了方便开发者和运维团队，Promptfoo支持通过命令行进行配置，并能与持续集成/持续部署（CI/CD）流程无缝集成，提供简单且声明式的配置方式，从而简化AI模型的测试、部署和安全保障工作。

阅读原文

相关新闻

技术

MiroFish：简洁通用的群体智能引擎，赋能万物预测

MiroFish是一个由666ghj在GitHub上发布的开源项目，旨在提供一个简洁且通用的群体智能引擎。该引擎的核心功能是预测万物，展现了其在广泛应用场景中的潜力。该项目于2026年3月16日发布，目前在GitHub Trending上受到关注。

技术

N.O.M.A.D项目：自给自足的离线生存计算机，集成AI与关键工具

N.O.M.A.D项目（Project N.O.M.A.D）是一款由Crosstalk-Solutions开发的自给自足离线生存计算机。该系统旨在为用户提供关键工具、知识和人工智能，确保用户在任何时间、任何地点都能获取所需信息并保持主动权。该项目于2026年3月16日发布，并在GitHub Trending上受到关注。

技术

LLM赋能软件开发：作者分享低缺陷率编程工作流与系统架构新重点

一位开发者分享了其如何利用大型语言模型（LLMs）进行软件开发的工作流。他发现自己更喜欢“创造事物”而非纯粹的“编程”，而LLMs的兴起使其能够以极低的缺陷率持续开发项目。文章指出，自Codex 5.2和Opus 4.6发布以来，LLMs在编程方面的能力显著提升，使得代码的可维护性大大增强。作者强调，虽然编程技能的重心发生转移，不再需要精通代码编写细节，但系统架构和正确决策的能力变得更为关键。文章末尾还包含了一个真实的编码会话示例。