技术AI测试工具LLM

Promptfoo：LLM评估、红队测试与性能比较工具，支持GPT、Claude等主流模型

Promptfoo是一款专为大型语言模型（LLM）设计的测试工具，旨在帮助用户评估提示词、智能体和RAG系统的性能。它提供AI红队测试、渗透测试和漏洞扫描功能，并支持比较GPT、Claude、Gemini、Llama等多种主流模型的表现。该工具通过简洁的声明式配置，可与命令行及CI/CD流程无缝集成。

2026年3月12日 00:01

GitHub Trending

Promptfoo是一款功能强大的工具，专注于大型语言模型（LLM）的评估与测试。它允许用户对提示词（prompts）、智能体（agents）和检索增强生成（RAGs）系统进行全面的测试。该工具提供了一系列高级功能，包括AI红队测试、渗透测试以及针对LLM的漏洞扫描，旨在帮助开发者和安全专家发现并解决潜在问题。Promptfoo的一大亮点是其跨模型性能比较能力，用户可以轻松对比GPT、Claude、Gemini、Llama等多种主流LLM的表现，从而选择最适合其应用场景的模型。此外，Promptfoo采用简洁的声明式配置方式，极大地简化了测试流程，并支持与命令行工具及持续集成/持续部署（CI/CD）流程的无缝集成，提升了开发效率和自动化水平。

阅读原文

相关新闻

技术

MiroFish：简洁通用的群体智能引擎，赋能万物预测

MiroFish是一个由666ghj在GitHub上发布的开源项目，旨在提供一个简洁且通用的群体智能引擎。该引擎的核心功能是预测万物，展现了其在广泛应用场景中的潜力。该项目于2026年3月16日发布，目前在GitHub Trending上受到关注。

技术

N.O.M.A.D项目：自给自足的离线生存计算机，集成AI与关键工具

N.O.M.A.D项目（Project N.O.M.A.D）是一款由Crosstalk-Solutions开发的自给自足离线生存计算机。该系统旨在为用户提供关键工具、知识和人工智能，确保用户在任何时间、任何地点都能获取所需信息并保持主动权。该项目于2026年3月16日发布，并在GitHub Trending上受到关注。

技术

LLM赋能软件开发：作者分享低缺陷率编程工作流与系统架构新重点

一位开发者分享了其如何利用大型语言模型（LLMs）进行软件开发的工作流。他发现自己更喜欢“创造事物”而非纯粹的“编程”，而LLMs的兴起使其能够以极低的缺陷率持续开发项目。文章指出，自Codex 5.2和Opus 4.6发布以来，LLMs在编程方面的能力显著提升，使得代码的可维护性大大增强。作者强调，虽然编程技能的重心发生转移，不再需要精通代码编写细节，但系统架构和正确决策的能力变得更为关键。文章末尾还包含了一个真实的编码会话示例。