不知道大家在运用 LLM 的过程中有没有遇到过这样的问题,我需要不断的调试 Prompt,让 Prompt 给出符合自己满意的结果,并且在应用中使用 Prompt 的时候我需要进行成本的控制,并且持续的迭代优化,而目前大语言模型后台虽然能提供一个简单的支出统计,但用户交互过程中的信息都是捕捉不到的,比如用户的每次请求输出栓输出是否符合预期,不同版本之间的 Prompt 对结果的影响评估,以及用户请求的延迟等等。带着这些需求,我搜寻了一些方案,然后就发现了 Langfuse。
Langfuse 是什么
Langfuse 是一款开源的 LLM 工程平台,通过全面的追踪(Tracing)与可视化,帮助开发者从请求端到模型端的每一步数据都留痕、可度量,从而实现快速调试、成本管控与持续优化 。
Langfuse 是专为大规模语言模型(LLM)应用设计的开源可观测与分析平台,能捕获模型交互过程中的所有上下文信息——输入、输出、工具调用、延迟及成本等。它支持多种模态(文本、图像、音频等)、多家模型服务商以及主流开发框架(如 LangChain、LlamaIndex 等),并提供 Python、JavaScript 等多种语言 SDK。
这么说可能比较抽象,那么我就举一些具体的例子,Langfuse 能做什么。
功能模块 | 主要能力 | 价值 |
---|---|---|
追踪管理 | 记录每次 LLM 请求的输入、输出、上下文与调用链,生成可视化的时序图 | 快速定位问题节点,洞察复杂流程 |
提示词版本管理 | 集中式管理与版本控制 Prompt,可在线编辑与灰度发布 | 缩短 Prompt 调优反馈循环,确保多版本演进可控 |
多模型支持 | 可以同时管理多个 LLM | 满足不同场景需求 |
评估(Evaluations) | 支持 LLM 自评、人工标注与自定义评估流水线,对模型输出质量打分 | 建立一致可复现的评价体系,持续提升应用效果 |
数据集与实验 | 构建测试集与基准,自动化运行 A/B 测试与对比分析 | 持续验证不同配置的效果,保障生产环境质量 |
LLM Playground | 交互式 Playground,可实时调试 Prompt 与模型配置 | 在发现异常追踪后,直接跳转调试环境,加速问题修复 |
开放 API | 提供完整 REST / SDK 接口,可二次开发自定义工作流 | 融入既有 LLMOps 流水线,满足企业级定制需求 |
框架支持 | DeepSeek,LangChain,LlamaIndex 和 AWS Bedrock 等框架集成 | 非常轻松地接入 |
Langfuse 的核心技术优势
- 开源+自托管或云端二选一:可在分钟级完成自托管部署,也可使用官方托管服务,根据业务需求弹性选型。
- 框架与语言无关:自 OpenAI、Anthropic 到开源模型均可接入;与 Python、TypeScript、JavaScript 等语言 SDK 无缝集成。
- 多模态支持:不限于文本,对图像、音频等多种模态进行统一追踪与度量。
- 成本与性能监控:自动统计 Token 用量、API 调用成本和延迟指标,实时洞察运营开销。
- 透明化 Roadmap:公开开发计划与版本更新日志,社区活跃度高,生态不断完善。
典型应用场景
- 开发调试:在开发阶段,通过 Trace 定位生成环节中的异常或性能瓶颈,加速迭代。
- 质量评估:对比不同 Prompt、模型或配置方案效果,以数据驱动选择最优方案。
- 运营监控:实时监测生产环境调用趋势、错误率与成本消耗,及时发现与预警。
- 用户反馈闭环:收集用户标注或打分,将反馈融合进评估流水线,支持持续改进。
安装和使用
安装 SDK:
pip install langfuse openai
配置环境变量:
export LANGFUSE_SECRET_KEY="sk-lf-..."
export LANGFUSE_PUBLIC_KEY="pk-lf-..."
export LANGFUSE_HOST="https://cloud.langfuse.com"
在代码中添加追踪装饰器:
from langfuse import observe
from langfuse.openai import openai
@observe()
def ask_model(prompt: str):
return openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
).choices.message.content
@observe()
def main():
return ask_model("什么是 Langfuse?")
main()
打开 Langfuse 仪表盘,即可查看每次请求的 Trace 树、生成记录与指标面板。
总结
Langfuse 以其全链路追踪、多模态支持与开放生态,正在成为 LLM 应用的必备 LLMOps 平台。无论是在新项目验证阶段还是大规模生产环境,Langfuse 都能帮助团队快速定位问题、优化成本与确保服务质量,为 AI 应用的持续演进提供坚实支撑。
related
- [[LangSmith]]