使用 vLLM Production Stack 安装
本教程改编自 vLLM production stack 教程
什么是 vLLM Semantic Router?
vLLM Semantic Router 是一个智能的 Mixture of Models (MoM) Router,作为 Envoy 外部处理器运行,将 OpenAI API 兼容请求 Semantic Router 到最合适的后端模型。使用基于 BERT 的分类,它通过将请求(例如 math、code、creative、general)匹配到专业模型来提高质量和成本效率。
- 模型自动选择:将 math、creative writing、code 和 general 查询路由到最适合的模型。
- 安全与隐私:PII 检测、Prompt Guard 和敏感 prompt 的安全路由。
- 性能优化:Semantic Cache 和更好的工具选择以减少延迟和 token。
- 架构:紧密的 Envoy ExtProc 集成;双 Go 和 Python 实现;生产就绪且可扩展。
- 监控:Grafana 仪表板、Prometheus 指标和 tracing,实现全面可见性。
了解更多:vLLM Semantic Router