MLRun AI Blog

探索 AI 前沿技术 — 大语言模型 · 机器学习 · 深度学习 · AI 工程实践

专注于 LLM、RAG、模型部署与 MLOps 领域的技术分享。

MCP、A2A、ACP：谁在定义 AI Agent 的'普通话'？

MCP 管工具连接，A2A 管 Agent 协作，ACP 走企业路线。三个协议各占一层，真正的战争在协议内部。

RAG 实战：构建企业级知识库问答系统

什么是 RAG？ RAG（Retrieval-Augmented Generation）通过将外部知识检索与大语言模型生成相结合，解决 LLM 的知识时效性和幻觉问题。 ...

AI 模型部署：从实验到生产的完整指南

部署挑战将 AI 模型从 Jupyter Notebook 搬到生产环境，需要解决：推理延迟与吞吐资源利用率模型版本管理监控与告警推理框架选型 1 2 3 4 5 # vLLM：高吞吐 LLM 推理 pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3-8B \ --tensor-parallel-size 2 容器化部署 1 2 3 4 FROM nvidia/cuda:12.1-runtime-ubuntu22.04 RUN pip install vllm COPY model/ /app/model/ CMD ["python", "-m", "vllm.entrypoints.openai.api_server", "--model", "/app/model"] 性能优化 KV Cache 量化：显存降低 50% Continuous Batching：吞吐提升 3-5x Speculative Decoding：延迟降低 2x 监控指标关注 TTFT（Time to First Token）、TPS（Tokens per Second）、P99 延迟。 ...

Anthropic 反超 OpenAI：三个月估值翻 2.5 倍的底层逻辑

从 $380B 到 $965B，Anthropic 凭什么用 4 倍少的投入超越 OpenAI？答案在于 Constitutional AI 的技术路线选择和效率优先的战略。

Claude Code vs Codex 深度评测：一个坐你旁边，一个在云端接单

一个坐在你旁边，一个在云端接单。深度评测 Claude Code 和 Codex 在代码理解、Debug、并行效率、安全性和费用五个维度的真实表现。