探索 AI 前沿技术 — 大语言模型 · 机器学习 · 深度学习 · AI 工程实践
专注于 LLM、RAG、模型部署与 MLOps 领域的技术分享。
探索 AI 前沿技术 — 大语言模型 · 机器学习 · 深度学习 · AI 工程实践
专注于 LLM、RAG、模型部署与 MLOps 领域的技术分享。
MCP 管工具连接,A2A 管 Agent 协作,ACP 走企业路线。三个协议各占一层,真正的战争在协议内部。
什么是 RAG? RAG(Retrieval-Augmented Generation)通过将外部知识检索与大语言模型生成相结合,解决 LLM 的知识时效性和幻觉问题。 ...
部署挑战 将 AI 模型从 Jupyter Notebook 搬到生产环境,需要解决: 推理延迟与吞吐 资源利用率 模型版本管理 监控与告警 推理框架选型 1 2 3 4 5 # vLLM:高吞吐 LLM 推理 pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-3-8B \ --tensor-parallel-size 2 容器化部署 1 2 3 4 FROM nvidia/cuda:12.1-runtime-ubuntu22.04 RUN pip install vllm COPY model/ /app/model/ CMD ["python", "-m", "vllm.entrypoints.openai.api_server", "--model", "/app/model"] 性能优化 KV Cache 量化:显存降低 50% Continuous Batching:吞吐提升 3-5x Speculative Decoding:延迟降低 2x 监控指标 关注 TTFT(Time to First Token)、TPS(Tokens per Second)、P99 延迟。 ...
从 $380B 到 $965B,Anthropic 凭什么用 4 倍少的投入超越 OpenAI?答案在于 Constitutional AI 的技术路线选择和效率优先的战略。
一个坐在你旁边,一个在云端接单。深度评测 Claude Code 和 Codex 在代码理解、Debug、并行效率、安全性和费用五个维度的真实表现。