Xinference基础

介绍 #

Xinference 是一个开源的 AI 模型推理平台。你可以把它想象成一个用来部署和管理各种大型 AI 模型（特别是大语言模型 LLMs）的工具或框架。它的目标是让开发者和研究人员能够轻松地在自己的硬件（无论是个人电脑、服务器还是云实例）上运行和使用这些强大的模型。

Xinference 的主要作用和特点：

简化模型部署 (Simplified Deployment): 运行大型 AI 模型通常需要复杂的环境配置和依赖管理。Xinference 极大地简化了这个过程，让你可以用简单的命令或通过 Web UI 来下载、设置和启动模型。
统一的 API (Unified API): 它为不同类型的模型（如聊天模型、嵌入模型、重排序模型、图像模型、音频模型等）提供了一套统一的、简洁的 API 接口。这意味着你可以用类似的方式与各种不同的模型进行交互，降低了学习和使用的成本。
广泛的模型支持 (Broad Model Support): Xinference 支持非常多的开源模型，涵盖了：
- 大语言模型 (LLMs): 如 Llama, ChatGLM, Qwen, Baichuan, Mixtral, Yi 等。
- 嵌入模型 (Embedding Models): 用于将文本转换为向量表示。
- 重排序模型 (Rerank Models): 用于优化搜索结果排序。
- 多模态模型 (Multimodal Models): 如处理图像和文本的模型。
- 图像模型和音频模型 等。
灵活的部署选项 (Flexible Deployment Options):
- 本地运行: 可以在你的个人笔记本电脑或工作站上运行。
- 分布式集群: 可以将模型部署在多台机器组成的集群上，以获得更强的计算能力或服务更大的负载。
硬件兼容性 (Hardware Compatibility): 支持在多种硬件上运行，包括：
- CPU
- NVIDIA GPU
- AMD GPU
- Apple Silicon (M系列芯片)
类 OpenAI API 兼容性 (OpenAI-Compatible API): 对于很多流行的模型（特别是 LLMs），Xinference 提供了与 OpenAI API 兼容的接口。这意味着如果你之前使用过 OpenAI 的 API，可以很容易地将应用切换到使用通过 Xinference 部署的本地模型，只需修改 API 的基地址 (base URL) 和 API 密钥即可。
成本效益和数据隐私 (Cost-Effectiveness & Data Privacy): 通过在本地或私有云上部署模型，你可以更好地控制成本（相比于完全依赖商业 API），并且可以确保数据不离开你的控制范围，增强了数据隐私和安全性。
Web UI 管理界面: 提供了一个用户友好的 Web 界面，方便用户查看可用的模型、管理正在运行的模型实例以及进行简单的交互测试。

安装 #

安装 — Xinference

pytorch版本

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

其他可能需要安装的库

pip install torch torchvision torchaudio
pip install git+https://github.com/huggingface/transformers 'accelerate>=0.26.0'
pip install qwen-vl-utils[decord]
pip install numpy gekko pandas zstandard datasets  # install other dependencies manually for AutoAWQ
pip install git+https://github.com/casper-hansen/AutoAWQ.git --no-deps  # only install AutoAWQ, not its dependencies

报错：

ERROR: Could not find a version that satisfies the requirement intel_extension_for_pytorch (from versions: none)
ERROR: No matching distribution found for intel_extension_for_pytorch

解决：

具体版本可在这里查阅：https://github.com/intel/intel-extension-for-pytorch查找针对 Windows 和你的 Python/PyTorch 版本的具体安装说明。

https://pytorch-extension.intel.com/installation?platform=cpu&version=v2.4.0%2Bcpu&os=linux%2Fwsl2&package=pip

pip install intel-extension-for-pytorch==2.5.10+xpu --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/lnl/us/

参考 #

https://blog.csdn.net/freewebsys/article/details/137256089