跳到主要內容
Open on GitHub

Xorbits Inference (Xinference)

本頁面示範如何將 Xinference 與 LangChain 一起使用。

Xinference 是一個強大且多功能的函式庫,旨在服務 LLM、語音辨識模型和多模態模型,即使在您的筆記型電腦上也能運行。 透過 Xorbits Inference,您只需一個指令即可輕鬆部署和服務您自己的模型或最先進的內建模型。

安裝與設定

Xinference 可以透過 pip 從 PyPI 安裝

pip install "xinference[all]"

LLM

Xinference 支援各種與 GGML 相容的模型,包括 chatglm、baichuan、whisper、vicuna 和 orca。 若要檢視內建模型,請執行以下指令

xinference list --all

Xinference 的包裝器

您可以透過執行以下指令來啟動 Xinference 的本地實例

xinference

您也可以在分散式叢集中部署 Xinference。 若要這麼做,請先在您要執行的伺服器上啟動 Xinference 監管者

xinference-supervisor -H "${supervisor_host}"

然後,在您要執行的其他伺服器上啟動 Xinference 工作人員

xinference-worker -e "http://${supervisor_host}:9997"

您可以透過執行以下指令來啟動 Xinference 的本地實例

xinference

一旦 Xinference 執行後,即可透過 CLI 或 Xinference 用戶端存取端點以進行模型管理。

對於本地部署,端點將會是 https://127.0.0.1:9997

對於叢集部署,端點將會是 http://${supervisor_host}:9997。

然後,您需要啟動模型。 您可以指定模型名稱和其他屬性,包括 model_size_in_billions 和量化。 您可以使用命令列介面 (CLI) 來執行此操作。 例如,

xinference launch -n orca -s 3 -q q4_0

將會傳回模型 uid。

使用範例

from langchain_community.llms import Xinference

llm = Xinference(
server_url="http://0.0.0.0:9997",
model_uid = {model_uid} # replace model_uid with the model UID return from launching the model
)

llm(
prompt="Q: where can we visit in the capital of France? A:",
generate_config={"max_tokens": 1024, "stream": True},
)

API 參考文件:Xinference

用法

如需更多資訊和詳細範例,請參閱 xinference LLM 的範例

嵌入

Xinference 也支援嵌入查詢和文件。 請參閱 xinference 嵌入的範例,以取得更詳細的示範。

Xinference LangChain 合作夥伴套件安裝

使用以下指令安裝整合套件

pip install langchain-xinference

聊天模型

from langchain_xinference.chat_models import ChatXinference

LLM

from langchain_xinference.llms import Xinference

此頁面是否有幫助?