Xorbits Inference (Xinference)
本頁面示範如何將 Xinference 與 LangChain 一起使用。
Xinference
是一個強大且多功能的函式庫,旨在服務 LLM、語音辨識模型和多模態模型,即使在您的筆記型電腦上也能運行。 透過 Xorbits Inference,您只需一個指令即可輕鬆部署和服務您自己的模型或最先進的內建模型。
安裝與設定
Xinference 可以透過 pip 從 PyPI 安裝
pip install "xinference[all]"
LLM
Xinference 支援各種與 GGML 相容的模型,包括 chatglm、baichuan、whisper、vicuna 和 orca。 若要檢視內建模型,請執行以下指令
xinference list --all
Xinference 的包裝器
您可以透過執行以下指令來啟動 Xinference 的本地實例
xinference
您也可以在分散式叢集中部署 Xinference。 若要這麼做,請先在您要執行的伺服器上啟動 Xinference 監管者
xinference-supervisor -H "${supervisor_host}"
然後,在您要執行的其他伺服器上啟動 Xinference 工作人員
xinference-worker -e "http://${supervisor_host}:9997"
您可以透過執行以下指令來啟動 Xinference 的本地實例
xinference
一旦 Xinference 執行後,即可透過 CLI 或 Xinference 用戶端存取端點以進行模型管理。
對於本地部署,端點將會是 https://127.0.0.1:9997。
對於叢集部署,端點將會是 http://${supervisor_host}:9997。
然後,您需要啟動模型。 您可以指定模型名稱和其他屬性,包括 model_size_in_billions 和量化。 您可以使用命令列介面 (CLI) 來執行此操作。 例如,
xinference launch -n orca -s 3 -q q4_0
將會傳回模型 uid。
使用範例
from langchain_community.llms import Xinference
llm = Xinference(
server_url="http://0.0.0.0:9997",
model_uid = {model_uid} # replace model_uid with the model UID return from launching the model
)
llm(
prompt="Q: where can we visit in the capital of France? A:",
generate_config={"max_tokens": 1024, "stream": True},
)
用法
如需更多資訊和詳細範例,請參閱 xinference LLM 的範例
嵌入
Xinference 也支援嵌入查詢和文件。 請參閱 xinference 嵌入的範例,以取得更詳細的示範。
Xinference LangChain 合作夥伴套件安裝
使用以下指令安裝整合套件
pip install langchain-xinference
聊天模型
from langchain_xinference.chat_models import ChatXinference
LLM
from langchain_xinference.llms import Xinference