CTranslate2
CTranslate2 是一個 C++ 和 Python 程式庫,用於使用 Transformer 模型進行高效推論。
該專案實作了一個自訂執行階段,應用了許多效能最佳化技術,例如權重量化、層融合、批次重新排序等,以加速和減少 Transformer 模型在 CPU 和 GPU 上的記憶體使用量。
安裝與設定
安裝 Python 套件
pip install ctranslate2
LLMs
請參閱使用範例。
from langchain_community.llms import CTranslate2
API 參考:CTranslate2