聊天模型

概述

大型語言模型 (LLM) 是先進的機器學習模型，擅長處理各種語言相關任務，例如文本生成、翻譯、摘要、問答等，而無需為每個場景進行特定任務的微調。

現代 LLM 通常透過聊天模型介面存取，該介面將訊息列表作為輸入，並返回訊息作為輸出。

最新一代的聊天模型提供額外功能

工具調用：許多流行的聊天模型都提供原生的工具調用 API。此 API 允許開發人員構建豐富的應用程式，使 LLM 能夠與外部服務、API 和資料庫互動。工具調用也可用於從非結構化資料中提取結構化資訊並執行各種其他任務。
結構化輸出：一種使聊天模型以結構化格式（例如符合給定架構的 JSON）回應的技術。
多模態：處理文本以外資料的能力；例如，圖像、音訊和視訊。

功能

LangChain 為使用來自不同提供者的聊天模型提供一致的介面，同時為監控、偵錯和最佳化使用 LLM 的應用程式效能提供額外功能。

與許多聊天模型提供者整合（例如，Anthropic、OpenAI、Ollama、Microsoft Azure、Google Vertex、Amazon Bedrock、Hugging Face、Cohere、Groq）。請參閱聊天模型整合以取得最新的支援模型列表。
使用 LangChain 的訊息格式或 OpenAI 格式。
標準工具調用 API：用於將工具綁定到模型、存取模型發出的工具調用請求以及將工具結果發送回模型的標準介面。
用於透過 with_structured_output 方法結構化輸出的標準 API。
提供對非同步程式設計、高效批次處理、豐富的串流 API 的支援。
與 LangSmith 整合，用於監控和偵錯基於 LLM 的生產級應用程式。
其他功能，例如標準化的令牌使用量、速率限制、快取等。

整合

LangChain 有許多聊天模型整合，可讓您使用來自不同提供者的各種模型。

這些整合分為兩種型別

官方模型：這些是 LangChain 和/或模型提供者官方支援的模型。您可以在 langchain-<provider> 套件中找到這些模型。
社群模型：這些模型主要由社群貢獻和支援。您可以在 langchain-community 套件中找到這些模型。

LangChain 聊天模型的命名慣例是在其類別名稱前加上 "Chat" 前綴（例如，ChatOllama、ChatAnthropic、ChatOpenAI 等）。

請查看聊天模型整合以取得支援模型列表。

注意

名稱中不包含 "Chat" 前綴或名稱中包含 "LLM" 後綴的模型通常是指不遵循聊天模型介面的舊模型，而是使用將字串作為輸入並返回字串作為輸出的介面。

介面

LangChain 聊天模型實作了 BaseChatModel 介面。由於 BaseChatModel 也實作了 Runnable 介面，因此聊天模型支援標準串流介面、非同步程式設計、最佳化的批次處理等。請參閱 Runnable 介面以了解更多詳細資訊。

聊天模型的許多關鍵方法都以訊息作為輸入，並返回訊息作為輸出。

聊天模型提供一組標準參數，可用於配置模型。這些參數通常用於控制模型的行為，例如輸出的溫度、回應中的最大令牌數以及等待回應的最大時間。請參閱標準參數章節以了解更多詳細資訊。

注意

在文檔中，我們經常交替使用術語「LLM」和「聊天模型」。這是因為大多數現代 LLM 透過聊天模型介面向使用者公開。

但是，LangChain 也實作了不遵循聊天模型介面的舊 LLM，而是使用將字串作為輸入並返回字串作為輸出的介面。這些模型通常在名稱中沒有 "Chat" 前綴（例如，Ollama、Anthropic、OpenAI 等）。這些模型實作了 BaseLLM 介面，並且可能以 "LLM" 後綴命名（例如，OllamaLLM、AnthropicLLM、OpenAILLM 等）。一般來說，使用者不應使用這些模型。

主要方法

聊天模型的主要方法有

invoke：與聊天模型互動的主要方法。它將訊息列表作為輸入，並返回訊息列表作為輸出。
stream：一種允許您在生成聊天模型輸出時串流輸出的方法。
batch：一種允許您將多個請求批次處理到聊天模型中，以實現更有效率的處理的方法。
bind_tools：一種允許您將工具綁定到聊天模型以在模型的執行上下文中使用的方法。
with_structured_output：invoke 方法的包裝器，適用於原生支援結構化輸出的模型。

其他重要方法可以在 BaseChatModel API 參考中找到。

輸入和輸出

現代 LLM 通常透過聊天模型介面存取，該介面將訊息作為輸入並返回訊息作為輸出。訊息通常與角色（例如，「系統」、「人類」、「助理」）和一個或多個內容塊相關聯，這些內容塊包含文本或可能的多模態資料（例如，圖像、音訊、視訊）。

LangChain 支援兩種訊息格式與聊天模型互動

LangChain 訊息格式：LangChain 自己的訊息格式，預設使用，並在 LangChain 內部使用。
OpenAI 的訊息格式：OpenAI 的訊息格式。

標準參數

許多聊天模型都具有可用於配置模型的標準化參數

參數	描述
`model`	您要使用的特定 AI 模型的名稱或識別符（例如，`"gpt-3.5-turbo"` 或 `"gpt-4"`）。
`temperature`	控制模型輸出的隨機性。較高的值（例如，1.0）使回應更具創造性，而較低的值（例如，0.0）使回應更具確定性和重點。
`timeout`	在取消請求之前，等待模型回應的最長時間（以秒為單位）。確保請求不會無限期掛起。
`max_tokens`	限制回應中的令牌（單字和標點符號）總數。這控制了輸出的長度。
`stop`	指定停止序列，指示模型應在何時停止生成令牌。例如，您可以使用特定字串來表示回應的結束。
`max_retries`	如果系統因網路逾時或速率限制等問題而失敗，系統將重新發送請求的最大嘗試次數。
`api_key`	與模型提供者進行身份驗證所需的 API 密鑰。這通常在您註冊存取模型時發出。
`base_url`	發送請求的 API 端點的 URL。這通常由模型提供者提供，並且是定向您的請求所必需的。
`rate_limiter`	可選的 BaseRateLimiter，用於間隔請求以避免超出速率限制。請參閱下面的速率限制以了解更多詳細資訊。

一些重要的注意事項

標準參數僅適用於公開具有預期功能的參數的模型提供者。例如，某些提供者不公開最大輸出令牌的配置，因此在這些提供者上無法支援 max_tokens。
標準參數目前僅在具有自己整合套件的整合（例如 langchain-openai、langchain-anthropic 等）上強制執行，它們在 langchain-community 中的模型上不強制執行。

聊天模型也接受特定於該整合的其他參數。要查找聊天模型支援的所有參數，請前往該模型的各自 API 參考。

工具調用

聊天模型可以調用工具來執行任務，例如從資料庫中提取資料、發出 API 請求或運行自訂程式碼。請參閱工具調用指南以了解更多資訊。

結構化輸出

可以請求聊天模型以特定格式（例如，JSON 或符合特定架構）回應。此功能對於資訊提取任務非常有用。請在結構化輸出指南中閱讀有關此技術的更多資訊。

多模態

大型語言模型 (LLM) 不僅限於處理文本。它們還可以用於處理其他類型的資料，例如圖像、音訊和視訊。這稱為多模態。

目前，只有部分 LLM 支援多模態輸入，幾乎沒有任何 LLM 支援多模態輸出。請查閱特定模型文檔以了解詳細資訊。

上下文窗口

聊天模型的上下文窗口是指模型一次可以處理的最大輸入序列大小。雖然現代 LLM 的上下文窗口非常大，但它們仍然存在開發人員在使用聊天模型時必須牢記的限制。

如果輸入超出上下文窗口，則模型可能無法處理整個輸入並可能引發錯誤。在對話應用程式中，這尤其重要，因為上下文窗口決定了模型在整個對話過程中可以「記住」多少資訊。開發人員通常需要管理上下文窗口內的輸入，以保持連貫的對話而不會超出限制。有關處理對話中記憶體的更多詳細資訊，請參閱記憶體。

輸入的大小以令牌衡量，令牌是模型使用的處理單位。

進階主題

速率限制

許多聊天模型提供者對在給定時間段內可以發出的請求數量施加限制。

如果您達到速率限制，您通常會收到來自提供者的速率限制錯誤回應，並且需要等待才能發出更多請求。

您有以下幾種選項來處理速率限制

嘗試透過間隔請求來避免達到速率限制：聊天模型接受可以在初始化期間提供的 rate_limiter 參數。此參數用於控制向模型提供者發出請求的速率。在基準測試模型以評估其效能時，間隔向給定模型發出的請求是一種特別有用的策略。請參閱如何處理速率限制以了解有關如何使用此功能的更多資訊。
嘗試從速率限制錯誤中恢復：如果您收到速率限制錯誤，您可以等待一段時間再重試請求。每次後續速率限制錯誤都可以增加等待時間。聊天模型具有可用於控制重試次數的 max_retries 參數。請參閱標準參數章節以了解更多資訊。
回退到另一個聊天模型：如果您在使用一個聊天模型時達到速率限制，您可以切換到另一個未受速率限制的聊天模型。

快取

聊天模型 API 可能很慢，因此一個自然的問題是是否快取先前對話的結果。從理論上講，快取可以透過減少向模型提供者發出的請求數量來幫助提高效能。在實務中，快取聊天模型回應是一個複雜的問題，應謹慎處理。

原因是如果在快取模型的確切輸入後，在對話中的第一次或第二次互動後不太可能獲得快取命中。例如，您認為多個對話以完全相同的訊息開始的可能性有多大？完全相同的三條訊息呢？

另一種方法是使用語義快取，您可以在其中根據輸入的含義而不是確切的輸入本身來快取回應。這在某些情況下可能有效，但在其他情況下則不然。

語義快取在應用程式的關鍵路徑上引入了對另一個模型的依賴性（例如，語義快取可能依賴嵌入模型將文本轉換為向量表示），並且不能保證準確捕獲輸入的含義。

但是，在某些情況下，快取聊天模型回應可能是有益的。例如，如果您有一個聊天模型用於回答常見問題，則快取回應可以幫助減少模型提供者的負載、成本並縮短回應時間。

請參閱如何快取聊天模型回應指南以了解更多詳細資訊。

關於使用聊天模型的操作指南：操作指南。
支援的聊天模型列表：聊天模型整合。

聊天模型

概述

功能

整合

介面

主要方法

輸入和輸出

標準參數

工具調用

結構化輸出

多模態

上下文窗口

進階主題

速率限制

快取

概念指南

此頁面是否對您有幫助？

概述​

功能​

整合​

介面​

主要方法​

輸入和輸出​

標準參數​

工具調用​

結構化輸出​

多模態​

上下文窗口​

進階主題​

速率限制​

快取​

相關資源​

概念指南​

此頁面是否對您有幫助？

概述

功能

整合

介面

主要方法

輸入和輸出

標準參數

工具調用

結構化輸出

多模態

上下文窗口

進階主題

速率限制

快取

相關資源

概念指南