Kinetica 語言轉 SQL 聊天模型

此筆記本示範如何使用 Kinetica 將自然語言轉換為 SQL，並簡化資料檢索流程。此示範旨在展示建立和使用鏈的機制，而非 LLM 的功能。

概觀

透過 Kinetica LLM 工作流程，您可以在資料庫中建立 LLM 環境，以提供推論所需的資訊，包括表格、註解、規則和範例。調用 ChatKinetica.load_messages_from_context() 將從資料庫檢索環境資訊，以便用於建立聊天提示。

聊天提示包含 SystemMessage 和成對的 HumanMessage/AIMessage，其中包含問題/SQL 配對的範例。您可以將成對範例附加到此列表，但它並非旨在促進典型的自然語言對話。

當您從聊天提示建立鏈並執行它時，Kinetica LLM 將從輸入產生 SQL。您可以選擇使用 KineticaSqlOutputParser 來執行 SQL 並將結果作為資料框架傳回。

目前，SQL 產生支援 2 個 LLM

Kinetica SQL-GPT：此 LLM 基於 OpenAI ChatGPT API。
Kinetica SqlAssist：此 LLM 專為與 Kinetica 資料庫整合而建置，可以在安全的客戶場所中執行。

在此示範中，我們將使用 SqlAssist。請參閱 Kinetica 文件網站以取得更多資訊。

先決條件

若要開始使用，您需要 Kinetica DB 執行個體。如果您沒有執行個體，可以取得免費開發執行個體。

您需要安裝下列套件...

# Install Langchain community and core packages
%pip install --upgrade --quiet langchain-core langchain-community

# Install Kineitca DB connection package
%pip install --upgrade --quiet 'gpudb>=7.2.0.8' typeguard pandas tqdm

# Install packages needed for this tutorial
%pip install --upgrade --quiet faker ipykernel 

資料庫連線

您必須在下列環境變數中設定資料庫連線。如果您使用虛擬環境，可以在專案的 .env 檔案中設定它們

KINETICA_URL：資料庫連線 URL
KINETICA_USER：資料庫使用者
KINETICA_PASSWD：安全密碼。

如果您可以建立 KineticaChatLLM 的執行個體，則表示您已成功連線。

from langchain_community.chat_models.kinetica import ChatKinetica

kinetica_llm = ChatKinetica()

# Test table we will create
table_name = "demo.user_profiles"

# LLM Context we will create
kinetica_ctx = "demo.test_llm_ctx"

API 參考：ChatKinetica

建立測試資料

在產生 SQL 之前，我們需要建立 Kinetica 表格和可以推論表格的 LLM 環境。

建立一些虛假使用者個人資料

我們將使用 faker 套件來建立包含 100 個虛假個人資料的資料框架。

from typing import Generator

import pandas as pd
from faker import Faker

Faker.seed(5467)
faker = Faker(locale="en-US")


def profile_gen(count: int) -> Generator:
    for id in range(0, count):
        rec = dict(id=id, **faker.simple_profile())
        rec["birthdate"] = pd.Timestamp(rec["birthdate"])
        yield rec


load_df = pd.DataFrame.from_records(data=profile_gen(100), index="id")
print(load_df.head())

         username             name sex  \
id                                       
     eduardo69       Haley Beck   F   
      lbarrera  Joshua Stephens   M   
       bburton     Paula Kaiser   F   
     melissa49      Wendy Reese   F   
 melissacarter      Manuel Rios   M   

                                              address                    mail  \
id                                                                              
 59836 Carla Causeway Suite 939\nPort Eugene, I...  meltondenise@yahoo.com   
 3108 Christina Forges\nPort Timothychester, KY...     erica80@hotmail.com   
                  Unit 7405 Box 3052\nDPO AE 09858  timothypotts@gmail.com   
 6408 Christopher Hill Apt. 459\nNew Benjamin, ...        dadams@gmail.com   
  2241 Bell Gardens Suite 723\nScottside, CA 38463  williamayala@gmail.com   

    birthdate  
id             
1997-12-08  
1924-08-03  
1933-12-05  
1988-10-26  
1931-03-19

從資料框架建立 Kinetica 表格

from gpudb import GPUdbTable

gpudb_table = GPUdbTable.from_df(
    load_df,
    db=kinetica_llm.kdbc,
    table_name=table_name,
    clear_table=True,
    load_data=True,
)

# See the Kinetica column types
print(gpudb_table.type_as_df())

        name    type   properties
 username  string     [char32]
     name  string     [char32]
      sex  string      [char2]
  address  string     [char64]
     mail  string     [char32]
birthdate    long  [timestamp]

建立 LLM 環境

您可以使用 Kinetica Workbench UI 建立 LLM 環境，或者您可以使用 CREATE OR REPLACE CONTEXT 語法手動建立它。

在這裡，我們從參考我們建立的表格的 SQL 語法建立環境。

from gpudb import GPUdbSamplesClause, GPUdbSqlContext, GPUdbTableClause

table_ctx = GPUdbTableClause(table=table_name, comment="Contains user profiles.")

samples_ctx = GPUdbSamplesClause(
    samples=[
        (
            "How many male users are there?",
            f"""
            select count(1) as num_users
                from {table_name}
                where sex = 'M';
            """,
        )
    ]
)

context_sql = GPUdbSqlContext(
    name=kinetica_ctx, tables=[table_ctx], samples=samples_ctx
).build_sql()

print(context_sql)
count_affected = kinetica_llm.kdbc.execute(context_sql)
count_affected

CREATE OR REPLACE CONTEXT "demo"."test_llm_ctx" (
    TABLE = "demo"."user_profiles",
    COMMENT = 'Contains user profiles.'
),
(
    SAMPLES = ( 
        'How many male users are there?' = 'select count(1) as num_users
    from demo.user_profiles
    where sex = ''M'';' )
)

使用 Langchain 進行推論

在下面的範例中，我們將從先前建立的表格和 LLM 環境建立鏈。此鏈將產生 SQL 並將結果資料作為資料框架傳回。

從 Kinetica DB 載入聊天提示

load_messages_from_context() 函數將從 DB 檢索環境並將其轉換為聊天訊息列表，我們使用該列表來建立 ChatPromptTemplate。

from langchain_core.prompts import ChatPromptTemplate

# load the context from the database
ctx_messages = kinetica_llm.load_messages_from_context(kinetica_ctx)

# Add the input prompt. This is where input question will be substituted.
ctx_messages.append(("human", "{input}"))

# Create the prompt template.
prompt_template = ChatPromptTemplate.from_messages(ctx_messages)
prompt_template.pretty_print()

API 參考：ChatPromptTemplate

================================[1m System Message [0m================================

CREATE TABLE demo.user_profiles AS
(
   username VARCHAR (32) NOT NULL,
   name VARCHAR (32) NOT NULL,
   sex VARCHAR (2) NOT NULL,
   address VARCHAR (64) NOT NULL,
   mail VARCHAR (32) NOT NULL,
   birthdate TIMESTAMP NOT NULL
);
COMMENT ON TABLE demo.user_profiles IS 'Contains user profiles.';

================================[1m Human Message [0m=================================

How many male users are there?

==================================[1m Ai Message [0m==================================

select count(1) as num_users
    from demo.user_profiles
    where sex = 'M';

================================[1m Human Message [0m=================================

[33;1m[1;3m{input}[0m

建立鏈

此鏈的最後一個元素是 KineticaSqlOutputParser，它將執行 SQL 並傳回資料框架。這是選用的，如果我們省略它，則只會傳回 SQL。

from langchain_community.chat_models.kinetica import (
    KineticaSqlOutputParser,
    KineticaSqlResponse,
)

chain = prompt_template | kinetica_llm | KineticaSqlOutputParser(kdbc=kinetica_llm.kdbc)

API 參考：KineticaSqlOutputParser | KineticaSqlResponse

產生 SQL

我們建立的鏈將以問題作為輸入，並傳回包含產生的 SQL 和資料的 KineticaSqlResponse。問題必須與我們用於建立提示的 LLM 環境相關。

# Here you must ask a question relevant to the LLM context provided in the prompt template.
response: KineticaSqlResponse = chain.invoke(
    {"input": "What are the female users ordered by username?"}
)

print(f"SQL: {response.sql}")
print(response.dataframe.head())

SQL: SELECT username, name
    FROM demo.user_profiles
    WHERE sex = 'F'
    ORDER BY username;
      username               name
0  alexander40       Tina Ramirez
1      bburton       Paula Kaiser
2      brian12  Stefanie Williams
3    brownanna      Jennifer Rowe
4       carl19       Amanda Potts

聊天模型概念指南
聊天模型操作指南

概觀​

先決條件​

資料庫連線​

建立測試資料​

建立一些虛假使用者個人資料​

從資料框架建立 Kinetica 表格​

建立 LLM 環境​

使用 Langchain 進行推論​

從 Kinetica DB 載入聊天提示​

建立鏈​

產生 SQL​

相關內容​

此頁面是否對您有幫助？

概觀