跳到主要內容
Open In ColabOpen on GitHub

Git

Git 是一個分散式版本控制系統,用於追蹤任何電腦檔案集合的變更,通常用於協調程式設計師在軟體開發期間協同開發原始碼的工作。

本筆記本展示如何從 Git 儲存庫載入文字檔案。

從磁碟載入現有儲存庫

%pip install --upgrade --quiet  GitPython
from git import Repo

repo = Repo.clone_from(
"https://github.com/langchain-ai/langchain", to_path="./example_data/test_repo1"
)
branch = repo.head.reference
from langchain_community.document_loaders import GitLoader
API 參考文件:GitLoader
loader = GitLoader(repo_path="./example_data/test_repo1/", branch=branch)
data = loader.load()
len(data)
print(data[0])
page_content='.venv\n.github\n.git\n.mypy_cache\n.pytest_cache\nDockerfile' metadata={'file_path': '.dockerignore', 'file_name': '.dockerignore', 'file_type': ''}

從 URL 克隆儲存庫

from langchain_community.document_loaders import GitLoader
API 參考文件:GitLoader
loader = GitLoader(
clone_url="https://github.com/langchain-ai/langchain",
repo_path="./example_data/test_repo2/",
branch="master",
)
data = loader.load()
len(data)
1074

篩選要載入的檔案

from langchain_community.document_loaders import GitLoader

# e.g. loading only python files
loader = GitLoader(
repo_path="./example_data/test_repo1/",
file_filter=lambda file_path: file_path.endswith(".py"),
)
API 參考文件:GitLoader

此頁面是否有幫助?