Schritt 1: Einrichten Ihrer Umgebung

# Zuerst sicherstellen, dass Ihre Pakete installiert sind
pip install langchain=0.2.0
pip install faiss-cpu
pip install PyPDF2
pip install transformers

Warum ist das wichtig? Die richtigen Versionen sorgen für Kompatibilität. Sie werden auf Versionsprobleme stoßen, wenn Sie nicht bei Python 3.11+ und den neuesten Paketen bleiben. Es kann ein Albtraum sein, wenn Sie wegen nicht übereinstimmender Abhängigkeiten debuggen müssen – vertrauen Sie mir, ich war dort.
Schritt 2: Laden Sie Ihre PDF-Daten

import PyPDF2

def load_pdfs(pdf_paths):
text = ""
for path in pdf_paths:
with open(path, "rb") as f:
reader = PyPDF2.PdfReader(f)
for page in reader.pages:
text += page.extract_text()
return text

# Beispiel zum Laden mehrerer PDFs
pdf_paths = ["document1.pdf", "document2.pdf"]
pdf_data = load_pdfs(pdf_paths)

Sie müssen PDFs verarbeiten, und diese sind notorisch unordentlich. Dieser Code lädt den Text von jeder Seite jedes PDFs. Haben Sie ein PDF, das Sie nicht extrahieren können? Das liegt daran, dass nicht alle PDFs gleich erstellt wurden. Manche enthalten Bilder oder sind geschützt. Wenn Sie sie nicht lesen können, rechnen Sie mit einem AttributeError. Achten Sie darauf.
Schritt 3: Bereiten Sie Ihre Daten für FAISS vor

from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
data_vectors = embeddings.embed([pdf_data])

Hier beginnt die Magie. Sie wandeln den textlichen Inhalt des PDFs in Embeddings für FAISS um. Dieser Schritt ist entscheidend, da FAISS mit numerischen Vektoren und nicht mit rohtext arbeitet. Wenn Sie hier einen TypeError sehen, überprüfen Sie, ob Ihr PDF-Text nach der Extraktion nicht leer ist. Möglicherweise müssen Sie ihn zuerst bereinigen.
Schritt 4: Erstellen des FAISS-Indexes

import faiss
import numpy as np

def build_faiss_index(vectors):
dimension = vectors.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(np.array(vectors, dtype=np.float32))
return index

index = build_faiss_index(data_vectors)

Dieser Schritt erstellt einen Index aus Ihren Embeddings. Die FAISS-Variante IndexFlatL2 ist einfach und effektiv für den Aufbau von nächster-Nachbar-Suchen. Sie ist schnell, aber achten Sie darauf, wenn Sie versuchen, zu viele Vektoren hinzuzufügen und Ihr RAM ausgeht. Möglicherweise müssen Sie fortschrittlichere Indexierungsmethoden in Betracht ziehen, aber das ist eine andere Geschichte.
Schritt 5: Abfragen des FAISS-Indexes

def query_index(index, query_embedding, k=5):
distances, indices = index.search(np.array([query_embedding], dtype=np.float32), k)
return distances, indices

# Beispielverwendung
query_embedding = embeddings.embed(['Was ist die Zusammenfassung von document1?'])
distances, indices = query_index(index, query_embedding)

Jetzt können Sie tatsächlich den Index mit einer Abfrage durchsuchen. Die Abstände geben Ihnen eine Vorstellung davon, wie nah die Ergebnisse Ihrer Abfrage im Einbettungsraum sind. Wenn Sie seltsame Ergebnisse erhalten, überprüfen Sie, ob Ihre Embeddings korrekt generiert werden – ein häufiges Missverständnis ist fehlerhafte Eingaben.
Die Fallstricke

Leere oder beschädigte PDFs: Sie werden Zeit mit Debugging verschwenden, weil der Text fehlt. Überprüfen Sie immer, ob Ihr PDF-Loader funktioniert, bevor Sie sich mit allem anderen befassen.
Speicherprobleme: Stellen Sie sich auf Abstürze ein, wenn Sie große Datensätze bearbeiten. Überwachen Sie Ihre RAM-Nutzung und optimieren Sie Ihre Arrays entsprechend.
Embedding-Probleme: Ihre Embeddings können wertlos sein, wenn der Inhalt zu kurz oder irrelevant ist. Stellen Sie sicher, dass Ihre Abfragen präzise sind.
API-Rate-Limits: Wenn Sie eine externe Embedding-API verwenden, können Rate-Limits Ihnen einen Strich durch die Rechnung machen. Gehen Sie in Ihrem Code elegant mit diesen Rate-Limits um, sonst müssen Sie lange warten.

Vollständiges Codebeispiel

import PyPDF2
import faiss
import numpy as np
from langchain.embeddings import OpenAIEmbeddings

# 1. PDFs laden
def load_pdfs(pdf_paths):
text = ""
for path in pdf_paths:
with open(path, "rb") as f:
reader = PyPDF2.PdfReader(f)
for page in reader.pages:
text += page.extract_text()
return text

# 2. Daten vorbereiten
pdf_paths = ["document1.pdf", "document2.pdf"]
pdf_data = load_pdfs(pdf_paths)

# 3. Embeddings generieren
embeddings = OpenAIEmbeddings()
data_vectors = embeddings.embed([pdf_data])

# 4. FAISS-Index erstellen
def build_faiss_index(vectors):
dimension = vectors.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(np.array(vectors, dtype=np.float32))
return index

index = build_faiss_index(data_vectors)

# 5. Abfragen des Index
def query_index(index, query_embedding, k=5):
distances, indices = index.search(np.array([query_embedding], dtype=np.float32), k)
return distances, indices

# Beispielverwendung
query_embedding = embeddings.embed(['Was ist die Zusammenfassung von document1?'])
distances, indices = query_index(index, query_embedding)

Was kommt als Nächstes

Question

Schritt 1: Einrichten Ihrer Umgebung

# Zuerst sicherstellen, dass Ihre Pakete installiert sind
pip install langchain>=0.2.0
pip install faiss-cpu
pip install PyPDF2
pip install transformers

Warum ist das wichtig? Die richtigen Versionen sorgen für Kompatibilität. Sie werden auf Versionsprobleme stoßen, wenn Sie nicht bei Python 3.11+ und den neuesten Paketen bleiben. Es kann ein Albtraum sein, wenn Sie wegen nicht übereinstimmender Abhängigkeiten debuggen müssen – vertrauen Sie mir, ich war dort.
Schritt 2: Laden Sie Ihre PDF-Daten

import PyPDF2

def load_pdfs(pdf_paths):
 text = ""
 for path in pdf_paths:
 with open(path, "rb") as f:
 reader = PyPDF2.PdfReader(f)
 for page in reader.pages:
 text += page.extract_text()
 return text

# Beispiel zum Laden mehrerer PDFs
pdf_paths = ["document1.pdf", "document2.pdf"]
pdf_data = load_pdfs(pdf_paths)

Sie müssen PDFs verarbeiten, und diese sind notorisch unordentlich. Dieser Code lädt den Text von jeder Seite jedes PDFs. Haben Sie ein PDF, das Sie nicht extrahieren können? Das liegt daran, dass nicht alle PDFs gleich erstellt wurden. Manche enthalten Bilder oder sind geschützt. Wenn Sie sie nicht lesen können, rechnen Sie mit einem AttributeError. Achten Sie darauf.
Schritt 3: Bereiten Sie Ihre Daten für FAISS vor

from langchain.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
data_vectors = embeddings.embed([pdf_data])

Hier beginnt die Magie. Sie wandeln den textlichen Inhalt des PDFs in Embeddings für FAISS um. Dieser Schritt ist entscheidend, da FAISS mit numerischen Vektoren und nicht mit rohtext arbeitet. Wenn Sie hier einen TypeError sehen, überprüfen Sie, ob Ihr PDF-Text nach der Extraktion nicht leer ist. Möglicherweise müssen Sie ihn zuerst bereinigen.
Schritt 4: Erstellen des FAISS-Indexes

import faiss
import numpy as np

def build_faiss_index(vectors):
 dimension = vectors.shape[1]
 index = faiss.IndexFlatL2(dimension)
 index.add(np.array(vectors, dtype=np.float32))
 return index

index = build_faiss_index(data_vectors)

Dieser Schritt erstellt einen Index aus Ihren Embeddings. Die FAISS-Variante IndexFlatL2 ist einfach und effektiv für den Aufbau von nächster-Nachbar-Suchen. Sie ist schnell, aber achten Sie darauf, wenn Sie versuchen, zu viele Vektoren hinzuzufügen und Ihr RAM ausgeht. Möglicherweise müssen Sie fortschrittlichere Indexierungsmethoden in Betracht ziehen, aber das ist eine andere Geschichte.
Schritt 5: Abfragen des FAISS-Indexes

def query_index(index, query_embedding, k=5):
 distances, indices = index.search(np.array([query_embedding], dtype=np.float32), k)
 return distances, indices

# Beispielverwendung
query_embedding = embeddings.embed(['Was ist die Zusammenfassung von document1?'])
distances, indices = query_index(index, query_embedding)

Jetzt können Sie tatsächlich den Index mit einer Abfrage durchsuchen. Die Abstände geben Ihnen eine Vorstellung davon, wie nah die Ergebnisse Ihrer Abfrage im Einbettungsraum sind. Wenn Sie seltsame Ergebnisse erhalten, überprüfen Sie, ob Ihre Embeddings korrekt generiert werden – ein häufiges Missverständnis ist fehlerhafte Eingaben.
Die Fallstricke

Leere oder beschädigte PDFs: Sie werden Zeit mit Debugging verschwenden, weil der Text fehlt. Überprüfen Sie immer, ob Ihr PDF-Loader funktioniert, bevor Sie sich mit allem anderen befassen.
Speicherprobleme: Stellen Sie sich auf Abstürze ein, wenn Sie große Datensätze bearbeiten. Überwachen Sie Ihre RAM-Nutzung und optimieren Sie Ihre Arrays entsprechend.
Embedding-Probleme: Ihre Embeddings können wertlos sein, wenn der Inhalt zu kurz oder irrelevant ist. Stellen Sie sicher, dass Ihre Abfragen präzise sind.
API-Rate-Limits: Wenn Sie eine externe Embedding-API verwenden, können Rate-Limits Ihnen einen Strich durch die Rechnung machen. Gehen Sie in Ihrem Code elegant mit diesen Rate-Limits um, sonst müssen Sie lange warten.

Vollständiges Codebeispiel

import PyPDF2
import faiss
import numpy as np
from langchain.embeddings import OpenAIEmbeddings

# 1. PDFs laden
def load_pdfs(pdf_paths):
 text = ""
 for path in pdf_paths:
 with open(path, "rb") as f:
 reader = PyPDF2.PdfReader(f)
 for page in reader.pages:
 text += page.extract_text()
 return text

# 2. Daten vorbereiten
pdf_paths = ["document1.pdf", "document2.pdf"]
pdf_data = load_pdfs(pdf_paths)

# 3. Embeddings generieren
embeddings = OpenAIEmbeddings()
data_vectors = embeddings.embed([pdf_data])

# 4. FAISS-Index erstellen
def build_faiss_index(vectors):
 dimension = vectors.shape[1]
 index = faiss.IndexFlatL2(dimension)
 index.add(np.array(vectors, dtype=np.float32))
 return index

index = build_faiss_index(data_vectors)

# 5. Abfragen des Index
def query_index(index, query_embedding, k=5):
 distances, indices = index.search(np.array([query_embedding], dtype=np.float32), k)
 return distances, indices

# Beispielverwendung
query_embedding = embeddings.embed(['Was ist die Zusammenfassung von document1?'])
distances, indices = query_index(index, query_embedding)

Was kommt als Nächstes

Accepted Answer

Versuchen Sie, Ihre RAG-Pipeline in eine Web-App mit Flask oder FastAPI zu integrieren. Machen Sie sie benutzerfreundlich, damit sogar Ihre nicht-technischen Freunde PDFs hinzufügen und nützliche Informationen herausbekommen können!

Wie man eine Rag-Pipeline mit FAISS aufbaut (Schritt für Schritt)

Wie man eine RAG-Pipeline mit FAISS erstellt

Voraussetzungen