update docs

This commit is contained in:
glidea
2025-05-19 20:59:40 +08:00
committed by GitHub
parent 24f09e31a7
commit e9e6a112cc

View File

@@ -27,8 +27,8 @@
* 一个 Feed 的内容(尤其是其文本标签,如标题、正文)可能较长。如果直接将整个长文本生成单一的 embedding可能会遇到以下问题
* **LLM 输入长度限制**: 许多 embedding 模型对输入文本的长度有限制。
* **语义稀释 (Semantic Dilution)**: 对于包含多个主题或信息点的长文本,单一向量可能难以精确捕捉所有细微的语义,导致关键信息在整体平均化的向量表示中被“稀释”,降低了特定语义片段的表征能力。例如,一篇包含多个不同事件的综合报道,其单一向量可能无法很好地代表其中任何一个特定事件。
* 通过 `pkg/llm/embedding_spliter.go` 中的 `embeddingSpliter`,一个 Feed 的文本内容可以被切分成一个或多个语义相对连贯的 **文本块 (Chunks)**。这种切分有助于每个 chunk 聚焦于更具体的主题或信息点。
* 每个 Chunk 会被送入 LLM(如 `pkg/llm/embedding.go` 所管理的模型)生成一个 **向量嵌入 (vector embedding)**
* 通过 `embeddingSpliter`,一个 Feed 的文本内容可以被切分成一个或多个语义相对连贯的 **文本块 (Chunks)**。这种切分有助于每个 chunk 聚焦于更具体的主题或信息点。
* 每个 Chunk 会被送入 LLM 生成一个 **向量嵌入 (vector embedding)**
* 因此,一个 Feed 节点在索引中会关联**一组向量 (vectors `[][]float32`)**,每个子向量代表其一个 Chunk 的语义。
* **Embedding**: