脏数据怎么切块做 RAG:吴静的现场笔记

培训吴静会员2026年5月5日

客户说「文档都在网盘里」,打开一看:扫描 PDF、过期 SOP、同名不同版。直接 embedding 等于垃圾进垃圾出。

切块前先清洗

  • 按文档类型分通道:制度 / 工单 / 产品手册
  • 过期文档打标签或降权
  • 表格转结构化字段,别当纯文本切

切块策略

制度类按条款切,工单类按「问题-根因-处理」切,代码类按函数/模块切。评测时用业务同事的真实问题做检索测试,不要用工程师自拟题。

评论

还没有评论,来抢沙发吧。