脏数据怎么切块做 RAG:吴静的现场笔记
客户说「文档都在网盘里」,打开一看:扫描 PDF、过期 SOP、同名不同版。直接 embedding 等于垃圾进垃圾出。
切块前先清洗
- 按文档类型分通道:制度 / 工单 / 产品手册
- 过期文档打标签或降权
- 表格转结构化字段,别当纯文本切
切块策略
制度类按条款切,工单类按「问题-根因-处理」切,代码类按函数/模块切。评测时用业务同事的真实问题做检索测试,不要用工程师自拟题。
评论
还没有评论,来抢沙发吧。
客户说「文档都在网盘里」,打开一看:扫描 PDF、过期 SOP、同名不同版。直接 embedding 等于垃圾进垃圾出。
制度类按条款切,工单类按「问题-根因-处理」切,代码类按函数/模块切。评测时用业务同事的真实问题做检索测试,不要用工程师自拟题。
还没有评论,来抢沙发吧。