Skip to content

小X宝知识库维护

可能存在的文档类型与清洗

通常我们要处理的文件有 pdfdocxjpg 等等,这些文档格式都不大统一,为了保证数据结构的统一和知识库的准确性,我们需要转换格式

这里推荐使用 MinerU 来进行文档处理:MinerU

直接点击「在线使用」:

需要先登陆一下:

选择「本地上传」,选择你要处理的文档,可以是 docxpdfjpg 等等,只要它让你上传,你就大胆传:

等待解析:

等待解析结束,这通常取决于你的文档大小和复杂程度,查看解析的结果是否正确:

如果确定没有问题了,就可以进行下载,右上角有一个下载的图标,选择 Markdown 即可:

导入知识库

进入到后台后,点击左侧的「知识库」

请务必选择你要导入数据对应的数据库,如果你不知道选择哪一个,你可以都点进去看一看,我这里要导入的是和复旦大学胰腺门诊相关的数据,因此我选择「复旦肿瘤专用库」,可以看到当前的知识库里面已经存在的类似内容

我们点击 新建/导入,选择文本数据集

这里选择上传文件

选择我们刚才处理好的文档,进行上传,按照下面的进度跑到 100% 即为上传完成

按照默认设置即可,结束知识库导入

之后回到知识库页,如果觉得这个文件名不太好区分,可以进行重命名: