2024暑期实习

2024年08月06日

实习内容

主要任务：PDF数据提取（所以…是什么岗位呢? 雾）
项目回顾
1. 项目选型(20240801-20240806)：Google现有方案，进行筛选
2. 项目深挖(20240807-)：对筛选出的方案进行分析

总的来说，就是手册 -> 结构化数据 -> 模型的过程，以实现RAG(Retreval Augmented Generation)

目前(截至20240806)已经有很多 PDF 解析工具，但大多是针对某一类文档或文档具体部分。

经过选型，我认为MinerU项目是最优解

MinerU：

一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

项目地址：https://github.com/opendatalab/MinerU

项目效果
- 能较准确地识别不同元素，OCR准确率也较高
- 最终输出为markdown格式(标题，段落标题等作为一级标题标出，图/表作为图片插入)
Span与Layout演示
项目流程

pipeline

demo代码在github仓库中，通过demo和上面那张图可以大致了解处理过程
使用局限
- OCR(尤其是表格)耗时长
- 无法将图片转换为自然语言

ColPali: 使用视觉语言模型实现高效的文档检索 link

OCR与解析: 从PDF页面提取出文本。
文档布局检测: 检测页面中的不同元素（段落、标题、表格、图像、页眉、页脚）。
文本切分与分块: 根据文档的结构，将文本切分为多个块（chunks），每个块代表文档的一部分。这些块通常具有语义上的连贯性，例如一个段落或一组相关的句子。现代的检索系统甚至可能会为视觉丰富的元素（表格、图像）生成自然语言描述，以便更好地嵌入到检索模型中。
嵌入生成与索引: 文本块通过预训练的语言模型或其他文本嵌入模型进行编码，将其转化为向量表示。这些向量表示被存储在一个索引中，用于后续的查询匹配。

optimizing the ingestion pipeline yields much greater performance on visually rich document retrieval than optimizing the text embedding model.

基于VLMs(Vision Language Models)，根据视觉信息构建索引。

ViDoRe的评测标准：
- retrieval performance(索引表现): 给出一个query，系统是否返回正确的页面
- low latency during querying(延时)
- high throughput during indexation(吞吐量)