大文件信息处理 pdf2markdown(大文件有什么用?)
我们经常需要处理大的文件,从中可能拿到,主要是精确的拿到信息,这里面很多包含表格和图片。如果文件比较长的话,该怎么处理呢?
今天发现了一个好用的pdf转markdown的工具,之前也有微软的pdf转markdown的工具,哪个不带大模型,效果比较差。今天推荐一个,大家在github MarkPDFdown/markpdfdown,搜索一下既可以得到。我今天实验了下,目前表格转Pdf 是没有问题。我是用的gemma3 27b 大模型。
可以调用本地ollama 大模型,也可以调用各种支持vision的API,
openrouter/optimus-alpha 大家可以调用这个模型,处理得非常快,而且准确.关键还免费。本人测试下来,openrouter的模型效果都还不错。大家可以体验openrouter的别的模型,比如quasar alpha
下面是openrouter获取的pdf图片信息(图片如上)。感觉非常不错。
这是一个进行下一个处理的前提,主要是想获取更精确的内容。