pix2tex - 通过 OCR 将数学公式的图像转换为相应的 LaTeX 代码

boyanx6个月前技术教程20

大家好,又见面了,我是 GitHub 精选君!

背景介绍

在数学领域,将手写公式转换为 LaTeX 代码是一个常见的需求。然而,手动转换费时费力且容易出错。为解决这一问题,pix2tex 项目应运而生。该项目旨在创建一个基于学习的系统,可以接收数学公式的图像并返回相应的 LaTeX 代码。

GitHub 开源项目 lukas-blecher/LaTeX-OCR,该项目在 GitHub 有超过 6.1k Star,用一句话介绍该项目就是:“pix2tex: Using a ViT to convert images of equations into LaTeX code.”。

项目介绍

pix2tex 是一个基于 ViT (Vision Transformer) 的 OCR 项目,使用深度学习模型将数学公式的图像转换为相应的 LaTeX 代码。项目主要包括以下功能:

1、通过使用命令行工具,可从磁盘上的已有图像或剪贴板中解析并获取 LaTeX 代码。

2、提供了一个用户界面,可通过截图方式快速获取模型预测的 LaTeX 代码,并使用 MathJax 渲染并复制到剪贴板。

3、可通过 API 使用,提供一个 Streamlit 演示页面。

该模型在处理小分辨率图像时效果最佳,因此在预处理阶段,使用另一个神经网络预测输入图像的最佳分辨率,并自动将图像调整为最符合训练数据的大小,从而提高性能。然而,仍然不完美,对于超大的图像可能无法进行最佳处理,因此在拍摄之前不要太过放大图像。 同时,始终要仔细检查结果的准确性,如果答案错误,可以尝试使用其他分辨率重新进行预测。

如何使用

要使用该项目,您需要安装 Python 3.7+ 和 PyTorch。接下来,按照以下步骤安装并运行项目:

1、安装pix2tex库:pip install "pix2tex[gui]"

2、下载模型检查点

3、通过以下三种方式之一获取图像的预测结果:

  • o 使用命令行工具pix2tex,您可以从磁盘上的已有图像或剪贴板中解析并获取 LaTeX 代码。
  • o 使用提供的用户界面latexocr,通过截图方式快速获取模型预测的 LaTeX 代码,并通过 MathJax 渲染并复制到剪贴板。
  • o 使用 API,您可以通过安装相关依赖并运行 API 进行连接,或使用提供的 Docker 镜像。

如果您希望在自己的Python代码中使用该项目,可以按照以下示例进行调用:

from PIL import Image
from pix2tex.cli import LatexOCR
    
img = Image.open('path/to/image.png')
model = LatexOCR()
print(model(img))

项目推介

pix2tex 的作者在深度学习领域有丰富的经验,该项目提供了详细的文档以及各种示例和演示。如果您对数学公式的 LaTeX 转换感兴趣,那么 pix2tex 是您的不二选择!

以下是该项目 Star 趋势图(代表项目的活跃程度):

更多项目详情请查看如下链接。

开源项目地址:https://github.com/lukas-blecher/LaTeX-OCR

开源项目作者:lukas-blecher

以下是参与项目建设的所有成员:

关注我们,一起探索有意思的开源项目。

相关文章

复杂公式转化代码,轻松在AI进行数学推理

目前我们已经能够将文档、图片等形式的资料输入给AI供其思考,然而,像我们这种搞科研的人经常会碰到一些数学问题,我们希望AI能够针对性地给我们提供公式的含义、推导过程、化简过程等。公式作为一种特殊的格式...

如何在微信公众号中编辑出漂亮的数学公式?

因为微信公众号不支持引入外部 CSS和JS脚本,所以不能引入MathJax或KaTeX来支持数学公式显示。目前只能通过插入公式图片(webp、png等格式)的方式来显示公式。一般情况下插入webp或p...

基于mathlive从零将公式编辑器集成到可视化搭建平台

hi, 大家好, 我是徐小夕. 上篇文章和大家分享了刚开发完的可视化搭建产品——橙子试卷. 收到了很多用户的反馈和建议, 其中有一个建议我觉得非常有意思, 所以花了一天时间研究和实现了这个用户需求.具...

飞书上线“程序员友好”系列功能,可插入多种流程图和公式

新京报贝壳财经讯(记者 白金蕾)10月23日,字节跳动旗下办公平台飞书上线了“程序员友好”系列功能。据悉,该系列功能可帮助程序员直接在飞书云文档内插入、制作、修改流程图和UML图,并可用LaTeX在飞...

程序员必备神器!这款Markdown编辑器,让你告别微信排版噩梦!

最近在写技术文章的时候,总觉得微信公众号的排版太麻烦了。一会儿调格式,一会儿插图片,太浪费时间! 然后我就在GitHub发现了一个神器—— md,一个开源的 Markdown 编辑器,可以直接把 Ma...

CSDN-Markdown更轻松地记录你的技术生活

欢迎使用CSDN-Markdown编辑器,开启博客全新体验!语法简洁,轻松编辑,所见即所得扩展简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdo...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。