網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

科研寫(xiě)作神器，超越Mathpix的科學(xué)公式提取工具已開(kāi)源

2025-08-05 17:34:47　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

LaTeX公式的光學(xué)字符識(shí)別（OCR）是科學(xué)文獻(xiàn)數(shù)字化與智能處理的基礎(chǔ)環(huán)節(jié)，盡管該領(lǐng)域取得了一定進(jìn)展，現(xiàn)有方法在真實(shí)科學(xué)文獻(xiàn)處理時(shí)仍面臨諸多挑戰(zhàn)：

其一，主流方法及公開(kāi)數(shù)據(jù)集多聚焦于結(jié)構(gòu)簡(jiǎn)單、符號(hào)單一的公式，難以覆蓋多學(xué)科、高難度的復(fù)雜公式；其二，實(shí)際文檔中廣泛存在的多行公式、長(zhǎng)公式、分段公式及頁(yè)面級(jí)復(fù)雜排版等情況尚未得到充分關(guān)注與處理；其三，大多數(shù)方法依賴專(zhuān)用模型，通常需要針對(duì)特定任務(wù)進(jìn)行專(zhuān)門(mén)設(shè)計(jì)，難以實(shí)現(xiàn)通用性和擴(kuò)展性。

針對(duì)上述挑戰(zhàn)，DocTron 團(tuán)隊(duì)提出了系統(tǒng)性解決方案。

首先，針對(duì)現(xiàn)有數(shù)據(jù)集覆蓋面有限、結(jié)構(gòu)單一的問(wèn)題，構(gòu)建了涵蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集CSFormula，包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版。

其次，團(tuán)隊(duì)提出的DocTron-Formula 模型突破了對(duì)特定結(jié)構(gòu)建模的依賴，采用通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別方法，僅需簡(jiǎn)單微調(diào)即可適配多樣化應(yīng)用場(chǎng)景。

最后，相比于最優(yōu)的定制化公式識(shí)別模型，該方法不僅在主流的開(kāi)源評(píng)測(cè)中取得了優(yōu)秀的性能表現(xiàn)，在實(shí)際應(yīng)用中常見(jiàn)的頁(yè)面級(jí)、段落級(jí)復(fù)雜排版場(chǎng)景中也取得了顯著優(yōu)勢(shì)，推動(dòng)了公式識(shí)別的應(yīng)用邊界。

DocTron 是一個(gè)在通用視覺(jué)語(yǔ)言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開(kāi)源項(xiàng)目，而無(wú)需定制化的模塊開(kāi)發(fā)，覆蓋通用文檔、學(xué)科公式、圖表代碼等場(chǎng)景。

論文標(biāo)題：DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
論文鏈接：https://arxiv.org/abs/2508.00311
Github 鏈接：https://github.com/DocTron-hub/DocTron-Formula
項(xiàng)目開(kāi)源地址：https://huggingface.co/DocTron

創(chuàng)新點(diǎn)與技術(shù)突破

（1）高難度多結(jié)構(gòu)數(shù)據(jù)集構(gòu)建。研究團(tuán)隊(duì)自主設(shè)計(jì)高效的數(shù)據(jù)采集與處理流程，系統(tǒng)性地從高質(zhì)量學(xué)術(shù)資源中收集、清洗并整理了大量多學(xué)科的復(fù)雜公式樣本，構(gòu)建了 CSFormula 數(shù)據(jù)集。

該數(shù)據(jù)集涵蓋數(shù)學(xué)、物理、化學(xué)等領(lǐng)域，包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版，更真實(shí)地反映了文獻(xiàn)中公式的多樣性與挑戰(zhàn)性，為模型訓(xùn)練與評(píng)測(cè)提供了堅(jiān)實(shí)基礎(chǔ)。

（2）通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別。研究團(tuán)隊(duì)突破了對(duì)結(jié)構(gòu)定制和專(zhuān)用架構(gòu)的依賴，直接利用 Qwen2.5-VL 等通用大規(guī)模多模態(tài)預(yù)訓(xùn)練模型，并通過(guò)在高難度數(shù)據(jù)集上的有監(jiān)督微調(diào)實(shí)現(xiàn)領(lǐng)域適配。

實(shí)驗(yàn)結(jié)果表明，大模型憑借強(qiáng)大的知識(shí)遷移和結(jié)構(gòu)泛化能力，僅需簡(jiǎn)單微調(diào)即可在復(fù)雜場(chǎng)景下取得 SOTA 性能，無(wú)需繁瑣的工程設(shè)計(jì)或人工規(guī)則，顯著提升了復(fù)雜公式識(shí)別的通用性和實(shí)用性。

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

實(shí)驗(yàn)結(jié)果顯示，DocTron-Formula 在各類(lèi)公開(kāi)基準(zhǔn)測(cè)試及自建 LaTeX 公式識(shí)別數(shù)據(jù)集上均表現(xiàn)出色。在編輯距離和 CDM 兩個(gè)指標(biāo)下，不僅超越了現(xiàn)有專(zhuān)業(yè)工具 Mathpix，在多個(gè)任務(wù)上也優(yōu)于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。

研究意義與應(yīng)用前景

本研究不僅推動(dòng)了復(fù)雜公式識(shí)別技術(shù)的發(fā)展，也為相關(guān)領(lǐng)域開(kāi)辟了新的研究思路：

首次系統(tǒng)構(gòu)建了覆蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集 CSFormula，為復(fù)雜公式識(shí)別的模型訓(xùn)練和評(píng)測(cè)提供了堅(jiān)實(shí)的數(shù)據(jù)支撐；
驗(yàn)證了通用大模型（如 Qwen2.5-VL）在復(fù)雜公式識(shí)別任務(wù)中的強(qiáng)大適應(yīng)性和泛化能力，顯著簡(jiǎn)化了模型開(kāi)發(fā)流程，減少了對(duì)專(zhuān)用設(shè)計(jì)和人工規(guī)則的依賴；

在應(yīng)用層面，DocTron-Formula 有望服務(wù)于科學(xué)文獻(xiàn)解析、學(xué)術(shù)知識(shí)檢索和教育資源智能化等多元場(chǎng)景，為科研、教育和信息服務(wù)等領(lǐng)域的自動(dòng)化與智能化提供有力支撐。

結(jié)論

DocTron-Formula推動(dòng)了學(xué)科公式理解在行級(jí)、段落級(jí)、頁(yè)面級(jí)復(fù)雜排版場(chǎng)景的應(yīng)用，強(qiáng)調(diào)無(wú)需定制化的算法模塊，通過(guò)高質(zhì)量數(shù)據(jù)的構(gòu)建和通用模型訓(xùn)練，實(shí)現(xiàn)開(kāi)源評(píng)測(cè)和現(xiàn)實(shí)應(yīng)用評(píng)測(cè)的全面提升。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.