LaTeX公式的光學(xué)字符識(shí)別(OCR)是科學(xué)文獻(xiàn)數(shù)字化與智能處理的基礎(chǔ)環(huán)節(jié),盡管該領(lǐng)域取得了一定進(jìn)展,現(xiàn)有方法在真實(shí)科學(xué)文獻(xiàn)處理時(shí)仍面臨諸多挑戰(zhàn):
其一,主流方法及公開(kāi)數(shù)據(jù)集多聚焦于結(jié)構(gòu)簡(jiǎn)單、符號(hào)單一的公式,難以覆蓋多學(xué)科、高難度的復(fù)雜公式;其二,實(shí)際文檔中廣泛存在的多行公式、長(zhǎng)公式、分段公式及頁(yè)面級(jí)復(fù)雜排版等情況尚未得到充分關(guān)注與處理;其三,大多數(shù)方法依賴專(zhuān)用模型,通常需要針對(duì)特定任務(wù)進(jìn)行專(zhuān)門(mén)設(shè)計(jì),難以實(shí)現(xiàn)通用性和擴(kuò)展性。
針對(duì)上述挑戰(zhàn),DocTron 團(tuán)隊(duì)提出了系統(tǒng)性解決方案。
首先,針對(duì)現(xiàn)有數(shù)據(jù)集覆蓋面有限、結(jié)構(gòu)單一的問(wèn)題,構(gòu)建了涵蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集CSFormula,包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版。
其次,團(tuán)隊(duì)提出的DocTron-Formula 模型突破了對(duì)特定結(jié)構(gòu)建模的依賴,采用通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別方法,僅需簡(jiǎn)單微調(diào)即可適配多樣化應(yīng)用場(chǎng)景。
最后,相比于最優(yōu)的定制化公式識(shí)別模型,該方法不僅在主流的開(kāi)源評(píng)測(cè)中取得了優(yōu)秀的性能表現(xiàn),在實(shí)際應(yīng)用中常見(jiàn)的頁(yè)面級(jí)、段落級(jí)復(fù)雜排版場(chǎng)景中也取得了顯著優(yōu)勢(shì),推動(dòng)了公式識(shí)別的應(yīng)用邊界。
DocTron 是一個(gè)在通用視覺(jué)語(yǔ)言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開(kāi)源項(xiàng)目,而無(wú)需定制化的模塊開(kāi)發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場(chǎng)景。
- 論文標(biāo)題:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
- 論文鏈接:https://arxiv.org/abs/2508.00311
- Github 鏈接:https://github.com/DocTron-hub/DocTron-Formula
- 項(xiàng)目開(kāi)源地址:https://huggingface.co/DocTron
創(chuàng)新點(diǎn)與技術(shù)突破
(1)高難度多結(jié)構(gòu)數(shù)據(jù)集構(gòu)建。研究團(tuán)隊(duì)自主設(shè)計(jì)高效的數(shù)據(jù)采集與處理流程,系統(tǒng)性地從高質(zhì)量學(xué)術(shù)資源中收集、清洗并整理了大量多學(xué)科的復(fù)雜公式樣本,構(gòu)建了 CSFormula 數(shù)據(jù)集。
該數(shù)據(jù)集涵蓋數(shù)學(xué)、物理、化學(xué)等領(lǐng)域,包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版,更真實(shí)地反映了文獻(xiàn)中公式的多樣性與挑戰(zhàn)性,為模型訓(xùn)練與評(píng)測(cè)提供了堅(jiān)實(shí)基礎(chǔ)。
(2)通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別。研究團(tuán)隊(duì)突破了對(duì)結(jié)構(gòu)定制和專(zhuān)用架構(gòu)的依賴,直接利用 Qwen2.5-VL 等通用大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,并通過(guò)在高難度數(shù)據(jù)集上的有監(jiān)督微調(diào)實(shí)現(xiàn)領(lǐng)域適配。
實(shí)驗(yàn)結(jié)果表明,大模型憑借強(qiáng)大的知識(shí)遷移和結(jié)構(gòu)泛化能力,僅需簡(jiǎn)單微調(diào)即可在復(fù)雜場(chǎng)景下取得 SOTA 性能,無(wú)需繁瑣的工程設(shè)計(jì)或人工規(guī)則,顯著提升了復(fù)雜公式識(shí)別的通用性和實(shí)用性。
實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
實(shí)驗(yàn)結(jié)果顯示,DocTron-Formula 在各類(lèi)公開(kāi)基準(zhǔn)測(cè)試及自建 LaTeX 公式識(shí)別數(shù)據(jù)集上均表現(xiàn)出色。在編輯距離和 CDM 兩個(gè)指標(biāo)下,不僅超越了現(xiàn)有專(zhuān)業(yè)工具 Mathpix,在多個(gè)任務(wù)上也優(yōu)于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。
研究意義與應(yīng)用前景
本研究不僅推動(dòng)了復(fù)雜公式識(shí)別技術(shù)的發(fā)展,也為相關(guān)領(lǐng)域開(kāi)辟了新的研究思路:
- 首次系統(tǒng)構(gòu)建了覆蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集 CSFormula,為復(fù)雜公式識(shí)別的模型訓(xùn)練和評(píng)測(cè)提供了堅(jiān)實(shí)的數(shù)據(jù)支撐;
- 驗(yàn)證了通用大模型(如 Qwen2.5-VL)在復(fù)雜公式識(shí)別任務(wù)中的強(qiáng)大適應(yīng)性和泛化能力,顯著簡(jiǎn)化了模型開(kāi)發(fā)流程,減少了對(duì)專(zhuān)用設(shè)計(jì)和人工規(guī)則的依賴;
在應(yīng)用層面,DocTron-Formula 有望服務(wù)于科學(xué)文獻(xiàn)解析、學(xué)術(shù)知識(shí)檢索和教育資源智能化等多元場(chǎng)景,為科研、教育和信息服務(wù)等領(lǐng)域的自動(dòng)化與智能化提供有力支撐。
結(jié)論
DocTron-Formula推動(dòng)了學(xué)科公式理解在行級(jí)、段落級(jí)、頁(yè)面級(jí)復(fù)雜排版場(chǎng)景的應(yīng)用,強(qiáng)調(diào)無(wú)需定制化的算法模塊,通過(guò)高質(zhì)量數(shù)據(jù)的構(gòu)建和通用模型訓(xùn)練,實(shí)現(xiàn)開(kāi)源評(píng)測(cè)和現(xiàn)實(shí)應(yīng)用評(píng)測(cè)的全面提升。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.