成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

科研寫(xiě)作神器,超越Mathpix的科學(xué)公式提取工具已開(kāi)源

0
分享至



LaTeX公式的光學(xué)字符識(shí)別(OCR)是科學(xué)文獻(xiàn)數(shù)字化與智能處理的基礎(chǔ)環(huán)節(jié),盡管該領(lǐng)域取得了一定進(jìn)展,現(xiàn)有方法在真實(shí)科學(xué)文獻(xiàn)處理時(shí)仍面臨諸多挑戰(zhàn):

其一,主流方法及公開(kāi)數(shù)據(jù)集多聚焦于結(jié)構(gòu)簡(jiǎn)單、符號(hào)單一的公式,難以覆蓋多學(xué)科、高難度的復(fù)雜公式;其二,實(shí)際文檔中廣泛存在的多行公式、長(zhǎng)公式、分段公式及頁(yè)面級(jí)復(fù)雜排版等情況尚未得到充分關(guān)注與處理;其三,大多數(shù)方法依賴專(zhuān)用模型,通常需要針對(duì)特定任務(wù)進(jìn)行專(zhuān)門(mén)設(shè)計(jì),難以實(shí)現(xiàn)通用性和擴(kuò)展性。

針對(duì)上述挑戰(zhàn),DocTron 團(tuán)隊(duì)提出了系統(tǒng)性解決方案。

首先,針對(duì)現(xiàn)有數(shù)據(jù)集覆蓋面有限、結(jié)構(gòu)單一的問(wèn)題,構(gòu)建了涵蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集CSFormula,包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版。

其次,團(tuán)隊(duì)提出的DocTron-Formula 模型突破了對(duì)特定結(jié)構(gòu)建模的依賴,采用通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別方法,僅需簡(jiǎn)單微調(diào)即可適配多樣化應(yīng)用場(chǎng)景。

最后,相比于最優(yōu)的定制化公式識(shí)別模型,該方法不僅在主流的開(kāi)源評(píng)測(cè)中取得了優(yōu)秀的性能表現(xiàn),在實(shí)際應(yīng)用中常見(jiàn)的頁(yè)面級(jí)、段落級(jí)復(fù)雜排版場(chǎng)景中也取得了顯著優(yōu)勢(shì),推動(dòng)了公式識(shí)別的應(yīng)用邊界。



DocTron 是一個(gè)在通用視覺(jué)語(yǔ)言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開(kāi)源項(xiàng)目,而無(wú)需定制化的模塊開(kāi)發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場(chǎng)景。

  • 論文標(biāo)題:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
  • 論文鏈接:https://arxiv.org/abs/2508.00311
  • Github 鏈接:https://github.com/DocTron-hub/DocTron-Formula
  • 項(xiàng)目開(kāi)源地址:https://huggingface.co/DocTron

創(chuàng)新點(diǎn)與技術(shù)突破



(1)高難度多結(jié)構(gòu)數(shù)據(jù)集構(gòu)建。研究團(tuán)隊(duì)自主設(shè)計(jì)高效的數(shù)據(jù)采集與處理流程,系統(tǒng)性地從高質(zhì)量學(xué)術(shù)資源中收集、清洗并整理了大量多學(xué)科的復(fù)雜公式樣本,構(gòu)建了 CSFormula 數(shù)據(jù)集。

該數(shù)據(jù)集涵蓋數(shù)學(xué)、物理、化學(xué)等領(lǐng)域,包含行級(jí)、段落級(jí)和頁(yè)面級(jí)的復(fù)雜排版,更真實(shí)地反映了文獻(xiàn)中公式的多樣性與挑戰(zhàn)性,為模型訓(xùn)練與評(píng)測(cè)提供了堅(jiān)實(shí)基礎(chǔ)。

(2)通用大模型驅(qū)動(dòng)的復(fù)雜公式識(shí)別。研究團(tuán)隊(duì)突破了對(duì)結(jié)構(gòu)定制和專(zhuān)用架構(gòu)的依賴,直接利用 Qwen2.5-VL 等通用大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,并通過(guò)在高難度數(shù)據(jù)集上的有監(jiān)督微調(diào)實(shí)現(xiàn)領(lǐng)域適配。

實(shí)驗(yàn)結(jié)果表明,大模型憑借強(qiáng)大的知識(shí)遷移和結(jié)構(gòu)泛化能力,僅需簡(jiǎn)單微調(diào)即可在復(fù)雜場(chǎng)景下取得 SOTA 性能,無(wú)需繁瑣的工程設(shè)計(jì)或人工規(guī)則,顯著提升了復(fù)雜公式識(shí)別的通用性和實(shí)用性。

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)



實(shí)驗(yàn)結(jié)果顯示,DocTron-Formula 在各類(lèi)公開(kāi)基準(zhǔn)測(cè)試及自建 LaTeX 公式識(shí)別數(shù)據(jù)集上均表現(xiàn)出色。在編輯距離和 CDM 兩個(gè)指標(biāo)下,不僅超越了現(xiàn)有專(zhuān)業(yè)工具 Mathpix,在多個(gè)任務(wù)上也優(yōu)于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。

研究意義與應(yīng)用前景

本研究不僅推動(dòng)了復(fù)雜公式識(shí)別技術(shù)的發(fā)展,也為相關(guān)領(lǐng)域開(kāi)辟了新的研究思路:

  • 首次系統(tǒng)構(gòu)建了覆蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集 CSFormula,為復(fù)雜公式識(shí)別的模型訓(xùn)練和評(píng)測(cè)提供了堅(jiān)實(shí)的數(shù)據(jù)支撐;
  • 驗(yàn)證了通用大模型(如 Qwen2.5-VL)在復(fù)雜公式識(shí)別任務(wù)中的強(qiáng)大適應(yīng)性和泛化能力,顯著簡(jiǎn)化了模型開(kāi)發(fā)流程,減少了對(duì)專(zhuān)用設(shè)計(jì)和人工規(guī)則的依賴;

在應(yīng)用層面,DocTron-Formula 有望服務(wù)于科學(xué)文獻(xiàn)解析、學(xué)術(shù)知識(shí)檢索和教育資源智能化等多元場(chǎng)景,為科研、教育和信息服務(wù)等領(lǐng)域的自動(dòng)化與智能化提供有力支撐。

結(jié)論

DocTron-Formula推動(dòng)了學(xué)科公式理解在行級(jí)、段落級(jí)、頁(yè)面級(jí)復(fù)雜排版場(chǎng)景的應(yīng)用,強(qiáng)調(diào)無(wú)需定制化的算法模塊,通過(guò)高質(zhì)量數(shù)據(jù)的構(gòu)建和通用模型訓(xùn)練,實(shí)現(xiàn)開(kāi)源評(píng)測(cè)和現(xiàn)實(shí)應(yīng)用評(píng)測(cè)的全面提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2024 年全球相機(jī)市場(chǎng)的份額排名,佳能第一,索尼第二,尼康第三

2024 年全球相機(jī)市場(chǎng)的份額排名,佳能第一,索尼第二,尼康第三

攝影初級(jí)班
2025-08-30 22:54:46
全球無(wú)先例,我國(guó)成功實(shí)現(xiàn)→

全球無(wú)先例,我國(guó)成功實(shí)現(xiàn)→

環(huán)球時(shí)報(bào)新聞
2025-08-31 09:01:00
孫中山獨(dú)子孫科:1949年拒絕隨蔣介石去臺(tái)灣生活,最后結(jié)局如何?

孫中山獨(dú)子孫科:1949年拒絕隨蔣介石去臺(tái)灣生活,最后結(jié)局如何?

小莜讀史
2025-08-25 10:23:26
為什么建議你等iPhone17,而不是現(xiàn)在撿漏iPhone16?原因有四點(diǎn)

為什么建議你等iPhone17,而不是現(xiàn)在撿漏iPhone16?原因有四點(diǎn)

北境不忘
2025-08-31 09:35:50
重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開(kāi)始制造多彈頭導(dǎo)彈

重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開(kāi)始制造多彈頭導(dǎo)彈

每日經(jīng)濟(jì)新聞
2025-08-30 23:03:05
少婦,我也喜歡看

少婦,我也喜歡看

手工制作阿殲
2025-08-02 11:01:51
危險(xiǎn)堪比核彈,需中國(guó)幫忙監(jiān)控,薩雷茲湖為何令中亞四國(guó)膽戰(zhàn)心驚

危險(xiǎn)堪比核彈,需中國(guó)幫忙監(jiān)控,薩雷茲湖為何令中亞四國(guó)膽戰(zhàn)心驚

貓咪紀(jì)實(shí)說(shuō)
2025-08-26 14:09:12
西大報(bào)記者在書(shū)中披露,穆里尼奧當(dāng)年在皇馬如何得罪了所有人

西大報(bào)記者在書(shū)中披露,穆里尼奧當(dāng)年在皇馬如何得罪了所有人

星耀國(guó)際足壇
2025-08-30 11:11:50
8名中國(guó)游客在瑞典采摘誤食毒蘑菇!當(dāng)?shù)蒯t(yī)院緊急關(guān)閉搶救,醫(yī)生:太大陣仗了…

8名中國(guó)游客在瑞典采摘誤食毒蘑菇!當(dāng)?shù)蒯t(yī)院緊急關(guān)閉搶救,醫(yī)生:太大陣仗了…

英國(guó)報(bào)姐
2025-08-30 21:15:25
36歲張雨綺新寫(xiě)真再引熱議!這身材顏值,真的是絕了!

36歲張雨綺新寫(xiě)真再引熱議!這身材顏值,真的是絕了!

今古深日?qǐng)?bào)
2025-08-29 00:17:10
90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

南書(shū)房
2025-08-23 20:35:04
胡塞武裝、哈馬斯高層遭“精準(zhǔn)打擊”!剛剛,以軍聲明確認(rèn)打死卡桑旅發(fā)言人

胡塞武裝、哈馬斯高層遭“精準(zhǔn)打擊”!剛剛,以軍聲明確認(rèn)打死卡桑旅發(fā)言人

每日經(jīng)濟(jì)新聞
2025-08-31 23:15:24
停業(yè)!河北某北國(guó)生活超市閉店!

停業(yè)!河北某北國(guó)生活超市閉店!

掌中邯鄲
2025-08-31 07:08:34
大爆冷!國(guó)乒女單遺憾輸球,2:3惜敗日本張本美和,王藝迪3:0獲勝

大爆冷!國(guó)乒女單遺憾輸球,2:3惜敗日本張本美和,王藝迪3:0獲勝

國(guó)乒二三事
2025-08-31 06:35:57
國(guó)安0:6慘?。】ㄔ@艷4球升第1!泰山痛快復(fù)仇,董路一語(yǔ)道破!

國(guó)安0:6慘??!卡扎驚艷4球升第1!泰山痛快復(fù)仇,董路一語(yǔ)道破!

話體壇
2025-08-31 22:19:00
社保之爭(zhēng),問(wèn)題的核心矛盾,從來(lái)不是交不交,很多人都弄錯(cuò)了!

社保之爭(zhēng),問(wèn)題的核心矛盾,從來(lái)不是交不交,很多人都弄錯(cuò)了!

保德全
2025-08-20 19:00:03
葡萄牙總統(tǒng)爆出猛料,特朗普是蘇聯(lián)特工,他威脅普京的話從未兌現(xiàn)

葡萄牙總統(tǒng)爆出猛料,特朗普是蘇聯(lián)特工,他威脅普京的話從未兌現(xiàn)

碳基生物關(guān)懷組織
2025-08-30 18:55:28
華爾街警告:中國(guó)禁H20芯片,下一步是撕掉貿(mào)易協(xié)議??jī)H存活48天

華爾街警告:中國(guó)禁H20芯片,下一步是撕掉貿(mào)易協(xié)議??jī)H存活48天

陳博世財(cái)經(jīng)
2025-08-31 12:55:46
中國(guó)歷史上“最接近神”的七個(gè)人,諸葛亮勉強(qiáng)登榜,第一無(wú)人能敵

中國(guó)歷史上“最接近神”的七個(gè)人,諸葛亮勉強(qiáng)登榜,第一無(wú)人能敵

老崔鏟史
2025-08-29 05:36:48
降維打擊!東契奇砍三雙率隊(duì)取勝 三場(chǎng)小組賽場(chǎng)均33+7+9太完美

降維打擊!東契奇砍三雙率隊(duì)取勝 三場(chǎng)小組賽場(chǎng)均33+7+9太完美

驚奇侃球
2025-08-31 22:08:13
2025-09-01 00:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

車(chē)輛占道違停小車(chē)逆行超車(chē)撞車(chē) 險(xiǎn)企欲讓占道車(chē)擔(dān)責(zé)

頭條要聞

車(chē)輛占道違停小車(chē)逆行超車(chē)撞車(chē) 險(xiǎn)企欲讓占道車(chē)擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂(lè)要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車(chē)要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
健康
手機(jī)
數(shù)碼
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

精神科專(zhuān)家解答學(xué)習(xí)困難七大問(wèn)題

手機(jī)要聞

“iPhone17Pro丑”上熱搜,你覺(jué)得呢?

數(shù)碼要聞

真不多見(jiàn)!瀚鎧RX 9060 XT合金竟然用了藍(lán)色Radeon標(biāo)志包裝

軍事要聞

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版