騰訊推出PDF識(shí)別神器:復(fù)雜文檔解析準(zhǔn)確率超98%
來源:快科技 編輯:非小米 時(shí)間:2024-06-21 19:30人閱讀
快科技6月21日消息,騰訊云大模型知識(shí)引擎新鮮出爐,它有一項(xiàng)新能力——大模型知識(shí)引擎文檔解析!
基于騰訊優(yōu)圖實(shí)驗(yàn)室自研新一代多模態(tài)文檔解析大模型,它能先通過版面分析定位文檔所有內(nèi)容的位置和類型,再對(duì)文本表格公式等內(nèi)容進(jìn)行精準(zhǔn)識(shí)別,最后按照我們?nèi)祟惖拈喿x順序輸出連貫可讀的內(nèi)容。
比如,面對(duì)帶表的PDF文檔,特別表格沒有框的,它能通過融合行列關(guān)系特征和元素特征來預(yù)測表格的行列間隔線。
算法能推理并對(duì)表格數(shù)據(jù)和結(jié)構(gòu)進(jìn)行正確復(fù)原,極大提高識(shí)別準(zhǔn)確率。每次復(fù)制表格都數(shù)據(jù)錯(cuò)位的人有福了!
不僅中英文,它還支持20+語言,以及繁體字、生僻字等多種類字體。
更驚喜的是,它還支持將識(shí)別后的圖片、PDF文檔轉(zhuǎn)換為Markdown格式輸出。
騰訊表示,大模型知識(shí)引擎文檔解析目前對(duì)復(fù)雜文檔的解析準(zhǔn)確率可達(dá)98%以上。
目前,這項(xiàng)文檔解析功能已在多個(gè)產(chǎn)品上線,大家也可點(diǎn)此在線體驗(yàn)。
分享到:
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com