久久久久人妻精品一区二区三区-中文字幕在线观看免费黄片-精品久久亚洲av国产大全-日本欧美不卡二区在线-国产精品成人一二区无码视频-国产乱码一区二区三区爽爽爽-99爱精品视频在线视频-少妇欧美激情一区二区三区内射-亚洲国产精品久久九色

首頁
核心技術
產品體系
解決方案
動態(tài)資訊
關于我們
搜索
首頁 動態(tài)資訊 行業(yè)資訊

大模型技術在智能文檔處理中的應用(上篇)

來源:易道博識 發(fā)布時間:2023-06-15



ChatGPT爆火,大語言模型技術廣受關注
ChatGPT是OpenAI公司基于大型預訓練語言模型(Large Language Models, LLM) GPT-3.5發(fā)布的智能聊天機器人,因其驚艷的語義理解、智能會話和文本生成能力,獲得了全球1億月活用戶的熱情追捧。ChatGPT可以從海量未標注數(shù)據集中獲得的信息,自動識別、總結、翻譯、預測和生成內容。3月15日,OpenAI又發(fā)布了GPT-4多模態(tài)大模型,該模型能夠支持文本和圖像輸入,與 GPT-3.5相比,其回答準確度、文字輸入長度等各方面性能均有顯著提升。
ChatGPT的問世,開啟了新一輪的技術浪潮,標志著人工智能技術發(fā)展正式進入了大模型時代。模型的背后其實是“知識”。未來,“模型”將無處不在,人工智能與行業(yè)應用的結合會更加緊密,以模型驅動的發(fā)展范式變革正在快速形成,整個人工智能行業(yè)的生態(tài)會愈發(fā)完整。
可以看出,ChatGPT驚艷效果本質上來自于其背后的大語言模型技術。那么,究竟什么是大語言模型?大語言模型是一種基于深度學習算法的自然語言處理技術,旨在讓計算機能夠理解和生成自然語言文本。大語言模型的訓練通常需要海量的文本數(shù)據(如維基百科、新聞文章、社交媒體等)和強大的計算資源。在訓練過程中,大語言模型會通過學習這些數(shù)據中的模式和規(guī)律來調整自己的權重和參數(shù),從而提高自身對語言的理解和生成能力。大語言模型的應用非常廣泛,如語言翻譯、問答系統(tǒng)、語音識別和文本生成等。

智能文檔處理難點解析
智能文檔處理(IDP,Intelligent Document Processing)是利用人工智能技術,自動從復雜的非結構化和半結構化文檔中抽取關鍵數(shù)據,并將其轉換成結構化數(shù)據的技術。常見的文檔包括純文本、帶格式文檔和富格式文檔三種類型,如下圖示例。

圖1:常見文檔類型

  • 純文本

由大段純文字組成,內容形式比較單一。通常利用自然語言處理技術,即可以完成語義理解和分析處理工作。
  • 帶格式文檔

如Word等帶有格式的文檔,其主要特點是包含有結構化的信息,可以直接解析出文檔的物理元素和邏輯結構,進而轉化為結構化數(shù)據。

  • 富格式文檔
相較于純文本和帶格式文檔,富格式文檔更加復雜,除了各種形式的文本信息外,還包含有豐富的多模態(tài)元素,如表格和圖片。富格式文檔具有如下幾個方面的特點:
· 多樣性
富格式文檔的多樣性主要體現(xiàn)在格式、種類、內容和版式等維度。常見的格式有拍照圖像、掃描件、可解析格式(如PDF)等,版式包括有固定、多版式和開放版式等類型。
· 多模態(tài)信息豐富性
富格式文檔包含有豐富的元素信息,如文字、標題、段落、表格、圖表、印章、簽名、頁眉和頁腳。
· 領域差異性
不同領域的文檔通常在種類、版式、語料和表達方式方面差異很大,如金融、地產、教育和醫(yī)療等,實際中存在著大量領域特定文檔。
· 長短不一致性
從單張圖片、單頁文檔到幾十上百頁的長文檔,文檔的長度通??缍群艽?。
以上富格式文檔特點,增加了通用IDP系統(tǒng)的處理難度。
關于更詳細的智能文檔處理難點介紹,請參見《淺談智能文檔處理技術和應用》文章。

在線留言