數據加工的文件格式
文字格式:TXT、DOC、RTF、XML、HTML、Excel數據表、Access數據庫等;圖像格式:TIF、JPG、BMP、GIF、PDF、DJVU、CEB等;電子書格式:雙層PDF、雙層DJVU、雙層CEB、OEB、EPUB、XML、HTML網頁格式等。
數據加工的質量保障
★保障體系:OCR智能識別、人工一二三校、人機結合對比校方式保障數據質量的萬無一失;
★文字錄入:錯誤率控制在千分之三以內,外校質量可控制在萬分之三或萬分之一,根據客戶要求而制定;
★掃描識別:圖書、期刊、報紙、文檔等印刷品錯誤率控制在萬分之三或萬分之一,根據客戶要求而制定;
★原樣錄入:質量控制在五萬分之一、十萬分之一乃至零,根據客戶要求而制定。
數據加工流程
1.圖像掃描:
采用科技光學儀器對數據進行掃描,生成TIFF、JPG、PDF等圖像文件。
2.圖像處理:
對掃描后的圖像進行糾偏、去黑邊、分頁、拼圖等處理,更高的還原原圖像。
3.影象輸入:
將通過掃描儀等光學儀器掃描并已人工處理過的圖像鏈接到OCR軟件中,我們所用的先進掃描儀等硬件設備使影像更清晰、掃描的質量更增進OCR處理的效率。
4.圖像分析:
利用OCR對圖像進行版面分析,比如文字的橫向縱向、圖片與表格等進行進行區分處理。
5.文字識別:
將分析好的圖像OCR進行智能識別并進行人工校對(可先進行縱校再橫校),保證質量減少錯誤率。
6.結果輸出:
經過人工的一二三校,將數據按客戶要求的格式輸出并根據不同要求排版處理等。
古籍識別案例
《中華大典》,是一部可以和明朝《永樂大典》相媲美的中國古典文化的集成。?!吨腥A大典》的編纂出版,是在繼承、弘揚中國類書優良傳統的基礎上,參照現代科學的圖書分類法,以古文獻匯編的形式,進行梳理匯編,提供準確的古籍分類資料。是國家重大文化出版工程。我公司參與識別、排版制作電子文件等工作。
![]() | ![]() |
![]() |
我公司針對古籍識別的古繁體字專門有自己的字庫,現已更近或沒有的字,我們用自己的造字系統造出與原文中一樣的字,以更高的還原原文件。例: