亚洲一区二区电影_青青操久久_亚洲狠狠婷婷综合久久久久_国产欧美日韩在线观看精品

【新時代新征程新偉業】智能技術推動古籍整理進入“快車道”|世界新動態
2022-12-18 05:50:09 來源:光明網-《光明日報》 編輯:

【新時代新征程新偉業】


【資料圖】

光明日報記者 陳雪

無論是石刻拓片、民國期刊,還是版刻古籍,只需要5分鐘就可以對數百頁的文獻圖像進行批量的OCR(文字識別),并可以在線開啟校對工作。11月初,中華書局古聯公司發布了“古聯OCR系統”,這是智能技術運用在古籍整理方面的一項重要成果。

“識別率很高,基本沒有錯誤。”OCR系統剛一發布,就有用戶進行了試用體驗。事實上,從紙面文字到數字化數據,看似簡單的一步,卻是古籍整理研究的重要環節,需要運用多項智能技術。

“智能技術進入古籍整理領域,是古籍整理長久以來工作方法的顯著創新。古籍原典從紙本到數據的關鍵一環,即為文本的獲取,而文本獲取的正確率如何、操作的簡易性如何,對后續工作展開有很大影響。”中華書局古聯公司總經理洪濤介紹,若識別效果太差,會給后續的校對和整理工作增加不少工作量。古聯智能OCR系統基于機器學習技術和豐富的字庫支持,輔以便捷的在線校對和編輯環境,可以大幅減輕人工校對工作量,協助編輯和作者更高效、更便捷地處理文本。

黨的二十大報告提出,推進教育數字化,建設全民終身學習的學習型社會、學習型大國。據了解,OCR系統與古聯公司推出的古籍自動標點、繁簡轉換工具相結合,將古籍整理研究界使用的技術工具擴大為普通用戶觸手可及的智能產品,為廣大普通讀者服務。除此之外,該系統也可配合高等學校的古典文獻等傳統學科轉向新文科建設,讓學生在學習階段就能了解到業內前端的新興技術和發展方向。

“戈厲機”是高爾基;“師梨”是雪萊;戛劍生、公汗、隋洛文,都是魯迅的筆名……在閱讀漢譯文學早期文獻時,人們常常會有“猜人名”的困惑。這是因為早期外國作家及其作品的漢譯名稱極不統一,而譯介者又多使用筆名且變化無常,長期以來,此領域一直缺乏相關的基礎性、系統性的整理工作。11月12日,《現代漢譯文學編年考錄數據庫》應運而生。這是黨的二十大以來,古聯公司推出的又一重要數據庫產品。據了解,該數據庫由中國人民大學李今教授主持,北京大學夏曉虹教授、方錫德教授,中國人民大學孫郁教授,清華大學解志熙教授等審定,多位青年學者著錄,中華書局古聯公司開發建設,致力于為學界提供現代漢譯文學研究的便利工具,建立起該專題的史料庫、知識庫及目錄索引庫。

洪濤介紹,數據庫集納了226種近現代期刊,其漢譯的外國文學涉及51個國家、1580位外國作家和2130位譯介者,總條目數近9000個,而且,還有大量重要期刊的內容尚在考錄中,不久將增補上線。項目組以前所未有的規模為1896-1949年間期刊上的漢譯文學及其相關現象做了編目、整理和考釋,并為譯介者做了生平簡介及其筆名錄。數據庫集專題文獻數據庫、知識庫、目錄索引庫為一體,是綜合性的新型研究工具,適用于中國近現代文學、比較文學與世界文學、外國語言文學等學科,以及相關歷史與文化等人文領域的教學與研究。

辨章學術、考鏡源流。記者看到,數據庫中對相關條目信息進行了詳細考錄。如1903年《浙江潮》上發表的小說《哀塵》,是法國“囂俄著,庚辰譯”,頁面中用數百字進行了考錄:囂俄,今譯雨果,譯者庚辰是魯迅的筆名。據了解,數據庫成功實現了外國作家之不同漢譯名與今譯名、譯介者之署名與常用名之間的“同實異稱”關聯。如檢索“魯迅”,凡魯迅曾使用過的索子、風聲、張祿如等其他筆名的相關文獻均可同時呈現,解決了過往檢索中“同實異稱”無法檢索的問題,從而盤活了期刊漢譯文學史料。

黨的二十大提出要“實施國家文化數字化戰略”,洪濤說,這為古聯公司的發展提供了動力也指明了方向。古聯公司作為中華書局的數字化企業,要用好技術手段,從文獻中提取中華優秀傳統文化的要素,做好轉化與傳播,增強文化自信,讓文化產品更具有時代性與生命力。

《光明日報》( 2022年12月18日?02版)

關鍵詞:

相關閱讀
分享到:
版權和免責申明

凡注有"環球傳媒網 - 環球資訊網 - 環球生活門戶"或電頭為"環球傳媒網 - 環球資訊網 - 環球生活門戶"的稿件,均為環球傳媒網 - 環球資訊網 - 環球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網 - 環球資訊網 - 環球生活門戶",并保留"環球傳媒網 - 環球資訊網 - 環球生活門戶"的電頭。