聂菲 | AI助力,破译古文字“密码”
创始人
2025-06-12 15:12:15
0

图1

图2

图3

图4

图5

【一线讲述】 

古文字,主要指中国商代晚期至秦代使用的汉字。二十世纪30年代,殷墟发掘出大量有字甲骨,证实了商王朝的存在,重塑了世界对中国古代文明的评价。近年,抄有《老子》《诗经》等内容的战国竹书呈井喷式涌现。可以说,古文字是解读中华文明基因的关键。

古文字研究与科技发展密不可分。红外采集、高精度扫描等技术手段极大改善了资料条件,索引、搜索引擎、数据库,为古文字研究提供了巨大助力。如今,AI技术蓬勃发展,当通过人工智能拼缀上第一片甲骨时,实现的不仅是技术突破,更是中华文明根脉的赓续与新生。

简单来讲,“破译”古文字可分为两步:一是识形,二是读词。即先认出古文字形体是什么字,再判定其音义,弄明白它在文献中的含义。如,先认出甲骨中“[图1]”是“王”,再读懂刻辞与商王有关。人工智能辅助古文字研究,就是要模仿人类专家的学习过程,进行“记字形”和“读古书”的训练。

目前对计算机而言,“认字形”十分艰难。机器学习面临着诸多挑战,包括图像预处理结果不佳、标注样本稀缺、字形实情极其复杂等。其中,“数据困境”是显性瓶颈,古文字单字量低,有效样本密度低,机器学习样本不足。最近,我所在的课题组参与开发了“古文字线上书写系统”,旨在收集专家书写古文字的动态路径,将古文字字形转换成有顺序、有方向的矢量线段,为训练计算机识读字形提供学习参考。

目前,我们的研究已进入初步试验阶段,录入了12825条字形书写数据进行前期测验。眼下正在搭建机器学习的模型,相关代码达到万余行,计算机累计运行时间超过400小时,模型迭代3个版本。从生成结果看已初见成效,计算机能成功模仿人类书写的笔势、笔顺和大致轮廓,但在部件书写的准确性、笔画组合和构件位置关系上,仍有很大的进步空间。

例如甲骨文中“千”字有一类形体作“[图2]”形,是在侧视站立人形“[图3]”的基础上,在其腿部加一横笔分化而来,其书写顺序一般是先写出侧视身体躯干和手臂,再写后加的一横笔:

[图4]

目前训练得到的机器书写路径是:

[图5]

可以看出,计算机已能再现字形轮廓和笔顺,但对第二笔的起始位置把握欠佳:第二笔不应与第一笔交叉穿出;二、三笔虽顺序相接,但笔迹并不相连,即第二笔的终点并非第三笔的起点。

为修正结果,我们将在现有试验的基础上,对机器学习方法和算法结构进行调试和整改。这项工作可能十分漫长,但也蕴含着无限潜力。

作者:聂菲,系南京大学文学院助理研究员

编辑:马蔚然

相关内容

热门资讯

我和妻子(二婚)晚上同房 8岁... 我和妻子(二婚)晚上同房 8岁的儿子惊醒了 看到我们 我们继续着 这样对孩子有影响吗?不会有太大影响...
王家大院现在的所有者还是王家的... 王家大院现在的所有者还是王家的后人吗?我说的是山西灵石的王家大院...现在不知道是被收为国,还是仍为...
加代故事里面的郑哥是谁 加代故事里面的郑哥是谁 加代故事里的郑哥是**任家忠大扰**。任家忠,原名任家忠,一九六三年出生...
马晓棠最终把全村桃子卖出去了吗 马晓棠最终把全村桃子卖出去了吗 马晓棠最终没有把全村桃子卖出去。根据查询相关资料信息得知,马晓棠...
警犬巴万是怎么牺牲的 警犬巴万是怎么牺牲的一只几个月大的小马犬,跟着警车跑进了警队。凭借自己的本事混上“编制”的流浪狗。小...
阿措耶千诺是宗教语言吗到底是什... 阿措耶千诺是宗教语言吗到底是什么意思呢?阿措耶千诺是“阿措耶”:或作“阿嵯耶”,为梵文 Acarya...
张奚若几个子女 张奚若几个子女 3个。张奚若一共有三个孩子,两个儿子分别是张文朴、张文逸,女儿是张文英。张奚若(...
白鹿有妹妹叫什么名字 白鹿有妹妹叫什么名字这个人物的妹妹叫白梦。白梦是白鹿的妹妹,也是一位年轻的女演员。虽然在娱乐圈的知名...
金豆银豆结婚了吗 金豆银豆结婚了吗结婚啦。知音2013年8月下半月版报道了,金豆,银豆不但活着,而且双双都能站立起来。...
猫妈妈会思念自己的小猫吗? 猫妈妈会思念自己的小猫吗?会思念一段时间。我家猫来的时候才二十天左右,来了以后听原主人说猫妈妈经常在...