李国英等:汉字字频统计方法的改进
发布时间: 2011-11-25
李国英、周晓文《汉字字频统计方法的改进》,《北京师范大学学报》(社会科学版),2011年第6期。 【摘要】 字频统计是研究实际使用中汉字价值的一种重要方法。以往的字频统计取得了重要的成果,对汉字规范、汉字教学、汉字字典编纂、汉字信息处理以及汉字理论研究都起了重要作用。但也存在基于语料库统计字频造成字频统计结果失真;统计缺乏统一而明确的统计单位,统计结果不科学等问题。解决问题的关键在于建立满足文字统计要求的字料库,必须明确界定统计单位,划分不同层级的汉字统计单位,根据不同需要对其进行分类分层的字频统计。以印刷楷书为例,可以从描写、规定两个方面区分汉字单位。字的单位确定了,字频统计则可以根据不同的统计目的规定统计单位,便于统计数据的使用以及不同统计数据的比较,使得字频统计的科学性得到保障。 【关键词】 字频; 字料库; 字单位