字母频率简介
只有对大量的代表性文本进行分析,才能得到准确的字母平均频率,而借助现代计算机和庞大的文本语料库,很容易完成这样的统计工作。Deafandblind列出了各种文字材料(新闻报道、宗教文本、科技文本、一般小说)的字母频率顺序。其中,在一般的小说类别中,字母“H”和字母“I”的排序差异尤为明显,从Linotype排版机中的“etaoin shrdlu”到“etaohn isrdlu”。
赫伯特·s·金(Herbert S. Kim)在他的经典著作《密码与秘密写作》中提到,英语的字母顺序是ETAON RISHD LFCMU GYPWB VKJXQ Z,最常见的字母对是re er in on at nd st es en of te ed或ti hi as to,最常见的字母对是LL EE SS OO TT FF RR NN PP CC。
使用最多的前12个字母占总使用量的80%,使用最多的前8个字母占总使用量的65%。几种排名函数都能很好地拟合字母频率,其中双参数Cocho/Beta排名函数最好。另一个不能调整参数的排序函数也可以很好的拟合字母频率分布,这个函数也可以拟合蛋白质序列中的氨基酸频率。
在使用VIC代码或其他基于纵横跳棋的代码时,间谍经常使用“a sin to err”(不包括最后一个r)等助记符来记住最常用的八个字母。在电视游戏节目的猜字游戏、拼字游戏、香蕉拼字游戏、幸运轮等密码游戏和字谜游戏中,应使用字母频率和频率分析。在古典文学中,埃德加·爱伦·坡描述了如何利用英语字母频率的知识来解开故事中的替代密码,并找出基德船长埋藏宝藏的地方。
字母频率在一些键盘布局的设计中起着重要的作用。Blickensderfer打字机把最常用的字母放在下排。德沃夏克键盘把最常用的字母放在最容易输入的中间一排,也就是除了拇指以外的八个手指放的地方。