概率统计在信息论与编码教学中的应用
2022-07-18
来源:步旅网
2o09年12月 南通大学学报(教育科学版) Dec.2009 第25卷第4期 Journal of Nantong University(Education Sciences Edition) Vo1.25,No.4 概率统计在信息论与编码教学中的应用 谢正光,包志华,章国安 (南通大学电子信息学院,江苏南通226019) 摘要:随着科学技术的发展,信息通信类本科生学习信息论与编码课程越来越重要。而信息论的很多内容又 与令学生头痛的概率统计息息相关。针对该核心课程教学过程中存在的问题和学生普遍反映接受比较困难的情 形,有必要对概率统计在信息论与编码课程中的一些主要应用进行深入系统的探讨和研究,揭示出信息论与编码 的基本特点,以利于该课程的教学。 关键词:信息论;概率论;教学实践 中图分类号:G642,0236 文献标识码:A 文章编号:1008—2190(2009)04一O088—03 信息论是在长期通信工程实践和理论基础上,由 胆地去掉了消息中的语义、语用因素,巧妙地保留了能 信息通信技术与概率论、随机过程、数理统计等有关学 用数学描述的形式因素[1. ,习;然后根据通信工程的特 科逐步融合而发展起来的一门新兴交叉学科。1948年 点.利用“非决定论”和“不确定性”观点揭示了信息的 美国科学家香农(C.E.Shannon)发表的论文《通信的数 本质。即通信前的对某事件的“不确定性”到通信后的 学理论》I1 】,建立了信息论编码的理论基础;概率论与 “明白”或部分“明白”,从而为信息的度量奠定的数学 数理统计正是该工作得以顺利完成的重要数学工具。 基础。但Shannon所定义的信息与大家通常所说的消 为了改变信息论课程起点高、难度大的特点.以及授课 息是不同的,这是因为本质上同样一条消息所包含的 过程中学生普遍反映接受起来较困难的情形,本文将 信息量对不同的接受者来说是不一样的。即消息中所 按照信息论和编码的脉络,讨论概率统计在该课程中 含信息量的多少,完全取决于消息接收者于接收到消 的一些重要应用,期望揭示出信息论与编码的基本特 息前存在的对该消息内容的“不确定性”程度:通过消 点,以利于该课程的讲授与学习。 息的传递后,接收者就可能由原先的“不知道”到接收 到消息后的“知道”、或由“知之不多”到“知之甚多”、或 一、信息的定义 由原先的“疑问”到“明白”或部分“明白”。即通信后原 信息论是关于信息的本质、度量及传输规律的科 先的“不确定性”得到了消除或部分消除,数值上“不确 学『1 1。信息的传递与交换,是时时处处人人都发生的事 定性”消除了多少等于接收者就获得了多少信息。若在 情,特别是在如今的信息社会。 收到消息前接收者己对消息内容完全清楚,即不确定 1.信息的定性分析 性为零,则他接收到该消息后并没有获得信息,所以信 消息是以文字、符号、数据、语言、音符、图形、图像 息量也为零。也就是说消息中包含信息量的多少是由 等能被人们的感觉器官所感知的形式,对客观物质运 接收者在获知消息前后不确定性的减小量决定的。 动和主观思维活动状态的一种描述。不同的消息,不仅 2.信息的定量分析 有不同的形式,而且含有不同的语义和不同的语用。如 信息的获取是为了消除不确定性,所以如果能给 何用数学工具来刻画消息的形式、语义和语用。至今仍 出不确定性的度量,也就给出了信息的度量。不确定性 是个巨大的难题。Shannon首先利用“形式化假说”,大 即通常所说的随机性,是可以用概率与随机过程中的 收稿日期:2009—06—02 第一作者简介:谢正光(1967一),男,湖南洞口人,南通大学电子信息学院副教授,博士。 基金项目:江苏省高校自然科学基础研究项目(08KJB510018);江苏省高校青蓝工程(2008) ・88・ 随机变量及其概率来加以度量的。如考虑离散随机变 量x,记Q=‰, 一,52M-。}为信源发出的消息全体组成 的集合或符号空间,设其对应概率分布为(P (52。),P 来描述。若设输入信号字母集 ={u},转移概率cp( I “):U∈U, ∈Vl,输出信号字母集 ={ ),则信道的概 率统计模型 可表述为: {u,P( Iu),Vl。 信源与信道的组合可记为:CS={S, =fn,P (52),P (52。),…,P ( )),那么随机变量x的分布即信源概率 空间可记为{p (25),25∈n}。当其为确定性分布时,不确 定性即为0;而当它是等概分布时,由常识可知其随机 性最大.即不确定性也最大。基于此Shannon从客观事 实和人们的习惯出发,根据不确定性与概率的本质联 ( I ), }。 3.信源编码 有效性、可靠性和安全性是通信系统理论上需要 考虑的三个基本问题。有效性是指如何用尽可能少的 系,定义I(52 ) 一logo (52 )为收到信源符号 所获取的 信息量,定义 (p ( ),P ( ),…,Px( ))=E[,( )]:一 符号或码流来传送信源所包含的消息,以最大限度地 提高信息传输的效率?可靠性是指如何增加信号传输 M-I p (52 )logp (麓)为随机变量X的平均不确定性或平 i=0 均信息量或信息熵。即熵表示信源每发出一个消息所 包含的平均“不确定性”的大小,也表示每收到一个消 息所获得的平均信息量。 对连续型随机变量X,设其概率密度为P ( ),定 义日( )=一』P (x)log/) (x)dx为连续型随机变量的熵 I2 (此时Q是一连续区间)。当然,这并不是香农熵的直 接推广。为了区分,称此为连续型随机变量的微分熵、 相对熵或差熵。如均匀分布U(a,b)的微分熵为 )= l。g2(12o- );指数分布Ex(A)为日( )= 1 In(e );正 二 二 态分布Ⅳ ,or )为H( )= 1 ln(27『e26r )。其中 为对 二 应随机变量的方差。方差在数学中刻画了随机变量取 值的分散度,即随机变量与其统计均值的平均偏离程 度,物理上正好对应着随机变量取值中的不确定性。 以上分析可知,不管是连续消息还是离散消息,消 息中所包含的信息量就是对消息中所包含的“不确定 性”的度量。 二、通信系统的概率统计模型 图1是目前较常用的通信系统物理模型 。本文 将从信息论与编码的角度,以概率统计为基本工具对 其进行详细分析。 信l 卜.一l信源l卜 I一叫加}l卜--叫信道I} I_..1信l 卜-叫I信道l 卜一叫l解l卜.叫 I信源I卜. 1-叫 信l I源1 l编码l l密l I编码I l道I l编码1 I密l l编码l I宿l 图1通信系统的物理模型 1.信源 信源:信源即消息产生的来源,可以用S=m,P ( )]来表述。它描述了信源所有可能发出的消息集合 以及发出各消息对应的概率。通常称其为信源空间。 2.信道 信道:信号传输的媒介或通道,通常可用转移概率 的抗干扰能力或如何提高信宿端的信号检错和纠错 能力?安全性或保密性是指,为了如何防止或避免非 授权者在信号的传输处理存储过程中非法盗取信息 的能力。 信源编码的有效性指标是指用尽可能短的码流来 传送信源消息,即平均码长最短,其定义如下:对信源 .s=[Q,P ( )],设_厂是信源S的一个编码,那么对任何 ∈n,.厂( )是 中的元素构成的一个向量,记Z㈨为向 量f(52)的长度,则定义 (.s, = P ( ) )为变长编 En 码的平均码长[81。平均码长最短的编码称为最优编码。 具体如何编码,有不同的方法,如Shannon、Fano、 Huffman与算术编码等。但最优编码的定义给出的总 体原则是:大概率对应短码,小概率对应长码。即只要 充分利用短码,就可使统计平均码长最小,从而最大 化信源编码的有效性。实现最优编码。 4.信道编码 信号在信道中传输不可避免地要受到外界的干 扰,那么采用什么方式可使传输差错概率降到最低,甚 至为零?这是信道编码研究的内容。 ^ l 定理1设随机序列对 ,】,)的P( ,,,)=lIP( , n=O ),则对任意小的正数6,总能找到足够大的N使全体 序列对的集合能被分成满足下列条件的集合G(联合 典型序列集)及其补集G : (1)P{( ,y)∈G1 ; (2)(1-8)2N( ( ) ): (3)设( ,l, )是与( ,l,)有相同的边缘分布且相 互独立的随机序列对,即P{ ,Y )=( ,,,)} ( (Y),则(1— )2 “ ≤P{(X ,Y )∈G},且P{( ,Y ) ∈Gl≤E-N( ; ) 虽然在有扰信道中传输信息时,与一定的发送码 字相对应的接收矢量有可能是接收矢量空间中的任一 矢量,但上述定理告诉我们,随着N的增大,接收矢量 几乎只能是与发送码字联合典型的序列,取其它序列 的概率将趋于零。对于信息传输速率R,信道容量C, ・89・ 码字数 2佃的分组码,设Y是发送码字 (M个码字 中的一个)时信道输出处得到的接收矢量,定义Y与 构成联合典型序列的事件为 ,即Em f( ,Y)∈ 的情况下是可以正确提取明文的,所以H(M JK,c)=0。 具体如何给出最优加密编码,有不同的方法。但 以上结论告诉我们,保密系统的密钥量越大,密钥熵 G1,m=O,1,…,M一1,则按联合典型译码法,译码差错将 在Y不与 联合典型或Y与D0以外其它码字联合典 型时发生,所以平均差错译码概率 为 肘一1 M—l H(K)就越大,其密文中含有的关于明文的信息量I (M;C)就越小,破译的难度就越大,保密性能就越好。 三、结语 信息的获取、处理、传递、交换和应用在信息化社会 Po=P(Eo8UElu…EM_1)≤P(E )+ P(E )≤6+ ‘ m=1 m=l 2州 ; 瑚 ---时时处处存在。如何提高通信与信息系统的可靠性、有 ; )罅唰 十2.Mc_ 6+(2朋一1)2 ( ; )嘲 +2 效性、安全性.已成为当今社会人们着重关注的问题之 一若R<C一3,3,且N足够大,则可保证2 。 ≤ , 即: ≤26。 。概率论与数理统计是研究信息论与编码的重要工 具,正确理解和灵活运用概率统计的思想对信息论与 编码理论的深刻理解和正确运用帮助匪浅。本文正是 基于此思想。在近两年信息论与编码课程的教学实践 以上说明,对信息传输速率R,信道容量C,任意 小的正数6=26,只要R<C就总存在码字长度为N,码 字数为 =2 的分组码使译码的平均差错概率小于 s。概率论虽然帮助指明了减小差错概率甚至做到无误 传输的基本思路是通过增大信道容量C或减小码率R 或增大码长N,但由于随机编码的码集相当大且毫无 结构,查表译码法又难以实现,所以必需借助其它数学 工具来构造具很好结构的码集以便于译码。 5.保密编码 的基础上,针对教学过程中存在的问题,较深入系统地 研究了概率统计在该课程中的一些重要应用,期望揭 示出信息论与编码的基本特点。以利于该课程的教学。 参考文献: 【1】C E Shannon.A Mathematical Theory of Communications (Parts I)【J1.Bell System Technical Journal,1948(3):379--423. [2】C E Shannon.A Mathematical Theory of Communications 为保证电子信息在处理、存储、传送和交换过程中 不会泄露,利用密码对其进行加密,是迄今为止对各类 (Parts II)叨.Bell System Technical’Journal,1948(3):623-656. [3】Seth Lloyd,Paul Penfield.麻省理工学院信息论开放课程 【EB/OL].(2009—05—30)【2009—06—05].http://www.core.org. cn,2009(5). 电子信息实施保护,保证信息安全的惟一有效措施。密 码学和信息论一样,都是把信源看成符号的集合,并且 按一定的概率产生离散符号序列。设加密系统的输入 明文为M(其熵为H(M)),加密密钥为K(其熵为H 【4】朱雪龙.应用信息论基础【M】.北京:清华大学出版社,2001. [5]姜丹.信息论与编码【M】.第二版.合肥:中国科学技术大学 出版社,20o4. (K)),输出密文为C(其熵为H(C)),则在没有密钥K 的情况下,成功破译出密文C为明文M的难易程度可 [6 John G.Pr6】oakis.Digital Communications[M].Fourth Edition. 北京:电子工业出版社,2003. 用互信息I(M;C)的大小来表示。I(M;C)越小,则在没 有密钥K的情况下通过分析密文C而获取明文M的 [7]樊昌信,张甫翊,徐炳祥,等.通信原理[M】.第五版.北京:国 防工业出版社,2001. 可能性越小。由概率论和信息论的知识可得 ,( ;C)=H(M)-H(Ml c)≥日(肘)-[H( I c)+Ⅳ( lM,C)7 【8】曹雪虹,张宗橙.信息论与编码[M】.北京:清华大学出版 社.2004. =日( ) (Kl C)+H(MIK,C) ̄H(M)-H(Kf G) ≥H(肘)一H( ) 加密变换的可逆性告诉我们,在已知密钥和密文 [责任编辑】崔洁 Applications of Probability Statistics in Teaching Practice on the Course of Information Theory&Coding XIE Zheng—guang,BAO Zhi—hua,ZHANG Guo—an (School of Elrctronics and Information,Nantong University,Nantong 226019,Jiangsu,China) Abstract:With the development of science and technology,it is necessary for the students majoring on information science or communication technique to learn the course of information theory&coding.Lots of contents and concepts of information theory&coding are tightly relative to probability statistics,which is complexity and abstract for students.It makes students diiculft in understanding this course wel1.By analyzing the problems in the teaching process of information theory&coding,we discuss in this paper the applications of probability statistics in the curriculum,reveal its basic characteristics,which is helpful for teachers and students to study it wel1. Furthermore,we have applied it into the process of teaching for two years,by which students can master it well more easily. Key words:information theory&coding;probability statistics;teaching practice ・90・