香农的信息论究竟牛在哪里?

感觉说的都会大白话啊。
关注者
10,923
被浏览
3,094,197

192 个回答

香农1948年那篇paper发表的时候叫《A Mathematical Theory of Communication》。

过了几年(一年?)出单行本的时候标题改了一个字,叫《The Mathematical Theory of Communication》……

【“科研君”公众号初衷始终是希望聚集各专业一线科研人员和工作者,在进行科学研究的同时也作为知识的传播者,利用自己的专业知识解释和普及生活中的 一些现象和原理,展现科学有趣生动的一面。该公众号由清华大学一群在校博士生发起,目前参与的作者人数有10人,但我们感觉这远远不能覆盖所以想科普的领域,并且由于空闲时间有限,导致我们只能每周发布一篇文章。我们期待更多的战友加入,认识更多志同道合的人,每个人都是科研君,每个人都是知识的传播者。我们期待大家的参与,如果你想加入我们,欢迎私信~】

======================================================================

谨以此文,怀念香农百年诞辰。

1916年4月30日,克劳德·香农出生于美国密歇根州的Gaylord镇。也就是说,下周六就是香农这位伟人的整整一百周年诞辰。作为被香农信息论造福的我们,此时理应感怀香农为人类做出的贡献。所以本公众号特意撰写这篇文章,纪念香农在信息论和其他领域的开创性贡献。

克劳德·艾尔伍德·香农(Claude Elwood Shannon ,1916年4月30日—2001年2月24日)

信息论(information theory)顾名思义是研究“信息”的理论。那么信息到底是什么?信息到底有多重要?让我们听听雷军是怎么看的:


投身信息产业的怀抱快三十年了,我有时也在想:信息何以会具备如此强大的力量?它的力量来自哪里?我们又该如何驾驭这一力量?在这三十年间,信息极大地释放了人类的能量,它所创造的价值超过了之前五千年的财富总和,但“信息”依然是个大家耳熟能详却又含义模糊的词。
信息是人的镜子,它在技术更新与模式兴替中展现出变化万端的色彩。但我们回视人的心灵,却发现它在千百年来并没有太多的变化。“科技的互联网”不能描述信息的全部,信息只有作用于思维,才能显示出强大的力量。
小米董事长,金山软件董事长

从雷军的这段话反映出了很多人对信息的理解和困惑。从中可以看出,虽然信息这个词汇在日常生活中无处不在,但要说清楚信息是什么,却并不容易。根据朗文双解中,关于信息(information)的词条解释为:

Information: Facts or details that tell you something
about a situation, person, event, etc.

但这个解释还是非常粗略的。那我们再而试着从哲学的视角出发,发现目前哲学界对信息没有统一定义。哲学认为信息划分为三种形态: 自在信息,自为信息和再生信息。此时我们会发现,信息似乎是我们司空见惯的概念,好像直观理解起来并没有什么障碍,但要准确描述信息是什么却非常困难。而香农信息论的伟大贡献就在于,可以用数学公式严格定义信息的量,反映了信息表达形式在统计方面的性质。


接下来让我们把视角和时间切换到香农创建信息论的时候。可以说,香农和牛顿一样,都是站在巨人肩膀上的人。通信学科是最早系统性地研究信息理论的学科,所以我们先看看在香农提出信息论之前,数字通信发展的一些大事件:


1837年 Morse:有线电报;


1875年 Emile Baudot:定长电报编码;


1924年 Nyquist:给出了给定带宽的电报信道上无码间串扰的最大可用信号速率;


1928年 Hartley:在带限信道中当最大信号幅度Amax,幅度失真为Ad的条件下存在一个可靠通信的最大数据速率;


1939年-1942年:Kolmogorov 和Wiener:最佳线性(Kolmogorov-Wiener)滤波器;


1947年 Kotelnikov:基于几何方法的各种相干解调。

到了1948年,这是信息时代具有里程碑的一年。当年贝尔实验室对外宣布他们研发出来了一种全新的小型电子半导体器件。据说这是一种“出奇简单的设备”,可以完成任何真空管能够完成的工作,而且效率更高,体积更小,更容易集成,小到巴掌大面积的设备里也能容纳数百个。这时世界都被这项新颖的科技发明吸引住了,于是在同年5月,科学家们专门组织了一个委员会来为这个发明命名,委员会给贝尔实验室的所有高级工程师都发放了选票,经过投票和统计,最后“晶体管”脱颖而出(transistor,由transconductance(跨导)和varistor(压敏电阻)两个单词合并而成),成为了这个新型半导体器件的正式名称,沿用至今。


贝尔实验室在当年的新闻稿中自豪的宣布到:

它可能将对电子和电信行业产生意义深远的影响。

至今来看,这个说法毫不为过,晶体管引发了电子技术的科学革命,为半导体技术的微型化和普及开辟了道路,可以说晶体管在各行各业都发挥着巨大的作用。而晶体管的发明者,肖克利,巴丁和布拉顿三人也荣获了1956年的诺贝尔物理学奖。可以说,半导体技术是贝尔实验室的最重要的一项发现。但是,如何我们再看看1948年还出现了什么重要进展,就会发现晶体管或许只能屈居次席,因为它只是这场电子行业革命的硬件部分。


而我所说的力压晶体管的重要发现,出现在当年的一篇专题论文中。这篇论文的题目简单而又宏大——《通信的数学理论》(A mathematical theoryof communication)[1],这篇半个多世纪前的文章于2001年再次发表,今天还能在谷歌学术里找到,引用次数高达81685次。(下载地址:A mathematical theory of communication



和晶体管(transistor)一样,这项发现也给人类带来了一个新的单词——比特(bit)。但这个名字的命名过程并不像晶体管那样隆重其事,而是由这篇论文的唯一作者,时年32岁的克劳德·香农(CE Shannon)自行决定的。如今,比特作为衡量信息多少的单位,已经跻身公尺、千克,分钟之列,成为了日常生活中的最常见的量纲之一。


但比特究竟测量的是什么呢?香农的回答是:“用于测量信息的单位”。在香农眼中,信息是和长度,重量这些物理属性一样,是种可以测量和规范的东西。由于对于通信系统而言,其传递的信息具有随机性,所以定量描述信息应基于随机事件。香农在[1]中提到,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。


通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。例如,当极限条件下,一个信源只发送一种符号,即发送内容是确定的,即概率为100%,此时接收方无法从接收信号中获得任何信息,即信息的量为零。而反之发送方和接收方约定,符号1代表二进制数字0,符号2代表二进制数字1,则接收端可以通过接收到的信源符号,获取一定信息。


同时香农提出了用信息熵来定量衡量信息的大小。我们先设随机事件发生的不确定性为发生概率pi的函数f(pi),该函数具有如下三条性质:

1)单调性:概率越大的事件,信息熵越小,反之亦然。即,


2)非负性:f(pi)非负;


3)可加性:多随机事件同时发生存在的总不确定性的度量,可以表示为各时间不确定性度量的和。例:


最后香农在[1]中,从数学上证明满足上述性质的信息熵函数,具有唯一的如下的形式。


信息熵不仅定量衡量了信息的大小,同时为信息编码提供了理论上的最优值:实用的编码平均码长的理论下界就是信息熵。即信息熵为数据压缩的极限。


此外,在香农提出信息论之前,人们曾普遍认为,以固定速率发送信息,而忽略误差概率的传输系统是不可能做到的。然而,香农却从理论上证明了,只要通信速率低于信道容量C,总可以 找到一种编码方式,使得误差概率接近于0。这结论震惊了整个通信理论界。而信道容量C可以通过一个简洁而美丽的公式——香农公式,根据信道的带宽和噪声特征简单的计算出来:


其中P/N等于信号能量除以噪声能量,即信噪比。而W代表信道的带宽。同样,这一公式,香农在论文[1]中做出过严格的证明。


所以说,信息论最初解答的是通信理论中的两个基本问题:

1)临界数据压缩的值?(答案:信息熵H)

2)临界通信速率的值?(答案:信道容量C)

以上可是说是香农在《通信的数学理论》提出的主要创新,自此开创了信息论这门伟大的学科。


在之后的1949年,香农又有了重量级的发现,他公开发表的《保密系统的通信理论》一文,开辟了用信息论来研究密码学的新思路,使他成为近代密码理论的奠基者和先驱。这篇文章基于的理论是香农在1945年为贝尔实验室所完成的一篇报告《A Mathematical Theory of Cryptography》。这一发现再次震惊了学术界,波士顿环球报称“这一发现将密码从艺术变成为科学”。这篇论文发表后,香农被美国政府聘为政府密码事务顾问。纵观最近几十年来密码领域的几个重大进展,会发现它们都与香农这篇文章中所提出的思想有着密切关系,可以说《保密系统的通信理论》奠定了现代密码理论的基础。


我们都知道,通信系统是克服系统中存在的干扰(系统中固有的,如热噪声,或敌方故意施放的),实现有效且可靠的通信。而信息保密性和隐匿性虽然不等同于信息的不确定性,但我们将会看到它们和不确定性密不可分,且都可化为对信息进行编码问题。


基于这一点,香农提出:

“从密码分析者来看,一个保密系统几乎就是一个通信系统。待传的消息是统计事件,加密所用的密钥按概率选出,加密结果为密报,这是分析者可以利用的,类似于受扰信号。”

香农认为,密码系统中对消息的加密变换的作用类似于向信息中存在的噪声。密文就相当于经过有扰信道得到的接收消息,密码分析员相当于有扰信道下原接收者。不同的地方在于,这种干扰不是信道中的自然干扰,而是发送者有意加进的,且可由己方进行设计和控制、选自有限集的强干扰,也就是密钥,其目的是己方可方便地除去发端所加的强干扰,从密文中恢复出原来的信息,而使敌方难于从截获的密报中提取出有用信息。所以密钥的随机性将成为关键所在。传信系统中的信息传输、处理、检测和接收过程,与密码系统中的加密、解密、分析和破译过程都可用信息论观点统一地分析研究。密码系统本质上也是一种传信息系统,是普通传信系统的对偶系统


香农以概率统计的角度对消息源、密钥源、接收和截获的消息进行数学描述和分析,香农深刻揭示了冗余度在密码中的作用,用不确定性和唯一解距离来度量密码体制的保密性,深入阐明了密码系统、完善保密性、纯密码、理论保密性和实际保密性等重要概念,从而大大深化了人们对于保密学的理解。这使信息论成为研究密码学和密码分析学的一个重要理论基础,将密码学从艺术变成了科学,宣告了科学的密码学时代的到来。


但到这里,估计还有不少非相关专业的读者会一头雾水,不太理解香农信息论究竟牛在哪里?开创性在哪里?他为人类做出来多大贡献?为了让大家更加直观地去理解这些问题的答案,后面我们将脱离具体的数学公式和繁杂的定义,宏观而概要地看一看香农提出信息论之前的人类社会中的“信息”和后香农时代的信息。


在20世纪的早期,虽然人们对信息的概念还不甚了解,但信息的载体却是随处可见,信件,电话,声音和图像,无论是通过邮局,电缆还是电磁波,信息在整个地球上川流不息地流动着,交互着。据美国人口普查局统计摘要中有关通信的内容[5],截至1948年,美国每天有1.25亿次的通话要经过贝尔系统那2.22亿公里的悠闲电缆和3100万台电话机进行传输。此外还有3186家无线电广播台,15000家报社以及4000亿封信件。如此多的信息流动,其中的信息又该如何衡量呢?


显然,邮局可以计算信件和包裹的数量,但贝尔系统传输的究竟是什么呢?又应该用什么单位计数来衡量呢?可以肯定的是电缆传输的肯定不是通话,但是是信息吗?然而,当时的人们却没有一个词能够精准地概括所有这些东西。正如香农在1939年写给麻省理工的万内瓦尔·布什的信件中写道:

“时断时续地,我一直在研究信息(intelligence)的一般系统的某些基本属性。”

说到香农提到的Intelligence一词,这个单词有着悠久的历史,语义丰富。托马斯·艾利奥特爵士在16世纪写道:“现在intelligence作为一个文雅的说法,用来表示通过相互交换信件或者口信达成协议或者约定”。不过除此之外,这个信息还有很多其它的含义。所以后来一些贝尔实验室的工程师,开始更多地使用information一词。他们用这个词来表达一些技术性的概念,如信息的数量、信息的测量等。而香农作为贝尔实验室的一员,在信息论中也采用了information这个词。自此,information渐渐成为了主流。


早在1938年,香农就在自己的硕士论文《继电器与开关电路的符号分析》中,把逻辑代数的思想运用到了电子电路的设计上。把逻辑和电路这两个貌似毫不相干的东西,结合成了一对不同寻常的组合,擦出了巧妙的火花。这篇文章也被誉为上个世纪最重要的硕士论文。后来在1943年,英国数学家,密码学家,著名的阿兰·图灵曾造访贝尔实验室,并与香农共进午餐,期间他们讨论到人造思维机器的设想,期间香农告诉图灵,他不仅仅满足于向这台“大脑”里输入数据,还希望把文化的东西灌输进去。这个想法连图灵都被震惊到了,他感到非常不可思议,惊呼道:

他(香农)想给它来点音乐!

此外,香农也开始研究电视信号来,他尝试研究是否有一种方法,可以巧妙地打包压缩电视信号,从而更快,更稳定地传输。这些年间,无数巧妙而又天才的想法不断浮现在香农的大脑中,于是为了寻找一种统一的框架来梳理他脑中的好点子,就像爱因斯坦希望提出统一场论一样。这时,香农开始着手整合一种有关信息的理论,即后来的信息论,并将它成功应用于科学领域。


但我们都知道,为了让信息(information)能够应用于科学领域,必须先给这个词赋予某些特定而具体的含义。我们回首三个世纪之前,当时的物理学的发展已经遇到了瓶颈。但随着牛顿开创性地将一些传统但又定义模糊的词汇,诸如力,时间,质量等,重新定义,赋予新的含义,让物理学开始了一个新的时代。也正是牛顿把这些词加以量化,才能够放在数学公式里使用,或者可以用数学公式来表达。例如,在牛顿做出这一工作之前,motion(运动)一词的含义就跟信息一样,是个极其模糊不清的概念。对于当时遵循亚里士多德学说的人而言,运动可以指代极其广泛而又丰富的现象,如:桃子成熟,苹果落地,子弹出趟,孩童成长等等。但这样一来,motion(运动)的含义就太过于丰富和广泛了,所以必须将其中绝大多数的现象舍弃,牛顿的运动定律才可以使用。到了19世纪,energy(能)一词也经历过相似的重新定义的过程。再到20世纪,信息这个词也不例外,也需要一次提炼,而提炼者就是香农。


在香农对信息的概念加以简化,并用bit作为量纲衡量后,人们发现信息几乎无处不在。香农的理论在信息与不确定性、信息与熵、以及信息与混沌这些概念之间架起了桥梁。比特的出现在后来引领了电脑和网络、摩尔定律和如今发达的信息产业和互联网产业。所以人们将铁器时代和蒸汽时代之后的时代称为信息时代。马歇尔·麦克卢汉在1964年评论道:

人们曾经以采集食物为生,而如今他们要重新以采集信息为生,尽管这件事看起来很不可思议。

今天看来,马歇尔的这一预言毫无疑问的走在了时代的前面。现如今,我们已经可以清晰地认识到,信息是我们这个世界运行所必须的血液和生命力。信息的概念已经远不止局限在通信行业,早已渗透到了各个科学领域,改变着每个学科的面貌。



因为香农信息论最初解决的两个问题都属于通信学科,而且加上信息论的奠基论文——《通信的数学理论》中又重点强调了通信,所以会产生一些误解,那就是有人会认为信息论只不过是通信学科的一个组成部分,但是信息论涵盖的领域远不止于此。如上图[2]所示,信息论在统计物理(热力学)、计算机科学(科尔莫戈罗夫复杂度)、推断统计(奥卡姆剃刀)以及概率和统计等学科方向中都有奠基性的贡献。


在英语国家被称为“计算机科学”的学科,在一些欧洲国家则被称为“信息科学”。在国内以清华大学为例的高校,电子工程系和计算机科学与技术系等系同属于信息科学技术学院(School of
information science and technology)。




香农虽已于2001年辞世,但正如信息论学科的著名学者,Richard Blahut教授在香农的儿童时代的老家,密歇根州的Gaylord镇举行香农塑像的落成典礼上所说的,香农所留给人类的思想会永远留在人们的脑海中,激励我们的子孙们。


在我看来,两三百年之后,当人们回过头来看我们的时候,他们可能不会记得谁曾是美国的总统。他们也不会记得谁曾是影星或摇滚歌星。但是仍然会知晓香农的名字。学校里仍然会教授信息论。

(Dr. Richard Blahut, Oct. 6, 2000, Gaylord,
Michigan)


[1]Shannon C E. A mathematical theory of communication[J]. ACM SIGMOBILE Mobile
Computing and Communications Review, 2001, 5(1): 3-55.

[2]Cover T M, Thomas J A. Elements of information theory[M]. John Wiley &
Sons, 2012.

[3]信息简史,詹姆斯·格雷克,人民邮电出版社.

[4]Statistical Abstract of the United States 1950.


【非常高兴看到大家喜欢并赞同我们的回答。应许多知友的建议,最近我们开通了同名公众号:PhDer,也会定期更新我们的文章,如果您不想错过我们的每篇回答,欢迎扫码关注~ 】



【“科研君”公众号初衷始终是希望聚集各专业一线科研人员和工作者,在进行科学研究的同时也作为知识的传播者,利用自己的专业知识解释和普及生活中的 一些现象和原理,展现科学有趣生动的一面。该公众号由清华大学一群在校博士生发起,目前参与的作者人数有10人,但我们感觉这远远不能覆盖所以想科普的领域,并且由于空闲时间有限,导致我们只能每周发布一篇文章。我们期待更多的战友加入,认识更多志同道合的人,每个人都是科研君,每个人都是知识的传播者。我们期待大家的参与,想加入我们,进QQ群吧~:108141238】