罗夫·兰道尔

  撰文:张华

  在人类文明史上,存在一些基本的理论概念。一旦弄清这些基本概念之间的联系,科技乃至人类文明就将出现飞跃。比如爱因斯坦搞清楚了质量与能量的关系后,人类就制造出了原子弹,爱因斯坦也成为科学史上巨人。

  那么,如果有人阐明了信息与能量的关系,他是否也会青史留名?答案是肯定的,这个人就是罗夫·兰道尔(Rolf Landauer)。

  来自 IBM 公司的一篇论文

  1927 年,兰道尔出生在德国斯图加特的一个犹太人家庭。1934 年,兰道尔的父亲去世后,母亲带着他迁居到美国纽约生活。1945 年,18 岁的兰道尔从哈佛大学毕业后,在美国海军服了 18 个月的兵役。兵役结束后,兰道尔返回哈佛大学攻读博士,1950 年拿到博士学位。

  1952 年,兰道尔加入 IBM 公司工作,成为一个上班族。他从来没跳过槽,生活看上去波澜不惊。但到了 1961 年,兰道尔在《IBM 研究通讯》上发表了一篇令他青史留名的论文,这篇论文的题目是《不可逆性与计算过程中的热量产生问题》。在这篇论文中,兰道尔指出了一件以前从来没人发现的事情:经典计算机要擦除一个经典比特的信息,其所消耗的最小能量是 kT ln2 (k 是玻尔兹曼常数,T是经典计算机所处的外界物理环境的温度)。

  兰道尔是怎么得到这个结论的?为了搞清楚这个问题,我们需要对信息多一些了解。

  什么是信息?

  在信息论的鼻祖香农看来,信息其实是对不确定性的消除。比如一个女生不确定一个男生是不是喜欢自己,而这男生对女生说:“今天晚上我请你看电影吧?”这句话里面就是包含信息的,因为这句话在一定程度上消除了不确定性。

  但是,如何度量信息的多少呢?这就需要用到一些数学了。

  1948 年,香农提出了“信息熵”的概念,信息熵解决了信息的度量问题。信息熵的定义如下(其中pi为每种可能性的概率):

  这个公式可以对照物理学中著名的热力学熵公式:

  这两个公式的区别有两点:首先是两者差了一个玻尔兹曼常数K;其次是求对数的时候,信息熵是以 2 为底的,而热力学熵是以自然常数e为底的。

  我们可以用以下例子来理解信息熵:考试时,有一道选择题,你对 4 个选项 ABCD 都不确定。那么,这时每个选项正确的概率是 25%。于是,这时的信息熵就可以这样用以上提到的信息熵公式来计算。

  把四个pi都等于 25% 代入以上那个公式,就可以算出这个时候的信息熵等于 2 比特。

  这个时候,考场里进来一个人,这个人是你非常信任的张老师。张老师突然告诉你说:“选项A与选项B肯定不对,不用选了。”张老师说的话是给你信息了。那么,老师的话里包含了多少信息呢?

  现在对你来说,选项 AB 可以排除,那么只剩下选项C与D了。对你来说,C与D各自正确的概率是 50%。

  所以,这时你把两个pi都等于 50% 代入,可以得到的信息熵等于 1 比特。你会发现,信息熵减少了。

  所以,对你来说,张老师的话包含的信息量是 1 比特,因为2-1=1(这里涉及到一个信任问题,如果你不相信张老师的话,那么张老师的话对你来说并不包含信息)。

  从信息熵到热力学熵

  有了香农的信息熵以后,可以把它与物理学中的热力学熵联系起来。

  在这里,需要使用高中数学中求对数的换底公式,在求对数的时候,信息熵是以 2 为底的,而热力学熵是以自然常数为底的,统一换成以自然常数为底,两者相差一个 ln2。

  所以,按照物理学的理解,3 比特的信息熵,对应的热力学熵就是 3kln2 。在这里K是玻尔兹曼常数,这个常数给出了信息熵与热力学熵的转化。用公式表示就是:

  这其实也是当年香农考虑信息熵的时候的出发点,他正是通过玻尔兹曼的热力学熵来类比信息论中的熵的。只不过在信息论中不需要玻尔兹曼常数,所以他当年在定义信息熵的时候,把玻尔兹曼常数省略了。

  而兰道尔要考虑的问题则更进了一步,他需要考虑一个真实的物理过程。在这个过程中如果想要用物理的手段擦除 1 比特的信息,需要多少能量呢?

  物理图像

  兰道尔是用热力学与统计力学的思维来思考这个擦除信息的过程。他的思考本质上,就是物理学家非常熟悉的麦克斯韦妖

  英国物理学家麦克斯韦假设有一个密闭的容器,由一个没有摩擦力的隔板分成左右两部分,隔板上是一个由麦克斯韦妖控制的阀门。起初,箱子两侧温度相同,当高速分子由左向右运动或慢速分子由右向左运动时,小妖就打开阀门令其通过;而当高速分子由右向左运动或慢速分子由左向右运动时,小妖就关闭阀门。

  久而久之,高速分子都跑到了右区,慢速分子都跑到了左区,于是左边的温度明显降低,而右区的温度明显升高。这样,因为麦克斯韦妖的存在,这个系统内出现了温度差,其有序性大大增加,熵就大大减少了。

  很明显,如果麦克斯韦妖存在,那么它可以使得热力学系统由温度的平衡态转变成了不平衡态。但这是有代价的。麦克斯韦妖需要付出什么代价呢?麦克斯韦妖需要获得信息,它必须读取每个气体分子的速度,然后做出判断,判断这个分子的速度是快还是慢(这是一个典型的是非判断)。这个过程要求麦克斯韦妖必须具有智商(也就是具有信息处理的能力)。

  所以,从这个物理图像中很容易看出,信息熵与热力学熵本质上是等价的。换句话说就是,气体热力学熵的减少,其实是以麦克斯韦妖自身的信息熵增加为代价的。麦克斯韦妖每读取一个分子的速度快慢,气体分子的信息熵降低 1 比特,而麦克斯韦妖自身信息熵就会增加 1 比特,最后麦克斯韦妖的大脑就会很累,因为它的大脑储存了大量的信息熵。

  信息与能量的联系

  上面的讨论可以让兰道尔洞察出信息与能量的关系。

  在物理上,能量对热力学熵(内含玻尔兹曼常数)的导数等于温度

  兰道尔构造了一个模型,来解释这个问题。为了叙述方便,我们把兰道尔的思想翻译为如下模型。

  首先,我们构造一个盒子,把这个盒子分为左右两部分。然后假设有一个气体分子,如果我们不确定它到底是在左边还是右边,那么与本文一开始写到的做选择题的情况类似,相当于有两个选项(选左边或者右边),这时的信息熵是 1 比特。

  现在,假设在箱子的右边有一个活塞,活塞可以通过等温压缩把气体分子推到左边。在这个过程结束后,我们能够确定气体分子一定处于盒子的左边,所以,气体分子的信息熵就等于0。

  因此,从信息论的角度来说,在活塞运动的过程中,相当于擦除了 1 比特的信息。而从物理学的角度来说,活塞的运动是需要消耗能量的,在等温压缩的过程中,可以通过本小节的微分公式算出,活塞做了 kT ln2 的功。这就是兰道尔原理的基本思想:经典计算机要擦除一个经典比特,其所消耗的最小能量是 kT ln2。当然兰道尔用了比较长的篇幅来论证这个能量是最小的,我们在这里就不展开论证了。


 

  信息熵是香农在 1948 年提出来的,而且很快就成了信息科学的主流科学术语。目前 5G 时代的计算网速的理论依据也是以信息熵为基础的,香农的公式刻画了信息传递的效率与带宽以及噪声的关系。毫无疑问,香农奠定了信息论的基础。

  而 1960 年兰道尔需要考虑的问题是本质上是信息熵与能量到底是什么关系。他考虑的问题看起来很奇怪,在他之前确实没有人考虑过这个问题:如果我们想要擦除 1 比特的信息,最少需要消耗多少能量?从信息论的角度来说,比如给你一个U盘,U盘里存了一张照片,你要删除这张照片(不能毁灭U盘),你肯定要给U盘接上电脑,那么电脑肯定要花电费,必须要消耗能量才能把这个照片删除。因此,兰道尔原理也解释了电脑在工作的时候为什么会发热,因为电脑一直在擦除信息。其实,对于人脑也一样,人脑也是一个内存,如果要忘记某件事某个人,也必须要消耗能量。因此,兰道尔的思想还是很有价值的。

  原始论文:

  https://ieeexplore.ieee.org/abstract/document/5392446/