熵
熵(entropy)这个概念为什么可以被引用到科学的多个不同的领域呢? (物理,计算机视觉,信息论等等)
这里我就来谈谈物理学上的熵,和信息论中的熵联系在于哪里。 为了帮助理解和应用,最后有几个关于熵的应用的有趣例子。
熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。
一滴墨水滴在清水中,部成了一杯淡蓝色溶液
热水晾在空气中,热量会传到空气中,最后使得温度一致
可以注意到些能量分布的变化的过程都是都是不可逆的(你不能期望清水中的蓝色分子 自动地聚成一滴墨水,放在空气中的汽水能 自动变成开水), 所以这些系统的熵都在慢慢地增加。
而物理学第二定律描述的就是,宇宙中这些不可逆的过程的变化规律,而自然界中的一切自发过程都具有不可逆性. 所以熵增加是一个很普适地概念,说明了宇宙的发展具有方向性, 也就是向着熵增大的方向发展。 而这些推动事物向熵增大方向发展的力量(规律), 被称为熵力。更多的一些生活中的例子:
熵力的一个例子是耳机线,我们将耳机线整理好放进口袋,下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力,耳机线喜欢变成更混乱。
熵力另一个具体的例子是弹性力。一根弹簧的力,就是熵力。 胡克定律其实也是一种熵力的表现。
万有引力也是熵力的一种(热烈讨论的话题)。
浑水澄清
宇宙发展的尽头就是熵达到最大,所有物质温度达到热平衡。这样的宇宙中再也没有任何可以维持运动或是生命的能量存在(热寂)。
以上是从能量分布角度看熵的定义, 从 微观分子角度看,熵表征了这个系统的混乱程度(与微观状态数量有关,比如说粒子所处的能级(E)可以作为状态). 所有微观粒子的状态只有一种时,也就是混乱程度为0。而当3个粒子分别处于状态1,2,3 时。这个系统的熵就是k*ln(3),总而言之就是微观状态越多,熵越TM大.
于是从微观看,熵就表现了这个系统所处状态的 不确定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的 平均信息量(平均不确定程度)。
所以当我们说某句话的时候,会帮助你消除一定不确定程度,而消除程度的多少就是信息量的多少. 通过计算[2],常用汉字的熵要大于英文字母的熵,所以你说相同长度的中文很有可能比英文表达的意思要多哦。
除了信息论,很多地方都借用了这个可爱的概念。
(信息压缩编码)霍夫曼(Huffman)编码: 设计一个信息系统,使得其熵最大,(编码的平均信息量最大), 于是使得发送效率最高。
(计算机视觉)这文章里,介绍了用熵变化来检测出一个图片的显著点.(e.g.一只在墙上的手). 原理就是这些有突出特征的点,都是表现出很强的不确定性(熵)。于是把这些点找出来,就很有可能是你想要的(特征突出的东西)
(自然语言处理) 在翻译的时候,一个 句子J, 可能有 n种翻译(f1,f2…fn),还有一些 知识Z(比如在这篇武侠小说里,f3,f4这两个翻译的可能性更大)。现在你要建立一个模型来描述这n种翻译的可能性(概率分布)是怎么样的, 最好的模型也就是让这几种翻译的概率分布的 “熵” 最大。 学术一点说,就是在已知的前提下,请将未知的东西做最不可预测(熵最大)的推断。这就是 最大熵模型的思想。
有趣的问题是, 在这些系统中,会不会也存在和宇宙一样的,熵不断增大的系统呢?
或者通过观察某些熵不断增大的信息系统(像语言系统,熵总是不断增大的,因为,人们总想更快更简单地表达一些信息),能不能推导出这是由一种不可逆的力量产生的变化?这种力量又是什么呢?
常见科普书上说,熵,就是混乱程度的量度,一个系统越对称,就越混乱,熵就越大。这无疑给了众多的不求甚解者以艺术般的幻想,以至于跨学科地误用和错用熵概念的现象泛滥。
有个问题,即是很多物理学专业的学生,也常搞错。这个问题就是:一盆脏水,搅浑后封闭起来作为状态0;在地球上不管它,浑水会自然澄清,分层,这是状态1。问:从状态0到状态1,熵是增加了,还是减少了?
很多人会认为熵减少了。甚至一些物理学家也犯这个错误,在科普作品中说引力是能抵抗熵增的,所谓熵增定律带来混乱,而引力可能抵抗熵增而带来秩序。
果真如此吗?当然不是。热力学第二定律,在引力下一样表现的很明显,引力丝毫不会导致熵减。只是人们头脑中被科普灌输了错误的熵图像而已。
先说一个规范。物理学家在看到自由落体下落的系统的时候,发现落体动能在增加,但这时他绝不会说:由于落体的动能在增大,所以能量不守恒,能量在增大。而是说:自由下落系统的总能量是守恒的,因为势能转化为动能,动能才因此增加。保守力提供了势能,或势场,这是始终要考虑去的能量形式。我们说封闭系统的时候,始终就把势能(势场)封闭进去考虑了。势能场是不能随意中途加入或移除的,除非你额外输入能量—你不能不做功而把地球上的物体送入无引力场的太空中去。
同样,严肃的物理学家,针对脏水澄清现象,决不会说:考虑地球,则熵增;如果不考虑地球,则脏水系统是熵减的。说到熵,一开始就要考虑各种能量分布形式的影响,包括势能。
熵在历史上有两种定义,一种是克劳修斯的热力学宏观定义,一种是波耳兹曼的微观定义。这两种定义是协调的,没有矛盾。微观定义可以为宏观定义提供几率解释。
我们先从宏观热力学上看脏水澄清系统的变化。脏水自然澄清时,比重大的泥沙会下沉,这导致系统的重心下移。系统的总势能是这样计算的:系统重心的高度x 系统的重量:
U(势)=Mgh
系统重心下移,意味着系统的总势能减少了。既然是封闭系统,意味着总能量是守恒的。那么减少的势能到哪里去了呢?转化为粒子无规则的热运动,即热能了。这样,根据不可逆过程的热力学熵的定义式:dS>dQ/T,热量增加即dQ>0,所以熵增 dS>0,熵增定律成立。
很多人感到奇怪之处就在于:脏水澄清的过程,不是使系统更有序了吗?你看,本来是混乱的浑水,现在分层了,有秩序了,难道不是这样吗?
这是试图从熵的微观概念出发想问题,但可惜的是,这样的直觉式的熵概念是错误的。
微观的熵概念,或波耳兹曼的熵概念,不是单指粒子在三维几何空间中分布的混乱程度;而是指粒子在一定外场势能分布条件下,在粗格化的“相空间 ”–包括所有粒子的位置维度和动量维度的数学空间–中的分布的混乱程度。简单地说,粒子在相空间中对称(或混乱)与否,不是只看粒子的位置分布,而且还要看粒子的动量、能量分布状态。一个简单的例子是:一些在同一水平面上的空气分子,即使它们在平面空间上的所处位置来看是分布均匀的,但只要它们的动量或能量分布不均匀,那么它们在相空间中的分布就是不均匀的、不对称的或者说是较有序的、较不混乱的。系统的这个“混乱”程度,即波尔兹曼熵,有严格的计算方法,其结果可能完全不同于人们的几何直觉印象。
波尔兹曼熵定义是:S=klnΩ
其中S是封闭系统在某种状态下的熵,k是常数,而Ω是指这种状态下的微观态数目。
我们不要怕麻烦,一定要用图形,找出脏水澄清前后的微观状态数的变化,如果微观状态数变大了,就说明系统的熵增加了,也可说明与热力学宏观定义的理解不矛盾了。
为了简便,我们假设简单的粒子情况,这个模型推广到极多粒子情况也完全适用。
1)假设脏水系统有3个粒子,一个是泥沙类的重粒子,另外两个是水分子。
假设重粒子的质量是水分子的2倍,我们把它称为(2a),重量为2;而把其中一个水分子称为a1,把另一个水分子称为a2. 每个水分子的重量都是1。
2)假设脏水混沌后为封闭系统,总能量守恒,总能量为9个单位。就是说,(2a),a1和a2三个粒子的总能量是守恒为9的。再假设三粒子除了自身的动能和重力势能,别无其他能量。
3)各粒子的空间高度可以为1m,2m或3m,在这些之间的高度要做四舍五入,有微小的差别可视为全同。这叫把空间或势能粗格化。
4)设各粒子的动能可分别为0,1,2,或3…等,在这些之间的动能取值要做四舍五入,有微小的差别可视为全同。把动能粗格化。
5)粒子位置空间只考虑1维的情况, 即粒子的位置区分只有上下而没有前后左右。
先假设重粒子(2a)在系统的最上层,3m处占据。图中,符号“a1->1”,表示此状态下粒子a1的动能为1。每个系统态图的右边的数字,是每个高度上的能量分布,它等于此层上所有粒子的(动能+势能)的和,每个粒子的势能的计算方法是其重量乘以高度。
我们先看重粒子(2a)在系统的最上层的情况下,系统粒子不同能量分布的微观态的几种可能性:
微观态1:
第3m层:(2a)->0———-此层动能=0,势能=2x3=6, 总能量=6
第2m层:无粒子———–此层动能=0,势能=0, 总能量=0
第1m层:a1->0, a2->1—–此层动能=0+1=1,势能=1+1=2,总能量=1+2=3
微观态2:
第3m层:(2a)->0———-此层动能=0,势能=2x3=6, 总能量=6
第2m层:无粒子———–此层动能=0,势能=0, 总能量=0
第1m层:a1->1, a2->0—–此层动能=1+0=1,势能=1+1=2,总能量=1+2=3
微观态3:
第3m层:(2a)->0———-此层动能=0,势能=2x3=6, 总能量=6
第2m层:a1->0————此层动能=0,势能=2, 总能量=2
第1m层:a2->0————此层动能=0,势能=1,总能量=1
微观态4:
第3m层:(2a)->0———-此层动能=0,势能=2x3=6, 总能量=6
第2m层:a2->0————此层动能=0,势能=2, 总能量=2
第1m层:a1->0————此层动能=0,势能=1,总能量=1
微观态5:
第3m层:(2a)->1———-此层动能=1,势能=2x3=6, 总能量=7
第2m层:无粒子———–此层动能=0,势能=0, 总能量=0
第1m层:a1->0, a2->0—–此层动能=0,势能=1+1=2,总能量=2
可见在重粒子(2a)在系统的最上层的情况下,系统不同能量分布的微观态有且只有上面所示的5种可能。 读者可以检验:任何局限在此空间中的、这三粒子的其他的势能或动能分布,都不会使总能量为9。
注意,即使只考虑高度上的1维空间, 一个动能不为0的粒子, 某个确定的动能也可对应两个确定的动量, 这两个动量大小相等、方向相反, 因为动量的方向有朝上和朝下的两种可能。于是,相空间(位置和动量空间)中, 总微观态数目, 比单纯考虑能量分布形式的微观态数目要多。计算方法是: 每1个能量分布态, 若其中3个粒子动能都为0, 则其对应有1种动量分布; 如果3个粒子只有1个动能不为0, 则其对应2种动量分布; 如果动能有2个不为0, 则对应4种动量分布;如果3个粒子动能都不为0, 则对应8种动量分布。
参考各种能量分布状态再计算这种情形下相空间(能描述所有粒子的各种不同位置和不同动量的数学空间)的微观态可知:
一个重粒子在3m处的条件下, 系统微观态数应是Ω=8,即熵S=kln8.
以上相当于重力场中的浑水状态,状态0。
再看类似重粒子下沉,脏水澄清的情况下的熵。只要假设重粒子在最下层即可。实际上,还有此1重粒子伴随1个水分子同时在最下层的情况,我们暂且不考虑。 我们将知道,即使只考虑一个重粒子在最下层的情况时, 这种情形的分布可能性,也要比重粒子在最上层的情况,可能性或几率要大的多。
重粒子(2a)在最下层即1m处的不同能量分布形式下的微观态(粒子系统总能量仍恒为9):
微观态1:
第3m层:无粒子—————-动能0,势能0
第2m层:a1->0, a2->3——-动能=0+3=3,势能2+2=4,此层总能量=3+4=7
第1m层:(2a)->0————–动能=0,势能=2,此层总能量=2
微观态2:
第3m层:无粒子
第2m层:a1->3, a2->0
第1m层:(2a)->0
微观态3:
第3m层:无粒子
第2m层:a1->1, a2->2
第1m层:(2a)->0
微观态4:
第3m层:无粒子
第2m层:a1->2, a2->1
第1m层:(2a)->0
微观态5:
第3m层:a1->0
第2m层:a2->2
第1m层:(2a)->0
微观态6:
第3m层:a2->0
第2m层:a1->2
第1m层:(2a)->0
微观态7:
第3m层:a1->2
第2m层:a2->0
第1m层:(2a)->0
微观态8:
第3m层:a2->2
第2m层:a1->0
第1m层:(2a)->0
微观态9:
第3m层:a1->1
第2m层:a2->1
第1m层:(2a)->0
微观态10:
第3m层:a2->1
第2m层:a1->1
第1m层:(2a)->0
微观态11:
第3m层:a1->0,a2->1
第2m层:无粒子
第1m层:(2a)->0
微观态12:
第3m层:a1->1,a2->0
第2m层:无粒子
第1m层:(2a)->0
微观态13:
第3m层:无粒子
第2m层:a1->0,a2->2
第1m层:(2a)->1
微观态14:
第3m层:无粒子
第2m层:a1->2,a2->0
第1m层:(2a)->1
微观态15:
第3m层:无粒子
第2m层:a1->1,a2->1
第1m层:(2a)->1
微观态16:
第3m层:a1->0
第2m层:a2->1
第1m层:(2a)->1
微观态17:
第3m层:a2->0
第2m层:a1->1
第1m层:(2a)->1
微观态18:
第3m层:a1->1
第2m层:a2->0
第1m层:(2a)->1
微观态19:
第3m层:a2->1
第2m层:a1->0
第1m层:(2a)->1
上面是重粒子(2a)在最下层即1m处的不同能量分布形式下的微观态的所有可能分布。要保证粒子系统的总能量(动能+势能)为9,粒子能量只有这19种分布可能性。
再依照这19种能量分布可能,计算它们在相空间(包括位置和动量)中的所有可能的微观态,可知这时粒子系统微观态数Ω=64,即熵S=kln64.
这个Ω=64远大于重粒子在最上层的可能的微观分布可能数Ω=8. 说明重粒子在引力场中位于下层的分布几率远大于其在上层的系统分布几率.
以上相当于重力场中的浑水澄清后的状态,状态1。显然这种情况下的熵,比重粒子在上的浑水状态的熵要大。
注意,这个微观态解释的直观重点是:
重粒子如果在上方,就会占据更多的能量(势能太大),而由于系统总能量守恒,其他轻粒子的能量和动量的分配可能性就减少了,微观态就少; 相对地,重粒子如果在下方,就会占据更少的能量(势能占据小),而由于系统总能量守恒,其他轻粒子的能量和动量分配可能性就增加了,微观态就多。
结论: 重粒子在下,有更大的分布可能性和几率。
所以重力场中浑水澄清的过程是朝微观态数目多、几率大的方向发展的,即熵增的过程。
从熵的微观解释看,熵大就是这种粒子分布状态的概率大。热力学第二定律,即熵增定律,就是预言系统将从概率小的分布状态,朝着概率大、可能性多的分布状态变化,朝着最可几的状态演化。
最后说说为什么很多人以为澄清分层的水更有序,熵更小。这是一种错觉,或对熵的片面理解,甚至误解导致的。错觉可能来自于无引力场的分布情况:在无引力场,或引力场的水平截面(等势能面)上,熵大常常意味着粒子在位置空间几何排列上的更无序,或更对称。 但这种直觉是不能任意推广的。
最后要说的是: 引力不会导致熵减, 这在霍金的黑洞热力学中也成立. 霍金的公式说黑洞的熵与黑洞的视界面积成正比–而黑洞的视界面积总在增加. 于是热力学第二定律–熵增定律毫无例外地适用于黑洞–有巨大引力的地方。
熵减错觉的简明心理分析
一个众所周知的常识是, 一个在引力场中封闭且绝热的单摆系统, 开始状态是单摆摆动, 但最终单摆会停止—- 单摆摆动的时候, 重力势能与动能不断转化, 但转化的效率不是100%, 而是一部分动能或势能(机械能)转化为无规则的分子热运动, 热能了. 这就是不存在永动机的热力学第二定律, 或熵增定律.
我们看,假如在引力场中封闭且绝热的单摆系统里, 有许多单摆, 初状态是在摆动, 而后逐渐都趋向于停止摆动了,那么, 同样,这个系统过程是熵增的, 机械能转化为热能了, 单摆最终都停止摆动了.
这个系统实际上与我说的浑浊的脏水孤立系统在引力场中变为澄清分层的系统过程, 完全是一样的. 但奇怪的是, 说单摆逐渐停止运动,很多人就可以理解是熵增, 而浑水澄清分层, 很多人就难以理解是熵增过程.
(问题:在地球上, 把一个脏水搅浑后封闭隔热后,设为0初始状态. 这个孤立系统在引力场中自发地逐渐澄清分层, 这个状态设为1状态, 问从0状态到1状态, 系统的熵是增加了, 还是减少了?)
完全类似的熵增过程, 一个是单摆垂下不摆了, 另一个是泥沙沉淀不往上窜了, 为什么熵增熵减的心理感觉会不同? 为什么人会有这个错觉?
我想, 这可能人受生物主观需要的影响. 人对分层澄清的水更有需要(人需要喝澄清的水), 但同时人又对单摆的摆动有需要, 比如观看, 定时等.
但科学是严谨的, 要把这些主观感觉去除, 按同样的物理定义和定理, 去理解
有人帮我设计了这个模型:
把清水和称砣装在绝热容器里,初始时称砣用细绳悬吊。之后细绳老化自然断掉, 称砣沉底,重力做功,温度上升,系统熵增。
无论如何, 只要是封闭(包括把保守力外势场算上)且绝热的系统, 内部的熵规律都一样:熵增.
在这一点上看, 秤砣落下, 与单摆停摆, 或泥沙在水中沉淀, 并无二致.
泥水澄清的过程,用更通俗的语言来表达,就是:‘当把泥水混合物看做孤立体系,泥水澄清的过程表面看上去熵降低了,但实际上系统的熵是增加的。’
需要强调的是,我们‘看到的’熵的变化,其实不是系统熵变的全部。我们看到的熵的降低,其实是混合熵的减小。注意,混合熵仅仅是这个体系中总熵的一部分,其他部分涉及到振动熵,位形熵,电子熵等等。但澄清过程与电子熵无关。
泥水澄清的过程中存在着能量的转换,势能转换为热能,尽管总能量保持恒定不变。势能变成热能导致体系温度上升,这时系统的振动熵与位形熵也随之增加。当假设体系的热容不变,这部分熵增量很容易计算。
总之,体系总熵,是多种熵变西格玛(加和)的结果。