Feeds:
文章
评论

虽然知道一个公式吓走一半读者,但是这篇文章讲的就是贝叶斯统计,必然就要涉及到一些公式。为了让那些被吓走的读者在点击关闭键以前不会发出‘尼玛手贱’之感,先来轻松一下吧。

世界上有三种天文学家,一种会计数,还有一种不会。

数量级对了没?对了就没问题了,天文学上来说。

一部《红楼梦》,经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排满,流言家看见宫闱秘事,天文学家看见线性相关。

一个天文学家,一个物理学家和一个数学家坐在苏格兰的火车上,看到车窗外有一只黑色的羊,天文学家马上惊呼,啊我知道了,苏格兰的羊都是黑色的!物理学家沉思了一会,反驳说,不,正确的说法是,苏格兰的羊起码有一只是黑色的。这时数学家幽幽地说了句,你们啊too simple,正确的说法应该是,苏格兰的羊起码有一只其中有一面是黑色的。

……

为什么天文学家满足于简单的线性相关?多加几个参数完全可以把数据拟合的更棒,误差更小,为什么不这么做呢?面对这样的问题,你是否有一种‘被噎死’的感觉?

好了,亲爱的一半的读者,你们可以 ctrl+w了。

首先,定义p(A)A事件发生的概率,p(B|A)是指在A事件发生的前提下B事件发生的概率,再定义p(A,B)A,B两事件同时发生的概率。那么我们不难得到p(A,B)=p(A)*p(B|A)。由于AB的等价性,我们也可以写出p(A,B)=p(B)*p(A|B)。现在把两个公式一起写出来,我们就可以得到p(B|A)=\frac{p(A|B)p(B)}{p(A)}这个公式看起来相当简单,记得大三时上天文数据处理的课程,在第一章的最后给出了这么一个看起来完全没有必要证明的公式,老师反复念叨这个式子在统计学里有非常重要的意义,叫贝叶斯定理,我却不以为然,这个式子太简单了,何堪大用?

之后,在图书馆闲逛,在统计学那部分看到有几本书,厚厚的几本,赫然写着贝叶斯。当时还在上天文数据处理,于是不由在回忆一遍贝叶斯公式以后心生嘀咕,这么简单的公式,要写成这么厚的几本书,写书的人该有多蛋疼?

再之后,读过不少杂七杂八的文章[1],了解到在计算机方面,贝叶斯有着及其重要的应用,比如我打这篇文章,电脑会给我自动修正拼音中的错误,就完全是贝叶斯的功劳,甚至据说人类大脑的工作机理都是贝叶斯的(特别声明,这篇文章的所有文字错误都是我的错,和贝叶斯没有关系)。

也许,贝叶斯确实很牛,确实很重要,不过和我一个学天文的有关系么?

答案是,有。把上面的那个式子中的B换成\theta,换个名字叫参数,A换成D,叫做数据,p(\theta|D,I)=\frac{p(D|\theta,I)p(\theta,I)}{p(D,I)},这就是我每天要面对的东西了。我们不妨看看这个式子的物理意义,我有一堆数据,不妨假设是恒星光谱;我还有数据背后的物理模型,不妨假设是黑体辐射。这个模型可以给出是关于某些参数的函数,最简单的参数就是温度。于是贝叶斯公式就告诉我们,当我们有一个光谱,想要知道这颗恒星的温度,我们就可以把这个问题变换成给定温度下,得到我们手里这样的光谱的可能性,乘以“先验概率”再除以“证据”。在只考虑真空中的球形鸡的情况下,先验概率可以看成是均匀分布的函数,而证据是一个与参数无关的归一化系数,于是验后概率p(\theta|D,I)就正比于似然值p(D|\theta,I)

回到天文学家只会线性相关的问题。冯诺依曼曾经说过,“ With four parameters I can fit an elephant, and with five I can make him wiggle his trunk}”[2]。
直觉告诉我们,参数越多的模型越是糟糕,你看,同样是恒星光谱,假设我们手里的数据包含1024个点,我完全可以抛开黑体辐射,使用一个1024阶的多项式拟合:嘿嘿,你看,我的模型里面没有误差哦!我想,正常人都不会相信这样一个需要1024个参数的理论吧,要是你实在觉得这样的一个理论比只包含温度这么一个参数的理论好,这个嘛……来,看看这个大象的鼻子甩的多么漂亮吧。[3]

elephant_in_4_parameters

为什么你会认为黑体辐射优美,而1024理论粗糙呢?哪怕后者给出了0误差?我们不妨用月光宝盒把时间倒回到500年前,话说盘丝大仙刚刚把水帘洞改名成盘丝洞……不对不对,话说哥白尼刚刚提出一个叫做日心说的理论,在这个理论里面,所有的行星、恒星都是以太阳为中心而运动的。为什么我们现在都认为日心说比地心说靠谱?

在地心说统治的时代里,为了解释实际上是由椭圆轨道引起的、行星的轻微不规则运动,引入了为数众多的本轮、均轮和偏心圆。很多人不知道的一个事实是,哥白尼在提出日心说的时候依然不知道椭圆轨道,所以依然使用了不少本轮和均轮,只是在这个理论里面不再有偏心圆了。有人论证《天体运行论》发表时,其使用的本轮、均轮数实际上和同一时代的地心说体系相差无几。所以抛去宗教问题不谈,日心说在最初的时代里相比地心说并没有明显的优势,而只有在开普勒第一次引入椭圆轨道以后,原本需要数百个参数的系统简化成了只需要十余个参数的体系,当然要简单的多,自此日心说才瞬间流行起来。[4]

在可以同样精确解释观测现象的两个理论中,所需要的假设越少的,越靠谱。同样可以预言行星逆行、冲、合等现象,为了符合彼时观测精度的结果,托勒密的地心说需要数百个参数,而在日心说里,每个行星只需要一个椭圆就可以了。评价不同模型的方法有很多,这种偏爱简单模型的评价方法,是最直觉的思考,最符合逻辑,所以也最为人接受,整个现代科学,新理论替代旧理论的过程,全都是遵照着这一逻辑进行的,这种对简洁美的偏执追求,造就了可以解释大千世界的现代科学,而这一逻辑也被称作奥卡姆剃刀:我们总是在削减冗余的参数。线性相关是最简单的相关关系,我们就用线性相关;高斯分布是信息含量最少的分布,我们就假设噪音都是高斯的;真空中所需要考虑的作用最少,三维空间中球对称解只有一个变量,我们就先考虑真空中的球形鸡……

两个模型给出的解释相差无几,越简单越好,这十分直白,简单明了,然而如果一个模型给出了很好的解释,但是使用了更多的参数,应当如何比较?对于这个问题,一直以来,人们是束手无策的,一直到有人注意到贝叶斯定理里面的“证据”其实就代表了模型的复杂程度,要想得到p(D,I),实际上需要做\int_\theta p(D|\theta,I)p(\theta,I) d\theta的积分。参数空间越大,或者参数维度越高,“证据”越大,对应的模型就越不靠谱,两个不同的模型给出的证据的比值称为“贝叶斯系数” Bayes factor,这就是在贝叶斯统计中用来定量判定模型优劣的利器。要注意的是,如果参数空间稍大一些,但是这个模型拟合的结果比别的模型要好的多,那么这个模型的证据依然可以小于别的模型。举例来说,CCD上的星点用一个点去拟合是需要参数最小的,但是由于星点经过有限口径的光学系统之后,随点扩散函数变成了一个圆面,这时用稍微复杂的圆反而能更好的反应星点的性质。正如大神爱因斯坦所说,“everything should be as simple as possible, but not simpler”,贝叶斯就是在定量地实现着这么一个“尽可能简单,但不是越简单越好”的事情。

理论联系实际,我们来看一篇最近的arXiv文章: Is there a violation of the Copernican principle in radio sky?,在这篇文章中,作者拿一个射电星表,观察其在天球上的分布,并且对0-12小时和12-24小时的天区分别计数,得出了一个结论:两个天区的计数有明显差别,按二项式分布,如果是均匀分布而出现这种情况的在99.995\%的几率下被排除了。然而事实真的是如此么?

figure

everything should be as simple as possible, but not simpler,最简单的分布,就是均匀分布,作者在指出他“发现”的异常时,已经引入了新的参数。就好像对于1024个信道的光谱,一个1024阶的多项式拟合总能给出更好的拟合结果,然而这个复杂的模型牺牲了巨大的简洁性。随便在一个天球图上均匀的随机撒点,当数量不够多的时候,你总能把天球等分成两个有明显差别的半球——如果仅基于此就断定随机点的产生并不均匀,那就大错特错了。

在牺牲了简洁性的前提下得到的“更好的拟合结果”是值得三思的。对于这样的一个工作,在作者给出令人信服的贝叶斯系数以前,我是不敢轻易相信的——事实上我会把这样的天文学家归类到不会计数的天文学家里面。没学贝叶斯,碰到这种情况就会被噎死。不知道你现在会计数了么?

参考:
[1]数学之美番外篇:平凡而又神奇的贝叶斯方法
[2]Nature (London) 427(6972), 297 (2004)
[3]American Journal of Physics 78 6, 648
[4]关于本轮均轮的wiki页面
[5]arXiv: 1305.4134

Advertisements

随笔

最近在看一本传记,其中讲到的一则故事让我很有感慨。话说当年(1920年)Milton Hu
mason因为他老板Harlow Shapley让他观测M31,想看看它是否会有旋转或其他的变化。
没想到Milton仔细对比以后发现了M31的底板上似乎有一些时隐时现的小点,他当初推测
这是变星,并且仔细地在玻璃干板的背后标定了这些“变星”的位置。这个Milton很有意思,
14岁开始工作,之后就没有接受过正统教育,完全由于兴趣去威尔逊山天文台当门卫,顺
便当观测助手。凭借着对天文的兴趣和热情,被Sharpley赏识,提拔成了助研,然而其理论
上的‘无知’让Shapley对这个报告很不以为然,耐心地给Milton讲解了M31不可能包含变
星,接着拿过干板把那些标定给抹去了,这使得对宇宙结构的认识被推迟了3年,才被当时
已经是他们同事的Hubble再次独立发现。

这个故事最近几天让我很是感慨,有时候,科学上的‘无知’也许并不是一件坏事,对于
新想法的容忍和开放态度应该是值得提倡的。天文学,常常被我们自嘲只需要关注‘orde
r of magnitude’,很多领域的研究其实还是有非常多的问题的,尤记得前年在arxiv上
看到一篇星系形态学的文章,他们的method就是拿了一堆星系的照片,让20个做星系的教授
去分辨(没心思找原文了,有知道情况的可以补充);前年的两倍太阳质量的中子星,让很多
致密星的理论都得从头考虑,最近的59%核区质量大黑洞的发现,也许也让我们不得不重新思
考M-sigma关系。做科研,大胆假设,小心求证,板凳坐得十年冷,可能确是值得采纳的态度。 

谨以此文与诸君共勉

数学课复习

唉,实在是把很多集合论的东西忘的差不多了,现在才后悔当时没有好好学。

以下来源大多来自wiki,不过后面自己加的注解是自己想的,当然,很有可能是错的

1.豪斯多夫空间:在拓扑学和相关的数学分支中,豪斯多夫空间分离空间T2 空间是其中的点都“由邻域分离”的拓扑空间。在众多可施加在拓扑空间上的分离公理中,“豪斯多夫条件”是最常使用和讨论的。它蕴涵了序列滤子极限的唯一性。直观地讲,这个条件可用个双关语来形容:如果某空间中任两点可用开集合将彼此“豪撕剁分”开来,该空间就是“豪斯多夫”的。

在豪斯多夫空间当中,任意柯西序列至多只有一个极限点

2.柯西序列

在具有度量d度量空間S中,一個序列為柯西序列,若其符合以下條件:

對於任意的實數\epsilon > 0,存在一正整數N,使得每當m , n > N時都有d(a_m, a_n) < \epsilon

3序列的极限

中文的定义实在太糟糕,还是用英文的好了

A point x of the topological space (X, τ) is the limit of the sequence (xn) if, for every neighbourhood U of x, there is an N such that, for every n \geq N, x_n \in U. This coincides with the definition given for metric spaces if (X,d) is a metric space and \tau is the topology generated by d.

如此看来,柯西列要求定义范数,而序列收敛则不需要。幸好这其实不矛盾,看了柯西序列的wiki

柯西列的定义依赖于距离的定义,所以只有在度量空间中柯西列才有意义。在更一般的一致空间中,可以定义更为抽象的柯西滤子柯西网

既然看到了柯西空间,索性讲一下完备性

4.完备空间或者完备度量空间是具有下述性质的空间:空间中的任何柯西序列都收敛在该空间之内。

方便理解,举例如下

  • 有理数空间不是完备的,因为\sqrt{2}的有限位小数表示是一个柯西序列,但是其极限\sqrt{2}不在有理数空间内。
  • 实数空间是完备的
  • 开区间(0,1)不是完备的。序列(1/2, 1/3, 1/4, 1/5, …)是柯西序列但其不收敛到任何(0, 1)中的点。
  • S为任一集合,SNS中的所有序列,定义SN上序列(xn)和(yn)的距离为1/N,其中若x_n \neq y_n的最小索引存在则N为该索引否则N为0。按此方式定义的度量空间是完备的。该空间同胚离散空间S的可数个副本的

最后一条没有看懂,不过索引这个概念我也应该查一下

6.indexed family

family是否在这里类似与搜集?index就是一个函数/映射,by family of elements in X indexed by I , we mean a function  x : I \mapsto X . An indexed family is denoted by  \{ x_i \}_{i \in I} , where it is understood that there is a function x that maps i to  x_i := x(i) \, .这段话我觉得比较帮助理解

In mathematics, an indexed family is a collection of values that are associated with indexes. For example, a family of real numbers, indexed by the integers is a collection of real numbers, where each integer is associated with one of the real numbers.

Formally, an indexed family is the same thing as a function. A function with domain J and codomain X is equivalent to a family of elements of X indexed by elements of J. The only difference is that indexed families are thought of as collections instead of as functions. A value is considered to be an element of a family whenever it is an element of the image of the family’s underlying function.

When a function f : JX is treated as a family, J is called the index set of the family, the functional image f(j) for jJ is denoted xj, and the mapping f is denoted {xj}jJ or simply {xj}.

Next, if the set X is the power set of a set U, then the family {xj}jJ is called a family of sets indexed by J .

索引集/指标集

数学中,集合 A 的元素可以凭借由此而叫做索引集合的集合 J索引(index)或标定(label)。索引由从 JA 的一个满射函数构成,而索引的搜集典型的叫做(索引)集合族,经常写为(AjjJ

7.覆盖

终于来到我的出发点了:

数学中,若 X 是一個集合搜集 C 索引的集合中并集子集,則集合搜集 C集合 X覆盖。用符号来说,如果 C = \lbrace U_\alpha\rbrace_{\alpha \in A}X 的子集索引族,则 C 是如下条件下的覆盖(定义可参见: Gamelin 与 Greene 第19頁或 Kelly 第49頁)

X \subseteq \bigcup_{\alpha \in A}U_{\alpha}

更一般的说,如果 YX 的子集,而 CX 的子集 U_\alpha 的搜集,它的并集包含 Y,则 C 被称为是 Y 的覆盖。也就是 CY 的覆盖如果

\bigcup_{\alpha \in A}U_{\alpha} \supseteq  Y
覆盖通常用在拓扑学的上下文中。如果集合 X拓扑空间,我们称 C开覆盖,如果它的每个成员都是开集(就是说每个 U_\alpha 都包含在 T 中,这里的 TX 上的拓扑)。如果 CX 的覆盖,则 C子覆盖C 的仍覆盖 X 的子集。X 的开覆盖被称为是局部有限的,如果所有 X 的点都有只与这个覆盖的有限多个集合有交集的邻域。用符号来说,C=\{U_\alpha\} 是局部有限的,如果对于任何 x \in X,存在某个 x 的邻域 N\left(x\right) 使得集合

\left\{ \alpha \in A : U_{\alpha} \cap N(x) \neq \emptyset \right\}

是有限的。

8.其实我的最基础的出发点就是对紧致这个概念的不清楚,所以花了这么久看wiki
数学中,如果欧几里得空间 Rn子集闭合的并且是有界的,那么称它是紧致
闭合有界称为紧致,这个当然最直观最好理解,不过更常用的定义是
称一个拓扑空间紧致的,如果它的开覆盖都有有限子覆盖。海涅-博雷尔定理证明了这个定义对欧几里得空间子集等价于“闭合且有界”
开覆盖有有限子覆盖,这个定义好耳熟啊!
等等,开集的定义是什么?
拓扑空间中,开放性概念被选取为基础性的。你可以开始于任意集合X和满足假定有所有“合理”开放性概念的特定性质的X子集族。这种子集族T被叫做X上的“拓扑”,而这个集合族的成员被叫做拓扑空间 (X,T)的开集。注意开集的无限交集不必须是开集。
开集的性质是
  1. 空集是開集(注意空集也是閉集)。
  2. 任意个开集的并集是开集。
  3. 有限个开集的交集是开集。

看起来不是那么难么

那么紧致呢?

翻了一下wiki,没有通俗易懂的解释,去google试试运气,貌似在豆瓣的这个讨论很好
在连续域上(就当成实数域好了),一个有界闭集(就当成有界闭区间)的任意一个开覆盖都有有限子覆盖。简单地说,就是如果能用一批开区间覆盖住有界闭集的 每个点,那么从这批开区间里找到有限个就可以同样地完成任务。道理大概是这样的:本来,一个开区间想覆盖一个点的话,肯定两端都超出一些。如果必需无穷多 个开区间才能完成这个任务,那肯定在某个点的附近,这无穷多个开区间的端点要无穷地接近这个点(而不能达到)才行。但是如果是这样,那这个点本身就没人覆 盖了。如果再搞一个开区间把这个点覆盖住,那因为区间肯定两端都超出这个点,所以正好把刚才那无穷多个区间的“无穷尾巴”截断。
(2,3)可以盖住2.5,当然同时也盖住了2.6或者2.7。有限覆盖定理的意思不是为了拿开区间把闭区间盖住就完事了,如果光想盖住,那一个 (-inf,+inf)就可以结束战斗。这种过分大的区间,肯定能够盖住任何你想到的闭区间。但是如果你想要达到的效果是必须使用无穷多个开区间才能盖住 那个闭区间呢?或者说,你想达到的效果是:精心地调整使用的开区间的位置和大小,使得为了覆盖住这个闭区间,必须使用无穷多个开区间才得以完成。这个任务你能做 得到吗?当然,过大的区间是不能使用的。否则有它一个就够了,还要别的干什么?当然,区间的位置也是需要精心安排的,否则几个区间联合起来就覆盖住了,哪 里有“无穷多个”的必要?
但是,定理中谈到一个开覆盖必有有限子覆盖,即便你尽力去避免,我也总可以在你使用的开区间里挑出有限个,来结束战斗。或者说,对一个有界闭区间来说,想要覆盖住它,是不可能“必须”使用无穷多个开区间的。
正如楼上所说,(2+1/n,3-1/n)并不能覆盖住[2,3]。它能覆盖得了(2,3)就不错了,那两个端点是盖不住的。如果这批区间真的能覆盖得了[2,3],那么我定然能从中拿出来有限个区间,就完成同样的任务。这是有限覆盖定理的意思。其实,你不要直接说让我找到有限个区间来覆盖[2,3]。那我不是怎么找都可以了吗?你应该给我一个使用了无穷多个区间成功地覆盖[2,3]的例子,我肯定能从中找到有限个区间就足以完成同样的工作。你要是觉得这一点有些不让人信服,我们倒是完全有价值去试验一下。
从数学分析来说,连续函数在紧集上能达到最大最小值,有界开集上不行。当然紧的概念真正的价值不在这里。在实数域或者R^n上,紧和有界闭恰好是一样的, 但其实本质上这不是一回事。是因为实数的标准定义里保证了实数的连续性,所以实数被称为紧空间。学一些泛函分析就明白紧空间在什么意义上有用了。
本人学习后的一点感悟:有限开覆盖证明了“覆盖闭区间的无限个开区间中可以选出有限个开区间,来完成覆盖这个闭区间”,无限转化为有限为某些证明带来了方 便:例如因为一个无限数集不一定存在最大最小数,但有限数集一定可以找到最大最小数,可以通过有限开覆盖定理,进行转换对一些问题进行证明。例如,闭区间 连续函数的有界性的证明可以从如下思路入手:存在覆盖闭区间的无限个开区间集==〉由有限开覆盖定理:由有限个开区间可完成此任务==> 由函数连续==>其局部有界,可以得到每个开区间上函数的上/下界==>因为是有限个所以可以 通过MAX( M1,M2,..MN)/ MIN(M1,M2,..MN)找到在整个区间函数的上下界.(此结论对无限数集合不一定成立).
我终于明白了,讨论一个空间是否紧致,就是要看,任取一个开覆盖,(见定义),这个开覆盖有可能是无限的并,比如要覆盖整数集Z(当然,这个无法用开覆盖实现),那么是不可能找出有限的子覆盖的。只要是开覆盖,哪怕构造得再精巧,都有有限个子覆盖,可以覆盖原来的开覆盖!

原文是我昨天有感而发,写了邮件和我女友讨论的。现在看来,可能对部分同学也有一定的适用性,故而发表,愿与读者共勉

其实我为什么要出国呢?以前说喜欢引力波,国内做的人又少,这算是一个原因,不过真的不是什么大不了的原因,我完全可以选择一个别的方向,宇宙学,伽马暴甚至星系都是很不错的方向,留在国内,完全可以做的很好。其实之前非常naive,最大的动力是觉得出国了就牛逼了,科研经历就不一样了,就比别人高一等了,回来找教职更容易,云云。
今天看了一下我们LSC那个800人作者大名单,我这年级的四个博士生,就我没有在那个名单里面,而进那个名单的标准,就是发一篇和我们领域相关的文章,也就是说,只有我到现在还没有拿出一份像样的工作出来。
我又仔细回想了和他们交流的过往,发现他们课下玩的时间比我多,玩得更多更野。一到聊天,都会和我一样抱怨自己工作的时间太短,然而我之前就算在工作时间,也是天天上人人,上贴吧,总之就是不在干正经事。
为什么他们也玩,就比我工作做的多呢?其实可以先试着回答这个问题:为什么国外的科研教育比国内的好呢?我想最重要的原因就是在于,国外的研究生教育更注重个人对科研的把握和 培养,让研究生对科研有自己的理解和体会,然后做出有原创性的工作。正是因为没有约束,所以可以做出非常出色的工作。这样的制度的缺点就是,如同我这样没有自控能力的人,就会在没有监控的条件下放纵,以至于一无所成。自由,对于自制的人,是利剑,对于贪纵的人,是毒药。

It’s never too late to learn.我很感激我的女友,对我如此宽容,如此不离不弃,在我最惰怠的时候给我鼓励,给我帮助。现在,就当我其实是做的三年的博士项目吧,我想,凭借我现在的自制力和工作效率,就算三年时间拿一个不错的博士项目,也并非不可能,更何况我这一年还多多少少学到了不少东西的。

最近一直在想,这些年我是否走了太多弯路,但是我想,这一切都是值得的,毕竟,人生的感悟,尤其是那种自己体味而凝练的感悟,是无法通过别的方法获得的。人活于世,是为了追求自己的追求,是为了生活,为了追求自己的价值。体味,感悟,都是成长的必经的代价。

另外,对于和我之前一样,受困于缺乏自控的朋友(典型表现,无法长时间工作,拖延症,效率低下等等),这本书非常值得推荐,我现在读的是英文版,可读性很高,可能会是我读完的第一本严肃的非专业类英语书了。

其实事实是我先看到这篇博文,而后女友把原文给我找到,我刚看了开头就满脸通红,赧愧万分,书中所写分明就是我的写照。如果你没有时间阅读那本书,读这篇短文也绝对开卷有益。

开始读这本书已经月余,不过真正开始改变效率低下的行为始于半个月以前,这个神奇的转变在于使用了一个叫rescuetime的软件。对于这个软件,有些人颇有微词,说无法忍受其监控和隐私的缺乏,不过我个人认为,相对于隐私,目前我更需要高效。windows平台上的对应软件我不清楚,反正在linux下我试过不少别的软件,看来看去,免费的软件中,也就这个软件最靠谱了。意志力是很多人生中积极因素的源泉,的确,现在我的效率更高,对自己的评价也更为积极正面,每天上网时间更少,而有更多的时间用来阅读。

当然,如果你认为这里的‘意志力’和你想的不一样,不要困惑,书中的willpower是一个科学意义上的名词,所以可能会和传统意义上的别的品质重合,有些你认为不属于意志力的部分,可能恰恰就是意志力的一个侧面。总之,开卷有益,希望你的每一天都能充实,快乐

for file in $(find . -type f -mtime  -2|sort -n|less) ; do mv $file new_folder/;done
使用这个命令可以把一系列符合条件的文件复制到别的地方(在这个例子里面是把两天内修改的文件找出来,)。以前只知道用管道,试着用grep+管道,完全无法实现这个想要的功能,现在算是明白应该怎么办了。
不过,在我的例子里面,我其实只是想把运行程序后产生的相关输出文件转移,所以应该把程序(这个例子里我使用matlab,所以是*.m文件)保留下来。这个目的可以通过以下修改实现
find . -type f \( -mtime -1000 ! -name “*m” \)|less
所以结合起来就是
for file in $(find . -type f  \( -mtime  -2 ! -iname “*m” \)) ; do mv $file new_folder/;done
注意几点:
1. -name 和 -iname的区别在于 -iname 不区分大小写
2.对于输出多个结果的情况下(有很多文件符合要求,必须在 *.m两边加上双引号”)
3.可以注意到,我使用了诸如sort -n和less等命令并用管道连接,其实是我在真正的移动之前先把这个命令run一遍,看看是否找到的文件是我真的所想要的结果,实验多次。最后真正mv 的时候,只要输入for file in $(!!) ; do … ; done 因为!!会自动补全上一次的命令,(同时记住!$是上一个命令的最后一个字符串)。当然,如果输入过程中出现了什么问题,也没关系,只要翻回上次find 的那个命令,再跑一遍,然后再把那个复杂的命令跑一遍就行了。

南大校庆的音乐会事件,里面有空位,外面的人很多,想挤进去,可是组织者不让,双方产生矛盾,外面的学生大声抗议,最后终于进入。兼听则明,组织者的确有问题,不过我想外面的学生并非占领了道德制高点就可以无拘无束。组织者面对情绪激动的人群,会担心他们进入音乐会后影响秩序并非没有道理,即使作为南大的学生,组织者有理由相信这些人的素质,有理由相信他们会尽量克制,而不喧哗,然而他们最后并没有选择信任,因为风险太大,而且就当时的情况来看,学生很激动,在场外都会影响场内,到了场内岂不更乱?其实这是组织者和场外学生的一场博弈,可惜的是这场博弈并没有纳什均衡,所以两者都作出了对各自有利而却不能将利益最大化的结果。如果有一个良好的沟通,双方达成有足够信服力的协议,我放你进入,你们保持安静,这会是最佳解。当然,事情也是这样收尾的,只是中间的沟通成本着实不小,惹的众议纷纷,而校长信箱沦落为校庆展板,也不禁让人心寒。

联想到当前,TG就是音乐会组织者,大部分民众都是场外学生,学生要求入场,就是寻求政治权利。有一些过激言语,比如‘贪官都该杀’,或者’民主以后杀全家‘,这些奇葩不多,但是网络上对TG的反感也确实不小,这时,‘组织者’就会思量,放学生进场以后,他们是否能‘保持安静’?也就是,他们是否秋后算帐?其实大家都知道,民间力量进入政府,如果能平息民愤,引领国家法制化,于国于民都是最好的选择。然而现在就这么僵着,两方面都选择对自己有利的方案,但是其实是两败俱伤的结果。 现在的问题是,既得利益集团使得这个博弈不光不存在纳什均衡,就连协商都无法通向双赢,这个局面是非常糟糕的,我能看到的唯一解是通过强势人物介入,改变博弈中收益的分配,然而首先是当前不存在这样的人物,其次谁能保证这个人会是邓小平而不是毛泽东?

以上还是基于民众意见一致的假设下,现实是民众还有左右之分,眼下俨然一个无解的死结,如何走出这个困境?

Day 252

今天没有去实验室,起来并不晚,看了看足球报道,然后突然想起曾经热播,而当时不感兴趣的足球小将,然后不断骗自己,说稍晚会去实验室,然后骗自己说在家里面telecon,而事实上却听着他们胡吹海侃,自己在一旁玩拼图。老板后天就回来了,下周一要拿出总结报告,还没动笔。所有材料都堆在手边,却不肯翻一下。的确,人总是往抵抗力低的方向走的。

对着我的理想发誓,今后这样的情况不会再出现了。

明天开始早上晨跑。回忆起来,虽然在高中,大一大二时自认为学得很马虎,其实是最认真的时候。而那个时候每天都跑步。今后再也不晚睡,每天都早起跑步。

动笔写报告。