本篇文章5689字,读完约14分钟

长期以来,历史学家弥足珍贵的以前流传下来的史料形态,如日记、信件、回忆录等,都被“数字化”的名头清除了。 大约十年前,我用以前流传下来的构想和做法研究奥古斯丁的信,提出了“信空间”的概念,后面展望了个人的“信空间”。 简单来说,“信空间”是由信组成的具有独特特色的人际网络系统,其中参与的人受到关联、交流、影响。 通过对“信空间”的描述和研究,我们可以了解人群的交往行为 今天,我没想到面对没有“信”就能构筑的不自然 ——我们现在正在用邮件! 据说中国的第一封电子邮件是1980年代末从北京发送的,其中“越过长城,走向世界”的话令人叹息。 之后,电子邮件的便利使我们变得懒惰、贪婪,拿出笔一个字也不想写,一刻也不想等平信。 有一天,我在整理电脑文件时,我突然在秘密文件夹里找到了一个旧文件。 其中包括许多年前为了处理电子邮件容量问题而必须删除的旧信。 由于对历史学家的职业很敏感,我事先下载了一些电子邮件。 我现在点击鼠标看了。 我竟然读了2002年的电子邮件。 我脑子里闪过一个主意。 这些邮件是有意义的新形态的史料,能勾画出我过去十年多的生活轨迹,构建我个人的“书信空间”吗? 在这个灵感的推动下,我开始了实验 我作为历史学家试图解决“天生数字化”的资料 这个过程很新颖,有以前流传到历史研究中的共性问题和答案,也有意想不到的情况和做法 也许,我的实验可能会成为今后5-10年历史学家的工作常态。 整理数据多年前归档邮件时,我过去没有研究它们,也没有考虑风格问题,所以现在必须面对如何将它们结构化的问题。 这项工作首先由南京大学软件工程学院的郭建朋写代码,分析结构混乱的电子邮件数据,整理包含收件人、发件人、主题、复制、时间等的字段,放入excel表格,后续解决 但是,这种状态的数据还不能直接用于分解 电子邮件的存档跨度为十几年,主要以新浪邮箱为载体,但邮件结构不百分之百统一,发件人的邮箱体系与新浪邮箱不兼容,发件人的名字和电子邮箱脱节,乱码,乱码。 要进一步清洗数据,首先删除重复消息,修改错误的邮箱地址(有些错误是发件人输入地址时错误的),使人与不同的邮箱地址一致(一个身体没有两三个邮箱也可以打招呼。 最典型的案例之一是,去年8月,雅虎邮箱停止服务,很多人更改了邮箱地址,增加了消歧义的工作量。 我写了python代码帮助提高了工作效率,但还得手工完成,花了很多精力 所以,最终出现在我面前的资料不是完美的数据库 但是,没有人看过完美的史料。 重要的是能否从那里引起有价值的话题。 这些电子邮件资料显然有固有的缺点。 那些不是我所有电子邮件的全部(我是删除了那些电子邮件)。 我想只有ai知道)。 另外,不是我所有通信活动的全部。 过去十几年,手机邮件曾经是交流的主导,但所有的邮件都无法考证。 三四年前,微信又开始取代邮件,成为通信的第一方法 很多人没有意识到微信可能会成为未来历史学家研究者的重要资料。 但是微信可以下载归档吗? 下面的分解只是基于不完整的电子邮件数据库,所有邮件共计10076封,时间跨度为2002-年,给我创造了和奥古斯丁没有太大区别的“信件空间”。 活跃在这封信空间的人不知道我要做这个奇怪的研究,没有得到他们的同意,所以我隐瞒了所有敏感的隐私消息。 在文章中,除非必要,否则我用代码表示发件人和收件人,脸看起来很模糊 但是,我想强调他们是有个性的人,在“信空间”里感兴趣! 轮廓分析我首先假装不习惯我自己,在“信空间”中,ta的代码是“chauvin” 这个身体是谁? 应该是在信中直呼“先生”的男性 我有很多“老师”的信,他的职业可能是老师吗? 单纯地评价称呼是不可能的,虽然统计出“老师”的出现频率很高。 现在,“先生”成为比较保险的称呼,与实际身份不一致的可能性很高 但是,统计了邮件的数量和月新闻,发现了邮件的数量按月周期性变化的奇怪现象。 随机截取2003年到2006年的数据,发现每年7、8个月邮件数量会急剧减少,到了9月会急速增加,1月和2月也会减少。 这是典型的自带寒暑假的商业模式 这个模型在十年的数据中依然有效,如下图所示。 这个立场有点奇怪,但似乎可以证明几个问题 对了,我竟然忘了杀戮的奥秘! 因为是电子邮件,查一下发件人的签名不就行了吗? 但这个人很懒,在十多年的通讯中,没有留下固定的签名 虽然后来设置了签名文件,但是不能只评价单位新闻,不能评价角色、身份等重要新闻。 但是应该清楚chauvin和学校多少有关联,他不是在读书,而是在学校工作 数据没有说谎! chauvin的身份大致清楚,所以我们也不用再绕圈子了。 他过去十几年的经验其实很简单,从学校到学校,在国内外不同水平的高中见过不少,基本上在同一个系统中摇摆不定 接下来,我想知道这些电子邮件是否能描绘出人意料或无意识的“自画像”。 首先,chauvin的信空间异常活跃 在整个电子邮件数据库中交换了1万封以上的信,有广播发送的情况下,将广播发送分解为独立的通信条件,结果共计有55168次通信行为。 10年,5万次以上,平均每天有13.7次通信行为,我觉得chauvin的“书信空间”比奥古斯丁热闹多了。 现在剩下的奥古斯丁的信不超过300封,chauvin在身体量上胜过教父 实际上,如果将每个电子邮件地址理解为一个独立的人(除了一个身体有多个邮箱的情况),chauvin的信件空间总共有4500多个独立的人 邓巴数字显示,chauvin能维持的密切关系不超过150人,所以这无疑是虚假繁荣的象征 chauvin的信空间里有这么活跃的个人,多亏了群发邮件,chauvin和多根与竿子无关的人有关 当然,多亏垃圾邮件,一点商业企业必须无节制地进行商业宣传行为,大幅度丰富这封信空间的存在度 但是,不要被这个谎言所迷惑。 我以为chauvin是个忙碌的人。 把他纳入视野进行统计,10年间chauvin一共发送了1890封邮件,收到的邮件是8467封,是前者的4.5倍 理由是chauvin不仅不是特别活跃的人,而且更倾向于被动地接收信息。 在chauvin的信空间里,最勤奋的发件人h发了6567封信。 而且,到2008年ta是谁? 2009年以后,这顶桂冠落在另一个身体g的头上。 ta是谁? 了解这两个个体的背景很有趣,他们与chauvin的经验转换密切相关 他们采用了那些邮箱。 也许能暴露chauvin关于经验转换的秘密吗? 下面是前25名的邮箱地址。 这张图的新闻量太多了。 难怪电子邮件是个人隐私资料,只要做简单的统计,就能更全面地描绘出chauvin的图像 首先,chauvin深深地按下了pku的烙印。 @pku为什么对他这么钟情? chauvin在pku学习了七年,正好涵盖了电子邮件数据库的大部分时间。 那为什么上chauvin本科的bnu在这里没有存在感呢? 对不起,我暴露了年龄。 chauvin于2001年本科毕业,在数据库覆盖之年之前更重要的是,chauvin从2002年以来开始频繁采用电子邮件作为通信手段 还记得前面提到的“送信王”h吗? 是的。 h是负责pku学生工作的老师,ta勤奋地向历史系的学生传达信息,询问寒冷和温暖,成为chauvin在pku学习的最好见证。 h总是给不同年级的历史系研究生发邮件,chauvin在pku有足够的时间,所以ta成了无耻的“群发之王” 哪个pku的历史系校友注意到我们在某个时间节点上共存的事情同在一个“信空间”? 后面的163邮箱似乎是最常见的公共邮箱,所以什么也证明不了 163个后缀笼统,但@前新闻意义重大,夺走h“发送王”桂冠的g是采用的163邮箱。 联系第三位的nju,算上g的数量,nju就成为第二位,和pku不能比。 这正好暗示了chauvin从2009年开始进入nju的时间轴 人生经验的转换,竟然被邮件的后缀识破了 不仅仅是那个 我看到了cmbchina、dangdang、jd、ctrip等商业企业的扩展名 很明显,chauvin采用招商银行的信用卡,经常在网上买书,在京东购买电子产品,用出差用手机订票。 gmx.de和hss.de的存在显示了chauvin学习经验的另一个方面 熟悉德国的同学知道gmx.de在德国和中国一样,是占有率极高的邮箱服务平台。 hss.de是德国著名的汽水基金会( hanns seidel stiftung )的网站 chauvin曾经在这个基金会的资助下去德国学习过 chauvin回国后,基金会在中国的同学会上组织活动。 难怪你上了排行榜。 chauvin和德国的联系也体现在tongji.edu的后缀中,那里的“同济大学德国学术中心”暴露了chauvin关心德国问题的事实 另外,alerts.stanford.edu的邮箱是学报推送平台,chauvin通过订阅它们,努力保持当时的学霸形象。 我们还看到了一个叫雅虎和chinaren的悲伤邮箱后缀。 我知道雅虎邮箱在年停止服务,雅虎邮箱在chauvin的信空间里后退,另一个邮箱正在崛起。 QQ 如果将邮箱地址设为时间轴的推移,则qq邮箱的增量变得明显 chauvin作为大学老师,很多学生用qq邮箱联系他 腾讯企业在qq上拉了很多稳定的客户 什么是chinaren? 再暴露一次年龄的分解时刻 现在的孩子们知道微信,qq。 稍微年长一点的人哀叹“全员网络”的衰退,但我想“全员网络”之前的“校内网络”很少有人知道。 比“校内网”早的是chinaren校友录。 毕业生网络在当时的爆炸程度不亚于现在的微信,是连接chauvin高中、大学同学的纽带 关于chauvin,我们从电子邮件数据库中知道了比较丰富的消息。 我知道chauvin的事。 这些推测都是正确的 最后,让我们全景扫描这个“信空间”,把发件人和收件人的行为理解为最基本的社会关系,看看能否用gephi描绘出感兴趣的社会互联网模式 经历了各种模糊处理后,我们将chauvin的所有邮件转换为9661条边缘文件和包含4536个节点的节点文件。 i5放在第三代酷睿的旧电脑里跑了30分钟,以forcheatlas2的布局,描绘了真正意义上的“信空间” 因为担心节点太多,密集恐怖症的人会看到不舒服,所以稍微解决了背景,根据算法进行了社区的解体 chauvin的社交圈就是这样暴露的 在这个“信空间”中,chauvin是无可争议的中心,但非常直观地看到了不同的社团的存在 chauvin在pku学习期间,也可以细分历史系硕博同学的“同学圈”、参加德语角活动的“德语圈”、参加户外活动的“娱乐圈”、获得巴登州奖学金的“校友圈”等各种类型。 特别注意左下角的浅墨绿。 这是chauvin在pku读研究生期间进入《北京大学研究生学志》部的学习经验记录。 nju期间的情况又多又杂,但有历史学院的同事、世界史的同事、南京大学的同事、汽水基金会在上海和北京的毕业生圈等不同。 通过远程阅览的方法扫描chauvin的信件空间,可以得到全貌的认识,但由于有很多噪音,实际上看不到太多细节。 例如,chauvin和谁交流最频繁? 谁给chauvin写了最多的邮件,chauvin给谁发了最多的邮件? 通过算法对联系频率低的节点进行过滤,通过表现边缘的权重,得到了另一个交际图 如上图所示,chauvin的大部分通信关系最初是在同学和同事之间展开的 和往常一样,chauvin作为信空间的中心节点,入度和出度极不均衡 孜孜不倦地给chauvin写邮件的是招商银行和当时的网络,粗深蓝色的线表示没有得到chauvin的回应。 chauvin给wh2和wh12的同事写了最多的信,但总体来说收到的信比邮寄的多。 唯一的例外是他和r的相互作用异常频繁 回到真正的交往活动,这个特征有痕迹 r是在南京大学的德国同事,在进入南京大学之前、中、之后面临各种问题,为了帮助r顺利度过适应期,他们用电子邮件表达了很多信息。 另外,在gephi使互联网可视化的接口中,当鼠标对准某个节点时,会自动测量出有直接联系的不同节点。 通过这个算法,我们可以看到不同节点的关系 在尝试中,我突然发现了以下关联 在chauvin的很多联系方式中,只有pku12与学杂志部grsxz有关联 pku12是chauvin硕士班的同学,比chauvin先参加学部,然后推荐chauvin参加。 我想这个尘封的往事也是通过sna的解析,重新被挖掘出来的。 在进入邮件内部之前,我们围着邮件数据库转,但邮件副本的分析还没有开始 关于这一节,我们先卖关子吧。 我想知道接下来的事情,请听一下分解。 简短总结的信件和日记等个人化的复印件是历史学家一直重视的史料,但不一定客观 奥古斯丁早在一千多年前就知道记录下来的复印件一定会成为教会的证明书,所以故意留下自己的信件复印件,给了我们窥视这个不可思议的精神世界的机会。 但是奥古斯丁的行为太积极了,也有理由怀疑他写信时会隐瞒自己的真实想法 在这方面,电子邮件反而体现了客观价值 电子邮件不如以前发来的信长,但收件人和发件人现在都没有意识到这些复印件将来可能会提供给研究,也许可以更准确地表达录用者的心情。 然后,发送来的邮件就像洒出来的水,只要还在服务器上就不能取消,也不能删除和编辑,成为了真正远离作者的独立存在。 他们能发挥什么样的作用,取决于网民的自由。 上述分解是游戏的作品,不是严密的学术研究 但是在不久的将来,如何解决电子邮件可能会成为历史学家的必要技能 正如学者所说,掌握古董硬盘的修复技术可能是未来历史学家的必杀技术 当然,随着ai技术的成熟,这种“天生数字化”资料的分解可能是小菜一碟 但是现在ai还在路上。 我们在这里构筑历史学家的“信息空间”,可以说是技术的路演吧。 (本文的写作,感谢南京大学软件学院刘嘉、郭建朋的技术支持! (本文来自澎湃信息,越来越多的原始信息请下载《澎湃信息》app )

标题:热门:历史学家的新技艺:怎么解决成为史料的电子邮件

地址:http://www.3mta.com/xlxw/21266.html