+翻译+文本信息相较于视频、音频或图像的优势

[2024-12-31 周二 15:37]

https://karl-voit.at/2022/01/08/text-vs-video-audio-images/

DeepSeek V3翻译，本人仅润色校对。

我想从过去的一个小插曲开始说起。2012 年，当我即将完成我的博士论文时，我正在寻找在学术界开启职业生涯的机会。因此，我在国际会议上与一些杰出的 PIM （个人信息管理）研究人员交谈，询问他们是否能够加入他们的研究小组做博士后。我特别喜欢的一位研究人员是 Gloria J. Mark。那时，她正在分析多任务设置对效率等方面的影响。

我介绍了自己和我在 tagstore 上的研究——即利用用户生成的标签来支持本地文件系统中任意文件的归档和检索，她解释说她不认为这项研究有任何未来。令我惊讶的是，她认为未来不是基于文本的。她希望将重点转向基于视频的信息，她认为这对人们来说将更加相关。根据她的观点，文本的重要性正在下降，而视频的重要性则日益增加。

这就是为什么我认为我们应该思考视频、音频和图像内容中信息的重要性。

1. 信息锁定

一想到相关信息被锁在带墙花园中，我们未来可能会失去它们，我就感到非常难过。更糟糕的是，这些信息仅以视频、音频或图像的形式存在。

Tiktok、Instagram 和 YouTube （译注：也许我该本地化为抖音、小红书和Bilibili）当前的流行程度令人印象深刻。像 Twitter （译注：也许我该本地化为微博）这样的服务确实在越来越多地模仿它们的功能。另一方面，当我想到我们将因此失去的所有优质内容时，我感到恐惧。

我们为什么会丢失那些信息？

视频、音频和图像文件中的信息更难以整理、消费和分发：

难以分享，除非是链接到可能离线的内容
难以或无法为独立搜索引擎建立索引
因此难以被搜索和检索
没有去中心化存储解决方案
1. 除了像 PeerTube 这样几乎无人问津、几乎不存在的开放解决方案
2. 几乎没有分布式备份的机会
带墙花园并非为永恒而建

2. 黑暗时代变得更加黑暗

「数字黑暗时代」这一术语指的是「由于文件格式、软件或硬件过时，随着技术发展和数据衰减而损坏、稀缺或无法访问，导致数字时代历史信息的缺失。」

在这个数字化的时代，信息被封存在视频、音频和图像文件中，变得愈发难以直接触及。我们甚至无法有效地获取这些信息。试想，几十年后，我们该如何从这些被锁定的视频中提取出今天的记忆呢？

3. 我们为何会陷入这种境地？

我并不觉得这背后有什么阴谋或刻意为之。这更像是一种自然而然的演变。它甚至让那些不识字的人也能在现代社会中找到一席之地，或多或少地参与其中。你可以成为YouTube上的网红，或者Instagram上的明星，哪怕你无法用文字清晰地表达自己的想法。

而且，即便是那些不识字或不会写字的人，也能随时随地通过手机轻松获取这些内容。它无处不在，只要有一台能上网的设备，就能触手可及。

更糟的是，它让人上瘾，却又让我们倍感焦虑。这一切的源头，正是FOMO（害怕错过）。所以，时不时来一次“数字排毒”，对身心都大有裨益。

4. 我不想接受某些潮流

那时候，当格洛丽亚·马克告诉我文字已死，视频才是未来（我有点夸张了），我感到恼火，最初的想法是她一定是错的。

但她说得没错，事实确实如此。

我不愿承认，人们已经发展出了与我心目中那种高效、理想的计算机使用模式截然不同的工作方式。正因如此，我也不想通过研究去验证这一点。别误会，我依然是被格洛丽亚拒绝的那个，而不是相反。;-）

从科学的角度看，我的反应确实有些愚蠢。但如果从效率和个人信息管理（PIM）的角度来看，或许还能理解。也许，我更像是一名教师，而非研究员。我更希望识别、教授并传播如何将计算机作为一种通用工具的最佳实践，而不是仅仅观察人们实际如何使用它。我热衷于帮助人们提升效率，而不是盲目追随那些我认为从长远来看并无益处的潮流。

我似乎不是唯一持这种观点的人。

那么我认为更好的方法是什么呢？

5. 我们需要意识到文本信息的美德

与视频/音频/图像不同，基于文本形式的信息可以：

如有必要，可轻松作为副本共享
轻松地完全索引
可通过多个独立搜索服务轻松搜索
易于以去中心化的方式复制和存储

2020年的数据显示，YouTube每分钟就有500小时的视频内容上传（！）。而这些内容几乎全都只存储在YouTube的服务器上。试想，如果有一天YouTube突然关闭，人类将面临一场堪比亚历山大图书馆毁灭的知识浩劫。这很可能就像我们失去了德鲁伊、巫医、智慧女巫等传承了数百年甚至数千年的知识一样。这不是进步，恰恰相反，这是对进步的一种倒退。

未来的目标必须是去中心化。如果某些内容源自视频、音频或图像，那么所有相关信息都需要以文本形式提取并保存。

目前的技术已经能够在一定程度上实现这一点，但还不够完美。OCR（光学字符识别）和语音转文字有其局限性，输出的结果并不完全可靠，不能盲目依赖。如果想要确保所有相关信息都被准确提取为文本，现阶段仍需投入人力去修正剩余的错误，才能达到令人满意的效果。

我记得我们在那些技术上似乎停滞不前了。多年前，当我深入研究并测试纸质文档的数字化时，我对可用的工具及其最终效果感到失望。我担心像Evernote这样的商业公司，以及NSA这样的机构所做的技术改进，并未真正惠及公众。

或许，我们可以通过向孩子们揭示信息锁定的弊端及其长期影响，来重新唤起他们对文本的兴趣。然而，当我展示那些基于文本的尖端工具（比如命令行、vim、Emacs、LaTeX 等其他软件）时，大多数非技术背景的人往往会立刻产生抵触情绪。仅仅因为这些工具的外观不够“酷”，他们就失去了继续了解的兴趣。

即便是像Orgdown这样相对简单的工具，对普通人来说也显得过于复杂或“书呆子气”。结果，我甚至无法向他们作为普通用户解释这些强大工具的真正优势。这不是进步，恰恰相反，这是对进步的一种背离。

6. 优化文本消费

这条 Reddit 上的评论提出了一个有效的观点：

[…] 对我来说，面对一大段文字时，我的大脑会因不想学习而关闭。所以，虽然我认为基于文本的文档很棒，但最终会有一些用户从根本上不以这种方式学习，而且没有真正的支持手段。

如果你确实在大量文本中遇到问题，那可能有多种原因。

其中一个原因可能是你无法正确阅读。在大多数情况下，这并不是真正的原因。

另一个原因是，信息被转化为文本后，往往并未针对读者的理解进行优化。对于个人笔记或临时记录，这可能无关紧要。然而，对于大多数以他人为受众的文本，作者需要精心打磨。只有这样，信息才能以最佳方式从文字传递到读者的大脑。研究表明，即使在最理想的情况下，文本中只有约85%的信息能被读者吸收。因此，重要内容务必反复强调。

优化阅读体验的关键之一，不仅仅是内容本身，还有排版。我在那篇文章中以LaTeX排版为例，深入探讨了它在这方面的独特作用。

因此，如果我们把文本形式传递信息与视频、音频或图像形式相比，从作者的想法到读者大脑的优化路径，还有许多环节需要打磨。当作者选择以文本形式呈现时，这仅仅是个开始，远非终点。

7. 意识

如果你从这篇文章中学到了一件事，那就是要意识到信息因其格式而产生的锁定效应，这已经是一个很好的开始了。

帮我推广这个概念，否则对其他人来说可能太微妙了。

8. 评论

2022-06-05：Heinz Wittenbrink写了一篇很好的评论，补充了一个重要观点：视频相比文本对环境的影响要大得多

感谢这篇文章！我完全同意……另一个重要方面是视频对能源的消耗有多大。许多作者——其中一位是 Gerry McGovern——已经就此撰文。在线视频是消耗地球资源的因素之一。