UP | HOME

+翻译+不要在像 Reddit 这样的网络论坛上贡献任何相关内容

[2024-12-31 周二 16:04]

https://karl-voit.at/2020/10/23/avoid-web-forums/

DeepSeek V3翻译,本人仅润色校对。

如果你在Reddit上参与讨论的话题无关紧要,或者只有短期热度,那这篇文章现在对你来说并不适用。

不过,一旦你开始帮别人解决一个有趣的问题,总结自己的经验,或者写一些可能在几年后依然有价值的内容,你就是在创造潜在的高价值信息。我想对所有这类作者说:别依赖那些网页论坛。

2022年,我在Grazer Linuxtage上聊过这个话题,相关视频可以在CCC的页面上找到,YouTube上也有。

2023年底,我有幸在汉堡的CCC(混沌计算机俱乐部)举办的37C3大会做了一场演讲。虽然这场演讲没有被录下来,但内容大部分和之前录制的那个演讲重合。

简单来说:所有封闭、中心化平台上的内容,从长远来看都会消失。与其等到更多大规模数据丢失事件发生后才醒悟,不如现在就开始明智地选择你贡献内容的平台。

如果你想了解更多,接下来的内容值得你花点时间细读:

1. 我在这里说的“网页论坛”指的是什么?

在这篇文章里,我用“网页论坛”这个词泛指那些封闭的、中心化的平台,比如RedditHacker NewsSlashdot、Facebook,或者其他任何需要注册账号才能发评论、发文章的网站。甚至像Lemmy这样的平台也存在类似问题。

这些平台通常不提供内容导出或同步的功能,也没有开放的API让用户选择不同的、开放的界面。它们都是由私人公司拥有和运营的。

需要注意的是,接下来我主要用Reddit举例,这只是因为我对Reddit相对熟悉一些。这并不意味着Reddit比其他封闭的、中心化的网页论坛更糟糕,完全不是这样。

2. 那么,网页论坛到底有什么问题?

问题不止一个。网页论坛在作为高质量内容平台方面存在多个缺陷。我们来看看其中几个。

很高兴你还在读这篇文章,希望你能坚持看完。大多数人只有在平台彻底关闭时,才会意识到自己贡献了大量高价值信息。这让我感到非常遗憾。就像你知道亚历山大图书馆的某栋建筑几年后会被烧毁,而人们依然把许多独一无二的高质量书籍放进去,却不知道这样会毁掉知识。

2.1. 问题一:没有备份,没有分发

正如这篇文章提到的原因和例子,任何中心化的网页服务总有一天会下线。有的早,有的晚。即使是受欢迎的服务也不能保证持续运营,比如谷歌关闭了数百个(部分)非常知名且广泛使用的服务。没有什么能在网上永远存在,但大多数人并没有意识到这一点。机械打字机上的纸比你在Reddit、Facebook等平台上的所有贡献更有可能留存下来。

当你开始意识到这一点时,你可能会想,能做些什么来减少服务关闭或“日落化”(某些营销专家喜欢用的词)时的数据丢失。

比如,你可以备份这些服务的数据。通过将信息存储在多个服务器上,可以降低所有数据同时丢失的风险。

但这需要一些前提条件。例如,你需要在多台服务器上复制服务。要做到这一点,你不仅需要数据,还需要提供访问服务的软件。当不同组织运行镜像服务器时,必须公开共享数据和软件。这可以通过使用开源软件,或者至少是开放的API和一种不依赖保密数据和技术的商业模式来实现。

所有主要的商业服务,如Reddit、Facebook等,都会对非必要的信息严格保密。它们的软件是保密的,不提供开放的API,或者只提供非常受限的API,你无法获取原始数据。所以,你只能被锁定在这些平台中。你可能也听说过“转换成本”这个词,平台所有者会最大化这种成本。

即使是个人博客,尽管它们看似“脆弱”,你也可以使用互联网档案馆的Wayback Machine来备份。例如,我博客的每一页底部都有一个链接指向其存档。这不仅确保在服务器崩溃时你可以浏览我所有文章的最新版本,还能查看随时间变化的旧版本。试试我文章中的一些“存档”链接吧。如果我的文章开头有“更新”部分,你肯定可以通过互联网档案馆找到旧版本。

Wayback Machine不会存档Reddit的帖子,也无法正确备份Facebook页面。在为企业保密的内容存档方面,它无能为力:

为什么我找的网站没有存档?

有些网站可能没有被收录,因为自动爬虫在抓取时并不知道它们的存在。也有可能某些网站没有被存档,因为它们受密码保护、被robots.txt屏蔽,或者以其他方式无法被我们的自动化系统访问。网站所有者也可能要求将其网站排除在Wayback Machine之外。

总结一下:如果没有良好的数据导出支持、服务复制能力和开放标准,你在封闭网页服务中提供的所有内容都会丢失。就像MySpace已经丢失了十二年的内容一样,这只是一个典型的例子。

2.2. 问题二:用户界面专制

如果你从小到大只接触过中心化的网页论坛,你可能无法想象自由选择用户界面的诸多好处。虽然有些人可能觉得这是个小问题,但让我举几个例子,说明这其中的巨大差异。

第一个例子可能只是让人有点烦。像这条帖子一样,你为了个人利益而干扰了别人的界面。这是自私的,也分散了信息获取的注意力。

人们使用这种提醒机器人的原因有很多。首先,他们没有使用一个合适的待办事项管理系统,无法在几天后提醒自己阅读某篇文章。他们将这种无能外部化到了网页论坛及其所有其他用户身上。我正在努力解决这些教育问题。其次,没有办法使用不影响他人界面的功能。

考虑到视觉障碍人士有特殊需求。世界卫生组织估计有2.85亿人存在视觉障碍,其中90%生活在发展中国家。这些数字不容忽视。显然,他们需要不同类型的界面。他们可能需要使用高对比度界面、非常规的界面缩放比例、避免某些颜色组合的界面、文本转语音系统或能够正确提取内容的盲文阅读器

如果一个网页服务——记住,它不提供适当的开放API,也没有实现上述功能——那么所有这些人都无法参与,你也无法从他们的知识和经验中受益。

即使你认为这只是少数人的问题,我也可以举出一些例子,说明每个人都能从选择自己的界面中受益。

有些服务提供的界面在小屏幕或移动设备上根本无法正常使用。在这种情况下,如果没有切换到替代应用或网页的能力,即使你视力完美,也会被拒之门外。

当你使用一个不提供已读文章标记或折叠功能的网页论坛时,你需要完全浏览整个帖子,并在重新访问时重新阅读内容以找到新的帖子。我们的时间不应该浪费在这种无意义的任务上。

替代界面可能会提供基于你个人品味和选择的高级评分功能,让你能够轻松过滤出最相关的文章,完全避免无关文章的干扰。这也被称为“评分”。它可以基于关键词、对长帖子的个人贡献量、联系人管理中的朋友关系等。

有些人更喜欢使用键盘导航,无论是出于个人喜好还是身体限制。如果中心化的网页服务只支持鼠标导航,你就无法使用它。

我可以继续举类似的例子。共同的主题是:如果一个特定的中心化网页论坛没有实现你需要的或喜欢的所有这些功能,你就无法正常使用它。

无论如何,信息应该以文本形式公开,而不仅仅是视频、音频文件或图像。这是优化信息消费并确保其能够被找到的唯一可行方式。

2.3. 问题三:规则垄断与主观审查

当你生活在一个有特定(法律)规则的社会中,相关网页论坛的提供者必须遵守并执行其中一些规则。然而,问题在于,这种审查总是与特定时间和特定文化、社会相关。

例如,在德国和奥地利,成为纳粹分子是违法的。而在美国,热爱自由的人认为,那些崇拜二战中折磨并杀害数百万犹太人的人类恶魔的人,也应该有表达个人“观点”的权利。正如你所见,当我写到纳粹时,我的观点与美国作者的观点有所不同,后者将“言论自由”看得比“成为大屠杀的狂热粉丝”更重要。这是一个非常复杂的话题,无法在全球服务中强制执行。

你不需要引用戈德温法则也能明白这一点。有些国家在某种程度上,儿童色情内容是被法律允许甚至社会接受的。在中欧,我们对裸体的看法相对宽松。相比之下,我们无法接受某些程度的暴力和残忍,就像我在美国生活时看到的一些电视节目那样。

因此,“执行某些规则”和“提供全球服务”之间存在一个固有且无法解决的冲突。这导致了主观审查。当服务提供商以某种方式规范其服务时,总会有一部分人感到不满。虽然这种情况在开放、分布式的服务中也存在,但托管非法内容的本地服务器可以轻易被执法部门关闭,而大型中心化网页服务通常不会对此类请求作出反应,甚至需要法律强制才能配合。我不明白为什么上传一个乳头图片几乎不可能,而儿童色情和其他高度有问题的内容即使被举报后仍能在线数月。

即使是没那么极端的规则和内容,我也遇到过问题。例如,我无法在r/privacy版块发布包含我个人博客链接的内容,尽管我的网站并不盈利。因此,Reddit的读者永远不会与我讨论我的隐私相关作品,尽管我认为我的文章值得一读。

2.4. 问题四:用户账户门槛

对于每一个网页论坛,你都需要注册一个新账户。虽然对于你每天使用的服务来说,这还算可以接受,但当你只是在一个讨论你刚买的新设备的论坛里提个简单问题时,这就显得很繁琐了。

当然,你不能在不同服务之间共享密码。因此,你需要管理越来越多的账户信息。我可能已经注册了上百个网页论坛的账户。

每当我只是想在某个特定论坛提一个问题时,我都会在创建新账户前犹豫不决。我已经在糟糕的注册流程上浪费了太多精力。

情况甚至更糟:当我在一个论坛上偶然看到一个帖子,而我恰好知道如何解决其中提到的问题,但我没有该论坛的账户时,我通常不会花十到十五分钟去注册、学习如何操作界面并贡献答案。这很遗憾,但事实如此。

3. 该怎么办?

既然我已经解释了为什么中心化的网页论坛并不是一个好主意,你可能想知道有哪些替代方案或不同的做法。

上面提到的一些问题是可以解决的,但有些问题无法解决,因为它们是中心化网页平台固有的技术和商业/政治问题。因此,你需要从根本上采用不同的概念来解决大多数问题。

3.1. 改进网页平台

为了解决一些问题,平台可能会开放并同意遵循开放标准,以便添加内容、获取平台内容以及同步到独立的实例。

一个例子是Lemmy,它是一个免费的、去中心化的Reddit替代品。类似于电子邮件,用户可以自由选择任何他们想要的提供商:本地互联网提供商、自己运行服务器、使用像Gmail这样的网页邮件服务等。如果你不喜欢当前的实例,你可以转移到另一个实例,并带走你的数据。

从目前的情况来看,我认为Reddit、Facebook等平台转向开放模式的可能性几乎为零。相反,他们会尽一切可能将用户和数据锁定在自己的平台上。只有在他们的平台上花费更多时间,而不是其他地方,才能赚钱。所以,你是被出售的产品,而不是用户。

不过,好消息是,我们已经有一些存在了几年甚至几十年的替代方案,这是件好事。它们已经达到了大多数现代平台在崩溃前无法达到的成熟度。因此,让我们在接下来的部分中看看其中的一些。

3.2. 替代方案:NNTP

在寻找替代方案时,好消息是我们已经有很多选择。

与网页平台不同,电子邮件作为一种开放和去中心化的标准,远未消亡,尽管有很多文章声称它已经过时。当然,电子邮件并不能替代网页平台。然而,有一些技术几乎和电子邮件一样古老,它们提供了非常好的论坛服务,直到大公司将论坛内容私有化并锁定在他们的封闭服务中。最著名的例子是Usenet,或称为“新闻组”。这就是为什么我们需要记住,在大型网页平台出现之前,人们曾经在其他地方自由地交换各种主题的帖子。

用于Usenet的开放标准协议称为NNTP,有许多优秀的客户端支持NNTP,Thunderbird是最著名的之一。对于任何特殊需求(还记得上面提到的残障人士!),你可以找到基于文本的Usenet客户端、移动客户端、专业客户端,甚至基于网页的NNTP客户端。这样,你可以选择一个反映你的软件环境、技术水平、功能需求、简洁性和品味的界面。这样,你可以轻松获得“隐藏已读文章”等简单功能,甚至处理高流量Usenet消费的高级功能。

作为Usenet的用户,你可以从一个或多个不同的服务器获取消息。因此,你可能只需要一个账户就可以访问全球所有主要的新闻组,前提是你的服务器有良好的连接性。

由于NNTP是一个开放标准,任何人都可以“备份”或存档Usenet内容。例如,这个服务器存档了我所在地方(格拉茨科技大学)的Usenet服务器从2001年以来的内容,并提供了一个方便的搜索功能。

2022年4月10日更新:最近,由于缺乏公众兴趣和太多删除请求的麻烦,newsarchive服务器被关闭了。然而,由于服务的开放性,你仍然可以在这里浏览存档

3.3. 替代方案:带订阅功能的个人博客

另一种在互联网上发布文章的方式是个人博客。你正在阅读的这篇文章就托管在我的个人博客上,博客运行在我自己的服务器上。我甚至自己编写了博客软件

不过,你完全不需要这么做。你可以使用现有的众多博客服务之一来创建个人博客。这样,你不需要太多技术知识,只需专注于撰写长短文章并与世界分享。

如果你选择自己搭建博客,请确保以下几点正常运行。页面应该被WaybackMachine收录,以便在服务器出现问题时,你的内容有备份。2016年,他们已经存档了超过4770亿个网页这个页面解释了如何将你的页面添加到存档中,而这个页面则适用于整个网站。如果你有能力,请捐赠一些资金,以支持他们继续提供这项服务。

如果你对技术比较熟悉,一定要阅读《为保存网络内容而设计的宣言:“此页面旨在持久”》。它描述了确保你的内容尽可能长时间可访问的所有必要事项。其实并不难,更多的是避免做一些事情,而不是额外投入精力。

一般来说,你应该确保你的文章被独立搜索引擎索引。这样,人们可以通过查询互联网找到你的想法和观点,而不是“依赖某个单一平台的算法来决定是否展示这些内容”。可以被索引并因此在互联网上找到的页面是自由网络的一部分,而不是暗网

当你在博客上发布精彩文章时,你肯定不希望强迫读者每天重新访问你的页面以查找新文章。这个问题也有一个很棒的解决方案。实际上,有两种标准可以解决这个问题。一种是较老且更广为人知的RSS,另一种更现代的标准称为Atom。用户通过将RSS或Atom订阅源的URL添加到他们的订阅软件(称为新闻聚合器)来订阅。从用户的角度来看,你不需要太关心这些标准,因为所有现代软件都能处理这两种订阅源。如果两种订阅源都提供,建议选择Atom。

通过这种方式,使用网页聚合器服务或本地聚合器软件的用户可以获得个性化的新闻订阅。作为聚合器的用户,你可以重新掌控自己的阅读体验。你甚至可以在完全离线的情况下阅读文章,比如在火车上或飞机上。我实在无法想象一个合格的知识工作者会不使用这个伟大的概念。

运行个人博客的最后一个优势是,你可以保护自己和你读者的隐私。与中心化的网页平台不同,访问日志不会被分析和出售。从分布式的、异构的博客网站自动推导个人资料要比从中心化的封闭平台困难得多。

3.4. 替代方案:混合方法

假设你使用Usenet或个人博客发布文章、问题、观点等。当然,你也可以考虑在中心化的封闭网页论坛上发布内容,并链接到你的原始文章。这样,你可以在这些平台上获得可见性,同时内容仍然被存档,并能通过搜索引擎等工具找到。

不过,某些子版块(如某些subreddit)的规则仍然存在,比如自动删除包含个人博客链接的帖子。虽然我能理解一些规则是为了防止人们自我推广商业网站,但对于不涉及商业利益的个人博客,我无法理解这种做法。因此,正如我上面简要提到的,我无法在隐私相关的subreddit上参与讨论并贡献我的想法

4. 总结

向所有读到这里的人致敬。你可能已经注意到,我非常重视解释中心化网页论坛的负面影响。大多数影响将在几年后才会显现。问题的紧迫性在于,当你意识到这些影响时,已经为时已晚,无法挽救或改变任何事。

因此,有必要了解这些服务将导致的不可避免的数据丢失,以便从现在开始做出明智的决策。通过分发内容并使用可以互连和自由共享内容的开放平台,大多数威胁都能得到解决,同时还能获得选择自己界面等优势。

所以,让我们行动起来,不要再把书搬进那些注定会在几年后被烧毁的图书馆了。

2024年5月23日更新:由于Reddit最近的决策,我最终退出了Reddit。

5. Erik的评论

Erik添加了一条Disqus评论,我想将其包含在这里,以便那些没有在我的网站上启用JavaScript或Disqus的人也能阅读。我还添加了一些链接:

独立网络运动称之为POSSE,即‘发布(在你的)自己的网站,同步到其他地方’。或者反过来:PESOS,即‘发布在其他地方,同步到(你的)自己的网站’。无论哪种方式,你都可以在自己的网站上保留你的内容。”

我之前并不知道独立网络运动,也不知道我建议的方法有一个名字。非常感谢你的分享。我完全支持他们的理念。

几年来,我在Twitter和Mastodon上的互动也遵循了这一原则。我只使用当前的Mastodon账户发布新状态更新,并设置了一个跨平台发布服务到“鸟站”。这样,我既能享受去中心化和自由平台的新鲜社区互动,又能让旧服务继续接收消息,直到我彻底退出Twitter。这是一个临时解决方案,适用于鸡和蛋的问题,如果你的Mastodon实例允许双向跨平台发布,这是一个有效的方法。为此,我迁移到了一个有限制的Mastodon实例。看到这样一个支持账户平滑迁移的优秀去中心化服务,真是令人惊叹。

6. Gustavo的评论

嗨,Karl,
这是一篇非常好的文章。我一直在将自己的网站从Wordpress.com迁移到Org,并在这里找到了很多值得思考的内容。非常感谢!

不客气。

我有一个关于在互联网档案馆/Wayback Machine中存储内容的实际问题。我看到了你提供的链接,除了Archive-It(这是一个付费订阅服务,当然很公平),我没有找到系统化和自动化的方法。你是怎么做到的?我很希望能将其放入脚本中,并让systemd负责调度,但我担心可能需要更多手动操作。
嗯,我很幸运,Archive.org决定定期存档我的网站。我无法影响存档的频率。所以我只是“盲目地”为每篇新文章生成archive.org的URL。如果你点击一篇全新的文章,你会发现archive.org还没有抓取内容并通过他们的服务提供。过一段时间(你可以在我较旧的文章中看到他们的抓取频率),内容就会出现在archive.org上。

到目前为止,这对我来说没问题。最重要的是他们开始抓取我的内容,并且较旧的文章肯定会被抓取。

我定期给他们捐款,但目前没有订阅账户。如果你对Wayback Machine及其存档服务有疑问,请阅读他们的常见问题解答

▲ 编辑于 [2025-01-01 周三 20:56] | © Published by Emacs 31.0.50 (Org mode 9.7.18) on [2025-01-02 周四 15:00] | RSS