周三,绿党创意集体的一个成员头部血流成河。他们对整个科技公司和媒体公司的解决方案?一个公有和独立的搜索引擎。
A来自绿党媒体和通讯发言人、参议员莎拉•汉森•杨(Sarah Hanson Young)的声明政府调查建立一个公有搜索引擎。让我们省去大家的很多麻烦吧。以下是建立一个非盈利的澳大利亚搜索引擎将需要什么。
搜索引擎的核心就是https://en.wikipedia.org/wiki/Key%E2%80%93value\u数据库“target=”\u blank“rel=”noopener noreferrer“data component=”externalLink“>键值数据库查找。关键是你的搜索词集。它返回的值是包含这些搜索词的网页的url。
这些结果的排序顺序是。。。好。。。好的,这是一个非常复杂的排名函数。它考虑了一些可感知的相关性和质量评级,并为不同的搜索词返回不同的排序顺序。
使用先进的搜索引擎,它甚至会考虑到您的位置、您感兴趣的知识、其他人一直在搜索的内容等等。
您必须考虑同义词,在同义词中搜索“truck”的人可能还希望得到带有“lorry”的结果。
您还必须考虑上下文。是寻找关于鸟的“红衣主教”,还是一支运动队,或天主教会的高级神职人员,或指南针方向,或数学概念,或奥托·普雷明格1963年执导的电影,或2017-2020年的电视连续剧,或悉尼斯坦莫尔的钟表零售商?
还是1992年由音乐家理查德·戴维斯和埃里克·马修斯创立的美国独立流行组合?所以它“只是”一个数据库查找,但是非常非常复杂。
抛开这种复杂性,以及谷歌在理解这一点上领先22年的事实,让我们看看工程。
收集数据库的所有数据非常简单:使用网络爬虫下载整个internet。或者至少是在万维网上可以看到的信息。然后索引它。
然后在每个网站发生更改时重新执行此操作,对于新闻网站来说,这是非常频繁的。
这需要多少存储空间?很多。我们甚至可以估计。
事实证明,有一点集合论告诉我们,键值映射的存储要求等同于同一数据集的键值映射的存储要求。(期末考试中不会有这方面的问题。)
我们已经有了一个反向搜索引擎,它相当于这个值-键映射,一个从URL开始并返回我们可能在网页上搜索的内容的引擎,这就是网页上的所有内容。它被称为万维网。
因此,您不仅需要下载整个web以供参考,还需要为索引提供相同数量的存储空间。
是的,您对搜索引擎索引的存储需求大约为1.0万维网(World Wide Webs)。那是相当大的存储空间。现在在谷歌上搜索“cardinal”大约271000000个结果(0.83秒),“它刚才对我说。太快了。事实上,它是如此之快,不可能有任何磁盘访问涉及。
是的,您需要将索引数据的1.0万维网保存在RAM中。
实际上,您需要在RAM中保留多个副本以应对故障。那是相当大的内存。
当然,你可以通过索引网站的一部分来减少这一点,但是谁来做编辑决定呢?谁会用它呢?
这些索引副本需要分散在不同的地理位置以实现冗余,这意味着您需要一个足够快的广域网,以便在整个万维网的副本之间进行复制。那是相当多的网络。
加起来,那是相当昂贵的。
显然,会有办法对此进行优化,但也需要有足够的基础设施来应对用户数量。至少这让我们大致了解了所需基础设施的规模。
这让我们回到参议员汉森·杨的谦虚提议。
“这意味着澳大利亚人可以放心地搜索互联网,因为他们的数据不会被卖给广告商和公司。”
换句话说,汉森·杨提议,我们用政府的资金来建立所有这些,因此政府项目管理。
即使它被外包给了一个私营部门的供应商,它仍然是政府提供,你知道,治理。鉴于澳大利亚政府过去的表现,我们认为澳大利亚政府会处理得如何?还记得NBN吗?最后一点与绿党的世界观有关:你认为这一切会消耗多少能量?
也许现任澳大利亚政府最终会建立一个燃煤搜索引擎。
对我来说,这一切中最令人沮丧的一点是,这样一个离奇的想法让它一路走到新闻发布会上,似乎没有任何人掌握任何线索。
这是一个政党的官方媒体和通讯发言人公开呼吁进行调查在与几乎所有了解搜索引擎实际工作原理的人的一次简短的咖啡会上,我突然想到了一个可能被否决的想法。令人失望。不管怎样,参议员,我们已经避免了政府不得不进行昂贵的调查程序。我应该把发票寄到哪里?Stillgherrian要感谢参与讨论的与会者,他们必须匿名。