科学和数据在许多方面交织在一起。科学方法为数据驱动分析、软件开发和数据科学提供了很好的整体方法和实践。现在,数据科学和软件为科学研究提供了一些工具。
“要成功地成为一个数据驱动的组织,你的员工应该始终使用数据来开始、继续或结束每一个业务决策,无论是重大的还是次要的。”,Qubole的创始人,也是早在2007年就在Facebook上建立了数据驱动文化的人之一。
很明显,数据驱动的文化,甚至像敏捷这样的软件实践,都是关于迭代开发的,是如何从科学中借鉴的。现在,一个以科研和出版为中心的新兴解决方案生态系统可能即将偿还贷款。
科学和数据之间的相互作用是长期存在的。现在是时候让数据偿还科学的债务了。(照片作者安妮·斯普拉特https://unsplash.com/s/photos/research-paper?utm\u source=unsplash&;utm\u medium=referror&;utm\u content=creditCopyText“rel=”noopener noreferrer nofollow“target=”\u blank“data component=”externalLink“>Unsplash)
传统上,科学研究依赖同行评审。同行评审和出版过程可能需要几个月到几年的时间才能完成。此外,许多科学出版商的商业模式并不能让所有人都能获得研究成果。
为了让尽可能多的人能尽快获得研究成果,许多研究人员选择在印前资料库上发表他们的研究成果,如再现性
再现性是https://en.wikipedia.org/wiki/Scientific\u method“target=”\u blank“rel=”noopener noreferrer“data component=“externalLink”>科学方法。这意味着https://en.wikipedia.org/wiki/experience“target=”\u blank“rel=”noopener noreferrer“data component=”externalLink“>实验或观察研究应当不同的研究者用相同的方法重复这项研究时,再次达到高度一致。
根据a在上广泛报道,并将再现性置于首位。
带有代码的论文由Robert Stojnic和Ross Taylor于2018年创建。斯多伊尼克和泰勒https://medium.com/paperswithcode/papers-with-code-is-joining-facebook-ai-90b51055f694“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>于2019年加入Facebook AI。从那时起,团队不断壮大,他们https://medium.com/paperswithcode/papers-with-code-partners-with-arxiv-ecc362883167“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>与Arxiv合作,和在路线图中
就可重复性研究而言,我们还应该提到https://elifesciences.org/labs/dc5acbde/welcome-to-a-new-era-of-repeatable-publishing“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>由eLife开发的开源技术,允许作者发布可执行的研究文章,将实时代码和数据视为一流公民。好消息还不止于此。
连接纸张是新兴的研究生态系统
任何领域研究的另一个重要推动力来自于发现和探索相关工作的能力。例如,我们已经看到https://www.zdnet.com/article/graph-analytics-and-knowledge-graphs-facilite-scientific-research-for-covid-19/“target=”\u blank“>知识图表已经被用来精确地进行COVID-19相关研究
互联论文是一个免费的可视化工具,帮助研究人员和应用科学家在任何领域找到并探索与其工作领域相关的论文。它通过分析大约50000篇论文,并从中选出与原始论文联系最紧密的几十篇,为其存储库中的每一篇论文创建一个图表。
2月3日,Connected Papers还宣布与Arxiv建立合作关系。现在,Arxiv上的每一个页面都会链接到一个相连的页面图。有趣的是,连接的论文根据它们的相似性排列论文。这意味着,即使是不直接引用彼此的论文,也可能有很强的联系和非常紧密的定位https://covidgraph.org/“target=”\u blank“rel=”noopener noreferrer nofollow“data component=”externalLink“>COVID图和开放研究知识图(ORKG)团队关注COVID-19,并分别强调注释和结构。连载论文似乎扩大了覆盖范围,并强调算法的相似性。
开放存取、可发现性、可再现性、代码、数据集和知识图。显然,这对于研究和机器学习研究来说都是好消息。似乎正在朝着一个更健康、更有成效的研究生态系统迈出一步。
考虑到这些举措中有多少已经连接起来,或者可以很容易地连接起来,这一点尤其正确。然而,我们也看到了一个重要的问题,那就是可持续性。让我们简要回顾一下。
Arxiv在很多方面是这个生态系统中的一个重要枢纽,它是一个由康奈尔大学工作人员支持的志愿者社区。带有代码的文件现在是Facebook人工智能的一部分,使用离开源开发者面临的困境不远了。当然,存在着显著的差异——例如,我们预计短期内不会有研究生态系统中的任何人获得风险资本资助。然而,我们确实希望看到他们长寿和繁荣。
pinecone,一个用于机器学习的无服务器向量数据库,离开隐形与1000万美元的资金
2021 technology trend review part one:blockchain,cloud,open source