Home
Tools
Source
Home
Tools
Source
Docs
阅读、笔记、写作
绘图、数据可视化
深度学习
终端管理
公开数据集
文献清单
会议/期刊列表
AI工具
其他工具
热知识
公开数据集
综合数据集
AMiner
:包含涉及社交网络、学术网络、知识图谱、流行病等众多领域的数据集。
awesome-twitter-data
:Twitter 相关的数据集列表。
OpenDataLab
:主要针对大模型的开放数据集,中国大模型语料数据联盟开源数据服务指定平台。目前涉及的领域有NLP、图、CV、、多模态、时间序列、生物医学、物理等,种类比较丰富。
按数据类别、研究方向
图
Open Academic Graph (OAG)
:微软提供的包含微软学术网络和 AMiner 中学术网络的学术网络图。
SNAP
:斯坦福大型网络数据集集合。
自然语言
the open parallel corpus
:一个网络翻译文本集合,包含的语言种类和领域都非常多。
Statistical Machine Translation
:国际机器翻译大赛,每年都会放出很多较为权威的数据集,使用广泛,认可度高。但局限是内容几乎都是新闻领域,语系较多是印欧系语言。
智慧城市
LargeST
:交通预测大规模数据集,github仓库中还实现了一众baseline。无论是作为领域入门还是用于方法评估都很不错。