问答数据集
- Maluuba News QA 数据集:CNN 新闻文章中的 12 万个问答对。
- 地址:https://datasets.maluuba.com/NewsQA
- Quora 问答对:Quora 发布的第一个数据集,包含重复/语义相似性标签。
- 地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
- CMU Q / A 数据集:手动生成的仿真问/答对,维基百科文章对其难度评分很高。
- 地址:http://www.cs.cmu.edu/~ark/QA-data/
- Maluuba 面向目标的对话:程序性对话数据集,对话旨在完成任务或做出决定。常用于聊天机器人。
- 地址:https://datasets.maluuba.com/Frames
- bAbi:来自 Facebook AI Research(FAIR)的综合阅读理解和问答数据集。
- 地址:https://research.fb.com/projects/babi/
- The Children’s Book Test:Project Gutenberg 提供的儿童图书中提取的(问题+背景、答案)对的基线。用于问答(阅读理解)和仿真查找。
- 地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz
情感数据集
- 多领域情绪分析数据集:较旧的学术数据集。
- 地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
- IMDB:用于二元情感分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。
- 地址:http://ai.stanford.edu/~amaas/data/sentiment/
- Stanford Sentiment Treebank:标准情感数据集,在每个句子解析树的每个节点都有细粒度的情感注释。
- 地址:http://nlp.stanford.edu/sentiment/code.html
推荐和排名系统
- Movielens:来自 Movielens 网站的电影评分数据集,各类大小都有。
- 地址:https://grouplens.org/datasets/movielens/
- Million Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
- 地址:https://www.kaggle.com/c/msdchallenge
- Last.fm:音乐推荐数据集,可访问深层社交网络和其它可用于混合系统的元数据。
- 地址:http://grouplens.org/datasets/hetrec-2011/
- Book-Crossing 数据集:来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。
- 地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/
- Jester:来自 73,421 名用户对 100 个笑话的 410 万个连续评分(分数从-10 至 10)。
- 地址:http://www.ieor.berkeley.edu/~goldberg/jester-data/
- Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
- 地址:http://www.netflixprize.com/
————————我是深度学习图表的分割线————————
网络和图形
- Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
- 地址:http://snap.stanford.edu/data/#amazon
- Friendster 社交网络数据集:在变成游戏网站之前,Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。
- 地址:https://archive.org/details/friendster-dataset-201107
语音数据集
- 2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取。
- 地址:https://catalog.ldc.upenn.edu/LDC2002T43
- LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
- 地址:http://www.openslr.org/12/
- VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
- 地址:http://www.voxforge.org/
- TIMIT:英语语音识别数据集。
- 地址:https://catalog.ldc.upenn.edu/LDC93S1
- CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
- 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
- TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。
- 地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
————————我是深度学习音频的分割线———————— (编辑:焦作站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|