语料收集

文章目录
  1. 1. CoNLL-2012
  2. 2. 景略集智收集的多个中文语料
  3. 3. 中文缩写词库
    1. 3.0.1. 中文自然语言处理领域发展贡献语料
  • 4. 有人收罗了40个中文NLP词库,放到了GitHub上
  • 5. 腾讯AI Lab开源800万中文词的NLP数据集
  • 6. 豆瓣读书评论(网络语言比较多, 比较新潮)
  • 7. Chiphell回帖(网络语言比较多, 比较新潮)
  • 8. 参考资料
  • .

    CoNLL-2012

    http://conll.cemantix.org/2012/introduction.html

    景略集智收集的多个中文语料

    https://www.zhihu.com/question/22956189/answer/411522145

    中文缩写词库

    https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/test_set.txt

    中文自然语言处理领域发展贡献语料

    https://github.com/brightmart/nlp_chinese_corpus

    有人收罗了40个中文NLP词库,放到了GitHub上

    https://github.com/fighting41love/funNLP

    腾讯AI Lab开源800万中文词的NLP数据集

    https://ai.tencent.com/ailab/nlp/embedding.html

    豆瓣读书评论(网络语言比较多, 比较新潮)

    https://github.com/JaniceZhao/Douban-Dushu-Dataset.git

    Chiphell回帖(网络语言比较多, 比较新潮)

    https://github.com/JaniceZhao/Chinese-Forum-Corpus.git

    参考资料