Export to GitHub

fudannlp - CollaborativeCollection.wiki


协同制造,众人拾柴火焰高

收集语料的意义

不论基于统计还是基于规则的自然语言处理,标注语料的重要性不言而喻。目前常见的语料通常都是面向新闻领域或特定领域,且价格昂贵。本项目希望能通过协同的方式进行语料收集,并且免费进行共享。

基于众包方式进行语料收集的好处

  • 覆盖面广:基于众包的方式收集的数据都是针对目前主流系统无法解决的例子。避免了传统语料标注方式的数据冗余性高,难以覆盖各种领域的情况。
  • 需求驱动:基于众包的方式收集的数据基本上是有实际需求的,能更加直接有效地提升系统能力。
  • 人人为我,我为人人:自己贡献少量数据,可以获得大量数据。

众包方式的中文分词疑难例子收集

先从分词开始--,希望大家贡献中文分词的疑难例子,并享受协同创作的成果。

数据收集地址:https://docs.google.com/spreadsheet/viewform?formkey=dFV1cDVranhzcWpEempsWGdIS0xLNUE6MQ#gid=0

语料共享地址:只有提交正确数据后才可以获得语料共享地址

众包方式的中文词性、句法例子收集

即将推出