网络网站是一个文本语料数据的巨大来源,且数据容易获取,但同时也是垃圾邮件、机器生成内容和不适合语言分析的复制内容的垃圾仓库,并且这些无效内容可能会使网页语料库的 查看全文