| 名称: | 搜狐新闻数据(SogouCS) |
|---|---|
| 版本: | 2008 |
| 介绍: | 来自搜狐新闻08年1月-6月期间奥运、体育、IT、国内、国际等18个频道,提供URL和正文信息 |
| 格式说明: | 数据格式: <doc> <url>页面URL</url> <docno>页面ID</docno> <contenttitle>页面标题</Contenttitle> <content>页面内容</content> </doc> 注意:content字段去除了HTML标签,保存的是新闻正文文本 |
| 相关任务: | 文本分类 事件检测跟踪 新词发现 命名实体识别 自动摘要 |
| 相关资源: | 全网新闻数据 互联网语料库 Reuters-21578 20 Newsgroups Web KB |
| 成果列表: | 1、Automatic Online News Issue Construction in Web Environment Canhui Wang, Min Zhang, Shaoping ma, Liyun Ru, the 17th International World Wide Web Conference (WWW08), Beijing, April, 2008. |
| 下载: | 下载前请仔细阅读“SogouLab 数据使用许可证” Please read the "License for Use of Sogou Lab Data" carefully before downloading. 类别标记说明(URL到类别的映射关系,4KB):txt格式 迷你版(样例数据, 1KB):tar.gz格式,zip格式 精简版(一个月数据, 347MB):tar.gz格式,zip格式 完整版(同时提供硬盘拷贝, 1.7GB):tar.gz格式,zip格式 特别版(王灿辉WWW08论文数据, 647KB):tar.gz格式,zip格式 |
| 反馈: | 在搜狗实验室论坛与搜狗核心研发团队分享您的研究成果。 在实验室博客搜狗核心研发团队的官方博客,一起记录实验室成长的点点滴滴。 在线上反馈留下您的宝贵意见和建议。 在资源下载FAQ中查找您遇到的资源下载问题的答案 |