Octopus: A distributed web spider based on AKKA+Scala

网络爬虫是进行科研数据分析、商业数据处理等活动的重要基础工具，本人基于之前的研究成果和实践经验，采用目前较新的Scala+Akka，设计实现一个高性能的分布式网络爬虫。目标如下：

对于普通的使用人员，可以直接快速运行，并获取指定关键词的相关文章，保存到数据库之中。
可以支持定制开发，并且尽可能降低定制的复杂度
爬虫既可以单机运行，也可以分布式运行
保证较低的系统负荷和较高的运行效率
能够支持IP代理功能
能够对指定的目标主机进行限速，避免对特定主机因网络爬虫造成过高的负担
能够集成常规的正文自动抽取（正文抽取算法尚未开源）、关键词抽取、摘要等功能
能够处理Javascript动态生成的链接
能够实现网页截屏功能，把网页保存成图片和PDF格式，方便长期保存（如历史档案馆、网页归档）
能够支持图片的采集和处理

Compile & Run

Install Mysql

CREATE SCHEMA `octopus` DEFAULT CHARACTER SET utf8 COLLATE utf8_bin ;

CREATE TABLE `epaper_article` (
  `id` varchar(254) COLLATE utf8_bin NOT NULL,
  `url` varchar(250) COLLATE utf8_bin NOT NULL,
  `title` varchar(250) COLLATE utf8_bin NOT NULL,
  `subtitle` varchar(250) COLLATE utf8_bin NOT NULL,
  `author` varchar(250) COLLATE utf8_bin NOT NULL,
  `pub_date` varchar(50) COLLATE utf8_bin NOT NULL,
  `media` varchar(50) COLLATE utf8_bin NOT NULL,
  `page` varchar(50) COLLATE utf8_bin NOT NULL,
  `rank` int(11) NOT NULL,
  `text` mediumtext COLLATE utf8_bin NOT NULL,
  `html` mediumtext COLLATE utf8_bin NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

Compile

git clone https://github.com/iamxiatian/octopus_spider.git octopus
cd octopus
sbt stage

Run

cd target/universal/stage
bin/repo --create # 创建数据库表，否则采集结果无法入库，（TODO）
bin/task --inject # (TODO)
bin/spider --master --fetcher

核心对象

FetchItem: 表示一个被抓取的条目，一个FetchItem除了value等基本信息之外，还包含两个重要信息，即所属抓取类型和所属任务，所属类型确定了链接采集后的处理方法，例如，是文章链接，还是导航链接，还是电子报的栏目或者文章；而所属的任务则描述了采集任务的一些参数规定，例如，针对某新闻站点的采集任务，要求每隔10分钟扫描一次首页，二级页面1天搜索一次等要求。

目标

采集数据的存储支持分布式逻辑，先在每个Fetcher内部保存，并通过Akka Stream发送到StoreMasterActor 集中保存。
代理管理：尽量把一个代理发送到一个Fetcher上，并能够自动移除无效代理

更改历史

保存处理，由StoreActor异步保存改为同步保存，以便当保存失败时可以重复抓取
电子报采集的文章增加副标题subTitle
可以编译运行并高效抓取电子报，版本升级到2.0
完成了电子报采集逻辑的处理，并成功加入了一个示例
引入slick处理关系性数据库，采集结果目前暂时存入MySQL，方便观察调试
MyConf中增加了可以增强Config功能的类
增强url transformer的功能，可以根据正则表达式，对源码中获取的链接进行变换，发现搜索引擎列表页面链接中的真实目标地址
加入统一的日志特质Logging，方便统一管理日志

Thanks

项目用到了许多开源模块，为方便编译和调整逻辑，把部分开源软件的代码集成到了本项目之中，并调整了代码的包名称，对此表示谢意。

致谢列表：

...

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
conf		conf
doc		doc
lib		lib
project		project
src/main		src/main
web		web
.gitignore		.gitignore
INSTALL.md		INSTALL.md
LICENSE		LICENSE
README.md		README.md
RELEASE.md		RELEASE.md
build.sbt		build.sbt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Octopus: A distributed web spider based on AKKA+Scala

Compile & Run

Install Mysql

Compile

Run

核心对象

目标

更改历史

Thanks

About

Releases

Packages

Languages

License

iamxiatian/octopus_spider

Folders and files

Latest commit

History

Repository files navigation

Octopus: A distributed web spider based on AKKA+Scala

Compile & Run

Install Mysql

Compile

Run

核心对象

目标

更改历史

Thanks

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages