`
jsczxy2
  • 浏览: 1257777 次
  • 性别: Icon_minigender_1
  • 来自: 常州
文章分类
社区版块
存档分类
最新评论

多线程爬虫Miner [转]

阅读更多

多线程爬虫Miner  

本文转自原作者博客:http://injavawetrust.iteye.com/blog/2293799
需要配置项:
1、URL包含关键字。
2、存储方式:DB-数据库存储;FILE-文件存储。
3、爬取页面最大深度。
4、下载页面线程数。
5、分析页面线程数。
6、存储线程数。
 

-------------------------------------------

程序中用到的表:

Sql代码  收藏代码
  1. CREATE TABLE `miner` (  
  2.   `id` varchar(32) NOT NULL,  
  3.   `batchNo` varchar(8) DEFAULT NULL,  
  4.   `filePath` varchar(255) DEFAULT NULL,  
  5.   `fileName` varchar(255) DEFAULT NULL,  
  6.   `getDate` datetime DEFAULT NULL,  
  7.   PRIMARY KEY (`id`)  
  8. ) ENGINE=InnoDB DEFAULT CHARSET=utf8;  

-------------------------------------------

程序中用到的maven依赖

Xml代码  收藏代码
  1. <dependency>  
  2.     <groupId>org.jsoup</groupId>  
  3.     <artifactId>jsoup</artifactId>  
  4.     <version>1.8.3</version>  
  5. </dependency>  
  6. <dependency>  
  7.     <groupId>mysql</groupId>  
  8.     <artifactId>mysql-connector-java</artifactId>  
  9.     <version>5.1.15</version>  
  10.     <scope>provided</scope>  
  11. </dependency>  
  12. <dependency>  
  13.     <groupId>commons-logging</groupId>  
  14.     <artifactId>commons-logging</artifactId>  
  15.     <version>1.2</version>  
  16. </dependency>  

 

测试类:

Java代码  收藏代码
  1. package com.iteye.injavawetrust.miner;  
  2.   
  3. import java.util.ArrayList;  
  4. import java.util.List;  
  5. /** 
  6.  * 测试类 
  7.  * @author InJavaWeTrust 
  8.  * 
  9.  */  
  10. public class MinerTest {  
  11.     public static void main(String[] args) {  
  12.         MinerConfig config = new MinerConfig();  
  13.         // 1、URL包含关键字。  
  14.         List<String> keys = new ArrayList<String>();  
  15.         keys.add("163");  
  16.         config.setKeys(keys);  
  17.         // 2、存储方式:DB-数据库存储;FILE-文件存储。  
  18.         config.setStoreType(StoreType.DB);  
  19.         // 3、爬取页面最大深度。  
  20.         config.setMaxDepth(2);  
  21.         // 4、下载页面线程数。  
  22.         config.setMinerHtmlThreadNum(5);  
  23.         // 5、分析页面线程数。  
  24.         config.setMiseringThreadNum(3);  
  25.         // 6、存储线程数。  
  26.         config.setMinserStoreThreadNum(3);  
  27.         // 7、设置爬取起始页面URL。  
  28.         MinerUrl minerUrl = new MinerUrl();  
  29.         minerUrl.setUrl("http://www.163.com");  
  30.         minerUrl.setDepth(1);  
  31.         Miner miner = new Miner(minerUrl, config);  
  32.         miner.start();  
  33.     }  
  34.   
  35. }  

 

爬虫 MINER   程序列表:

 

Html.java 存储页面信息类
Miner.java 爬虫启动类
MinerBean.java 数据库表 miner bean
MinerConfig.java 爬取配置类
MinerConstanits.java 常量类
MinerDB.java 数据库工具类
MinerHtmlThread.java 爬取页面线程
MinerMonitorThread.java 监控线程
MinerQueue.java 访问队列
MinerStoreThread.java 存储线程
MinerThreadPool.java 线程池
MinerUrl.java 解析页面后存储URL类
MinerUtil.java 爬虫工具类
MiseringThread.java 解析页面线程
StoreType.java 存储方式

分享到:
评论

相关推荐

    scrapy-redis搭建分布式爬虫环境 - 温良Miner - 博客园1

    scrapy-redis搭建分布式爬虫环境 - 温良Miner - 博客园1

    Rapidminer中文手册

    RapidMiner中文手册,对于初学RapidMiner者有很好的帮助

    rapidminer使用手册 [RapidMiner数据分析与挖掘实战] 全17章

    第1章 RAPIDMINER STUDIO简介 第2章 设计分析流程 第3章 数据和结果可视化 第4章 数据管理:资源库 第5章 数据探索 第6章 数据预处理 第7章 关联分析与关联规则 第8章 K-MEANS 聚类、辨别分析 第9章 线性回归与逻辑...

    PDFMiner3K安装包 tar.gz

    PDFMiner3K安装包 tar.gz PDFMiner3K安装包 tar.gzPDFMiner3K安装包 tar.gzPDFMiner3K安装包 tar.gz PDFMiner3K安装包 tar.gz PDFMiner3K安装包 tar.gz PDFMiner3K安装包 tar.gz PDFMiner3K安装包 tar.gz

    TheMiner 中文版

    The Miner是由加拿大的Jean Philippe Auclair(jpauclair net)开发的Flash性能分析器 profiler 其前身为开源的FlashPreloadProfiler The Miner虽然现在已“沦为”商业软件 但...开源项目)仍可以免费自由下载使 [更多]

    rapidminer中文教程

    RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。...

    RapidMiner and RapidAnalytics

    RapidMiner

    快速数据挖掘数据分析实战RapidMiner工具应用第2章 RapidMiner简介V1.1.pdf

    RapidMiner Studio包含了1500多个专业数据分析流程:从数据划分到以市场为基础的分析,再到属性生成,它包含了所有您需要的数据挖掘工具。同时也包含了文本挖掘,网页挖掘,对来自网络论坛的信息的自动情感分析...

    Rapidminer开发者版

    强大的数据挖掘工具Rapidminer,能够进行分类,聚类,自然语言处理,爬虫等多种功能,支持自行开发工具包。官方发布开发者版,非商业用途。

    华为-大数据分析工具FusionInsight Miner介绍.pdf

    华为-大数据分析工具FusionInsight Miner介绍.pdf 目录: 1. FusionInsight Miner整体介绍 2. 关系分析引擎介绍 3. 案例

    nicehash miner legacy 1.9.0.11

    nicehash miner legacy 1.9.0.11 Changes: Added Beam algorithm with two supporting miners Added GMiner 3rd-party miner with 2% devfee Supports ZHash and Beam mining on NVIDIA GPUs Note: GMiner is not ...

    SAS Enterprise Miner 5.1_CN

    SAS Enterprise Miner 5.1_CN,SAS Enterprise Miner 5.1_CN,SAS Enterprise Miner 5.1_CN

    pdfminer-docs

    pdfminer官方文档 python 分析pdf文件并可以转成txt文件 https://blog.csdn.net/smilife_/article/details/89480642

    RapidMiner Studio Developer数据挖掘工具

    RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术,特点是图形用户界面的互动原型。 特点:拖拽操作,无需编程,运算速度快。 RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种...

    rapidminer安装包

    rapidminer安装包

    SAS Enterprise Miner 基本使用手册.pdf

    SAS/Enterpreise Miner是在数据挖掘市场上令人敬畏的竞争者。 SAS Entelprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接...

    pdfminer-master.zip

    PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 ...

    数据挖掘工具rapidminer

    继数据挖掘rapidminer1之后,的rapidminer2,介绍数据的导入导出以及预处理。

    快速数据挖掘数据分析实战RapidMiner工具应用第17章 宏、循环和数据集处理V4.1.pdf

    经过前面几章的学习,我们已经知道了数据挖掘的基本流程,在...在RapidMiner中,宏的定义有几种方式: 第一种:Context标签 在标签中有Macro宏的设置栏,点击添加按钮,我们可以对宏的名称及数值进行设置,如图17.1.

    RapidMiner Studio 6.2 & Server 2.2 数据手册.pdf

    1、RapidMiner可以做什么? 2、为什么您应该考虑用RapidMiner? 3、谁应该使用RapidMiner?

Global site tag (gtag.js) - Google Analytics