Sqoop导入数据到Hadoop代理执行

作者: 云计算机网 分类: 云计算知识 发布时间: 2016-08-16 02:58
最近在做执行服务器,它根据用户输入的sqoop命令代理向hadoop提交任务执行,目前需要支持的数据源包括mysql、oracle以及公司自己的分布式数据库DDB,数据导入的目的地可以是HDFS或者hive表。 首先来讨论一下对hive的支持,hive是作为一个支持JDBC的数据库,它的数据分成两部分,元数据和数据,元数据保存在一个本地的数据库,例如嵌入式数据库derby或者mysql,主要是存储一些关于hive的数据库和表定义的一些信息(关于元数据库表需要补充一下,这些表的创建都是hive完成的,不需要我们预先创建,但是在mysql中需要将字符集设置为latin1,否则在hive操作的时候可能出现问题,参见http://www.cnblogs.com/blueren/archive/2011/06/29/sir_001.html),数据保存在hadoop中,它支持将本地文件导入到hive中,其实hive在导入数据库的时候并不会解析数据库,而是是将文件存储在hadoop中,对于数据的来源,它只支持load这样的全量导入和批量导入的操作,并不支持一条条的insert操作和update操作,对hive的查询是利用hadoop的计算能力将select语句转换成一个或者多个hadoop任务,通过hadoop的计算得到SQL的执行结果。所以对于sqoop来说,导入到hive其实也是将数据导入到HDFS中,只不过hive需要对元数据进行操作,在sqoop中,导入数据到hive执行的操作和导入数据到HDFS大体上流程是差不多的,只不过导入到HDFS中是向hadoop提交一个job执行数据导入到HDFS的某个文件,而导入到hive的时候在将数据放到HDFS之后在生成一个hive的脚本,然后调用hive程序(或者直接调用命令行中的hive命令)使用"-f"参数来执行该文件,例如我将一个mysql中的表pf_sqoop导入到hive中的demo_blog_4表中,当前的hadoop用户是hive用户,该用户是代理intern用户执行的操作,生成的hive的脚本文件内容如下:
CREATE TABLE `demo_blog_4` ( `jobid` BIGINT, `product` STRING, `email` STRING, `jobname` STRING, `jobtype` TINYINT, `stype` TINYINT, `dtype` TINYINT, `dir` STRING, `dburl` STRING, `tablename` STRING, `username` STRING, `password` STRING, `hdbname` STRING, `htable` STRING, `params` STRING, `cluster` STRING, `begin_time` BIGINT, `end_time` BIGINT, `duration` BIGINT, `status` TINYINT, `created_at` STRING, `updated_at` STRING) COMMENT 'Imported by sqoop on 2015/04/13 10:16:31' ROW FORMAT DELIMITED FIELDS TERMINATED BY '' LINES TERMINATED BY '' STORED AS TEXTFILE;LOAD DATA INPATH 'hdfs://hp1/user/intern/pf_sqoop' OVERWRITE INTO TABLE `demo_blog_4`;  

可以看出,我们的数据库表的数据已经导入到HDFS的hdfs://hp1/user/intern/pf_sqoop路径下(这应该是/user/user_name/表名),然后执行创建hive表,再将该文件的数据导入到hive中,这里导入到hive表中是将已经存在hdfs中的文件再导入到hive的数据目录下。sqoop关于hive的参数有以下几个: --create-hive-table //是否创建新表,覆盖原来的表定义 --hive-overwrite //是否覆盖hive中已经存在的数据 --hive-import //标记是否导入数据到hive --hive-home //hive的主目录,必要的时候需要根据该配置找到hive命令 --hive-table //执行hive的表名
  • 浙江大学陈文智:校园安全云,核心是要保护学校信息资产

    陈文智 浙江大学信息技术中心主任

    高校网络信息安全现状

      高校网络信息安全为什么重要?实际上数据是一种资产,资产即猎物,数据自然也就成为猎物之一。特别在教育行业中,被攻击的目标主要是高校的各种数据。

      教育行业客观存在的困难和需求都有哪些?一是安全意识薄弱,对安全不重视、安全培训少,资产底数不清晰。二是在落实安全政策要求方面不足。三是应急响应能力弱,在面对攻击和重大节日保障时不足。四是技术储备不足,缺少专职的网络安全人员,很多信息安全人员都是曾经从事网络的人员转型过去;安全技术更新快,而数据恢复能力差。五是安全人才奇缺,全球目前对网络信息安全的人才缺口大概为300万。

      在这样的背景下,浙江大学希望建立一个人机共生的办学体系--网上浙大,建立新式办学空间。在实际建设过程中,浙江大学的信息资产非常复杂,首先是基数大,校区跨地域、人员多,网络计划由过去的1万个AP改造成4万个AP,每日收发的邮件接近200万封,数据中心、云盘需要有几P的存储空间提供给师生。其次,系统繁多,包括境外黑客攻击多、多方监管通报多、孤站僵尸网站多,缺少专业维护,缺少基础防护。面对这样的现状,具体要怎么做?

    安全大数据和态势感知技术

      从技术角度来看,大数据与人工智能技术的发展为综合分析判断安全态势提供了可能。高校在运维管理过程中会出现大量的数据,包括安全类、管理类、流量、基础数据等,数据来源多且结构复杂,而价值密度低。大数据与人工智能技术使海量数据的处理成本降低到了可接受的程度,能通过大量低价值数据的挖掘,获得有意义的信息。因此,需要通过大数据和人工智能技术把数据价值挖掘出来。

      以安全大数据关联分析为例,以全流量为线索,可以解决以往分析难以发现整个攻击链的问题,做到风险挖掘、联动防护,既能够提供决策支持,进行拦截+阻断等,甚至能够对关联威胁的攻击者进行溯源分析,查清攻击者的过去、团队、目标,同时可以对自己的资产进行溯源,摸清资产的安全状态,包括各种漏洞、脆弱性,为今后的防范起到保护作用。

      网络安全态势感知。态势感知(SituationAwareness)指在特定时空下对动态环境中各元素或对象的觉察、理解以及对未来的预测。它分成三个过程,态势感知察觉,态势感知理解,态势感知应用。

      第一阶段,网络安全态势察觉,它可从海量的安全数据中,包括安全设备、日志、主动扫描、分布式的各种资源收集、分辨出异常活动,发现攻击事件与安全漏洞,为后续理解、评估异常做准备。

      第二阶段,网络安全态势理解,根据识别的异常活动,利用安全态势模型、大数据统计、机器学习和数据挖掘等各种技术,推断攻击意图。

      第三阶段,网络安全态势应用,评估已有攻击行为的危害,预测可能要发生的攻击行为的潜在威胁。

      随着网络规模和应用的迅速扩大,网络安全威胁不断增加,单一利用某种技术,很难解决所有问题,所以必须把态势感知技术,同大数据、人工智能等各种技术结合在一起,从整体上动态地反映出安全的各种状况,对网络安全的发展趋势进行预测和预警,然后迅速响应和处置,从而提高整个校园的网络安全防护能力。

    安全实践探索

    构建浙江大学校园安全运营中心

      建立浙江大学校园安全运营中心,以保护信息资产为核心目标,通过安全事件的收集、业务流量分析、重大事件、IT基础设施数据的输入等,能够做到安全事件的监控服务、Web应用防护、安全预警服务、安全应急响应、风险合规管理等,做到发现、响应、决策、处置、恢复,实现7×24小时安全运营服务。

      1.安全运营中心的体系框架。围绕运营中心的六大核心职能,监测预警、安全防护、应急响应、态势感知、运行监控和教育培训,基于大数据平台,建设安全态势分析系统、安全应急管理系统、事件通报预警系统和追溯系统。

      2.基于安全大数据的运行模式框架。通过主动发现,监测资产、指纹、漏洞、入侵事件、攻击行为、异常行为等,做到监测预警数据提供给云端防护,使得云端防护能够更精确,从而实现主动防御。

    浙江大学陈文智:校园安全云,核心是要保护学校信息资产

      图1 基于安全大数据的运行模式框架

      3.构建动态的安全运营保障能力。通过安全运维标准、运维制度流程、技术操作流程等规范化支撑,构建检测、响应、预测、防护四大能力。

    #p#分页标题#e#

      4.基于安全大数据的分析业务架构。从资产安全状态的识别和系统漏洞识别分析,包括系统漏洞、Oday漏洞、已防护漏洞等;在分析的基础上对攻击事件进行深度分析,包括异常访问行为深度分析、攻击事件趋势分析,攻击事件、攻击者的态势分析等;最终提供安全事件的各种处置方法。

      5.安全运营服务--通报预警与应急响应。态势感知通报预警平台,主要包括:来自外部安全大数据中心的感知数据,来自内部安全大数据中心的事件数据与威胁数据,重要信息系统、安全监测集群,出口流量探针,第三方安全数据等。通过对安全事件和威胁进行分析预警,检测出相应的警报,通过终端监控,以短信、邮件、APP通知等方式发送预警,再把通知处理的事件反馈回来,形成一个闭环。

    让安全可视化,打造浙大安全云

      浙大的安全云是基于阿里云的飞天底座,私有化部署在浙大。基于安全的考虑,云安全总体框架实际分成两大部分,一部分是云平台本身的安全,另一部分是云租户安全。

      浙江大学云安全运营体系,是要构建一个集交付、交易、分析为一体的云安全管理平台。整个运维体系,包括智云实验室和信息技术中心,实际上搭建了一个生态,围绕着云安全运营,按照自主开通、统一管理的模式,学校各下属学院、分校等都可以按照需求自主开通云服务,然后自动交付、交易,最终统一管理。通过把接口提供给各个厂商,包括云检测、云防御、云审计、专家服务等,将各个厂商的产品服务应用在其中。

      理清安全责任边界,包括阿里云、云安全商、信息技术中心、租户,每一个单位都有各自的职责和边界。阿里云的安全职责是提供一个安全、可靠的云平台和安全资源池,安全边界是保障云平台自身安全。信息技术中心的安全职责是制定云安全标准,持续监督云安全态势,安全边界是监督云平台和云租户的安全态势,制定安全标准等。

    统一应用入口,打造浙江大学APP

      "浙江大学APP"基于钉钉平台搭建,采用钉钉专有云服务,也是钉钉专有云服务全球第一家落地的客户。浙大使用自有机房和服务器,钉钉提供软件和专有云的方式,解决了对于云服务的个性化需求。浙江大学APP建立了全面的安全防护策略,提供企业级的密钥,数据享受国秘级的保护。另外对敏感数据的保护贯穿整个数据的生命周期,能达到银行级的数据加密存储级别,使得浙大APP能够达到全面安全防护。

      未来浙大还要在其他方面继续进行探索,比如浙大与阿里云联合发起打造面向未来的智云实验室;在5G移动环境下开展安全合作,2018年5月同浙江移动签订了战略协议,共同建设具有国内领先水平的5G/NB-IoT试验网络,开展基于5G网络环境下的WLAN、LTE、5G新无线接入等多种接入条件下的安全认证体系研究,推进浙江省5G产业联盟发展,共同打造先进水平的实验网络、技术以及安全。

  • 相关推荐:

  • 浙江大学陈文智:校园安
  • 【计算机】金蝶国际:看
  • 存储分析:数据保护影响
  • 如何为虚拟化数据中心添
  • 虚拟架构是如何影响安全
  • 数据是关键中小企业存储
  • 如何利用虚拟化技术提高
  • 虚拟化数据中心即将面临
  • 青云计算机携全栈式硬件
  • 新旧动能转换现场观摩会
  • 网站内容禁止违规转载,转载授权联系中国云计算网