涉及 大数据 标签的文章 所有标签


hive return code 1 from org.apache.hadoop.hive.ql.
6月前
  • 0
  • 0

hive return code 1 from org.apache.hadoop.hive.ql.

调整了一个hive表的结构,跑清洗数据脚本时遇到hive报错

return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

莫名其妙,然后查阅了百度该问题,都比较复杂(看不懂...),沉下心来排查一下,定位到运行到这行时出现问题

hive -e "use data;truncate table shellda_pvuv;insert into shellda_pvuv select '$SDATE','$HOUR',count(*) as pv,count(distinct devid) as uv,channel,version from shellda_temp_result group by channel,version;"

然后我按分号来单条测试,很是奇怪,竟然问题出现在truncate table这里...如图,百思不得其解 http://paperen.com/file/205

该不会因为表为空的所以truncate就报错,不会这么无语,试着去掉truncate,竟然OK了!

所以解决方案就是去掉truncate....

是这样的,这里的truncate是为了保证清空上次清洗的临时数据影响,其实脚本后面也会在hdfs中rm掉相关临时数据(hadoop fs -rm -r 文件绝对路径),所以这里的truncate可要可不要,而现在定位是由于truncate导致出现这个无语问题,所以只能将其去掉

阅读更多
ELK架构实现实时数据报表
11月前
  • 0
  • 0

ELK架构实现实时数据报表

最近在做某个项目时客户要求实现广告实时数据报表,paperen也是第一次面对这个需求,由于本来广告就有使用nginx做监播(展示与点击日志),所以查阅了一些资料后决定使用比较轻量的ELK来实现这个需求,先放出平台实时报表的截图

http://paperen.com/file/203

ELK是三个开源软件的缩写,分别表示:Elasticsearch,Logstash,Kibana,都是elsatic下的产品https://www.elastic.co/products

并没有太复杂的东西,简单来说filebeat相当于是一个拉取日志数据,将数据拉到logstash,而logstash中可以配置一些过滤器对数据进行预处理或过滤,最后存到es中

阅读更多