Mapper unable to read gz.parquet Files

Question

org.apache.hadoop.mapred.MapTask: Starting flush of map output

2017-04-20 20:53:20,101 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : java.lang.NullPointerException at org.apache.parquet.avro.AvroSchemaConverter.convertField(AvroSchemaConverter.java:294) at org.apache.parquet.avro.AvroSchemaConverter.convertFields(AvroSchemaConverter.java:204) at org.apache.parquet.avro.AvroSchemaConverter.convert(AvroSchemaConverter.java:198) at org.apache.parquet.avro.AvroReadSupport.prepareForRead(AvroReadSupport.java:105) at org.apache.parquet.hadoop.InternalParquetRecordReader.initialize(InternalParquetRecordReader.java:174) at org.apache.parquet.hadoop.ParquetRecordReader.initializeInternalReader(ParquetRecordReader.java:192) at org.apache.parquet.hadoop.ParquetRecordReader.initialize(ParquetRecordReader.java:140) at org.apache.hadoop.mapreduce.lib.input.DelegatingRecordReader.initialize(DelegatingRecordReader.java:84) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:548) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:786) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

I am trying to read a filename.gz.paquet in mapper, with the same mapreduce job I am able to read filename.snappy.parquet file .

Shyam Reddy Shyam Reddy · Accepted Answer · 2017-04-21T21:36:17

I could Solve the issue. Well, I had updated to the new jars of avroVersion 1.8.1, parquetVersion 1.9.0, parquetFormatVersion 2.3.1, and hiveVersion 1.2.2.

Mapper unable to read gz.parquet Files

1 Answers