How can i write avro files into S3 in Flink?

Question

I want to read streaming data from kafka topics and write into S3 in avro, or parquet, format. The datastream looks like json string but I am not able to convert and write into S3 in avro, or parquet, format.

I found some code snippets and tried

val sink = StreamingFileSink .forBulkFormat(new Path(outputS3Path), ParquetAvroWriters.forReflectRecord(classOf[myClass])) .build()

But I got "Type mismatch, expected SinkFunction[String], actual: StreamingFileSink[TextOut]" at the addSink

val stream = env .addSource(myConsumerSource) .addSink(sink)

Please help, thanks!

sri hari kali charan Tummala sri hari kali charan Tummala · Accepted Answer · 2019-07-15T19:50:38

Workaround solution you can use AWS Kinesis Firehose after your basic etl convert your SQL Query Flink table to String and write to Kinesis from AWS Console and then write to S3 as parquet.

https://github.com/kali786516/FlinkStreamAndSql/blob/master/src/main/scala/com/aws/examples/kinesis/producer/TransactionExample/TransactionProducer.scala

Kafka Example:- https://github.com/kali786516/FlinkStreamAndSql/tree/master/src/main/scala/com/aws/examples/kafka

How can i write avro files into S3 in Flink?

2 Answers