<div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div>Thanks Eric, and Jim, <br><br></div>I will implement one of the above solutions. And I expect success will soon follow. <br><br></div><div>Overview...<br>
</div>Just trying to take a mbox folder from a mail archive and write into an avro file, a binary delimited hadoop friendly container with a schema. <br><br></div>Like any programming project I made great initial progress..<br>
</div>Wrote an avro file in python.. that went pretty fast. <br></div>Parse a mbox .. that went pretty fast. <br></div>Extract the to, from, subject and date.. that went pretty fast. <br><br></div>Pull out the message itself, that is where I hit some bumps.. <br>
<br></div>I thought <br>import mailbox<br></div>would provide a simple tostring method, but as far as I can tell it does not. And due to MIME I see why,  so the simple stuff like headers are straightforward, MIME messages make the payload extraction a challenge. <br>
<br><br></div>Thanks everyone. <br><br>--<br></div>Tom<br><div><div><br><br><div><div><div><div><div><div><div><div><div><br><br></div></div></div></div></div></div></div></div></div></div></div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Sat, Aug 3, 2013 at 10:27 AM, Eric Floehr <span dir="ltr">&lt;<a href="mailto:eric@intellovations.com" target="_blank">eric@intellovations.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><br><div class="gmail_extra"><div class="gmail_quote"><div class="im"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra">
<div class="gmail_quote">

<div>import sys</div><div>sys.stdout.writeline(payload[:200] + &#39;\n&#39;)</div></div></div></div></blockquote><div><br></div></div><div>Typo: &#39;writeline&#39; should just be &#39;write&#39;</div><div><br></div><div>
<br></div>

</div></div></div>
<br>_______________________________________________<br>
colug-432 mailing list<br>
<a href="mailto:colug-432@colug.net">colug-432@colug.net</a><br>
<a href="http://lists.colug.net/mailman/listinfo/colug-432" target="_blank">http://lists.colug.net/mailman/listinfo/colug-432</a><br>
<br></blockquote></div><br></div>