archive (loading activity, content-length)

2016-07-07 16:11:08 +02:00 · 2016-07-07 16:11:08 +02:00 · 5e6c3bb095
commit 5e6c3bb095
parent 5289098d4d
2 changed files with 318 additions and 1 deletions
--- a/.gitignore
+++ b/.gitignore
@ -5,4 +5,4 @@ __pycache__/
 archives
-setenv
+setenv*
--- a/lib/archive.py
+++ b/lib/archive.py
@ -0,0 +1,317 @@
 import numpy as np
 import pandas as pd
 import email, email.parser
 import os, datetime, json, gzip, re
 from random import randint
 def format_from(from_str):
 	from_addr = email.utils.parseaddr(from_str)[1]
 	if '{AT}' not in from_addr:
 		tok = from_str.split()
 		try:
 			at = tok.index('{AT}')
 			from_addr = ''.join(tok[at-1:at+2])
 			if from_addr.startswith('<') or from_addr.endswith('>'):
 				from_addr = from_addr.strip('<').strip('>')
 		except ValueError:
 			return None
 	return from_addr.lower()
 def format_date(date_str):
 	try:
 		date_tz = email.utils.parsedate_tz(date_str)
 		time_tz = email.utils.mktime_tz(date_tz) #utc timestamp
 	except TypeError:
 		print "Format Date TypeError"
 		print "  > " + date_str
 		return None
 	except ValueError:
 		print "Format Date ValueError"
 		print "  > " + date_str
 		return None
 	dt = datetime.datetime.fromtimestamp(time_tz)
 	try:
 		pdt = pd.to_datetime(dt)
 		return pdt
 	except pd.tslib.OutOfBoundsDatetime:
 		print 'time out of bound'
 		print dt
 		return None
 def message_to_tuple_record(msg, records, references=None):
 	# check date first?
 	date_time = format_date(msg['date'])
 	if not date_time:
 		return
 	# filter date?
 	nettime_min_date = pd.to_datetime('01/10/1995', format='%d/%m/%Y')
 	nettime_max_date = pd.to_datetime(datetime.datetime.now())
 	if date_time < nettime_min_date or date_time > nettime_max_date:
 		return None
 	# check / filter from email address second?
 	from_addr = format_from(msg['from'])
 	if not from_addr:
 		return
 	records.append((msg['message-id'],
 						from_addr,
 						msg['author_name'],
 						msg['subject'],
 						date_time,
 						msg['url'],
 						len(msg['content']),
 						0 if not msg.has_key('follow-up') else len(msg['follow-up']),
 						references))
 	if msg.has_key('follow-up'):
 		for f in msg['follow-up']:
 			message_to_tuple_record(f, records, references=msg['message-id'])
 	return 
 def json_data_to_pd_dataframe(json_data):
 	records = []
 	for d in json_data:
 		for dd in d['threads']:
 			message_to_tuple_record(dd, records)
 	df = pd.DataFrame.from_records(records,
 						index='date',
 						columns=['message-id',
 									'from',
 									'author',
 									'subject',
 									'date',
 									'url',
 									'content-length',
 									'nbr-references',
 									'references'])
 	df.index.name = 'date'
 	return df
 def load_from_file(filename, archive_dir):
 	json_data = None
 	if not filename.endswith('.json.gz'):
 		file_path = os.path.join(archive_dir, filename + '.json.gz')
 	else:
 		file_path = os.path.join(archive_dir, filename)
 	if os.path.isfile(file_path):
 		with gzip.open(file_path, 'r') as fp:
 			json_data = json.load(fp)
 			return json_data_to_pd_dataframe(json_data['threads'])
 	else:
 		#list of all "filename[...].json.gz" in archive_dir
 		files = sorted([f for f in os.listdir(archive_dir) if os.path.isfile(os.path.join(archive_dir, f)) and f.startswith(filename) and f.endswith('.json.gz')])
 		if files:
 			filename = files[-1] # take the most recent (listed alpha-chronological)
 			file_path = os.path.join(archive_dir, filename)
 			if os.path.isfile(file_path):
 				with gzip.open(file_path, 'r') as fp:
 					json_data = json.load(fp)
 					return json_data_to_pd_dataframe(json_data['threads'])
 		else:
 			#list of all json files in archive_dir/filename
 			dir_path = os.path.join(archive_dir, filename)
 			if not os.path.isdir(dir_path):
 				return None
 			files = [os.path.join(dir_path, f) for f in os.listdir(dir_path) if os.path.isfile(os.path.join(dir_path, f)) and f.endswith('.json')]
 			if not files:
 				return None
 			# load all json files
 			threads = []
 			for file_path in files:
 				with open(file_path, 'r') as fp:
 					json_data = json.load(fp)
 					threads.append(json_data)
 			return json_data_to_pd_dataframe(threads)
 class Archive:
 	data = None				# "raw" json data
 	dataframe = None 		# main pd dataframe
 	activity = None			# (very) sparse dataframe (index=date(month), columns=from, values=activity(month))
 	content_length = None	# (very) sparse dataframe (index=date(month), columns=from, values=content-length(month in bytes))
 	threads = None
 	def __init__(self, data="nettime-l", archive_dir="archives"):
 		if isinstance(data, pd.core.frame.DataFrame):
 			self.dataframe = data.copy()
 		if isinstance(data, str):
 			self.dataframe = load_from_file(data, archive_dir)
 	'''
 	activity
 	'''			
 	def _activity(self):
 		if self.activity is None:
 			from_index = self.dataframe.reindex(columns=['from'])
 			self.activity = from_index.groupby([pd.TimeGrouper(freq='M'), 'from']).size().unstack('from').fillna(0)
 		return self.activity
 	def activity_from(self, email_address, resolution='M'):
 		eaddr = email_address.replace('@', '{at}').lower()
 		self._activity()
 		try:
 			if resolution.lower() == 'm':
 				return self.activity[eaddr]
 			elif resolution.lower() == 'y':
 				y = self.activity[eaddr].resample('AS').sum()
 				y.index = y.index.year
 				return y
 			else:
 				return None
 		except KeyError:
 			return None
 	def activity_overall(self, resolution='M'):
 		self._activity()
 		try:
 			sum_activity_month = self.activity.sum(axis=1)
 			if resolution.lower() == 'm':
 				return sum_activity_month
 			elif resolution.lower() == 'y':
 				y = sum_activity_month.resample('AS').sum()
 				y.index = y.index.year
 				return y
 			else:
 				return None
 		except:
 			return None
 	def activity_from_ranking(self, resolution='M', rank=5, filter_nettime=True):
 		# finish this -- re resolution AND filtering
 		self._activity()
 		afr = self.activity.sum(axis=0).order(ascending=False)
 		if filter_nettime:
 			p = r'^((?!nettime*).)*$'
 			afr = afr[afr.index.str.contains(p)]
 		return afr[:rank]
 	def plot_activity_from_ranking(self, resolution='y', rank=5, figsize=(8, 7)):
 		activity_rank = self.activity_from_ranking(rank=rank).keys()
 		series = []
 		for k in activity_rank:
 			series.append(self.activity_from(k, resolution))
 		df = pd.concat(series, axis=1)
 		colors = np.random.rand(len(df),3)
 		if figsize:
 			df.plot(colors=colors, figsize=figsize)
 		else:
 			df.plot(colors=colors)
 	'''
 	content lenght
 	'''
 	def _content_length(self):
 		if self.content_length is None:
 			from_content_index = self.dataframe.reindex(columns=['from', 'content-length'])
 			self.content_length = from_content_index.groupby([pd.TimeGrouper(freq='M'), 'from']).sum()
 			self.content_length = self.content_length.reset_index().pivot(columns='from', index='date', values='content-length').fillna(0)
 		return self.content_length
 	def content_length_from(self, email_address, resolution='M'):
 		eaddr = email_address.replace('@', '{at}').lower()
 		self._content_length()
 		try:
 			if resolution.lower() == 'm':
 				return self.content_length[eaddr]
 			elif resolution.lower() == 'y':
 				y = self.content_length[eaddr].resample('AS').sum()
 				y.index = y.index.year
 				return y
 			else:
 				return None
 		except KeyError:
 			return None
 	def content_length_overall(self):
 		self._content_length()
 		try:
 			sum_content_length_month = self.content_length.sum(axis=1)
 			if resolution.lower() == 'm':
 				return sum_content_length_month
 			elif resolution.lower() == 'y':
 				y = sum_content_length_month.resample('AS').sum()
 				y.index = y.index.year
 				return y
 			else:
 				return None
 		except:
 			return None
 	def content_length_from_ranking(self, resolution='M', rank=5, filter_nettime=True):
 		# finish this -- re resolution
 		self._content_length()
 		cfr = self.content_length.sum(axis=0).order(ascending=False)
 		if filter_nettime:
 			p = r'^((?!nettime*).)*$'
 			cfr = cfr[cfr.index.str.contains(p)]
 		return cfr[:rank]
 	def plot_content_length_from_ranking(self, resolution='y', rank=5, figsize=(8, 7)):
 		content_rank = self.content_length_from_ranking(rank=rank).keys()
 		series = []
 		for k in content_rank:
 			series.append(self.content_length_from(k, resolution))
 		df = pd.concat(series, axis=1)
 		colors = np.random.rand(len(df),3)
 		if figsize:
 			df.plot(colors=colors, figsize=figsize)
 		else:
 			df.plot(colors=colors)
 	'''
 	threads
 	'''			
 	def _threads(self):
 		if self.threads is None:
 			self.threads = self.dataframe[self.dataframe['nbr-references'] > 0].reindex(columns=['from','nbr-references','subject', 'url', 'message-id']).sort_values('nbr-references', ascending=False)
 		return self.threads;
 	def threads_ranking(self, rank=5):
 		self._threads()
 		return self.threads.drop('message-id', axis=1)[:rank]
`@ -5,4 +5,4 @@ __pycache__/`

	`archives`	`archives`

	`setenv`	`setenv*`