From 1eb6aeec187046a05bde55568ca4e7ce3074395b Mon Sep 17 00:00:00 2001
From: mxmehl <mail@mehl.mx>
Date: Sun, 7 Dec 2014 21:06:59 +0100
Subject: [PATCH] starting issuecounting

---
 extract-twitter-accounts.R |  11 ----
 issuecomp.R                |  55 +++++++++++++++++++
 issues.xml                 | 109 +++++++++++++++++++++++++++++++++++++
 3 files changed, 164 insertions(+), 11 deletions(-)
 create mode 100644 issuecomp.R
 create mode 100644 issues.xml
diff --git a/extract-twitter-accounts.R b/extract-twitter-accounts.R
index 4cb976e..fe20b2c 100644
--- a/extract-twitter-accounts.R
+++ b/extract-twitter-accounts.R
@@ -2,10 +2,8 @@
 
 require(jsonlite)
 require(stringr)
-require(RCurl)
 require(devtools)
 require(RTwitterAPI)
-require(lubridate)
 
 setwd("~/Dokumente/Uni/Aktuell/BA-Arbeit/uni-ba-issuecomp")
 
@@ -196,12 +194,3 @@ rm(delrow, r)
 # Convert dates to omit (unnecessary) time
 tweets$created_at <- format(tweets$created_at, "%Y-%m-%d")
 
-# Create date range
-date_start <- as.Date("2014-01-01")
-date_end <- as.Date("2014-12-01")
-drange <- as.integer(date_end - date_start)
-drange <- date_start + days(0:d)
-issues <- data.frame(date = drange)
-
-# Select all tweets from current day in drange
-tweets_curday <- tweets[tweets[, "created_at"] == drange[5], ]
diff --git a/issuecomp.R b/issuecomp.R
new file mode 100644
index 0000000..bfbecab
--- /dev/null
+++ b/issuecomp.R
@@ -0,0 +1,55 @@
+require(lubridate)
+
+# Create date range
+date_start <- as.Date("2014-01-01")
+date_end <- as.Date("2014-12-01")
+drange <- as.integer(date_end - date_start)
+drange <- date_start + days(0:d)
+issues <- data.frame(date = drange)
+
+issuelist <- xmlToList("issues.xml")
+issueheads <- names(issuelist)
+issues[issueheads] <- 0
+
+for(d in 1:nrow(issues)) {
+  curdate <- issues$date[d]
+  cat(as.character(curdate),"\n")
+  # Put all tweets from specific day in a temporary DF
+  tweets_curday <- tweets[tweets[, "created_at"] == curdate, ]
+  
+  for(t in 1:nrow(tweets_curday)){
+    # Select tweet's text, make it lowercase and remove hashtag indicators (#)
+    curtext <- tolower(as.character(tweets_curday$text[t]))
+    curtext <- str_replace_all(curtext, "#", "")
+    
+    for(i in 1:length(issuelist)) {
+      curtags <- as.character(issuelist[[i]])
+      curissue <- names(issuelist)[i]
+      curtags <- str_c("\\W", curtags, "\\W")
+      tags_found <- str_detect(curtext, sprintf("%s", curtags))
+      tags_found <- any(tags_found)
+      
+      if(tags_found) {
+        #cat("Positive in", curissue,"from",as.character(drange[d]),"\n")
+        issues[d,curissue] <- issues[d,curissue] + 1
+      }
+      else {
+        #cat("Nothing found\n")
+      }
+      
+    } # /for issuelist
+  } # /for tweets_curday
+} # /for drange
+
+
+
+# POSSIBLY USEFUL CODE ----------------------------------------------------
+
+# Limits of list
+length(issuelist)
+length(issuelist[[2]])
+
+# Select all tweets from current day in drange
+tweets_curday <- tweets[tweets[, "created_at"] == drange[5], ]
+# Is column a issue counting column?
+str_detect(names(issues[2]), "^issue")
\ No newline at end of file
diff --git a/issues.xml b/issues.xml
new file mode 100644
index 0000000..724384d
--- /dev/null
+++ b/issues.xml
@@ -0,0 +1,109 @@
+<issuelist>
+    <issue.ttip>
+        <tag>ttip</tag>
+        <tag>ceta</tag>
+        <tag>freihandelsabkommen</tag>
+    </issue.ttip>
+    
+    <issue.energiewende>
+        <tag>energiewende</tag>
+        <tag>atomkraft</tag>
+        <tag>windkraft</tag>
+        <tag>wasserkraft</tag>
+        <tag>solarstrom</tag>
+        <tag>kraftwerk</tag>
+    </issue.energiewende>
+    
+    <issue.ukraine>
+        <tag>ukraine</tag>
+        <tag>euromaidan</tag>
+        <tag>krim</tag>
+        <tag>putin</tag>
+        <tag>kiew</tag>
+    </issue.ukraine>
+    
+    <issue.vds>
+        <tag>vds</tag>
+        <tag>vorratsdatenspeicherung</tag>
+        <tag>datenschutz</tag>
+    </issue.vds>
+    
+    <issue.euelec>
+        <tag>schulz</tag>
+        <tag>kommission</tag>
+        <tag>juncker</tag>
+        <tag>ec2014</tag>
+        <tag>ep2014</tag>
+        <tag>europawahl</tag>
+    </issue.euelec>
+    
+    <issue.labour>
+        <tag>arbeitsmarkt</tag>
+        <tag>mindestlohn</tag>
+        <tag>arbeitslosigkeit</tag>
+        <tag>hartz4</tag>
+        <tag>arbeitslos</tag>
+    </issue.labour>
+    
+    <issue.nsa>
+        <tag>nsa</tag>
+        <tag>snowden</tag>
+        <tag>bnd</tag>
+        <tag>gchq</tag>
+    </issue.nsa>
+    
+    <issue.wm2014>
+        <tag>wm2014</tag>
+        <tag>weltmeister</tag>
+        <tag>meister</tag>
+        <tag>finale</tag>
+        <tag>halbfinale</tag>
+        <tag>viertelfinale</tag>
+        <tag>achtelfinale</tag>
+        <tag>brager</tag>
+        <tag>gerbra</tag>
+        <tag>argger</tag>
+        <tag>gerarg</tag>
+        <tag>wm</tag>
+        <tag>stadion</tag>
+    </issue.wm2014>
+    
+    <issue.middleeast>
+        <tag>israel</tag>
+        <tag>gaza</tag>
+        <tag>naher osten</tag>
+        <tag>nahen osten</tag>
+        <tag>nahost</tag>
+    </issue.middleeast>
+    
+    <issue.iraq>
+        <tag>irak</tag>
+        <tag>isis</tag>
+        <tag>is</tag>
+        <tag>kalifat</tag>
+    </issue.iraq>
+    
+    <issue.ebola>
+        <tag>ebola</tag>
+    </issue.ebola>
+    
+    <issue.nsu>
+        <tag>nsu</tag>
+        <tag>mundlos</tag>
+        <tag>zschäpe</tag>
+    </issue.nsu>
+    
+    <issue.edathy>
+        <tag>edathy</tag>
+        <tag>kinderpornographie</tag>
+        <tag>kipo</tag>
+        <tag>pädophil</tag>
+        <tag>pädophilie</tag>
+    </issue.edathy>
+
+    <issue.control>
+        <tag>pillepalle</tag>
+        <tag>schundluder</tag>
+        <tag>whatthefuck</tag>
+    </issue.control>
+</issuelist>