Rapport
Transcription
Rapport
Multi-Document Summaries of Swedish Documents as Search Result CARL-OSCAR ERNEHOLM Master of Science Thesis Stockholm, Sweden 2012 Multi-Document Summaries of Swedish Documents as Search Result CARL-OSCAR ERNEHOLM DD221X, Master’s Thesis in Computer Science (30 ECTS credits) Degree Progr. in Computer Science and Engineering 300 credits Master Programme in Computer Science 120 credits Royal Institute of Technology year 2012 Supervisor at CSC was Viggo Kann Examiner was Anders Lansner TRITA-CSC-E 2012:087 ISRN-KTH/CSC/E--12/087--SE ISSN-1653-5715 Royal Institute of Technology School of Computer Science and Communication KTH CSC SE-100 44 Stockholm, Sweden URL: www.kth.se/csc Abstract This thesis attempts to evaluate if it is viable for an information retrieval application to cluster the documents of a search result and generate multi-document summaries in query time, for Swedish documents. It evaluates the performance and quality of the document clustering algorithm k-means, and two multi-document summarization algorithms; one based on PageRank and the other based on the Cover Coefficient concept. The result shows that neither of the multi-document summarization algorithms is fast enough to run in query time, given a time limit of two seconds. But that they are both able to produce Swedish summaries of reasonably high quality. It further shows that k-means clusters documents quickly enough to be used in query time, but that the quality of the clusters are somewhat lacking and might not be good enough for practical use. Referat Flertextsammanfattningar av svenska dokument som sökresultat Denna rapport gör ett försök att utvärdera om det är möjligt för en sökmotor att klustra och flertextsammanfatta svenska sökresultat fort nog för att det ska kunna göras då sökfrågan ställs (query time). Den utvärderar hastigheten och kvalitén hos klustringsalgoritmen k-means samt två flertextsammanfattaningsalgoritmer, den ena är baserad på PageRank och den andra är baserad på Cover Coefficient-konceptet. Resultatet visar att ingen av flertextsammanfattningsalgoritmerna är tillräckligt snabb för att köras i query time givet en maximal körningstid på två sekunder. Däremot producerar båda sammanfattningar av god kvalité. Det visas även att k-means klustrar dokumenten tillräckligt snabbt för att kunna köras i query time, men att kvalitén hos klustren är något bristfälliga, vilket kan innebära att de inte är tillräckligt bra för att kunna användas praktiskt. Contents 1 Introduction 1 1.1 Problem Statement 4 1.2 Use Case 5 Background 2 3 Document Clustering Algorithms 7 2.1 Document Clustering 7 2.2 Hierarchical clustering 9 2.3 k-means 10 2.4 Bisecting k-means 11 2.5 Miscellaneous Clustering Methods 11 Summarization Algorithms 13 3.1 Generating Quality Summaries 13 3.2 Language Independence 14 3.3 Summarizing using PageRanked Sentences 15 3.4 Cover Coefficient Matrix based Summarization 17 Method 4 5 Clustering Search Results 21 4.1 Requirements 21 4.2 Evaluation of the Clustering Implementation 22 Evaluating the Summarizers 26 5.1 The Summarizers 26 5.2 Evaluation Methods 26 5.3 Gathering Test Data 29 5.4 Performance Test 31 Implementation 6 7 The Search Engine 33 6.1 Apache Solr 33 6.2 Jellyfish 33 6.3 Working with a Search Engine 34 The Framework 36 7.1 Document Gathering 36 7.2 Preprocessing 36 7.3 Clustering Implementation 38 7.4 Summarization Implementation 38 Evaluation Results 8 9 Clustering Results 40 8.1 Result 40 8.2 Discussion 41 Evaluation Results of The Summarizers 43 9.1 Results 43 9.2 Discussion 44 10 Conclusion 48 Bibliography 49 Appendices 50 A Similarity and Distance Measures 51 A.1 Euclidean Distance 51 A.2 Cosine Similarity 51 A.3 Jaccard Similarity 52 A.4 Dice Similarity 52 B Preprocessing 53 B.1 Stemming 53 B.2 Lemmatization 54 B.3 Stop Word Removal 54 C Document Representation C.1 The Vector Space Model 55 55 D List of Stop Words E Sources of the Articles Used in the Evaluation of MDS:s E.1 E.2 E.3 E.4 E.5 E.6 E.7 E.8 The Death of Khaddafi The Death of Kim Jong-Il Juholt’s Resignation The Knutby Murders The Murder of Anna Lindh The Pirate Bay Trail (SD) Enters Riksdagen The Tsunami in Japan 2011 F The Instructions for the Writing of the Gold Standard Summaries G The Gold Standard Summaries G.1 G.2 G.3 G.4 G.5 G.6 G.7 G.8 The Death of Khaddafi The Death of Kim Jong-Il Juholt’s Resignation The Knutby Murders The Murder of Anna Lindh The Pirate Bay Trail (SD) Enters Riksdagen The Tsunami in Japan 2011 H Generated Summaries H.1 H.2 PageRank Summarizer Cover Coefficient Summarizer 57 58 58 58 59 59 59 59 60 60 61 64 64 65 66 67 68 69 70 71 72 72 79 About This Document This project is part of a larger project which consists of two master’s thesis projects, one carried out by Carl-Oscar Erneholm and one carried out by Martin Nycander. Both the work and the documentation in this report of the subject of document clustering have been a collaborative effort. The overall project organization is visualized in figure 1. The collaborative chapters are 2, 4, 6, 7 (except for the last section), 8 and appendices: A, B, C and D. Collaborative Individual Collaborative Multi-document Summarization Document Clustering Summary document with headers Cluster Labeling Figure 1: Project organization overview. Glossary Centroid A centroid is a document which represents a document cluster. Usually represented as a term vector, whose values are calculated means of the cluster member vectors. Summarizer A computer program which summarizes a document or set of documents. Gold Standard An instance of something that is viewed as ideal and is used as a measure by comparison with other instances. Language Dependence A method is language dependent if it makes assumptions on what language it will work with. If a method works equally well any language it language independent. MDS Multi-Document Summarizer, is an algorithm or method which can summarize multiple documents. N -gram Ordered lists of consecutive terms of length N. Unigram Synonymous to 1-gram. Bigram Synonymous to 2-gram. ROUGE ROUGE is a scoring system which measures the quality of generated summaries, by comparing them to a set of gold standard summaries. NLP Abbreviation for Natural Language Processing. It is the process of extracting meaningful information from natural language input, and/or producing natural language output. Query Time Point in time when a user is querying the search application. Index Time Point in time when a documents are being inserted into the search index. Chapter 1 Introduction Today, we have got vast quantities of information stored digitally and each day more data is added to these gigantic databases. With these rapidly growing databases it becomes harder and harder to find the right pieces of information in every given time. Therefore many different information retrieval (IR) techniques have been developed. The most common way to solve the problem of IR is a search engine. It is assumed that the user wants some documents of the data set and knows some of the keywords in these documents. But what if the user want a summary of a topic? Most documents, even if they are all about a single topic, are often very different and sometimes they present conflicting information. No smaller subset of a bigger document group are usually representative of the group as a whole. This springs from the fact that documents often specialize on different angles of a single topic. For a human it is often unrealistic to take the time and energy to read most of the documents concerning a single topic, if not impossible. Therefore it would be valuable if the search engine could condense the information of the search result into a single summary for each topic in the search result. The summary would ideally speed up the users grasp of a new topic by only presenting the most important pieces of information. The problem of generating such a summary is called multi-document summarization (or MDS for short) and will be the primary focus of the thesis. Since most research in the field of information retrieval has been done with documents written in English, this thesis will focus on documents written in Swedish. Search terms could be ambiguous or generate a too broad range of documents, this poses a problem for MDS. In the case of ambiguous terms, the generated summaries might confuse different meanings of a word. Is a Jaguar a car or an animal? 1 This could be solved by dividing the search result into clusters. With the hopes that the documents with ambiguous key words get grouped on their meaning so that a summary may be generated for each meaning of the keywords. Achieving this type of clustering is the secondary focus of this thesis. The cluster implementation will be a joint effort of myself (Carl-Oscar Erneholm) and Martin Nycander. The final product will be a piece of software that is able to take a group of documents and generate a new document with headers and summaries of the different topics present in the input document group. This could be used as an alternative to the traditional search result list. The generation of the headers will not be discussed in this thesis but is a central part of Martin’s thesis, this thesis will focus on multi-document summarization. The idea behind this thesis comes from Findwise AB which is also the project provider. The purpose of this thesis is to find new ways to present search result to the user. The thesis will thus evaluate if it is viable to present search result as a summary using some multi-document summarization technique. 2 Thanks I would especially like to thank my friends and family members who helped me out by writing the gold standard summaries. This thesis would not have been possible without their help! Joel Ahlgren Anders Erneholm Nicklas Johansson Sussanne Johansson Nicolina Nyholm Therese Ulfvin Christer Wallin 3 1.1 Problem Statement The purpose of this thesis is to answer the questions below. The questions were chosen with the purpose to guide an implementation of a new type of search query result. Instead of the usual listed search result, the new search result is supposed to cluster the resulting documents and generate a heading and summary for each cluster. By using this search result the user is able to get a quick overview of the topics of the result and the content. Document Clustering 1. What different techniques exist for clustering documents? 2. What are the language specific challenges for clustering documents in Swedish, If any? 3. What is an ideal document clustering technique for both multi-document summarization and cluster labeling? Multi-Document Summarization 4. What are the human needs a summary tries to fulfill? 5. How should a multi-document summarizer be built in order to produce summaries where these needs are met? 6. Are any new problems introduced when generating multi-document summaries for documents written in Swedish rather than English? 7. How should the quality and performance of a generated multi- document summarizer of Swedish documents, be evaluated? 8. Is it possible to generate multi-document summaries of quality quickly enough to be usable in query time? 4 1.2 Use Case This project is largely based with the following use case in mind. 1. An user visits a typical IR-application, such as a search engine. 2. The user initiates a summary search. 3. The summary application gets the top 200 results (which usually corresponds to the first 20 pages) from the search engine. a) The results are then clustered into groups of similar documents. b) Each cluster is summarized using a multi-document summarizer and labeled by a cluster labeling algorithm. 4. The resulting summary is returned to the user within a reasonable amount of time. 5. The user can now read a summary of the different topics regarding the specific search query. 5 Part I Background 6 Chapter 2 Document Clustering Algorithms The purpose of this chapter is to explain what document clustering is and why it is needed. But also to answer the first and second question of the problem statement in Section 1.1. Document Clustering 1. What different techniques exist for clustering documents? 2. What are the language specific challenges for clustering documents in Swedish? If any. To this end this chapter will attempt to give a brief description of the different clustering algorithms that were considered for implementation and evaluation. How the language of the documents effects the clustering algorithms will also be discussed. 2.1 Document Clustering Document clustering algorithms try to solve the problem of grouping documents in such a way that the documents in each group is similar to each other but dissimilar to other groups [14, 11]. It is important to know that there is a difference between document clustering and document classification. The difference between the two is that document classification attempts to classify what predefined group a document belongs to [11, 18], while document clustering creates those classifications based on the input it is given. This means that the clustering algorithm requires very little, or no knowledge of the domain it is clustering. The goal of the final product is to generate summaries and headings from document groups to be used as an alternative to the traditional search result list. The first step is to generate document groups from the search result list of documents. 7 Document clustering algorithms need a way to tell if two documents are similar or not. There are algorithms for calculating these document similarity measures1 . Similarity measures could look for similarities in any feature of documents: time of creation, pictures, headings, content, diagrams, tables and so on. What features are used depend on the criteria of the clustering and the available features. In this case the final product needs document groups where the documents are about the same topic, therefore content is very relevant while creation date, for example, is mostly irrelevant [11]. By using the similarity measures the clustering algorithms try to find groups of documents where the documents within the groups are as similar as possible while documents of different groups are as differentiated as possible. Finding optimal solutions is usually computationally hard and thus unfeasible for real time applications. However, heuristics for finding good local optimums exist. The two most commonly used classes of clustering algorithms are the hierarchical algorithms and the k-means variants, which both are heuristics for finding local optimums [11]. Hierarchical algorithms work by building a tree of documents where different possible clusters are subtrees of the document tree. The two main problems the k-means variants faces are deciding the number of clusters in the solution and finding suitable centroids that the clusters can revolve around. 2.1.1 Language Independence Most document clustering algorithms do not have information of the content of the documents other than through the similarity measures [3, 18, 11, 14]. Therefore the language dependency of most clustering algorithms are only tied to the similarity measure used, since this is the only part of the algorithms that actually comes in contact with the language. Most similarity measures, give the similarity of term vector representations of the documents rather than the actual content, for example the similarity measures described in appendix A. Therefore the only way the language can effect the quality of the these clustering algorithms is through the term vector representation which is described in appendix C. Term vector representations are purely statistical, the actual meaning behind the terms are not taken into account by these models. This means that as long as the language has suitable features which are representative of the content (such as words), the vector space model can use these and is then nearly language independent. The only place where language comes into consideration in the construction 1 See appendix A for a list of common document similarity measures. 8 of term vector representations is in the preprocessing stages. Preprocessing and language dependent preprocessing steps are discussed in further detail in appendix B. Swedish, is a language very rich in morphology and especially rich in solid compounds, which makes it harder to analyze computationally. Regarding each solid compound as a term of its own seems unpractical as it would expand the term space greatly. An option would be to split the compounds into smaller terms, however it should be noted that some meaning could be lost in the splitting [18, p. 12]. Hence, as long as an algorithm only uses term vector similarity measures and do not use the content of the document in any other way, it is nearly language independent. 2.2 Hierarchical clustering One approach to document clustering is to use a hierarchical tree structure of documents. It is the “divide and conquer” approach to document clustering. The greatest strength of hierarchical clustering algorithms is the possibility to choose any clustering solution from the generated cluster hierarchy. The hierarchical clustering algorithms can be divided into two groups, agglomerative (bottom-up) and divisive (top-down). In agglomerative algorithms all documents begin in their own cluster, each iteration clusters are merged, each merge forms a link in the hierarchy, see algorithm 2. Divisive clustering algorithms start with all documents in one cluster and then iteratively divide the cluster and the resulting clusters. Each split forms a bond in the hierarchy, see algorithm 1. Unlike k-means, which requires the number of clusters in the solution to be predetermined, a hierarchical algorithm can be set to find good local optima by analyzing the hierarchy and stop after a certain threshold of some quality metric has been reached. This provides great flexibility in implementation. The flexibility however comes at a cost of speed. The time complexity of hierarchy clustering algorithms varies from algorithm to algorithm but is for exhaustive similarity analysis never less than O(n2 ), where n is the number of documents [18]. This is because all possible document pairs are compared in these cases. 9 Algorithm 1 General structure of divisive clustering algorithms. Usually t = 2 Assign all documents to a single cluster while iterations < n do Split the worst cluster into t sub clusters iterations ← iterations + 1 end while Algorithm 2 General structure of agglomerative clustering algorithms. Usually t=2 Assign each document a cluster of its own while iterations < n do Merge t most similar clusters iterations ← iterations + 1 end while 2.3 k-means k-means is a clustering algorithm which operates in document vector space. It keeps track of a fictive “centroid” document for each cluster. A centroid document is usually the mean vector of all documents in the cluster. k-means begins by assigning each cluster a random document, and then iteratively assigns every document to the closest centroid and updates the centroid. It does this until the distribution is stable, that is: no document changes cluster, see algorithm 3 for the pseudo code [3, 18]. The time complexity of k-means is: O(nkl), where n is the number of documents, k is the desired number of clusters and l is the number of iterations [3, 18, 11], which is very fast for a clustering algorithm. Like most clustering algorithms k-means needs some external way to tell how similar two documents are. Many similarity measures exist, see appendix A, which are compatible with k-means, but the consensus of the community is that the cosine similarity measure is the more appropriate measure for document clustering [21]. A k-means algorithm which uses a cosine similarity measure is often referred to as a spherical k-means. There are many variants and extensions to the k-means algorithm. There are various ways of initializing the clusters (e.g. k-means ++ [4]), different ways of measuring similarity between documents (e.g. euclidean-, dice-, jaccard- or cosine-similarity [11]) and different ways of calculating centroids (e.g. k-means, k-medians[20] or k-medoids[19]). 10 Algorithm 3 Pseudo code for the k-means algorithm. Assign k random documents to a cluster each. changes ← k while changes > 0 do changes ← 0 for all documents do Assign document d to the cluster c, whose centroid minimizes dist(centroidc , d) if document d changes cluster then changes ← changes +1 end if end for for all clusters do 1 Update centroid for cluster C to ∣C∣ ∑x j ∈C x j end for end while 2.4 Bisecting k-means A more hierarchical approach of k-means is the bisecting k-means algorithm. It is a divisive hierarchical algorithm which uses normal k-means to divide the clusters, it works in the following manner: 1. Find 2 sub-clusters using normal k-means. 2. Repeat step 1 a number of times and use the split which has highest overall similarity in the cluster. 3. Repeat step 1 and 2 recursively for each sub-cluster until the desired number of clusters has been reached. Bisecting k-means has been proven to provide better results than normal k-means in most cases [21]. Although it is presumably slower than regular k-means since it adds a lot of extra overhead. 2.5 Miscellaneous Clustering Methods There are however other clustering algorithms that do not fall into the previously mentioned two categories, this section covers a few of the other available methods. A genetic algorithm works with a large set of candidate solutions, lets the best solutions “survive” and forms new generations by mixing and mutating. In the 11 document clustering case the individual candidates are clustering solutions and then some kind of fast quality measure is used to determine how “good” the partitioning is, such as measuring overall similarity [11, p. 258]. Simulated annealing is another technique that is somewhat similar to a genetic algorithm. But instead of a population of candidate solutions, we only track one and swap documents between clusters. If the swap resulted in a better partitioning, we keep it. The algorithm terminates after a sufficient number of iterations and returns near optimal clusters [11, p. 258]. 12 Chapter 3 Summarization Algorithms This chapter aims to answer question 4, 5 and 6 from the problem statement in section 1.1. It will also attempt to explain the theory behind the two multidocument summarization algorithms evaluated in this thesis. 3.1 Generating Quality Summaries Since the goal of a summarizer is to generate quality summaries it is worth to discuss what a quality summary is and what needs it tries to meet. This is the subject of the third and fourth question of the problem statement: Multi-Document Summarization 4. What are the human needs a summary tries to fulfill? 5. How should a multi-document summarizer be built for it to produce summaries where these needs are met? Humans read summaries to get a quick grasp over new topics, summaries written by humans usually reflect this need. They are usually short while still containing the most valuable pieces of information. Computer generated summaries try to model the quality and style of human written summaries, which are regarded as ideal in this context. This means that a summarizer should aim to generate regular text with correct grammar and spelling, that brings up what humans regard as the most important parts. Information that is repeated and information that stands out, such as headings and captions are usually close to the core message of the document. Most summarizers focus on identifying the repeated information as it is easy to measure what words or phrases are repeated throughout the documents. Few summarizers focus entirely on selecting information that is present in headings and captions. This is mostly for two reasons: not all documents have text 13 with tagged captions and the captions are usually too few to get a big enough sample set of relevant information. However it is possible to combine these two techniques to achieve even better results, this could for example be done by boosting sentences or phrases that contain words present in the captions. Given that a summarizer has built a model of what phrases/information are important it must generate the actual text of the summary. There are above all two ways to do this. One way is to construct new sentences from the information, but this is a complex task which is most often avoided. Instead sentence extraction is often used. Sentence extractions simply identify sentences of the input documents that seem suitable to use in a summary and uses those sentences to construct the target summary. Sentence extraction has the benefit that each sentence is grammatically correct and each word is spelled correctly, given that the source documents are free from errors of course. Most often the sentences are ranked based on their key information density by the summarization algorithm. When the summary is put together the highest ranked sentences are simply concatenated together. For this thesis two sentence ranking algorithms will be implemented and evaluated. While a single document usually will not have multiple sentences containing the same message, the same is usually not the case for multiple documents. Using multiple sentences that says the same thing in a summary is wasteful and should be avoided. The most common way to reduce this problem is to set an upper limit on the similarity of the sentences in the summary. Another issue with sentence extraction is continuity. It is not uncommon for sentences to reference something in a previous sentence. If not the two sentences are both extracted and placed in the correct order the meaning will be lost or changed which might confuse the reader. There are however no easy solutions to this problem, since even identifying such errors is hard without analyzing the grammar of the sentence. Therefore this problem is usually ignored. 3.2 Language Independence Language dependent summarizers make assumptions on what language is used and uses that information to make a more informed decision on what the summary should contain. Almost no language dependent summarizers are designed for any other language than English, this thesis however aims to evaluate options of constructing summaries for documents written in Swedish. Question 6 of the problem statement in section 1.1, addresses the issue of summarizing documents written in other languages than English, this section 14 will attempt to answer this question: Multi-Document Summarization 6. Are any new problems introduced when generating multi-document summaries for documents written in Swedish rather than English? Very little research has been done on language dependent summarization of documents written in languages other than English. No Swedish language dependent algorithms were found during the research phase of this project, so instead some language independent solution had to be used. An algorithm is said to be language independent if it seems to get roughly equally good results when used with data of a variety of languages and no tested language got significantly inferior results. Constructing sentences is an example of a language dependent activity since the grammar and style of most languages differs in some way. The sentence extracting approach however can be language independent since the sentences it extracts are entire grammatically correct units. Therefore both summarization algorithms that will be evaluated in this thesis uses sentence extraction. Both summarizers should be language independent according to their respective articles [16, 8], however none of them has been tested on documents written in Swedish. This means that a poor result in the evaluation would falsify the hypothesis that the algorithms are language independent. This thesis will evaluate and compare the quality and performance of two methods of multi-document summarization. One is based on PageRank and the other on the Cover Coefficient concept, both use sentence extraction, both are language independent and both rank the sentences. 3.3 Summarizing using PageRanked Sentences This summarization method is greatly inspired by the PageRank algorithm, but applied to sentences instead of web pages. The idea to use PageRank to rank sentences for summarization was first explored by Mihalcea and Tarau in 2005, [16]. This section will give a short description of the original PageRank, explain how the modified PageRank works and how the original was modified to be able to rank sentences. 15 3.3.1 PageRank PageRank is a link analysis algorithm that was first introduced in 1998 by Page and Brin [5]. It was designed to rank web pages in a set on their relative importance based on how they link to each other. The more web pages that links to a web page the more important it is to PageRank. The importance of the linking web pages is also taken into account in the calculation. In the PageRank algorithm each web page is represented as a set of vertices in a graph and the links between the web pages are directed edges. PageRank can be viewed as a statistical model of a random surfer. The surfer starts at a random web page and clicks links at random, at each web page there is a small chance that the surfer manually enters the address of a new random web page. This probability is defined as 1 − d where d is called “the dampening factor” which is usually set to around 0.85. This model can be viewed as a Markov chain, the elements of the transition matrix is defined in equation 3.1. ⎧ ⎪ ⎪ l(p i , p j ) = ⎨ ⎪ ⎪ ⎩ (d−1) n (d−1) n +d⋅ 1 ∣out(p i )∣ if p i links to p j otherwise (3.1) Where out(p i ) is defined as the set of edges pointing from p i and n is the total number of web pages. The dominant eigenvector of this transition matrix will contain the probabilities of the random surfer stopping at any of the pages after a big number of transitions. This probability is the PageRank of a web page, a higher probability means that the web page is more important. 3.3.2 Adapting PageRank to Rank Sentences For this ranking algorithm to be used as a sentence ranker some features of web sites must be translated to features of sentences. Since PageRank in a more abstract sense ranks nodes in a directed graph, we need a model where sentences are represented as nodes in a directed graph. The original PageRank uses the links of web sites as the directed edges, in effect a web page A linking to web page B signifies that A “recommends” B. It also 1 distributed an equal weight to all the outgoing links ∣out(p for each web page i )∣ p i , so that the sum of the weights of the outgoing links are 1. To make the sentence graph model fit with the PageRank algorithm there must be directed weighted edges that signify a “recommendation” from one sentence to another. Also the sum of the weights of the outgoing “recommendations” should be 1, so that all sentences get an equal power to “recommend”. Mihalcea and Tarau used a document similarity measure to get a number on to what extent the two sentences “recommend” each other [5]. Note that this means 16 that all edges point both ways and have equal weight, given that the similarity function is symmetrical. Mihalcea and Tarau recommended the use of a similarity measure that uses term overlap of the sentences normalized by the size of the sentences. This description fits the definition of the dice similarity fairly well. The dice similarity is defined as twice the number of intersecting terms of the sentences divided by the sum of the length of the sentences, see section A.4. The PageRank sentence ranking scores are thus found in the dominant eigenvector of this modified PageRank transition matrix. The sentences that receive the greatest PageRank are usually those sentences that are similar to many of the sentences, or very similar to some of the more “popular” sentences. As with the regular PageRank it is more valuable to be recommended by the more “popular” nodes. This sentence ranking system works under the common assumption that most sentences that are good representatives of the document as a whole, is similar in content to many of the sentences in the document. A sentence similar to many other sentences in the document should contain information close to the core of what the document in large is about. 3.4 Cover Coefficient Matrix based Summarization The Cover Coefficient (CC) concept were first used by Fazli Can and Esen A. Ozkarahan in: “Concepts of the cover-coefficient-based clustering methodology” from 1985 [6]. The CC concept uses a primitive representation of the documents called: “the boolean model of information retrieval” (BIR). It views each document as a set of words, that is: no term frequency or other information is used. In the BIR each document can be seen as term occurrence vector, which is a boolean vector where each dimension i of the vector corresponds to a term t i and the value of each element denotes if that term is present in the document. These vectors can be combined into a document by term matrix D, where each term occurrence vector d i is a row in the matrix. At the core of the CC concept is the C matrix. The C matrix is a document by document matrix where each entry c i j denotes how much document d i “covers” document d j . The “coverage” can be seen as a double-stage probabilistic 17 RRR 1 RRR RRR0 R D = RRRR 1 RRR RRRR 1 RRR 1 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 0 1 0 1 1 RRR0.29 RRR RRR0.00 R C = RRRR 0.15 RRR RRRR 0.08 RRR 0.12 0RRRR R 1 RRRR R 1 RRRR R 0RRRR R 1 RRRR 0.00 0.29 0.08 0.28 0.13 0.29 0.13 0.29 RRRR R 0.08 0.21 0.17 RRRR R 0.23 0.06 0.23 RRRR R 0.08 0.36 0.19 RRRR R 0.18 0.12 0.25RRRR Figure 3.1: An example document term occurrence matrix D and the resulting Cover Coefficient C Matrix experiment, see equation 3.2. n c i j = ∑ A(d i , t k ) ⋅ B(t k , d j ) 1 ≤ i, j ≤ m (3.2) k=1 Where A(d i , t k ) and B(t k , d j ) are each a part of the double-stage experiment, n is the number of terms and m is the number of documents. A(d i , t k ) is the probability of randomly choosing term t k from document d i and B(t k , d i ) is the probability of randomly choosing document d i out of all the documents that contains the term t k . These two probabilistic experiments are illustrated in equation 3.3 and 3.4. A(d i , t k ) = d i (t k ) sum(d i ) (3.3) B(t k , d j ) = d j (t k ) n ∑l=1 d l (t k ) (3.4) Where d i (t k ) is 1 if term t k is present in document d i and 0 otherwise; sum(d i ) is the number of different terms present in the document. The C matrix can be interpreted as a similarity table of sorts, the higher c i j or c ji is the higher the overlap of the terms in document d i and document d j are. However in contrast to most similarity metrics, the C matrix is usually not symmetric as can be seen in the example C matrix in figure 3.1. Since the double-stage experiments of each row in the C matrix encompass the whole of probability space, the sum of the probabilities of each row in the C matrix are 1 [6]. 3.4.1 Ranking Sentences using Cover Coefficients In 2009 Gonenc Ercan and Fazli Can introduced a way to rank sentences for extraction based summaries using the cover coefficient concept [8]. They took advantage of the similarity property of the C matrix and made the assumption that sentences that are similar to the whole document are good candidates to use in a summary. To rank the sentences the rows of the D matrix must contain the boolean BIR vectors of the sentences (rather than entire articles) as rows. Since the sum of 18 the elements of each row in resulting the C matrix are equal 1, we can conclude that the diagonal elements c ii measure the dissimilarity of sentence i to the other sentences in the sentence space. Or it can be viewed the other way around, the similarity Ψ of sentence i to the rest of the sentences can be calculated like this: Ψ = 1 − c ii . The sentences with high Ψ similarity value is most probably central to the text and thus a good candidate to include in a summary. When summarizing multiple documents using the cover coefficient concept one should let the D matrix contain representations of all sentences from all documents. The Ψ value will then show which sentences are central to the entire document set. However when summarizing multiple documents special precaution should be made to avoid repetition of information. Ercan and Can proposes to set an upper limit to how similar a sentence can be to any other sentence in the summary using the cover coefficients [8]. Their criterion for a repetition were: cjj c ii < c i j or < c ji π π where π is a predetermined constant. Setting π to 2 means that the sentences cannot be in the same summary if any of their coverage probabilities are greater than half of a perfect coverage. The final summary is constructed by concatenating the sentences with the highest Ψ value. 19 Part II Method 20 Chapter 4 Clustering Search Results The purpose of this chapter is to motivate and formulate the methodology of the evaluation of the clustering algorithm implementation. It will also attempt to answer question 3 from the problem definition in section 1.1. Document Clustering 3. What is the ideal document clustering technique for both multi-document summarization and cluster labeling? To this end this chapter will also formulate a hypothesis and a test which may falsify it. The result of the test will be presented in the evaluation of the clustering algorithm, in Chapter 8. 4.1 Requirements While inspecting the use case in Section 1.2 it became apparent that a document clustering algorithm had the following requirements. Running time — The algorithm will have to run fast, since it will process the result from the search engine coming back to the user. Cluster quality — The clustering module is a part of a pipeline, where the later stages of the pipeline will expect a certain level of quality in the clusters. Structure — The clusters do not gain anything from having a hierarchical structure. Flat clusters should do just fine. Development time — The time assigned for the clustering phase was merely two weeks, which is enough to implement a sturdy well tested clustering algorithm. 21 Using these requirements and the background information from chapter 2 the candidate algorithm is chosen to be k-means due to its promise of speed and simplicity in development. It also creates a flat structure of clusters of a high quality [21]. With this pretense, we can formulate a hypothesis. Hypothesis 1. k-means is an ideal document clustering technique for document clustering in an information retrieval application. Hypothesis 1 can be accepted if it passes the evaluation described below. That is if hypotheses 2 and 3 are accepted. 4.2 Evaluation of the Clustering Implementation To ensure the quality of the clustering implementation it will be evaluated on three different metrics. Two of them, F-measure and purity, measure the “quality” of the clusters while the last measures the speed performance of the implementation. For the k-means implementation to be of any use it needs to be significantly superior to the random clustering algorithm, see hypothesis 2. Hypothesis 2. k-means is able to produce clusters with significantly higher Fmeasure and purity scores than the random clustering algorithm, when 2 ≤ k ≤ 5 and the documents are of reasonable size. 4.2.1 Test Data To evaluate the result of a clustering algorithm we need to know what a good cluster distribution looks like. The goal of a document clustering algorithm should be to put documents in clusters similar to how a human would categorize them. The most common way to achieve this is to let humans categorize a predefined set of documents, these categorizations are called a “gold standard” of a particular document set. The gold standard is then viewed as a kind of ideal cluster distribution with respect to how a human would cluster the documents. To make the test data as close to real world applications as possible, a large data set with pre-categorized documents were needed as gold standard. Another requirement of the test data were that the documents should be in Swedish, this narrows down the array of publicly available data sets significantly. Wikipedia offers such a resource in many languages including Swedish and were therefore used for the clustering evaluation. The evaluation will also attempt to follow the use case as close as possible, therefore the Swedish Wikipedia will be 22 indexed by a search engine. Each test will be a query on the search engine on various categories in Wikipedia, the result of the query will be clustered and the clusters evaluated. The search queries will be chosen in such a way the search result has enough documents to cluster and a varying number of categories. The Wikipedia Data set • 429 887 documents • Accessed 2012-02-19. • 1355 characters is the average length of a document. 4.2.2 F-Measure F-measure is a test of accuracy commonly used in the information retrieval field. It is defined as the harmonic mean of the precision P and recall R, of the whole clustering solution, see equation 4.1. F= 2PR P+R (4.1) The definition of precision and recall we will use, is the one presented by Ricard Marxer and Hendrik Purwins [15]. The precision P and recall R of the whole clustering solution can be calculated as the weighted sum of the clusters individual precision and recall, see equation 4.2 and 4.3. P= 1 ∑ P(c) ⋅ ∣c∣ ∑ ∣c∣ c∈C (4.2) 1 ∑ R(c) ⋅ ∣c∣ ∑ ∣c∣ c∈C (4.3) c∈C R= c∈C Where C is the set containing all gold standard categories. The cluster specific precision and recall are in turn the weighted sum of the precision and recall of the [cluster, category] pairs, see equation 4.4 and 4.5. P(c) = 1 ∑ P(c, k) ⋅ ∣c ∩ k∣ ∣c∣ k∈K (4.4) R(c) = 1 ∑ R(c, k) ⋅ ∣c ∩ k∣ ∣c∣ k∈K (4.5) 23 Where K is the set containing all generated clusters. The precision and recall of [cluster, category] pairs can be described as follows: Precision The fraction of documents in a cluster that is of a specified category. Recall The fraction of the documents of a specific class that populates a cluster. They can be calculated using equation 4.6 and 4.7 below. P(c, k) = { 1 − ∣c C ∩ k∣ / ∣c C ∣ 1 R(c, k) = { (∣c ∩ k∣ − 1) /(∣c∣ − 1) 1 if ∣C∣ > 1 otherwise if ∣c∣ > 1 otherwise (4.6) (4.7) Again, C is the set of gold standard categories, when the set only contains one category the purity score is automatically perfect. While c C denotes the complement to the set c. In this case c C means all documents that are not of category c. 4.2.3 Purity Purity is a more simple and straightforward measure, it measures the coherence of a cluster. It is calculated as the fraction of documents in a cluster that belong to the most common category of that cluster, see equation 4.8. If all documents in a cluster belong to the same category, that cluster achieves the perfect purity score of 1.0. P(C i ) = 1 max(n hi ) ni h (4.8) Where maxh (n hi ) is the number of documents of the dominant category in cluster C i and n i is the total number of documents in cluster C i . The overall purity of a clustering result can be calculated as the weighted sum of the purity of all clusters weighted by the size of the clusters, see equation 4.9 [18]. ∣C∣ P(C) = ∑ i ni P(C i ) n (4.9) n is the number of documents and ∣C∣ is the number of clusters. However it is important to note that purity does not take cluster size or the number of categories into account. If a document is alone in a cluster that cluster 24 will get a perfect purity score of 1.0, even though this often is not considered “good” clustering. The purity score must also be compared to the number of categories. With a larger number of categories higher purity values becomes harder to achieve, while with a lower number of categories a lower purity score is impossible, if there only are two categories the lowest possible purity score is 0.5. 4.2.4 Performance The performance of the algorithm is an important aspect to measure since the use case scenario illustrates a query time feature in a search engine. Measuring the actual time it takes to run the algorithm is therefore crucial for the evaluation of the algorithm. The use case scenario will handle about 0−200 documents from the search result. Studies have shown that users are willing to wait two seconds for information retrieval applications [17], from this assumption hypothesis 3 was constructed. This suggest that the performance threshold for the clustering algorithm would be to be able to cluster about 100 pages / second. Hypothesis 3. k-means is able to cluster 200 documents of reasonable size in under two seconds, on a reasonably powerful consumer laptop. The suggested approach for testing hypothesis 3 is as follows. 1. Get all n pages from the corpus. 2. Start measuring time. 3. For every 200 pages from the corpus: a) Run cluster algorithm with the selected 200 documents. 4. Stop measuring time. 5. Calculate time difference between stop and start events and divide by n/200. — Is the resulting value above or below 2? 25 Chapter 5 Evaluating the Summarizers This chapter aims to answer the question regarding the method of evaluation from the problem statement in section 1.1, namely question seven: Multi-Document Summarization 7. How should the quality and performance of a generated multi- document summarizer of Swedish documents, be evaluated? 5.1 The Summarizers The summarizers that are implemented and evaluated are the PageRank summarizer and Cover Coefficient summarizer explained in the background, chapter 3. Also two baseline summarizers, one that will pick the first sentences from each document and the other will take random sentences until the threshold size has been reached. The baseline summarizers are trivial algorithms which the more sophisticated algorithms (PageRank and Cover Coefficient) will be compared to. If the sophisticated algorithms can’t beat the base line at producing quality summaries we can conclude that they are not producing high enough quality summaries, for practical use. Furthermore the PageRank and Cover Coefficient summarizers implements two boosting schemes: early boost and heading boost. Early boost boosts sentences appearing earlier in the document while heading boost boosts the score of sentences containing words from the heading. 5.2 Evaluation Methods The target audience of the summaries are humans, therefore human opinion is needed to make any kind of relevant evaluation. Martin Hassel wrote an excellent outline of different evaluation methods in his PhD Thesis: “Resource 26 Lean and Portable Automatic Text Summarization” [10]. In it he divides the different evaluation methods into two groups: intrinsic evaluation and extrinsic evaluation. 5.2.1 Extrinsic Evaluation Extrinsic evaluation lets some humans read the actual generated summaries and then tries to measure the level of knowledge gained by reading it. It could be by testing their knowledge in a questionnaire before and after reading the summary. If the summary is a summary of instructions it is possible to measure how the result of following the instructions in the summary differ from following the actual instructions. The greatest drawback of extrinsic evaluation is that it is expensive on human resources. A separate test must be put together for each summarizer and document group. Also each time a summarizer is changed in any way the tests must be repeated to evaluate the new version, making an iterative work flow tremendously expensive. These expenses make any extrinsic evaluation unviable for this thesis. 5.2.2 Intrinsic Evaluation In contrast to extrinsic evaluation methods the humans never reads and evaluates the generated summaries in intrinsic evaluation, per se. Instead the human testers write summaries of their own, that later will be compared to the generated summaries. The human written summaries are viewed as “ideal” for the purpose of the evaluation, they will henceforth be referred to as gold standard summaries. Intrinsic evaluations are much cheaper in human resources than the extrinsic variants. With intrinsic evaluation, only a few gold summaries need to be generated per document group. Any number of summarizers can be evaluated using the same set of gold standard summaries. The weakness of intrinsic evaluation is that the target audience has no direct say in the evaluation process of the summarizer. They are never shown the generated summaries and their opinion of them are thus not taken into account. A summary could be of good quality without being similar to any gold standard summary (and therefore regarded as a poor summary by intrinsic evaluation) and vice versa. However due to time constraints only intrinsic evaluation will be performed in this thesis, extrinsic evaluation will be left as future work. 27 5.2.3 ROUGE How should the similarity between the gold standard summaries and the generated summaries be measured? The ROUGE measure has become the de facto standard for evaluation of single- and multi-document summarization. ROUGE is a script for comparing gold standard summaries with computer generated summaries [12]. It was developed by Chin-Yew Lin after his success at finding a correlation between perceived summary quality and n-gram cooccurrence in generated and gold standard summaries [13]. Unsurprisingly ROUGE measures n-gram co-occurrence between two or more summaries (usually a generated-summary and a set of gold standard summaries), and gives it a similarity measure between 0 and 1. ROUGE has several different modes of operation which will result in different ROUGE scores: ROUGE-1 . . . n The simplest of the ROUGE scores, it calculates the recall of n-grams from a generated summary and a set of gold standard summaries. ROUGE-2 for example calculates the bigram recall of some summaries. ROUGE-L Measures the similarity by calculating the longest common subsequence of terms between the generated summary and the gold standard summaries. ROUGE-Sn Calculates the recall of skip-bigrams. Skip-bigrams are ordered pairs of terms in the sentences where n is the maximum number of terms that may be between the two terms. ROUGE-SUn Is a variant of ROUGE-Sn which also rewards unigram recall. This means that it will reward sentences with similar term sets even when the terms are out of order. According to the evaluation of the ROUGE scores mentioned earlier [12] the most accurate ROUGE score for evaluation of multi-document summarization is: ROUGE-1, ROUGE-2 and ROUGE-S4. Therefore these are the scores that will be calculated in the evaluation. 28 Category The Death of Khaddafi The Death of Kim Jong-Il Juholt’s Resignation The Knutby Murders The Murder of Anna Lindh The Pirate Bay Trail (SD) enters Riksdagen Tsunami in Japan 2011 Total Documents 11 13 8 10 10 10 7 10 79 Words (k) 4.2 4.4 4.3 4.9 4.0 5.5 5.9 4.1 37.1 Terms (k) 2.1 2.2 1.6 2.3 2.0 2.5 2.6 2.0 17.4 Table 5.1: An overview of the sizes of the document groups summarized in the evaluation. The words are measured in thousands of words and the terms are the number of words that are left after the preprocessing. 5.3 Gathering Test Data ROUGE needs document groups with gold standard summaries to function, this section will explain how these articles and gold summaries was procured. 5.3.1 Gathering Documents to Summarize For the evaluation to generate reliable results multiple document groups had to be gathered, where the documents of each group should cover roughly the same topic. The documents gathered were articles from online versions of Swedish newspapers. Most of the articles are from Dagens Nyheter but some are from Svenska Dagbladet, Aftonbladet, Expo Idag, Sydsvenskan and UNT.se. All articles are from the years 2004-2012. Using news articles as input for multidocument summarizers is practical since it is easy to find groups of articles about the same news event. The categories of news stories should be large, but a too large data set would make the gold standard creation process too cumbersome. Also each group should be approximately equal in size, this way their combined result will give us a clear picture of how effective the summarization algorithms are at that size. With this in mind we decided to gather eight document groups, each containing about ten articles and each with a total of about 4500 words. See table 5.1 for an overview of the document groups and their sizes, for the actual articles see appendix E. 29 Category The Death of Khaddafi The Death of Kim Jong-Il Juholt’s Resignation The Knutby Murders The Murder of Anna Lindh The Pirate Bay Trail (SD) enters Riksdagen Tsunami in Japan 2011 Total Gold Std Summaries 2 3 2 2 3 2 3 2 19 Table 5.2: An overview of the gold standard summaries that were gathered for the evaluation. 5.3.2 Creating the Gold Standard Summaries Since there are no good available gold standard summaries for multi-document summarization evaluation in Swedish, such summaries had to be created for this thesis. The gold standard summaries must of course be written by humans, this is a nontrivial time-consuming task. Since the process is very costly, producing a giant, rigorous set of gold standard is unfeasible given the resources available to a masters thesis. But the gold standard set gathered for this thesis should none the less be enough for the result to carry some weight. Since the style of summarization can vary greatly from person to person, more than one gold standard summary should be created for each document group. With this in mind and the limitation of resources it were decided that two to three gold standard summaries per category should be enough. In total 19 summaries were written to be used as gold standard for this thesis, See table 5.2 for an overview of how many gold summaries were written for each document group. See appendix G for the actual gold standard summaries. To ensure that all participants of the gold standard writing process were working with the same information they were all given the same instructions, see appendix F. As can be seen in the instructions, all participants were asked to fill in some personal information, this was to make sure that the demographic of the participants were somewhat balanced. A balanced demographic would probably result in greater variety in the written gold standard summaries. But since the generated summaries are all compared to the same sets of gold standard summaries, no generated summary will have any advantage over any other summary. As long as multiple document sets are tested, lack of variety in gold standard summaries should not be of much concern. 30 Age 0 - 30 31 - 60 61 - 90 participants 3 2 2 Table 5.3: An overview of the age distribution of the gold standard summary authors. Level of Education Primary Secondary Tertiary participants 1 4 2 Table 5.4: An overview of the distribution of completed educational levels of the gold standard summary authors. There were seven participants who wrote gold standard summaries, three women and four men, for age distribution and the distribution of educational level see table 5.3 and 5.4. 5.4 Performance Test The goal of the summarizers is that they should be fast enough to run in query time. That is, a user should not be kept waiting for an unreasonable amount of time after the search button is pressed. Studies have shown that users are willing to wait two seconds for information retrieval applications to respond [17]. As described in section 1.2 200 document should be handled by the application. Therefore the summarizers will be tested at reasonable cluster sizes of about 50 − 70 documents to see if the algorithms can keep up to the goal speed at 100 documents per second. 31 Part III Implementation 32 Chapter 6 The Search Engine This chapter will briefly describe the existing information retrieval products used in the evaluation and implementation parts of this project. 6.1 Apache Solr Apache Solr is an enterprise search platform written in Java. It uses Apache Lucene search library for indexing and searching and provides a simple interface for its indexing and searching capabilities. It can be incorporated as a servlet in tomcat and has many features useful for NLP, such as tokenization, token filtering, stemming etc. It is also one of the many search engines that Jellyfish supports. 6.2 Jellyfish Jellyfish acts as an abstraction layer between the search engine and the end-user. Jellyfish has the benefit that the underlying search engine can easily be swapped to another supported search engine. It also has the ability to modify the search query on its way to the search engine and the result on its way to the user. This makes it possible to improve the search query, change the result and the representation of the result for the user. For example, clustering the search result and creating a summary of them. Since the goal of this joint project is to show a new way to present search result, one could see the final product for the use case (see section 1.2) as a Jellyfish module which modifies the appearance of the search result. 33 6.3 Working with a Search Engine The main focus of the application is that it will interface against a search engine to get its data. The search engine is utilized for its ability to find documents relevant to the user query. In practice, it means that the clustering, labeling and summarization algorithms will be implemented as filters to and from the search engine going to the web browser. The JellyFish framework makes this easy, it can run a number of features. An overall architectural design is described in figure 6.1. Both clustering, summarization and labeling are all implemented as JellyFish features and focus on their specific tasks. Figure 6.2 displays the setup. Note that the preprocessing is moved to index time to save precious execution time, but in theory it could just as well be kept as a submodule of the various features. 34 Figure 6.1: High level architecture of solution. Figure 6.2: Architecture of query time components. 35 Chapter 7 The Framework This chapter will touch on how the algorithms in chapter 4 were implemented and what preprocessing was used on the input data. 7.1 Document Gathering The data used in the evaluation of the document clustering algorithm are articles from the Swedish Wikipedia. The data is taken from a raw dump of all the articles in XML-format1 , with the article text itself in wikitext format. When indexing the data we strip the articles from all formatting to get only plain text, which is then preprocessed. 7.2 Preprocessing The preprocessing is built as a pipeline of stages which cleans the incoming data in various ways. These stages are of course something that already exists in many search engines. But to really be certain of what actually happens and to stay search engine independent it was decided that most of the preprocessing would be implemented from scratch. Each stage takes a variable number of strings as input and outputs a variable number of strings. By combining the stages in different orders in a pipeline different results can be achieved. There are four main types of stages. There are filtering stages, which simply remove certain text tokens; there are merging stages which reduces the number of text tokens by merging them; there are mutating stages which alters the tokens in some way; and finally there are splitting stages which splits tokens into more tokens. Below, in table 7.1, is a list of the implemented stages. 1 The XML-format is badly documented, but partially described at http://meta. wikimedia.org/wiki/Help:Export. 36 Step Type Tokenizer Splitting Uses the Stanford NLP “PTBTokenizer”[2] to split tokens into word tokens. Splitting Uses the Stanford NLP “WordToSentenceProcessor”[2] along with the “PTBTokenizer” to split a text into its sentences. Splitting Builds n-grams from a series of tokens. The input “test”, “text” would have the output “test”, “text”, “test text” if the ngram builder would be set to build bigrams. Sentence splitter n-gram builder Description Term counter Merging Finds duplicates of tokens, merges them into one token and counts their frequencies. Stop word remover Filtering Removes all tokens which matches a predefined list of known “stop words”, see appendix D for the full list. Filtering Removes all tokens that are only made up of symbols. It does this by removing everything that matches the following regular expression ^[^a-zA-ZÅÄÖåäö0-9]+$. Symbols remover Lemmatizer Stemmer Case normalizer Wikitext stripper Mutating Uses lemmatization to convert tokens into their lemmas, or their base form. The lemmatization module used is an internal Findwise component, which is not open to the public, but it is a rule based variant which uses a long list of known words and their lemmas. Mutating Uses the Swedish stemmer from the Lucene Snowball Library[1]. Mutating Attempts to normalize the case of characters such that “Fish” and “fish” will both be “fish”. Mutating Strips each text token from wikitext, which is the formatting tagging used by Wikipedia. Table 7.1: All the implemented stages for preprocessing raw data. For further details regarding common preprocessing in NLP-applications, see appendix B. 37 7.3 Clustering Implementation The clustering implementation expects input documents from the search engine, which are the result of a search query. It receives these documents and then preprocessed them using the following pipeline: Tokenizer → Symbols remover→ Case normalizer→ Stop word remover→ Stemmer→ Term counter The output is used to calculate the TF-IDF (see appendix C) vector for each document. Finally it executes the k-means algorithm (Section 2.3) on √ the documents. Using the “good rule of thumb” to assign a value to k: k = n/2 [9, p. 365]. Which produces clusters of documents where each document is a member of exactly one cluster. 7.4 Summarization Implementation The implementation architecture of the summarizers was as follows: 1. Retrieve clusters from the clustering algorithm 2. For every cluster: a) Send the cluster to the summarization algorithm b) Get a summary of desired size from the summarization algorithm c) Assign the summary to the cluster The implementation of both the PageRank summarizer and the Cover Coefficient summarizer preprocesses the documents in the following way before any algorithm specific computation takes place. First they both use the Sentence splitter stage and then for each resulting sentence they clean and minimize the term space using this pipeline: Tokenizer → Case normalizer→ Stop word remover→ Stemmer→ Term counter This results in a reduced term frequency vector for each sentence, these vectors are then used to represent the sentences for the summarizers. 38 Part IV Evaluation Results 39 Chapter 8 Clustering Results This chapter contains and discusses the results from the evaluation described in Chapter 4. 8.1 Result Below, in table 8.2 is the results from the evaluation described in Section 4.2.2 and Section 4.2.3. The random clustering algorithm has also been tested in order to give a baseline measurement. The performance test described in Section 4.2.4 was executed with all of the CPU Memory Hard drive Intel Core 2 Duo Processor SU7300, 1.4 GHz DDR3 1066 MHz SD RAM, 4 GB SSD OCZ Vertex 3, 550 MB/s read, 500 MB/s write Table 8.1: Hardware specifications of target test computer. k Test Runs Algorithm F-measure Purity Average Stddev Average Stddev 2 45 k-means Random 0.46 0.43 0.09 0.02 0.78 0.77 0.12 0.13 3 120 k-means Random 0.49 0.37 0.03 0.01 0.66 0.64 0.11 0.12 4 210 k-means Random 0.48 0.31 0.03 0.01 0.57 0.55 0.09 0.10 5 252 k-means Random 0.48 0.27 0.04 0.01 0.51 0.47 0.07 0.08 Table 8.2: F-measure and Purity results for the clustering algorithm. 40 corpus documents, generating the results in table 8.3. The input sizes 50, 100, 150, 200, 250 and 300 were tested against the entire corpus. No baseline has been given in this case, only absolute values to compare against the acceptance threshold of 100 documents per second. The machine running the performance tests is a standard consumer laptop with the specifications depicted in table 8.1. Performance Results Documents to cluster Total time (seconds) Documents / second 50 100 150 200 250 300 313 1372 756 568 1221 352 2014 213 2724 158 3544 121 Table 8.3: Performance results for the k-means clustering algorithm at different document set sizes. Using a corpus of 429 887 documents. 8.2 Discussion Inspecting table 8.2 we see that k-means outperforms the random clustering algorithm on average, although the standard deviation is a bit higher. The data strongly suggests that we can accept hypothesis 2 from Section 4.2. However, when manually inspecting the actual clusters that the k-means algorithm produces, the quality is not good enough for the intended purposes of summarization and labeling. But it is worth to note that the k-means algorithm is better than random. We believe that there must exist better algorithms than k-means for this application, see Section 8.2.1. The strong suite of k-means might not be quality, but it does hold its promise of performance which can be clearly seen in table 8.3. It is able to cluster up to 300 documents and still manage te keep under the threshold speed of 100 documents per second. This is much thanks to that all the preprocessing is done in index-time. The only thing done in query time is simply reading the term frequency vectors from the search engine, calculating the TF-IDF vectors from them and then running the clustering algorithm. Hypothesis 3 can be accepted without a doubt. Since both hypothesis 2 and 3 are accepted, we can accept hypothesis 1. 8.2.1 Future work The clustering work of this project is by no means complete. There are many areas which can be inspected more thoroughly. 41 The most obvious improvement would be a better way to find k for k-means, a more accurate k would result in higher quality clusters. The current “rule of thumb” way of determining k is only little better than a guess. A more informed way of choosing the initial set of centroids might also improve the quality of the clusters in some cases, good initial centroids makes k-means less likely to get stuck in a low local maxima. Finally as k-means does not seem to provide high enough quality clusters, more clustering algorithms could be evaluated. A higher quality clustering is required for the subsequent algorithms to function properly. 42 Chapter 9 Evaluation Results of The Summarizers This chapter will present and discuss the results of the multi-document summarizer evaluation outlined in chapter 5. Using these results, we will attempt to answer the final question of the problem statement in section 1.1: Multi-Document Summarization 8. Is it possible to generate multi-document summaries of quality quickly enough to be usable in query time? 9.1 Results Table 9.1, 9.2 and 9.3 show the ROUGE scores of the PageRank Summarizer and Cover Coefficient Summarizer as well as the two baseline implementations: First Sentences and Random Sentences. ROUGE is a method of measuring quality of summarizers by looking at the similarity between the generated summaries and some gold standard summaries written by humans, it was explained in further detail in section 5.2.3. The First Sentences summarizer simply takes the first sentence from each document in the set, then the second sentence from each document and so on until the length threshold is reached. The Random Sentence summarizer picks random sentences from the document set, duplicate sentences are not allowed. The PageRank summarizer and the Cover Coefficient summarizer also boosts the rank of the sentences that appear early in their documents and sentences with words that appeared in the heading. rank = SentenceRankScore 1−bw ⋅ BoostScore bw BoostScore = ke yBoost ⋅ earl yBoost ke yBoost = 1 + (kb ⋅ termsInCommonWithHeader) 43 BoostScore = { eb if sentence is within the first 33% of the document 1 otherwise After some systematic testing where all combinations of bw = [0.1, 0.2, ⋯, 0.9], kb = [0.1, 0.2, ⋯, 0.9] and eb = [1.0, 1.5, ⋯, 5.0] were tested, the following values of the variables: bw (boost weight), kb (key boost) and eb (early boost) were found to lead to good results. bw = 0.3 kb = 0.3 eb = 3.0 The result of the performance test can be seen in table 9.4 and 9.5. The first row of both tables measures the mean time of 100 test runs it took for the summarizer to summarize a document set of a given size. The second row of both tables shows at what speed the summarizers summarize at a given document set size, measured in documents per second. The documents in the sets are the same documents that were used in the ROUGE evaluation, see section 5.3 for further information on the properties of these documents. Each test run uses a set of documents of the given size that were put together by picking random documents from the entire document set, until the size the set was of the given size. For specifications of the performance test computer see table 9.6. 9.2 Discussion The Cover Coefficient summarizer constantly outperforms the PageRank summarizer in both quality and performance, though only slightly. However the First Sentence summarizer seem to get almost as good results as the Cover Coefficient summarizer. The First Sentence summarizer is of course much easier to implement and runs a lot faster than the more sophisticated summarizers. Since the First Sentence and Random Sentence summarizers only pick sentences until the threshold length is reached their running time does not scale with the size of the document set. But why use sophisticated solutions when the First Sentence summarizer is just as good? Since all articles used in the evaluation test were news articles the vast majority of them started with a few sentences which summarized that article. 44 ROUGE-1 Max Length (Words) PageRank Cover Coefficient First Sentences Random Sentences 100 (CI95%) 150 (CI95%) 200 (CI95%) 0.28 (0.23-0.32) 0.32 (0.27-0.36) 0.33 (0.29-0.37) 0.18 (0.14-0.22) 0.28 (0.23-0.32) 0.31 (0.27-0.35) 0.31 (0.27-0.35) 0.18 (0.14-0.23) 0.26 (0.22-0.30) 0.28 (0.24-0.31) 0.28 (0.24-0.32) 0.16 (0.12-0.20) Table 9.1: The ROUGE-1 scores for the summarization algorithms, at different summary sizes with a 95% confidence interval for each score. ROUGE-2 Max Length (Words) PageRank Cover Coefficient First Sentences Random Sentences 100 (CI95%) 150 (CI95%) 200 (CI95%) 0.09 (0.06-0.11) 0.13 (0.10-0.16) 0.12 (0.09-0.15) 0.02 (0.01-0.03) 0.10 (0.07-0.13) 0.12 (0.09-0.15) 0.12 (0.09-0.14) 0.02 (0.01-0.03) 0.10 (0.07-0.12) 0.11 (0.09-0.14) 0.11 (0.08-0.13) 0.02 (0.01-0.03) Table 9.2: The ROUGE-2 scores for the summarization algorithms, at different summary sizes with a 95% confidence interval for each score. ROUGE-S4 Max Length (Words) PageRank Cover Coefficient First Sentences Random Sentences 100 (CI95%) 150 (CI95%) 200 (CI95%) 0.06 (0.04-0.08) 0.09 (0.07-0.12) 0.09 (0.06-0.11) 0.01 (0.01-0.02) 0.08 (0.05-0.10) 0.09 (0.07-0.11) 0.08 (0.06-0.10) 0.01 (0.01-0.02) 0.07 (0.05-0.09) 0.09 (0.07-0.11) 0.08 (0.06-0.10) 0.01 (0.01-0.02) Table 9.3: The ROUGE-S4 scores for the summarization algorithms, at different summary sizes with a 95% confidence interval for each score. Performance - PageRank Document Set Size 10 20 30 40 50 60 70 Running time (sec) Documents/Second 0.097 103 0.261 77 0.408 74 0.580 70 0.827 60 1.147 52 1.395 50 Table 9.4: The performance result of the PageRank based summarization algorithm, the results are the average out of 100 test runs at different document set sizes. 45 Performance - Cover Coefficient Document Set Size 10 20 30 40 50 60 70 Running Time (sec) Documents/Second 0.100 100 0.217 92 0.376 80 0.551 73 0.711 70 0.891 67 1.099 64 Table 9.5: The performance result of the Cover Coefficient based summarization algorithm, the results are the average out of 100 test runs at different document set sizes. CPU Memory Intel Core i3 CPU M350, 2.27GHz DDR3 1334 MHz SDRAM, 8 GB Table 9.6: Hardware specifications the performance test computer. It would not be out of the question to assume that those sentences might also be quite good to use in a summary for the entire article set, if the article set is cohesive. If this is the case we can assume that the First Sentence summarizer will do much worse when the articles do not include this summary. If it is known that the document sets will have short summaries at the beginning of each document, using these sentences will do just as well as a more sophisticated solution, while also being much faster. However, for more varied document sets, we would be better off using a more advanced summarizer. Since the PageRank summarizer and the Cover Coefficient summarizer perform equally well as the First Sentence summarizer without using the summary at the beginning of each document, it is reasonable to assume that they would produce just as good summaries for documents that do not include summaries at the beginning. This is of course not true for the First Sentence summarizer which assumes that the beginning of each document is good to use as a summary, it would thus not perform as good in that case. Both the PageRank summarizer and the Cover Coefficient summarizer are however significantly better at producing quality clusters than the random summarizer. This means that they are able to find many important sentences for their summaries. Since neither of them had been tested on Swedish documents earlier, their language independence has now been confirmed for yet another language. One thing that might improve the results further would be splitting the Swedish compound words, Swedish uses compound words at many places where English would simply use its constituents. This is problematic since it drives up the 46 term space which muddles down the statistical analysis of the words, without providing much additional information [7]. Another observation is that the ROUGE steadily gives less score the longer the summaries get. This is to be expected since the summarizers rank the sentences on how appropriate they are to use in a summary, this means that the longer the generated summaries are the more lower ranking sentences have to be included. The lower ranking sentences will thus bring down the score of the entire summary, since the ROUGE scores presumably also thinks those sentences are worth less. For the summarizers to be fast enough they must be able to summarize at at least: 100 documents per second, see section 5.4. The performance test shows that neither summarizer is fast enough for running in query time, with the given requirements. This means that the summarizers could be used for query time summarizing, but that they would likely be perceived as slow by the users, especially at larger cluster sizes. 9.2.1 Future Work The result shows that the multi-document summarizers can be implemented to generate what appears to be summaries of reasonable quality and that they are almost fast enough to be used satisfactory in query time of an information retrieval application. This kind of search result is thus just barely viable from an usability standpoint. What also needs to be shown is how useful this kind of search result would be for the actual user, an extrinsic evaluation of the summarizers would next logical step from this thesis. It seems like the summarizers are too slow to be used in query time for larger document groups. Thus even faster summarizers might be needed for summarizations of search results that require greater document set sizes. A study to find faster summarizers is needed for query time summarization to be practical. 47 Chapter 10 Conclusion The results show that the summarization algorithms are able to generate summaries of good quality. But that they are not quite fast enough and will usually take longer than two seconds to perform their task. The quality of the summarizers during the evaluation has however now confirmed that the algorithms perform reasonably well on Swedish texts, affirming the claim the summarizers are language independent. It would be viable to use these summarization algorithms if some of the requirements that were put forward in the use case (section 1.2) were lifted. If the number of documents in the result were halved from 200 to 100 both summarization algorithms would be quick enough to be used at query time, as the required speed drops from 100 documents/second to 50 documents/second. The clustering implementation however seems to only be slightly better than the random baseline. We can therefore speculate that it does not perform well enough to be perceived as accurate by a user, though this has yet to be confirmed. If a clustering algorithm was to be found that is about as fast as k-means but able to produce higher quality clusters this should be of great interest to anyone who plans to implement the kind of search result illustrated by the use case in section 1.2. The greatest problem facing an implementation of this new search result, is probably producing quality clusters. Since the summarizers uses the clusters as input they must necessarily be of high quality. No matter how good a summarizer is, if the input is not cohesive enough it may be impossible to summarize the documents. Finding sentences that are central to the documents is meaningless if there is no central message to begin with. 48 Bibliography [1] Lucene Snowball Stemmer. Version 2.4.0; http://snowball.tartarus. org/. [2] Stanford CoreNLP: A Suite of Core NLP Tools, September 2011. Version 1.2.0; http://nlp.stanford.edu/software/corenlp.shtml. [3] N.O. Andrews and E.A. Fox. Recent developments in document clustering. 2007. [4] D. Arthur and S. Vassilvitskii. k-means++: The advantages of careful seeding. In Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, pages 1027–1035. Society for Industrial and Applied Mathematics, 2007. [5] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. Comput. Netw. ISDN Syst., 30(1-7):107–117, April 1998. [6] F. Can and E. A. Ozkarahan. Concepts of the cover-coefficient-based clustering methodology. In SIGIR, pages 204–211, 1985. [7] R. Cöster, M. Sahlgren, and J. Karlgren. Selective compound splitting of Swedish queries for boolean combinations of truncated terms. Comparative Evaluation of Multilingual Information Access Systems, pages 337–344, 2004. [8] G. Ercan and F. Can. Cover coefficient-based multi-document summarization. Advances in Information Retrieval, pages 670–674, 2009. [9] K. Mardia et al. Multivariate Analysis. Academic Press, 1979. [10] M. Hassel. Resource Lean and Portable Automatic Text Summarization. PhD thesis, School of Computer Science and Communication, Royal Institute of Technology, Stockholm, Sweden, June 2007. [11] M. Konchady. Building Search Applications: Lucene, LingPipe, and Gate. Musée d’art contemporain de Montréal, 2008. 49 [12] C.Y. Lin. Rouge: A package for automatic evaluation of summaries. In Proceedings of the workshop on text summarization branches out (WAS 2004), volume 16, 2004. [13] C.Y. Lin and E. Hovy. Automatic evaluation of summaries using n-gram co-occurrence statistics. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1, pages 71–78. Association for Computational Linguistics, 2003. [14] C.D. Manning, P. Raghavan, and H. Schutze. Introduction to information retrieval, volume 1. Cambridge University Press Cambridge, 2008. [15] R. Marxer, H. Purwins, and A. Hazan. An f-measure for evaluation of unsupervised clustering with non-determined number of clusters. Report of the EmCAP project (European Commission FP6-IST, contract 013123), http://mtg. upf. edu/files/publications/unsuperf. pdf, pages 1–3, 2008. [16] R. Mihalcea and P. Tarau. A language independent algorithm for single and multiple document summarization. In Proceedings of IJCNLP, volume 5, 2005. [17] F.F.H. Nah. A study on tolerable waiting time: how long are web users willing to wait? Behaviour & Information Technology, 23(3):153–163, 2004. [18] M. Rosell. Introduction to text clustering. CSC KTH, 2008. [19] L.K.P.J. Rousseeuw. Clustering by means of mediods. Statistical data analysis based on the L1-norm and related methods, page 405, 1987. [20] W.S. Sarle. Algorithms for clustering data. Technometrics, 32(2):227–229, 1990. [21] M. Steinbach, G. Karypis, V. Kumar, et al. A comparison of document clustering techniques. In KDD workshop on text mining, volume 400, pages 525–526. Boston, 2000. 50 Appendix A Similarity and Distance Measures Similarity/Distance is a function of two documents, they are two ways to measure the same thing, both being each others inverse most of the time. Distance is low if similarity is high and vice versa. There are many ways to measure the similarity between documents but most depend on how the documents themselves are represented. Most commonly the documents are represented as weighted vectors using the vector space model (appendix C.1), this makes it possible to use generic vector similarity measures. Typically one wants to normalize the similarity measure to the 0 − 1 range, to make comparison easier. A.1 Euclidean Distance The most well known distance measure is of course the euclidean distance [11]. This similarity measure is problematic if the vectors are derived from the vector space model. In that case the vectors with many terms becomes longer while shorter documents has shorter vectors, shorter documents would therefore always seem to be dissimilar from longer documents even though they cover the same topic. The length of a document has little correlation with the content of the document. Therefore a more useful similarity measure should focus on the contents of the documents and disregard the length of the documents. A.2 Cosine Similarity While euclidean distance takes the length of the documents into account cosine similarity does not. If the documents has a similar proportion of terms they will be regarded as similar by cosine similarity. Cosine similarity simply calculates the cosine angle of the two vectors, a low 51 angle signifies high similarity. If the vector space model is used, then no elements in the vectors can be negative. That being the case the angle θ of the two vectors can only be within the range of: 0○ ≤ θ ≤ 90○ . The angle being 90○ when the documents has nothing in common and 0○ in the case of a perfect match, the cosine of those angles will normalize the range to 0 ≤ cos(θ) ≤ 1 [18]. CosineSimilarity(d i , d j ) = A.3 di ○ d j ∥d i ∥ ⋅ ∥d j ∥ = 1 ∑ d i w k, j ∥d i ∥ ⋅ ∥d j ∥ k Jaccard Similarity The Jaccard similarity is similar to the cosine similarity, except that the frequencies are discarded. It works merely with sets of words, a word either exists or it does not exist in a document. Consider the set A and B to be the sets of words from the two documents being compared, then the Jaccard similarity can be calculated as seen in equation A.1 [11]. Jaccard(A, B) = A.4 ∣A ∩ B∣ ∣A ∪ B∣ (A.1) Dice Similarity A close relative to the Jaccard similarity is the Dice similarity. It boosts the numerator with a factor of 2 and lets the denominator be the sum of the number of terms in the sets instead, see equation A.2 [11]. Dice(A, B) = 52 2 ∣A ∩ B∣ ∣A∣ + ∣B∣ (A.2) Appendix B Preprocessing The preprocessing step is extremely important, it modifies the document into a information dense set of features. Without a good preprocessing of the documents any Natural Language Processing (NLP) algorithm will have a hard time producing anything useful out of them. The purpose of the preprocessing step is to modify the documents in such a way that the space of possible documents is reduced while keeping as much of the relevant information as possible. The features of the document relevant to the content should be highlighted while less relevant features of the content should be reduced or removed. Some features might reflect a similar piece of information in the content. The members of those feature groups should often be merged into a single feature so that their importances are highlighted, and not regarded as several features of lesser significance. A document is most often represented as a sequence or as a set of terms. This means that in practice the objective of the preprocessing is to reduce the number of possible terms without losing or distorting too much information. For clarity the examples given of the different preprocessing steps will be given with English words, but they apply equally well to Swedish words. B.1 Stemming Stemming is a way to group some derivations of the same word to a single term, a stem [14]. The words in the group are then replaced by the common stem and thus reducing the term space. The stemmer does this by removing parts of the words that differ. For example: “fish”, “fishes”, “fishing” and “fisher” can all be stripped down to their common stem: “fish”. This is a technique where several related document features (terms) are merged into a single feature. 53 B.2 Lemmatization Lemmatization is a more proper way of merging terms than stemming [14]. It attempts to find the base form (lemma) of the word. This reduces the term space just as stemming does, but it maintains the readability of the word. B.3 Stop Word Removal Another way to make the term space smaller is to remove certain terms. Many terms are with information of what the document might be about: such as “car”, “driving” and “race”. While some carry almost no information and has little use other than binding the sentences together, such as: “the”, “and” and “then”. Stop word removal means removing words low on information, often from a predefined list. See appendix D for the list used in this thesis. 54 Appendix C Document Representation C.1 The Vector Space Model The most common way to represent documents is the vector space model. In this model each document is represented as a vector and each dimension of that vector corresponds to a term, each term is its own feature. As the order of the words is not a part of the model it is often called a “bag of words” model. Each element of a term space vector is usually weighted by the “importance” of the term of that dimension. But what makes a term important to a document and how can we determine if it is? Since the objective of the vector space model is to represent the document, a term that is representative of the content of the document should be regarded as important. The most trivial way to weight such a vector is by the term frequencies, in this case each element of the vector contains the absolute frequency of that term in that document. This seems like a good solution, it makes sense that important terms are frequently repeated in the document. This is a rather naïve approach, many words appearing commonly in many documents do not reveal important information about the content of the documents. Simple term frequency vectors do indeed give high scores to important terms, but they also give high scores to other words common in the document, limiting the value of this weighting scheme. C.1.1 TF-IDF A more powerful way to weight the term vector is by term frequency – inverse document frequency, or TF-IDF for short. Each element of a TF-IDF vector is the term frequency of that term divided by the number of documents the term appears in, see equation C.1. This weighting scheme has two useful properties; words that appear in many documents are given a low weight while words that appear frequently in just a few documents are given a greater weight. In other words it highlights the differences of rare words between documents 55 while caring less about words common in many documents. Words with high TF-IDF scores in a document are most likely keywords of that document. tfidf(t) = term frequency(t) document frequency(t) (C.1) But while TF-IDF is usually a useful way to represent documents, one must keep in mind that the TF-IDF scoring of documents depends on the other documents in the document group. If all documents in the document group contain the word “football” for example, it would score low on all documents, but might still in a sense be an important word. 56 Appendix D List of Stop Words Following is a list of the stop words used in the data preprocessing used in the implementation. och, i, av, en, som, att, till, den, på, för, med, är, det, de, ett, om, har, hade, vid, var, och, även, kan, kunde, hos, flera, han, hon, honom, hennes, henne, hans, jag, sig, du, då, ej, vi, sedan, vilkas, era, ert, så, sådana, vilken, samma, deras, oss, från, under, efter, inte, men, man, eller, sin, sina, sitt, mot, blev, över, dess, dessa, detta, finns, mellan, också, när, bland, genom, där, skulle, dock, fick, samt, inom, denna, olika, ut, än, vilket, annat, var, vara, senare, mycket, s, annat, vilket, ha, in, alla, många, utan, stora, upp, enda, flest, bli, blir, blivit, medan, medans, måste, vad, vill 57 Appendix E Sources of the Articles Used in the Evaluation of MDS:s The articles were taken from various Swedish newspapers but most of them are from Dagens Nyheter. Since these articles are not in the public domain only links can be provided. They were last accessed 2012-05-23. E.1 The Death of Khaddafi http://www.dn.se/ledare/signerat/khaddafis-drom-om-socialism-blev-en-libysk-mardrom http://www.dn.se/nyheter/varlden/khaddafi-valde-sitt-eget-slut--med-vapen-i-hand http://www.dn.se/nyheter/varlden/khaddafi-ar-dod http://www.dn.se/nyheter/varlden/befalhavaren-ingen-vet-vem-som-skot-khaddafi http://www.dn.se/nyheter/varlden/khaddafi-skots-med-sin-egen-gyllene-pistol http://www.dn.se/nyheter/varlden/khaddafi-far-enkel-begravning http://www.dn.se/nyheter/varlden/omvarlden-valkomnar-rapporter-om-gripandet http://www.dn.se/nyheter/varlden/khaddafi-libyen-kommer-att-brinna http://www.dn.se/nyheter/varlden/nya-uppgifter-om-khaddafis-dod http://www.dn.se/nyheter/varlden/fn-vill-utreda-khaddafis-dod http://www.dn.se/nyheter/varlden/han-berattar-om-khaddafis-sista-tid E.2 The Death of Kim Jong-Il http://www.dn.se/nyheter/varlden/kim-jong-il-dod http://www.dn.se/nyheter/varlden/forsvara-kim-in-i-doden http://www.dn.se/nyheter/varlden/avhoppare-tror-pa-revolt-i-nordkorea http://www.dn.se/nyheter/varlden/krismoten-efter-kim-jong-ils-dod http://www.dn.se/nyheter/varlden/hundratals-tjansteman-redan-avrattade http://www.dn.se/nyheter/varlden/kim-jong-un-utsedd-till-ob http://www.dn.se/nyheter/varlden/kim-jong-ils-begravning-en-bild-av-enighet http://www.dn.se/nyheter/varlden/nordkorea-tar-farval-av-kim http://www.dn.se/nyheter/varlden/farbror-far-nyckelroll-i-nordkoreas-regering http://www.dn.se/nyheter/varlden/naturen-sorjer-kim-jong-il http://www.dn.se/nyheter/varlden/icke-gratande-nordkoreaner-sands-till-arbetslager http://www.dn.se/nyheter/varlden/brodern-ifragasatter-kim-jong-un http://www.dn.se/nyheter/varlden/myterna-frodas-om-overjordisk-ledare 58 E.3 Juholt’s Resignation http://www.aftonbladet.se/nyheter/article14247180.ab http://www.dn.se/nyheter/politik/kallor-till-dnse-juholt-avgar http://www.dn.se/nyheter/politik/live-juholts-presskonferens-i-oskarshamn http://www.expressen.se/nyheter/hakan-juholt-avgar-som-partiledare/ http://www.svd.se/nyheter/inrikes/juholt-avgar-som-partiledare_6786963.svd http://www.svd.se/nyheter/inrikes/juholt-jag-avgar-som-partiledare_6786823.svd http://www.sydsvenskan.se/sverige/article1603039/TV-Hakan-Juholts-presskonferens.html http://www.unt.se/ledare/juholts-avgang-var-ofrankomlig-1640067.aspx E.4 The Knutby Murders http://www.dn.se/nyheter/sverige/knutbypastorn-overklagar-till-hd http://www.dn.se/nyheter/sverige/pastorns-advokat-kraver-rattvis-behandling http://www.dn.se/nyheter/sverige/allt-talar-for-livstid-for-pastorn http://www.dn.se/nyheter/sverige/vittnen-i-knutby-pressas http://www.dn.se/nyheter/sverige/barnflickan-var-inte-psyksjuk http://www.dn.se/nyheter/sverige/aklagaren-kravde-livstid-for-barnflickan http://www.dn.se/nyheter/sverige/knutby-jag-alskade-asa-hon-var-profeten-och-jag-lararen http://www.dn.se/nyheter/sverige/experter-fortsatt-oense-i-knutbymalet http://www.dn.se/nyheter/med-bibeln-vid-vags-ande http://www.dn.se/nyheter/sverige/barnflickan-jag-levde-i-en-knapp-varld E.5 The Murder of Anna Lindh http://www.aftonbladet.se/nyheter/article10395645.ab http://www.aftonbladet.se/nyheter/article10395504.ab http://www.dn.se/nyheter/sverige/utredningen-om-mordet-pa-anna-lindh-klar http://www.dn.se/nyheter/sverige/lindhmordet-i-ratten-20-januari http://www.dn.se/nyheter/sverige/atal-for-lindhmordet-i-januari http://www.dn.se/ledare/huvudledare/tomheten-efter-anna-lindh http://www.dn.se/nyheter/sverige/laget-kritiskt-for-anna-lindh http://www.dn.se/nyheter/politik/anna-lindh-hyllad-nar-riksdagen-oppnade http://www.dn.se/nyheter/anna-lindh-fick-hotbrev-fore-mordet http://www.dn.se/ledare/signerat/anna-lindh-var-en-stor-utrikespolitiker E.6 The Pirate Bay Trail http://www.dn.se/kultur-noje/nyheter/provningstillstand-for-pirater-efter-javsanklagelser http://www.dn.se/kultur-noje/musik/sunde-de-skiter-i-vad-vi-gor-sa-lange-vi-lyder http://www.dn.se/kultur-noje/nyheter/forsvaret-riv-upp-piratdomen http://www.dn.se/kultur-noje/nyheter/ingen-pirate-bay-rattegang-forran-i-sommar http://www.dn.se/fordjupning/europa-2009/pirate-bay-atalade-polisanmaler-upphovsrattsorganisation http://www.dn.se/nyheter/sverige/inget-jav-i-pirate-bay-mal http://www.dn.se/kultur-noje/nyheter/forsvaret-piratdomaren-maste-tala http://www.dn.se/kultur-noje/musik/advokatbyra-i-pirate-bay-malet-polisanmaler-betalningsattack http://www.dn.se/kultur-noje/musik/ihrfeldt-ny-pirate-bay-domare http://www.dn.se/kultur-noje/musik/skivbolag-trappar-upp-striden-mot-pirate-bay 59 E.7 (SD) Enters Riksdagen http://www.aftonbladet.se/debatt/article12513706.ab http://www.dn.se/nyheter/politik/sd-i-fokus-i-partiledardebatten http://www.dn.se/nyheter/politik/krav-pa-utredning-pa-sd-dagar http://www.dn.se/nyheter/politik/i-huvudet-pa-sds-partiledarehttp://expo.se/2010/sverigedemokraterna-i-riksdagen_3369.html http://expo.se/2010/valanalys-darfor-kom-sverigedemokraterna-in-i-riksdagen_3364.html http://www.dn.se/nyheter/valet-2010/alliansen-segrar--sd-blir-vagmastare E.8 The Tsunami in Japan 2011 http://www.dn.se/nyheter/varlden/omkring-2000-doda-hittade http://www.dn.se/nyheter/varlden/japaner-emot-nystart-av-reaktorer http://www.dn.se/nyheter/varlden/svensk-lamnade-tokyo-for-ny-jordbavning-i-shizouka http://www.dn.se/nyheter/varlden/tio-ganger-forhojda-varden-i-tokyo http://www.dn.se/nyheter/varlden/japaner-vill-skrota-karnkraften http://www.dn.se/nyheter/varlden/michiko-saito-83-visar-sitt-motstand-varje-eftermiddag http://www.dn.se/nyheter/varlden/karnkraften-ar-sjalvmord-for-japan http://www.dn.se/nyheter/varlden/tio-ar-av-uppbyggnad-vantar-for-tsunamidrabbade http://www.dn.se/nyheter/varlden/storre-lackor-an-vantat-fran-japansk-reaktor http://www.dn.se/nyheter/varlden/japan-siktar-pa-en-framtid-utan-karnkraft 60 Appendix F The Instructions for the Writing of the Gold Standard Summaries Since Swedish were the mother language of all the participants in the gold standard summary writing process, the instructions were written in Swedish. However an English translation is also available, for the English speaking readers. 61 Instruktioner 1. Läs samtliga artiklar i häftet — artiklarna handlar alla om samma nyhetshändelse. 2. Skriv en sammanfattning på 6-12 meningar, ta med det du tycker verkar viktigt. 3. Kolla så all information i sammanfattningen står i någon av artiklarna. Du får inte skriva om sånt som inte nämns i artiklarna! 4. Skriv ner dessa punkter om dig själv: a) Namn b) Ålder c) Utbildning d) Yrke/Sysselsättning 5. Skicka in din sammanfattning och personuppgifterna ovan till min mail adress: coer@kth.se. Sammanfattningarna kommer användas i mitt civilingenjörsexamensarbete. Tack för hjälpen, din insatts kommer vara till stor nytta! — Carl-Oscar Erneholm 62 Instructions 1. Read all articles in this document — they are all about the same topic. 2. Write a summary about 10-12 sentences long. Remember to include that which you think is important! 3. Check so that all the things you bring up in the summeray can be found somewhere in the articles. You may not write about stuff that aren’t in any article. 4. Write down these things about yourself: a) Name b) Age c) Education d) Work/Occupation 5. Send your summary and the personal information to my mail: coer@kth.se. The summaries will be used in my Masters thesis. Thanks for your help, your effort will be of great use to me! — Carl-Oscar Erneholm 63 Appendix G The Gold Standard Summaries G.1 The Death of Khaddafi G.1.1 1 I dryga fyrtio år höll Khaddafi Libyen som gisslan för sin privata maktutövning. Ekonomisk vanskötsel blandades med terror mot den egna befolkningen och omvärlden. Oppositionella har trakasserats, torterats och avrättats. Den före detta översten och diktatorn fångades i ett avloppsrör i sin födelsestad Sirte, som tagits över av NTC-styrkor. Han fångades efter ett misslyckat flyktförsök från staden. Han träffades sedan av skott mot huvudet och kroppen fördes till staden Misrata. Det är dock oklart hur det gick till när han dog. Övergångsregeringen planerar att begrava Muammar Khaddafi på en hemlig plats. G.1.2 2 Kaddafis regim hade kunnat vara ytterligare fyra decennier om det inte hade varit för den arabiska våren. Kaddafi tillträdde 1969, samma år som Pippi på de sju haven spelades in. Detta skedde genom statskupp nästan utan blodspillan. Det var då få som kände till honom vid hans tillträdande. Libyan var vid Kaddafis tillträdande mer rikt än Sverige, tack vare Olje pengar. Ekonomisk vanskötsel tillsammans med terror förändrade detta. Missnöjet med Kaddafi uppstod i slutet av sjuttiotalet. Allt eftersom stödet hos hans undersåtar minskade, fick han förlita sig på små vältrände elitförband av libyer. Under inbördeskrigets sista månader, sände han sina budskap via radio och TV kanaler i Syrien. Han ville inte fångas på samma sätt som Sadam Hussein, likheterna var dock stora, då han hittades och tillfångatogs i ett rör. Omständigheterna hur han dog är oklara. Det sägs att han kan ha dödats med sin egna gyllene pistol. 64 G.2 The Death of Kim Jong-Il G.2.1 1 69-åriga Kim Jong-II, Nordkoreas ledare, har avlidit. Orsaken är enligt obduktionen hjärtinfarkt tillsammans med hjärtstopp pga fysisk och psykisk överansträngning. Kim Jong-II framstod som en slipad politiker med full kontroll över sina undersåtar. Nationell sorgetid har utlysts och av den två dagar långa begravningsceremonin var det tydligt att enighet rådde i landet om saknaden av Kim Jong-II. Efter ceremonins avslutande kom de som inte deltog att föras bort till speciella "arbetsläger", eftersom regeringen tilldömde dessa minst sex månaders straffarbete. Hela folket bör ge sin fulla tillit till den unge Kim Jong-Un, som utnämnts till överbefälhavare efter sin far. Mindre än en timme efter beskedet om Kim Jong-IIs död påbörjades aktiviteter i flera länder i omvärlden. Experter menar att militären är den starkaste maktfaktorn i Nordkorea och att det är sannolikt att Kim Jong-Un kommer att visa sin styrka därigenom. Detta genom att trappa upp provokationerna mot Sydkorea för att se starkare ut inrikespolitiskt, något som dock inte tycks skett, ännu. Sydkorea oroar sig för om Kim Jong-Un skulle känna sig hotad på hemmaplan med tanke på landets tillgång till kärnvapen.Nordkoreaner som flytt landet hoppas istället på att folket ska resa sig mot regimen för att bli kvitt den tortyr, svält och hunger som råder. Amnesty ser en möjlighet till ett mer demokratiskt styre, dock visar färska rapporter motsatsen, hundratals tjänstemän som ansetts som ett hot mot Kim Jong-Un har t.ex "rensats" av regeringen. G.2.2 2 Nordkoreas ledare Kim-Jong II har avlidit av en svår hjärtinfarkt under an av sina vägledningsresor. Han efterträds av sin 30-årige son Kim-Jong Un som upphöjs till högste militäre ledare. Nordkoreas ekonomi försämrades för andra året i rad 2010, fattigdomen och livsmedelsbristen är stor. Militären är den viktigaste maktfaktorn i Nord-Korea. I japan tillkallades en krisgrupp och USA följet utvecklingen noga. Kim Jong IIs begravning visar på en bild av enighet. Naturen sörjer Kim-Jong II och icke gråtande nordkoreaner sändes till arbetsläger. Kim-Jong Un är en stor begåvning som lärde sig köra bil som 3-åring och under sin första golfrunda slog åtta eller om det var sjutton holein-one. G.2.3 3 Nordkoreas ledare Kim Jong- II har avlidit uppger landets statliga television, på grund av Fysisk och psykisk överbelastning, berättade en gråtande nyhetsp- 65 resentatör. Tortyr. Svält. Sjukdomar. Nordkoreaner som flytt landet vittnar om vidriga förhållanden i regimens fångläger. Då Kim Jong- II kom till makten 1994 skickades tiotusentals personer till fångläger. Inte mycket behövdes för att göra sig ovän med regimen. Människor angav varandra och ibland räckte det att vara släkt med någon som uppfattades som potentiellt hot för att själv tillfångatas. Politiska motståndare avrättades, ofta efter inga eller mycket bristfälliga rättegångar. Under de 17 år som passerat har lägren kraftigt expanderat. I maj i år rapporterade Amnesty att uppskattningsvis 200.000 personer sitter i slavliknande förhållanden. Matransonerna de får är så små att de drygar ut måltiderna med ormar och råttor. Enligt statliga medier efterträds Kim Jong- II av sonen Kim Jong- Un. Direkt efter faderns död pekades han ut som efterträdare och landets högste ledare. Nu har han även utsetts till högste ledare för landets väpnade styrkor. Det är en arme på 1,2miljoner soldater. Amnestys förhoppning är att Kim Jong- Uns maktövertagande ska leda till ett öppnare Nordkorea där mänskligare rättigheter bättre tas tillvara. Dessvärre tyder det mesta just nu på att motsatsen sker. Bakom Kim Jong- Un vid begravningsceremoni gick hans farbror, den inflytelserike Jang Song Thaek, som klättrat snabbt i hierarkin de senaste åren. Denne tros allmänt bli den unge arvtagarens främste rådgivare. Sorgeceremonierna i Nordkorea efter diktatorn Kim Jong- IIs uppges ha avslutats. Nu följer bestraffningarna av de Nordkoreaner som inte medverkade på föreskrivet sätt i det kollektiva gråtandet, hävdas i rapport från Sydkorea. G.3 Juholt’s Resignation G.3.1 1 Håkan Juholt avgår meddelade han på en presskonferens i Oskarshamn på lördagseftermiddagen. Hans avgång var väntad. Carin Jämtin tar tillfälligt över ledarskapet. Juholt har haft problem ända sedan han valdes på en extrakongress 25 mars 2011. Återkommande problem har varit att han påstått saker som senare visats vara felaktiga. Han medger att han har gjort misstag och vill nu inte stå i vägen för den nystart som Socialdemokraterna så väl behöver. G.3.2 2 Efter bara tio månader avslutades Håkan Juholts tid som S-ledare. Håkan Juholt har haft problem ända sedan han valdes till partiordförande på en extrakongress i Stockholm den 25 mars 2011. Redan i installationstalet hävdade han att de stora fackförbunden och partiet skulle överlägga om Pensionssystemet vilket avvisades från fackligt håll. Vidare avslöjades att hans sambo är dömd för 66 bedrägeri, vilket Juholt aldrig berättat för valberedningen, Några dagar senare blir det känt att sambon bott i flera år på skattebetalarnas bekostnad i den gemensamma lägenheten. Ett återkommande problem för Juholt har varit att han har påstått saker som sen visat sig felaktiga. Efter en månads semester kommer Juholt tillbaka ” som en ny människa” men klantar till det på en gång när han i Sälen anklagade regeringen för att ha gjort upp med Sverigedemokraterna redan 2009, när partiet inte fanns i riksdagen. Till sist blev avgången ofrånkomlig. Håkan Juholt avgår omedelbart som partiledare för Socialdemokraterna. Juholt lämnar själv beskedet på en presskonferens i Oskarshamns Köpcentrum Flanaden. Jag har gjort misstag som partiordföranden. Hur stora dessa är, det får framtida forskning avgöra. G.4 The Knutby Murders G.4.1 1 Pastorn Helge Fossmo var åtalad för mord på sin första hustru och anstiftan till mord dels på sin andra hustru och dels på sin granne. Barnflickan Sara Svensson som hade ett förhållande med pastorn utförde mordet på hans andra hustru och mordförsöket på grannen. Hon bedöms av vissa experter som psykiskt sjuk och genomfört dåden under inflytande av pastorn. Experterna oense om det första mordet verkligen var mord eller om det var olyckshändelse. Helge Fossmo döms av Hovrätten till livstids fängelse och barnflickan Sara Svensson dömdes till rättspsykiatrisk vård. Helge Fossmo överklagar och sätter sitt sista hopp till Högsta domstolen (HD). G.4.2 2 Pastorn för Knutbys pingstförsamling ,Helge Fossmo, döms till livstids fängelse för anstiftan till mord på sin hustru samt till sin älskarinnas make. Barnflickan Sara Svensson fälls till rättspsykiatrisk vård för mordförsök och mord på pastorns hustru samt mordförsök på pastorns älskarinna. Historien om Knutbys församling har många sidor, varav tingsrätten tror på historien om att Fossmo lurade Svensson att mörda på Guds begäran. I Svenssons beskrivning menar hon att hon var en slav som levde under Fossmos befallning. Åsa Waldau, även benämnd kristi brud, pekar också ut Fossmo som boven i dramat och den som låg bakom hela planen. Knutbyförsamlingen har kallats som vittnen, men då alla i församlingen följer samma agenda är det svårt att se vad som är sanningen och var som är lögn då de kan välja att peka ut eller skydda vem som helst. Efter informationen om att Fossmo vara otrogen så ändrades deras historia avsevärt till exempel. Fossmos första fru dog efter ett fall i badkaret 67 som krossade hennes skalle, något som man nu utreder igen för att se om det verkligen var en olycka eller ej. Dock har forskare och läkare inte lyckats framställa tydligt bevismaterial och de är oense om hur det verkligen har gått till. Två rättspsykiatriska undersökningar visar att Svensson lider av allvarliga psykiska störningar. Dock har både ledamoten för socialstyrelsen och psykiatrikern Göran Källberg förkastat dessa påståenden och menar att Svensson var frisk, iskall och beräknande när morden begicks. Fossmo å andra sidan anser sig oskyldig och beskyller Åsa Waldau. Han fick ända sedan sin tillträdelse vara hennes högra hand och kärleksslav som betjänade henne med kärlek. Man har inte sett någon minskning av medlemmar i pingstkyrkan som kan hänföras till Knutbyincidenten. Pastorn har överklagat till högsta domstolen och begärt att få fallet omprövat. G.5 The Murder of Anna Lindh G.5.1 1 Utrikesminister Anna Lindh dog av skadorna hon fick vid knivöverfallet på varuhuset NK. Sverige har förlorat en skicklig politiker och utrikesminister. Anna Lindh fick innan mordet motta en mängd hotbrev och var under sitt privata besök på NK utan livvaktsskydd. Anna Lindh var djupt engagerad i Europasamarbetet och EU. Utredningen kring mordet på Anna Lindh var omfattande. Rättegången mot det den misstänkte gärningsmannen Mijailo Mijailovic börjar 20 januari. G.5.2 2 Utrikesministern Anna Lindh var tillsammans med en väninna på varuhuset nk i Stockholm när hon attackerades av en okänd gärningsman med kniv. Lindh hade inte någon livvakt med sig då svenska politiker vill verka öppet i samhället. Lindh fördes till Karolinska sjukhuset med knivskador på buk, bröst och arm. Trots flertalet operationer så gick hennes liv inte att rädda och hon avled cirka ett halvt dygn efter den inträffade attacken. Media behandlade händelsen bra, trots att Lindhs närmaste fick lida av pressens intrång på deras privatliv. Polisen lyckades gripa den misstänkte Mijailo Mijailvics och omfattande bevis har tagits fram till rättegången som planeras starta den 20 januari. Chefsrådman Göran Nilsson hoppas att förhandlingarna ska gå fort, men om tingsrätten beslutar om en sinnesundersökning kan den förlängas med några veckor. Anna Lindh var mycket omtyckt och respekterad i alla kretsar, i Sverige såväl som utomlands. Många har skrivit och hyllat hennes ställning i världspolitiken. Efter morden på Olof Palme och Anna Lindh har svensk demokrati fått sig en omskakning. 68 G.5.3 3 Utrikesminister Anna Lindh var på eftermiddagen tillsammans med en väninna och handlade på varuhuset NK i Stockholm. Eftersom det handlade om ett privat besök hade hon ingen livvakt. Klockan 16.19 attackerades Anna Lindh med kniv av en okänd man klädd i kamouflagejacka. Gärningsmannen flydde från platsen innan polisen han fram. Hon fick allvarliga skador i buk och bröst och på armen. Anna Lindh fördes i ilfart till Karolinska sjukhuset där hon opererades. Operationen blev mycket svår Anna Lindh har kraftiga blödningar från levern och kärl i buken. Anna Lindhs liv gick inte att rädda. Anna Lindh var uppmärksammad, respekterad och erkänd i alla kretsar, visst var engagemanget för FN, för nedrustning och globala frågor stark hos henne. Anna Lindhs huvudsakliga fokus låg dock i Europa. Polisens utredning om mordet på Utrikesminister Anna Lindh är klar. Den misstänkte Mijailo Mijailvics advokat Peter Althin får en kopia materialet. Vi siktar på att kunna väcka åtal i mitten på januari säger chefsåklagare Krister Petersson. G.6 The Pirate Bay Trail G.6.1 1 Fyra personer i den svenska Pirate Bay rättegången dömdes till ett års fängelse och 30 miljoner kronor i böter. Domen har överklagats till hovrätten som förmodligen inte blir av före nästa sommar . Kritiken mot tingsrättsdomaren var hård när jävssituationen uppdagades i våras. Tingsrättsdommaren friades dock senare. Två hovrättsdomare i Pirate Bay-målet bedöms jäviga och Högsta domstolen (HD) har nu gett prövningstillstånd. Pirate-Bay, som står åtalade i Nederländerna, polisanmäler upphovsrättsorganisationen Brein för bedrägeri, mened och förfalskning. Skivbolagen trappar upp striden mot Pirate Bay och kräver att de åtalade skall omöjliggöra för internetanvändare att besöka eller använda sig av ”intrångstjänsten”. G.6.2 2 Artiklarna behandlar främst den svenska rättegången kring The Pirate Bay och dess grundare. Rättegången i Tingsrätten dömdes till åklagarens fördel, men har överklagats till Högsta Domstolen. De påtalar anmälningarna om jäv som gjorts mot nyckelpersoner på åklagarsidan i rättegången i Tingsrätten, som överklagats i Högsta Domstolen. Rättegången i Högsta Domstolen fick en ny domare, som dock också visat sig vara gammal medlem i samma intresseförening som den förre domaren, något som upprör försvaret. Det nämns också att flera parter försöker stänga ner Pirate Bay under tiden som de 69 väntar på dom, och hotar med dryga stämningar/böter om Pirate Bay fortsätter drivas. Artiklarna behandlar till viss del också en del ifrågasättbara sätt som de anklagade (kanske) använt sig av för att försvåra arbetet för de som åtalar dem. De nämner även vad som misstänks vara förfalskade bevis mot Pirate Bays grundare i en Holländsk rättegång. G.7 (SD) Enters Riksdagen G.7.1 1 Med stöd av 5,7 procent av väljarna tar Sverigedemokraterna (SD) plats i Riksdagen. SD.s politik är att stoppa eller begränsa invandringen. Det finns inte tillräckligt med jobb åt svenskarna. Sverige får en minoritetsregering med SD i en vågmästarroll. De övriga partierna kommer inte att samarbeta med eller göra sig beroende av SD. SD.s fick framgångar i valet tack vare en stor medial uppmärksamhet. G.7.2 2 Det genomgående temat i artiklarna kretsar kring hur Sverigedemokraterna lyckades komma in i Riksdagen med genomtänkt retorik och osmidigheten hos övriga Riksdagspartier. De beskriver hur bra mediaträning tillsammans med oväntade händelser som uppmärksammats i media verkat för att ge Sverigedemokraterna bra medietäckning. Med hjälp av sin retorik och sin nya fasad lyckas de fånga in missnöjda väljare från andra partier och personer som aldrig tidigare hade identifierat sig med ett nationalsocialistiskt parti. De har fått många väljare genom sin missnöjespolitik, som dessutom fått mer bränsle i rådande arbetsmarknadsklimat. Det påpekas också att det fortfarande finns ett ganska stort motstånd mot invandring och invandrare, i stor del vad gäller invandring från muslimska länder. De övriga Riksdagspartierna kritiseras för att ha polariserat debatten genom att utmåla Sverigedemokraterna som onda och sig själva som goda, och att aktivt förtrycka partiet. G.7.3 3 Sverigedemokraterna har nått sitt mål .med stöd av runt 5,7 procent tar partiet plats i riksdagen. Sverigedemokraterna partiledare Jimmie Åkesson var påtagligt nöjd då han talade till partikamrater och samlat mediafolk. Det finns många väljare som är missbelåtna med hur Sverige har utvecklats de senaste decennierna. Sverigedemokraternas framgång skedde inte över en natt. Partiets riksdagsinträde är ett resultat av en komplex process som pågått under en lång 70 tid. Sverigedemokraterna är ett parti sprunget ur vit makt-rörelse och rasistiska rörelse hävdar Mona Salin . Sverigedemokraterna tar plats i riksdagen och intar rollen som vågmästare. Att skälla ut partiet i stället för att bemöta det utifrån dess politik gynnar bara Sverigedemokraterna. Under de senaste åren har vi haft en rad debatter som satt partiets kärnfråga på agendan. Uppmärksamheten kring den kommunala flyktingmottagningen, de ensamkommande flyktingbarnen, kravaller och stenkastning i förorter och inte minst slöj- och burkadebatten. I vissa fall har Sverigedemokraterna spelat en roll i diskussionerna, i andra fall inte. När det gäller avslöjanden om partiets koppling till vit makt-rörelse och framför allt rasistiska utspel verkar det inte ha påverkat partiets sympatisörer. G.8 The Tsunami in Japan 2011 G.8.1 1 Den 11 mars havererade kärnkraftverket i Fukushima, efter att nordöstra Japan drabbats av en kraftig jordbävning och Tsunami. Samtliga tre reaktorer drabbades av omfattande explosioner. Det var stor riska för härdsmälta. Personalen tvingades tillfälligt att överge byggnaden. Försök att pumpa in havsvatten för att kyla ner bränslestavarna genomfördes. Flera efterskalv skakade Tokyoområdet och den japanska ostkusten. Efter katastrofen har kärnkraftsmotståndet ökat i Japan. Mellan 60-80 procent av befolkningen är idag emot kärnkraften. G.8.2 2 Det var i samband med en svår jordbävning och en tsunami som kärnkraftverket Fukoshimas reaktorer skadades svårt. Nära 20.000 människor omkom i jordbävningen och tsunamin.Det radioaktiva läckaget från det havererade kärnkraftverket var betydligt högre än man först trodde.I Fukoshima har utsläppen av radioaktivitet i atmosfären beräknats till mellan 20 och 60 gånger så stora som efter atombomben 1945. Myndigheteran beodrarde evakuering av all inom en radie av två mil från kärnkraftverket. FN atomenergiorgan IAEA trodde inte att detta skulle påverka opinonen, då Japan inte har så många andra inhemska energialternativ.Olika opinionsundersökningar visar att mellan 60 och uppemot 80 procent av befolkningen i Japan i dag är emot kärnkraften. Enbart ett fåtal av landets 54 kärn reaktorer är i gång. Hittills har Japan till stor del ersatt kärnkraften med import av gas och olja och obligatoriska åtgärder för att spara el.Målet var att öka kärnkraften från 30 procent av landets elekticitet till 50 procent.I stället bör nu Japan enligt den Japanska premierministern utveckla energikällor som sol vind och biomassa. 71 Appendix H Generated Summaries H.1 PageRank Summarizer H.1.1 The Death of Khaddafi Libyens förre ledare Muammar Khaddafi är död , uppger den nya övergångsregeringen NTC. Khaddafis arméchef Abu Bakr Younus Jabr dödades och både Muammar Khaddafis son Mutassim Khaddafi och hans talesperson Moussa Ibrahim greps i samband med att Natostyrkornas beskjutning. Kathy Tedeschi , änka efter en av de döda i den flygplanssprängning över Skottland 1988 som skyllts på Khaddafis regim , satt samtidigt i USA och sammanfattade för Reuters mångas känslor för Libyens forne diktator : – Jag hoppas att han är i helvetet med Hitler. Hollands premiärminister Mark Rutte säger att rapporterna är " goda nyheter " om de visar sig stämma och Rysslands premiärminister Dmitrij Medvedev säger att " Khaddafis öde borde beslutas av folket i Libyen " skriver BBC. Kommentarerna kom efter att NTC rapporterat att ex-diktatorn gripits och inte efter rapporterna om Khaddafis död. Strax efter klockan 16 på torsdagen svensk tid höll Muammar Khaddafi ett tal som riktades till det libyska folket. Låt det bli en lång strid och låt Libyen brinna " , sa Khaddafi också enligt Al-Jazira och tillade : " Fortsätt strida även om ni inte hör min röst ". Vem sköt det dödande skottet mot ex-diktatorn Khaddafi ? Han säger att det är omöjligt att veta vem som sköt det dödande skottet. Bilderna av hur det gick till när Muammar Khaddafi togs till fånga och omständigheterna kring hans död har fått FN : s råd för mänskliga rättigheter att reagera. Han refererade till mobiltelefonbilderna av en sårad Muammar Khaddafi , som först lever efter att ha blivit fångad och sedan ses död bland en skrikande grupp soldater ur rebellarmén. Rupert Colville väntade sig att den gruppen även kommer att granska omständigheterna kring Khaddafis död. Teorin om hur det gick till när Khaddafi dödades återges av brittiska The Times , som citerar en källa nära den styrande regeringen. En annan version som cirkulerat på internet är att rebellen Sanad Sadek Ureibi tog fast Khaddafi på en gata i Sirte och sköt diktatorn efter oenighet med andra rebeller. Rebellerna från öst gillade inte detta och en soldat drog fram Khaddafis gyllene pistol och sköt honom och 72 sade till gänget från Misrata : " Nu kan ni ta honom. " – Vi vet vem som dödade Khaddafi. Libyens övergångsregering planerar att begrava Muammar Khaddafi på hemlig plats , rapporterar tv-stationen al-Arabiyya. H.1.2 The Death of Kim Jong-Il Bilderna från den statliga nordkoreanska televisionen visar Nordkoreas nye ledare Kim Jong-Un under en minnesceremoni för den avlidne diktatorn , hans far , Kim Jong-Il. Färska rapporter från det så slutna landet tyder på att regeringen redan har hunnit rensa ut hundratals tjänstemän som ansetts hota Kim Jong-Uns övertagande av makten. Bilderna från Kim Jong-Ils begravning , som på onsdagen kablades ut från det annars närmast hermetiskt stängda Nordkorea , visade ett sörjande som regisserats in i minsta detalj. Dagens begravning av Nordkoreas diktator Kim Jong-Il gav ledtrådar till maktspelet kring landets nye ledare , sonen Kim Jong-Un. Konstiga naturfenomen har bevittnats i Nordkorea efter ledaren Kim Jong-Ils död , rapporterar den statliga nyhetsbyrån KCNA. Det är några av de naturfenomen som inträffat i Nordkorea efter ledaren Kim Jong-Ils död , enligt den statliga nyhetsbyrån KCNA. Bilder på ett sörjande folk har i veckan kablats ut via den statliga nyhetsbyrån , och det senaste tillskottet i den regisserade sorgeperioden är att även naturen har drabbats av Kim Jong-Ils bortgång. Amnestys förhoppning är att Kim Jong-Uns förmodade maktövertagande ska leda till ett öppnare Nordkorea där mänskliga rättigheter bättre tas tillvara. Sorgeceremonierna i Nordkorea efter diktatorn Kim Jong-Ils död uppges ha avslutats. Hela folket bör " som mänskliga sköldar " försvara sin ledare Kim Jong-Un till döden och ge honom sin fulla tillit , skriver nordkoreanska tidningar. Den sydkoreanska underrättelsetjänsten har tidigare förutspått att Jang Song Thaek och hans fru Kim Kyong Hui ska komma att spela en avgörande roll i att förbereda Kim Jong-Un för rollen som Nordkoreas ledare. Nyhetsbyrån Reuters skriver att Sydkoreas militär inte iakttagit någon onormal trupprörelse i Nordkorea efter Kim Jong-Ils död. Nordkoreas ledare Kim JongIl har avlidit , uppger landets statliga television. Sydkoreas militär har satts i högsta beredskap efter beskedet om Kim Jong-Ils död och presidenten har kallat Nationella säkerhetsrådet till extra krismöte , rapporterar den sydkoreanska nyhetsbyrån Yonhap. På onsdagen begravdes Kim Jong-uns far Kim Jong-il under ett stort pådrag , fullt med gråtande invånare. H.1.3 Juholt’s Resignation Carin Jämtin beredd att ta över ledarskapet Håkan Juholt avgår omedelbart som partiledare för Socialdemokraterna. Socialdemokraternas partiledare Håkan Juholt avgår från posten. Socialdemokraternas partiledare Håkan Juholt 73 avgick som partiledare efter bara tio månader på posten. Socialdemokraternas partiledare Håkan Juholt avgår. Ryktet om Håkan Juholts avgång stämmer " med mycket stor sannolikhet ". En fortsättning för Håkan Juholt som partiledare hade därför ställt Socialdemokraterna i ett minst sagt obekvämt läge med en öppen strid om vem som ska leda partiet. Under den senaste tiden har Håkan Juholt sagt att han fortsätter som partiledare. Inför mötet hade några S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin Jämtin att VU har fortsatt förtroende för honom. Precis som många medier hade uppgivit innan meddelade Juholt att han avgår som partiledare. Under starka applåder , busvisslingar och hejarop steg den lokalt populäre Håkan Juholt upp i talarstolen för att berätta att han inte längre är socialdemokraternas partiledare. Mot den bakgrunden lämnar jag med omedelbar verkan mitt uppdrag som ordförande för Socialdemokraterna , sade Håkan Juholt och möttes av upprört " Neeej ! " Håkan Juholt lämnade talarstolen och köpcentret utan att svara på frågor medan journalistuppbådet och folksamlingen sakta började lösas upp. Håkan Juholt har haft problem ända sedan han valdes till partiordförande på en extrakongress i Stockholm den 25 mars 2011. Inför mötet hade några S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin Jämtin att VU har fortsatt förtroende för honom. Flera personer i verkställande utskottet har drivit frågan om Juholts avgång. Vad vi ser nu är ett sätt att försöka rädda hans ansikte , säger en källa till DN. Om inte Juholt avgår skulle väl frågan ha lyfts om huruvida sådana som Österberg kan sitta kvar i VU ? Partisekreterare Carin Jämtin sade på fredagskvällens presskonferens att Juholt har VU : s fortsatta stöd tills vidare , men han var ju själv inte med på den , säger en källa. Tre minuter senare kom Juholts besked att han avgår. Hur stora får framtida forskning utvisa , sade Håkan Juholt. Klockan 15 inleddes pressträffen med Håkan Juholt i Oskarshamns köpcenter Flanaden. Beskedet kom under lördagens presskonferens i Håkan Juholts hemstad Oskarshamn. Jag kommer att ge mitt fulla och helhjärtade stöd till min efterträdare , som jag är övertygad om kommer att representera hela partiet och samla Socialdemokratin , för det behöver Sverige , sa Håkan Juholt under presskonferensen. H.1.4 The Knutby Murders Han skriver i överklagandet att livstidsdomen mot pastorn grundar sig på den så kallade barnflickans vittnesmål. Pastorn bör dömas för mord på sin första hustru och barnflickan till livstids fängelse i stället för vård. Det är barnflickans beskrivning i dag av sin tid vid sidan av pastorn i Knutby. DN har kommit till Knutby för att tala med Peter Gembäck om församlingens tro och hur den har påverkats av de tragedier som exponerats i alla medier. Ola Nordström ville understryka att Åsa Waldau hela tiden försökt vrida rätt den snedvridna 74 bilden som framkommit om Knutbyförsamlingen i medierna genom att skylla allt på pastorn. Åklagaren menar att det är han som mördat sin första fru i badrummet i villan i Knutby. Ytterst få fall som överklagas till HD beviljas prövningstillstånd. Pastorn som dömts till livstids fängelse för dåden i Knutby överklagar och sätter därmed sitt sista hopp till Högsta domstolen ( HD ). Pastorn fälldes i hovrätten för anstiftan till mordförsöket på sin hustru för ett år sedan då barnflickan attackerade henne med en hammare. Barnflickan dömdes till rättspsykiatrisk vård för mordförsök och mord på pastorns hustru. Pastorns förhoppningar om att HD ska ta upp fallet är samtidigt " realistiska " : - Vi har pratat mycket om det här och han har både från mig och från andra blivit klar över att HD är exklusivt och att porten dit är trång. Pastorn Helge Fossmo hade motiv för mordet , påpekade åklagaren , eftersom en skilsmässa var otänkbar. Ola Nordström , pastorns advokat , avslutade med att Helge Fossmo bör frias från samtliga anklagelser. När han och första hustrun flyttade till Knutby kom han snabbt att tillhöra Åsa Waldaus innersta krets. Knutby-pastorn Helge Fossmo beskrev sig snyftande som en man helt under inflytande av Åsa Waldau när han för första gången fick komma till tals i hovrätten. - I Helges värld fanns det alltid undantag , sade barnflickan. Kammaråklagarna Elin Blank och Anne Sjöblom har begärt att såväl Helge Fossmo som Sara Svensson ska dömas till livstids fängelse för morden och mordförsöken i Knutby. Den före detta pastorn Helge Fossmo kommer med största sannolikhet att dömas till livstids fängelse i dag , fredag. Det som talar för att Helge Fossmo får livstids fängelse är att han fortfarande sitter häktad i väntan på domen. Klockan elva faller Svea hovrätts dom mot honom och " barnflickan " Sara Svensson i Knutbymålet. Han krävde samma behandling för båda åtalade i Knutbymålet. H.1.5 The Murder of Anna Lindh Polisens utredning om mordet på utrikesminister Anna Lindh är klar. Rättegången om mordet på Anna Lindh börjar den 20 januari nästa år , enligt planerna. Veckorna före mordet på Anna Lindh fick utrikesministern mejl som var hotfulla i tonen. Ett annat e-brev som skickades två dagar före mordet har rubriken " Sluta skrämmas " och syftar troligen på Anna Lindhs delaktighet i Ja-kampanjen för euron. Anna Lindhs man , Bo Holmberg , landshövding i Sörmland , anlände till Karolinska i bil strax efter klockan 20 på kvällen. Vid tre-tiden i natt uppgav läkarna att Anna Lindhs tillstånd var något förbättrat , men fortfarande kritiskt. Med en blombukett vid Anna Lindhs tomma statsrådsbänk och med den övriga regeringen för ovanlighetens skull närvarande vid riksdagens upprop , beskrev Björn von Sydow i ett kort minnestal förlusten av Anna Lindh. Någon har med rätta beskrivit Anna Lindh som en stjärna vars strålglans nådde långt utöver Sveriges gränser , sade Björn von Sydow. Anna 75 Lindh var ingen förespråkare för en rigid bokstavstolkning av stadgan. Anna Lindhs huvudsakliga fokus låg dock i Europa. Det är en linje som Anna Lindh höll fast vid. Anna Lindh talade om behovet av inflytande , om att vara med och påverka och om att även Sverige måste ta sitt ansvar för ett gemensamt projekt. Åtskilligt har redan sagts och skrivits om Anna Lindhs ställning i världspolitiken. Anna Lindh drog sig exempelvis inte för att i skarpa ordalag uppmana Washington att upphöra med planerna på ett nationellt missilförsvar. Anna Lindh var tillgänglig och intellektuellt nyfiken. Huvudförhandlingen mot 24-årige Mijailo Mijailovic i målet om mordet på utrikesminister Anna Lindh kan påbörjas i januari. Anna Lindh hade en lång politisk insats bakom sig , ändå stod hon bara på tröskeln till den riktigt stora uppgiften att leda Sverige i den nya värld där det europeiska enhetsarbetet är en pol och hotet från en gränslös terrorism en annan. Anna Lindh var uppmärksammad , respekterad och erkänd i alla kretsar. Anna Lindh var den första kvinnan , och den första kvinnliga politiker på vilken epitetet " kvinnlig " föll bort. I ett sådant klimat blir en förvirrad , hatfull människa en hotfull risk för personligheter med den ställning och den lyskraft som Anna Lindh hade. H.1.6 The Pirate Bay Trail Fallet The Pirate Bay skulle upp i hovrätten i November , men nu pekar allt på att det inte blir av före nästa sommar. Att också Warg och Sunde fortfarande styr The Pirate Bay säger Breins ordförande Tim Kuik att man har flera bevis för. Men Peter Sunde , en annan av de åtalade i Pirate Bay-målet , är förtjust. Högsta domstolen ska pröva om två av domarna i Pirate Bay-målet är jäviga. " Kritiken var hård mot Tomas Norström , tingsrättsdomare i målet mot fildelarsajten Pirate Bay , när det i våras blev klart att han var medlem i flera olika upphovsrättsorganisationer. Nu måste hovrätten förelägga Tomas Norström att berätta sanningen , om inte hovrätten tycker att det jag redan anfört räcker , säger Samuelsson som begär att domen ska rivas upp och Pirate Bay-rättegången tas om i tingsrätten. Riv upp domen mot Pirate Bay och ta om rättegången från början. Fyra stora skivbolag ansöker hos Stockholms tingsrätt om att ge männen bakom The Pirate Bay dryga böter så länge de fortsätter att driva sajten. Därför går skivbolagen Universal , EMI , Sony och Warner ihop och ansöker om vite - ett penningbelopp som en domstol kan ålägga en part i ett mål ifall männen bakom Pirate Bay fortsätter att tillgängliggöra upphovsskyddat material. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. Det är också grunden när flera av försvarets advokater hävdar jäv. Eric Bylander , universitetslektor i processrätt vid Göteborgs universitet 76 , skriver i en artikel i Svenska Dagbladet i dag att rättegången mot Pirate Bay bör tas om. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. Det är också grunden när flera av försvarets advokater hävdar jäv. Eric Bylander , universitetslektor i processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet i dag att rättegången mot Pirate Bay bör tas om. I samband med tingsrättsförhandlingarna sades det att det skulle dröja åtminstone tre år innan fallet med The Pirate Bay är helt klart i alla tre instanserna. Tre av de åtalade i den svenska The Pirate Bay-rättegången står även inför rätta i Nederländerna. - Först och främst vill jag påpeka att jag inte äger The Pirate Bay sen ett par år tillbaka , och att jag i samband med ägarbytet inte längre har skött den tekniska driften av The Pirate Bay så det inte blir något missförstånd , då jag konstant blir felciterad i media , skriver Fredrik Neij till DN. H.1.7 (SD) Enters Riksdagen – SD är en osvensk företeelse och ska så förbli , sade Sahlin när hon inledde debatten , och fick svar : – Mona Sahlin påstår att mitt parti har rasistiska rötter , men det var inte mitt parti som tog initiativet till rasbiologisk forskning , sade Sverigedemokraternas partiledare Jimmie Åkesson i sin debut i riksdagens talarstol och ansåg att Sahlin borde hyfsa debatten. Sverigedemokraterna tar plats i riksdagen och intar rollen som vågmästare. Sverigedemokraternas inträde i riksdagen blev dramatiskt. Han har lämnat kyrkan för att biskop Brunne hyllat en demonstration riktad mot att hans parti kommit in i riksdagen , för att " Ut med Jimmie " var ett återkommande slagord och för att det deltog grupper som utövat våld mot SD : s representanter. Han vill vara anonym och säger att han inte valt Sverigedemokraterna för deras invandringspolitik som han tycker är för extrem , utan för att " alla riksdagens andra partier är för gamla och inte tänker nytt ". Då samtliga av totalt 5.668 distrikt har räknats har SD en vågmästarroll i riksdagen. Alliansen segrar alltså , men når inte egen majoritet med sina 172 mandat. SD ska dock ta ansvar , framhöll partiledaren. – Sverigedemokraterna är ett parti sprunget ur vit makt-rörelsen och rasistiska rörelser , återkom Sahlin och hävdade att SD är ett enkelspårigt parti med en enda agenda : att ställa grupp mot grupp och angripa invandringen. Sverigedemokraternas inträde i riksdagen har orsakat en chockreaktion. Opinionen Sverigedemokraternas har kommit in i riksdagen för att det finns tillräckligt många som gillar partiets idéer. Men det är inget fatalt misstag från den svenska mediekåren som har gjort att Sverigedemokraterna nått riksdagen. En annan av förklaringarna till Sverigedemokraternas framgång är att de så tydligt utmålats som vågmästare. Enligt Sverigedemokraternas pressekreterare Sven-Olof Sällström blir en av partiets första åtgärder att ta fram siffror på 77 invandringens kostnader. Sverigedemokraterna sitter nu som en kil mellan de två blocken. Fredrik Reinfeldt har under kvällen öppnat upp för ett bredare samarbete över blockgränserna för att hålla Sverigedemokraterna utanför makten. Mona Sahlin och hennes kollegor i det rödgröna samarbetet har å sin sida tydligt förklarat att de inte vill medverka till att Sverigedemokraterna får inflytande. Sverigedemokraterna ( SD ) samlade i dag cirka 300 kommunala företrädare i Älvsjö i södra Stockholm. Varför röstar så många i Sölvesborg på Sverigedemokraterna ? Där röstade 12,2 procent av invånarna på SD. Båda representerar Sverigedemokraterna i fullmäktige. När Jimmie Åkesson och hans partigrupp , tisdagen den 5 oktober , anländer till den gudstjänst i Storkyrkan som traditionsenligt föregår riksdagens högtidliga öppnande , är stämningen förväntansfull och nervös. H.1.8 The Tsunami in Japan 2011 Kritiker har sett händelsen vid det läckande kärnkraftverket i Fukushima som ett tillfälle för Japan att bryta med den gamla ordningen då 30 procent av landets elbehov täckts av kärnkraft. Han refererar till vetenskapsmän som kallat Japan ett av världens sju under eftersom landet är platsen för så många jordbävningar samtidigt som kärnkraften byggts ut med 54 reaktorer. Sedan katastrofen vid kärnkraftverken Fukushima för ett år sedan har landets reaktorer genomgått säkerhetsinspektioner , och bara två av 54 är i bruk. Problemen med den tredje reaktorn kom sedan ännu en kraftig explosion inträffat tidigt på måndagsmorgonen , svensk tid , i en reaktor på kärnkraftverket. - Även om det bara sker för en kort period så vore det en seger för oss , det är vad vi kämpar för , och det kommer att visa att Japan klarar sig utan kärnkraft , säger Harue Aoyama , en av de envisa demonstranter som sedan i September protesterar utanför det ansvariga departementet i Tokyo. Därmed kan kärnkraftsnationen Japan i sommar , drygt ett år efter olyckan , tillfälligt stå helt utan kärnkraft. Ett år efter olyckan vid anläggningen i Fukushima har Japan blivit en nation av kärnkraftsmotståndare. - Att Japan har kärnkraft är detsamma som att den här nationen begår självmord , säger den 85-årige Hiroshimaveteranen , som sedan 60-talet bor i Fukushima. När olyckorna på kärnkraftverket Fukushima 1 blev allt fler bestämde sig också Love och hans sambo för att lämna Tokyo. Tidigare på tisdagskvällen svensk tid ( sextiden onsdag morgon japansk tid ) upptäckte en arbetare en brand i den yttre inneslutningen av reaktor fyra. Den japanska nyhetsbyrån Kyodo uppgav tidigare på tisdagen att en bassäng vid reaktor nummer 4 som innehåller utbränt kärnbränsle kokade vilket skulle kunna vara ett tecken på att strålning läcker ut i vattnet. Rädslan runt kärnkraft har ökat bland japaner efter kärnkraftskrisen i Fukushima. Vi siktar på att åstadkomma ett samhälle som kan klara sig utan kärnkraft " , sade premiär- 78 minister Naoto Kan i japansk tv på onsdagen , fyra månader efter haverierna i Fukushimas kärnkraftverk. - Vi siktar på att åstadkomma ett samhälle som kan klara sig utan kärnkraft , sade den japanske premiärministern , enligt BBC. Den flodvåg som följde på Japans hittills kraftigaste jordbävning förödde nordöstra Japans lågt liggande kustområden på det brutalaste sätt. Ännu en explosion har inträffat på kärnkraftverket Fukushima 1 , den tredje på några dagar. Detta meddelar regeringskällor i Tokyo enligt nyhetsbyrån Kyodo vid midnatt svensk tid. Samtliga bränslestavar vid de tre reaktorerna vid kärnkraftverket Fukushima 1 riskerar nu att smälta och fyra av fem pumpar som ska förse reaktorerna med kylvatten har slutat fungera. H.2 Cover Coefficient Summarizer H.2.1 The Death of Khaddafi Vem sköt det dödande skottet mot ex-diktatorn Khaddafi ? Libyens förre ledare Muammar Khaddafi är död , uppger den nya övergångsregeringen NTC. – Vi vet vem som dödade Khaddafi. Kommentarerna kom efter att NTC rapporterat att ex-diktatorn gripits och inte efter rapporterna om Khaddafis död. Bilderna av hur det gick till när Muammar Khaddafi togs till fånga och omständigheterna kring hans död har fått FN : s råd för mänskliga rättigheter att reagera. Libyens övergångsregering planerar att begrava Muammar Khaddafi på hemlig plats , rapporterar tv-stationen al-Arabiyya. Libyens övergångsregering planerar att begrava Muammar Khaddafi på hemlig plats , rapporterar tv-stationen alArabiyya. – Khaddafi togs först till fånga av rebeller från öst. Strax efter klockan 16 på torsdagen svensk tid höll Muammar Khaddafi ett tal som riktades till det libyska folket. Den störtade libyske ledaren Muammar Khaddafi och hans son Mutassim ska begravas på tisdagen. – Nu är Libyen helt fritt från Khaddafi och hans regim. Khaddafis förre livvaktschef Mansour Daw greps i samband med torsdagens tillslag i Sirte , där ex-diktatorn dödades. Samtidigt kommer helt andra uppgifter från ett annat håll i NTC. Det är oklart när Khaddafis kropp begravs. Muammar Khaddafi väntas begravas på hemlig plats under fredagen. Tillsammans med andra ledande Khaddafilojalister bodde Daw i Sirte under de senaste månaderna och fick uppleva Muammar Khaddafis sista tid från nära håll. Enligt Bashagha , som själv var i Sirte med NTC-styrkorna , dog sedan Khaddafi i en ambulans. Den officiella versionen är att Muammar Khaddafi dog i skottväxling på väg till sjukhus. Muammar Khaddafis regim hade kunnat överleva ytterligare fyra decennier , om det inte varit för en arabisk vår , modiga libyer och - Natos FN-sanktionerade luftkrig. Det är ännu oklart var Muammar Khaddafi befinner sig. Han säger att Muammar Khaddafi själv inte var med i torsdagens skottväxlingar med rebellgrupperna , utan att sonen Motassim 79 ledde striderna. Han berättar att Khaddafi försökte fly Sirte till fots och att ex-diktatorn under de sista dagarna visade oro men att han " inte var rädd ". Daw berättar att Khaddafi åkte till Sirte i augusti eftersom han hade sitt största stöd där. Rupert Colville väntade sig att den gruppen även kommer att granska omständigheterna kring Khaddafis död. Enligt tevestationen Arrai i Syrien uppmanade Khaddafi alla stammar att fortsätta striden. H.2.2 The Death of Kim Jong-Il Det är några av de naturfenomen som inträffat i Nordkorea efter ledaren Kim Jong-Ils död , enligt den statliga nyhetsbyrån KCNA. Bilderna från den statliga nordkoreanska televisionen visar Nordkoreas nye ledare Kim Jong-Un under en minnesceremoni för den avlidne diktatorn , hans far , Kim Jong-Il. Nu efter Kim Jong-Ils död hoppas de att folket i Nordkorea ska resa sig mot regimen. Nordkoreas ledare Kim Jong-Il har avlidit , uppger landets statliga television. Är det landets militära ledning eller är det redan Kim Jong Un ? Konstiga naturfenomen har bevittnats i Nordkorea efter ledaren Kim Jong-Ils död , rapporterar den statliga nyhetsbyrån KCNA. Enligt statliga medier efterträds han av sonen Kim Jong-Un. Det är inte bara det nordkoreanska folket som sörjer den döde ledaren , utan även själva naturen. Han tror att folket i Nordkorea kommer att resa sig mot regimen nu. Färska rapporter från det så slutna landet tyder på att regeringen redan har hunnit rensa ut hundratals tjänstemän som ansetts hota Kim Jong-Uns övertagande av makten. Dagens begravning av Nordkoreas diktator Kim Jong-Il gav ledtrådar till maktspelet kring landets nye ledare , sonen Kim Jong-Un. Sydkoreansk underrättelsetjänst ifrågasätter dock nu hur Kim Jong-Il dog , skriver BBC. Sorgeceremonierna i Nordkorea efter diktatorn Kim Jong-Ils död uppges ha avslutats. Efter Kim Jong-Ils död hoppas Amnesty att Nordkoreas regim ska öppna upp för ett mer demokratiskt styre. Då Kim Jong-Il kom till makten 1994 skickades tiotusentals personer till fångläger. Nu leder Kim Jong Un en nation som kan framställa kärnvapen. Sydkoreas militär har satts i högsta beredskap efter beskedet om Kim Jong-Ils död och presidenten har kallat Nationella säkerhetsrådet till extra krismöte , rapporterar den sydkoreanska nyhetsbyrån Yonhap. Nyhetsbyrån Reuters skriver att Sydkoreas militär inte iakttagit någon onormal trupprörelse i Nordkorea efter Kim Jong-Ils död. Vad som oroar Sydkorea är om Kim Jong Un på hemmaplan känner sig utmanad som ledare. Direkt efter faderns död pekades han ut som efterträdare och landets högste ledare. 80 H.2.3 Juholt’s Resignation Socialdemokraternas partiledare Håkan Juholt avgår. Socialdemokraternas partiledare Håkan Juholt avgår från posten. Carin Jämtin beredd att ta över ledarskapet Håkan Juholt avgår omedelbart som partiledare för Socialdemokraterna. Socialdemokraternas partiledare Håkan Juholt avgick som partiledare efter bara tio månader på posten. - Jag lämnar uppdraget som ordförande för Socialdemokraterna med omedelbar verkan , sade Håkan Juholt. - Jag lämnar med omedelbar verkan uppdraget som partiledare , säger Juholt. Partiet behövde en nystart , sa Håkan Juholt. I går sade VU att Håkan Juholt fortsätter som Socialdemokraternas partiordförande. Juholt lämnade själv beskedet på en presskonferens i Oskarshamn. Beskedet kom under lördagens presskonferens i Håkan Juholts hemstad Oskarshamn. Inför mötet hade några S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin Jämtin att VU har fortsatt förtroende för honom. Partisekreterare Carin Jämtin sade på fredagskvällens presskonferens att Juholt har VU : s fortsatta stöd tills vidare , men han var ju själv inte med på den , säger en källa. Håkan Juholts besked i går var det bästa både för honom själv och för Socialdemokraterna som parti. Jag kommer att ge mitt fulla och helhjärtade stöd till min efterträdare , som jag är övertygad om kommer att representera hela partiet och samla Socialdemokratin , för det behöver Sverige , sa Håkan Juholt under presskonferensen. Under den senaste tiden har Håkan Juholt sagt att han fortsätter som partiledare. Inför mötet hade några S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin Jämtin att VU har fortsatt förtroende för honom. Juholt lämnade efter sitt uttalande snabbt podiet utan att svara på frågor. Håkan Juholt har haft problem ända sedan han valdes till partiordförande på en extrakongress i Stockholm den 25 mars 2011. Jag är född socialdemokrat och kommer att dö som socialdemokrat , sade Juholt och möttes av stort jubel. Mot den bakgrunden lämnar jag med omedelbar verkan mitt uppdrag som ordförande för Socialdemokraterna , sade Håkan Juholt och möttes av upprört " Neeej ! " – Jag kommer att ge mitt fulla och helhjärtade stöd till min efterträdare – en efterträdare som jag är övertygad om kommer att representera hela partiet och som kan samla socialdemokratin , sade Juholt , och lämnade presskonferensen utan att svara på några frågor. Klockan 15 inleddes pressträffen med Håkan Juholt i Oskarshamns köpcenter Flanaden. Han skulle väl lämna utskottet omedelbart om inte Juholt avgick. H.2.4 The Knutby Murders Pastorn bör dömas för mord på sin första hustru och barnflickan till livstids fängelse i stället för vård. Det finns ett före och ett efter , menade Helge Fossmos advokat Ola Nordström. Det är barnflickans beskrivning i dag av sin tid vid 81 sidan av pastorn i Knutby. Klockan elva faller Svea hovrätts dom mot honom och " barnflickan " Sara Svensson i Knutbymålet. Då kan man inte döma någon till livstid , sade Nordström. Den före detta pastorn Helge Fossmo kommer med största sannolikhet att dömas till livstids fängelse i dag , fredag. " Jag bad inte barnflickan att döda dig " , ska pastorn då ha yttrat enligt grannens vittnesmål. Barnflickan dömdes till rättspsykiatrisk vård för mordförsök och mord på pastorns hustru. Rättegången om mord och mordförsök i Knutby pingstförsamling fortsatte på tisdagen i Svea hovrätt. Han skriver i överklagandet att livstidsdomen mot pastorn grundar sig på den så kallade barnflickans vittnesmål. Hon är påverkad av församlingen som gjort allt för att sätta dit pastorn. Hon försöker också visa hur Helge Fossmo har manipulerat barnflickan Sara Svensson för att förmå henne att mörda hans andra hustru. Kammaråklagarna Elin Blank och Anne Sjöblom har begärt att såväl Helge Fossmo som Sara Svensson ska dömas till livstids fängelse för morden och mordförsöken i Knutby. Men eftersom barnflickan Sara Svensson stod för delar av planeringen bör hon dömas till fängelse. Hennes advokat Christer Söderberg har begärt att hon ska få rättspsykiatrisk vård i stället för fängelse. Pastorn fälldes i hovrätten för anstiftan till mordförsöket på sin hustru för ett år sedan då barnflickan attackerade henne med en hammare. Det hävdade åklagaren Elin Blank när Knutbymålet avslutades i hovrätten på tisdagen. Det som talar för att Helge Fossmo får livstids fängelse är att han fortfarande sitter häktad i väntan på domen. Frågan är om Helge Fossmo också kommer att dömas för mordet på sin första hustru. Det betyder antagligen att hovrätten tror på åklagarnas version att Helge Fossmo lurade Sara Svensson till att tro att hon skulle mörda på uppdrag från Gud. Knutby-pastorn Helge Fossmo beskrev sig snyftande som en man helt under inflytande av Åsa Waldau när han för första gången fick komma till tals i hovrätten. Advokat Christer Söderberg kontrade med att det finns två gedigna undersökningar som konstaterar att Sara Svensson är allvarligt störd och bör dömas till vård , inte fängelse. Barnflickan berättade att hon redan i början av 2001 fick höra av pastorn att hans andra hustru skulle dö. H.2.5 The Murder of Anna Lindh Polisens utredning om mordet på utrikesminister Anna Lindh är klar. Rättegången om mordet på Anna Lindh börjar den 20 januari nästa år , enligt planerna. Utrikesminister Anna Lindh är mycket allvarligt skadad. Veckorna före mordet på Anna Lindh fick utrikesministern mejl som var hotfulla i tonen. Vid operationen visade det sig att Anna Lindh hade kraftiga blödningar från levern och stora blodkärl i buken. Utrikesminister Anna Lindh avled klockan 05.29 i morse av de skador hon fick vid knivöverfallet på onsdagen. Vid en pressinformation klockan 03.00 i natt meddelades att Anna Lindhs tillstånd fortfarande 82 är kritiskt. Utrikesminister Anna Lindh var i eftermiddag tillsammans med en väninna och handlade på varuhuset NK i centrala Stockholm. Anna Lindhs liv gick inte att rädda. - Vi siktar därför på att inleda förhandlingarna redan tisdagen den 20 januari , säger Göran Nilsson. Vid tre-tiden i natt uppgav läkarna att Anna Lindhs tillstånd var något förbättrat , men fortfarande kritiskt. Opereras i natt Anna Lindh fördes omedelbart till Karolinska sjukhuset i Solna. Det är en linje som Anna Lindh höll fast vid. Anna Lindh fick allvarliga knivskador i buk och bröst när hon attackerades av en okänd gärningsman inne på varuhuset NK. Han nekar fortfarande till att ha mördat Anna Lindh. I slutet av augusti skriver en man ett brev med rubriken " Anna Lindhs skrämselpropaganda ". Just nu är läget något förbättrat men fortfarande kritiskt , sade Göran Wallin. Anna Lindh var alldeles nyss mitt ibland oss , sa han. Ofta står bara till Anna Lindh , eller ingenting. Anna Lindh avled på operationsbordet klockan 05.29 efter en massiv blödning orsakade av knivskador på lever och flera av de stora blodkärlen i buken. Anna Lindh opererades från 17.00 på onsdagen till 01.00 på torsdagsnatten då blödningen minskat något. I ett annat mejl tar en person upp ett påstående om att Anna Lindh haft ett förhållande med USA : s utrikesminister Colin Powell. Klockan 1 i natt hoppades läkarna att operationen var klar. Klockan 05.29 på torsdagen avled Sveriges utrikesminister. se att mannen slog Anna Lindh till marken. - Med Anna Lindhs bortgång har Sverige förlorat en mycket framstående politiker brett uppskattad och respekterad. H.2.6 The Pirate Bay Trail Högsta domstolen ska pröva om två av domarna i Pirate Bay-målet är jäviga. " - The Pirate Bay finns inte i Sverige. Kritiken var hård mot Tomas Norström , tingsrättsdomare i målet mot fildelarsajten Pirate Bay , när det i våras blev klart att han var medlem i flera olika upphovsrättsorganisationer. Fallet The Pirate Bay skulle upp i hovrätten i November , men nu pekar allt på att det inte blir av före nästa sommar. Ihrfeldt är inte medlem i någon sådan förening. Ihrfeldt är inte medlem i någon sådan förening. Ihrfeldt är inte medlem i någon sådan förening. Det är också grunden när flera av försvarets advokater hävdar jäv. Det är också grunden när flera av försvarets advokater hävdar jäv. Ihrfeldt har själv varit med i Svenska Föreningen för Upphovsrätt men är inte längre medlem. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger Ihrfeldt. I ansökan till tingsrätten benämns The Pirate Bay som " en intrångstjänst ". Riv upp domen mot Pirate Bay och ta om rättegången från början. Men Peter Sunde , en annan av de åtalade i 83 Pirate Bay-målet , är förtjust. Inför förhandlingen i hovrätten anser försvaret att två av domarna har liknande kopplingar till upphovsrättsorganisationer. Peter Sunde säger i en kommentar till DN. Peter Sunde säger i en kommentar till DN. Peter Sunde säger i en kommentar till DN. Fyra stora skivbolag ansöker hos Stockholms tingsrätt om att ge männen bakom The Pirate Bay dryga böter så länge de fortsätter att driva sajten. Tre av de åtalade i den svenska The Pirate Bay-rättegången står även inför rätta i Nederländerna. Männen bakom The Pirate Bay dömdes till fängelse och dryga böter. Det är också grunden när flera av försvarets advokater hävdar jäv. Eric Bylander , universitetslektor i processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet i dag att rättegången mot Pirate Bay bör tas om. Eric Bylander , universitetslektor i processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet i dag att rättegången mot Pirate Bay bör tas om. Att också Warg och Sunde fortfarande styr The Pirate Bay säger Breins ordförande Tim Kuik att man har flera bevis för. Svea hovrätt ogillar jävsinvändningarna i Pirate Bay-målet mot två av hovrättens domare. Förtroendet för rättsväsendet kräver därför att hovrätten skall anse att han har varit jävig att handlägga målet " , skriver han. H.2.7 (SD) Enters Riksdagen Sverigedemokraterna tar plats i riksdagen och intar rollen som vågmästare. Varför röstar så många i Sölvesborg på Sverigedemokraterna ? Sverigedemokraterna gynnas hur som helst eftersom det gör deras frågor viktiga. I denna grupp finns Sverigedemokraterna potentiella väljare. Det blir kanske som allra tydligast när det gäller de etablerade partiernas sätt att bemöta Sverigedemokraterna. För de potentiella SD-väljarna måste det finnas anledning att rösta på Sverigedemokraterna. Sverigedemokraterna har givetvis egen del i framgången. Och det skrämmande är inte att partiet nått riksdagen , utan att det nu sitter där för att det finns folk som håller med dem. Vi som studerat SD vet att rasismen finns kvar i partiet. Då är det viktigt att se längre än till bara valrörelsen. De röstar inte på Sverigedemokraterna trots partiets islamofobi och rasism , utan på grund av den. Själv säger Jimmie Åkesson att hans mål på sikt är att göra Sverigedemokraterna till ett trettioprocentsparti. Carina Åhs , som är 42 år , röstade på Sverigedemokraterna i valet 2006 , valet innan dess hade hon röstat på Socialdemokraterna. – Nu är vi i riksdagen , sade han och möttes av ett stort jubel. Sverigedemokraterna rör upp starka känslor. En annan av förklaringarna till Sverigedemokraternas framgång är att de så tydligt utmålats som vågmästare. Sverigedemokraterna behöver inte heller övertyga väljarna om grundsatsen i partiets politik – att vårt land består av " svenskar " och " invandrare ". Att skälla ut partiet istället för att bemöta det utifrån dess politik gynnar bara Sverigedemokraterna. Siffran Sverigedemokraterna far efter bör alltså 84 vara dessa 11 000 personer. Sverigedemokraterna talar om ett " sammanhållet Sverige ". Han vill vara anonym och säger att han inte valt Sverigedemokraterna för deras invandringspolitik som han tycker är för extrem , utan för att " alla riksdagens andra partier är för gamla och inte tänker nytt ". SD ska dock ta ansvar , framhöll partiledaren. Sverigedemokraternas inträde i riksdagen blev dramatiskt. SD vill skära ned invandringen till 10 procent av dagens. Fredrik Reinfeldt har under kvällen öppnat upp för ett bredare samarbete över blockgränserna för att hålla Sverigedemokraterna utanför makten. SD kallar det diskriminering av svenskar. – Sverigedemokraterna är ett parti sprunget ur vit makt-rörelsen och rasistiska rörelser , återkom Sahlin och hävdade att SD är ett enkelspårigt parti med en enda agenda : att ställa grupp mot grupp och angripa invandringen. Sverigedemokraterna har nått sitt mål. Där medierna givetvis spelade en viktig roll. Debattörerna : De andra partierna har inte tagit deras väljare på allvar Ett nationalistiskt parti har för första gången tagit plats i den svenska riksdagen. Under några dagar stod Sverigedemokraterna i centrum för en diskussion som handlade om hur dåligt och farligt partiet var. H.2.8 The Tsunami in Japan 2011 Ännu en explosion har inträffat på kärnkraftverket Fukushima 1 , den tredje på några dagar. Ett år efter olyckan vid anläggningen i Fukushima har Japan blivit en nation av kärnkraftsmotståndare. Än i dag fortsättar anläggningen i Fukushima att läcka radioaktiv strålning. Problemen med den tredje reaktorn kom sedan ännu en kraftig explosion inträffat tidigt på måndagsmorgonen , svensk tid , i en reaktor på kärnkraftverket. Sedan katastrofen vid kärnkraftverken Fukushima för ett år sedan har landets reaktorer genomgått säkerhetsinspektioner , och bara två av 54 är i bruk. När olyckorna på kärnkraftverket Fukushima 1 blev allt fler bestämde sig också Love och hans sambo för att lämna Tokyo. Ägaren till kärnkraftverket , Tokyo Electric Power Company , uppger att tre personer som arbetade vid kärnkraftverket skadades vid olyckan. Det var den 11 mars som Fukushima-verket havererade , efter att nordöstra Japan drabbats av en kraftig jordbävning och tsunami. Han refererar till vetenskapsmän som kallat Japan ett av världens sju under eftersom landet är platsen för så många jordbävningar samtidigt som kärnkraften byggts ut med 54 reaktorer. Uppgifterna om den nya explosionen , som inträffade klockan 06.10 lokal tid , innebär att samtliga tre reaktorer vid det skadade kärnkraftverket nu har drabbats av explosioner. Samtliga bränslestavar vid de tre reaktorerna vid kärnkraftverket Fukushima 1 riskerar nu att smälta och fyra av fem pumpar som ska förse reaktorerna med kylvatten har slutat fungera. Några timmar senare drabbades de av ytterligare en jordbävning som hade sitt centrum bara några mil från dem. Vi siktar på att åstadkomma ett samhälle som kan klara 85 sig utan kärnkraft " , sade premiärminister Naoto Kan i japansk tv på onsdagen , fyra månader efter haverierna i Fukushimas kärnkraftverk. - Vi siktar på att åstadkomma ett samhälle som kan klara sig utan kärnkraft , sade den japanske premiärministern , enligt BBC. Kritiker har sett händelsen vid det läckande kärnkraftverket i Fukushima som ett tillfälle för Japan att bryta med den gamla ordningen då 30 procent av landets elbehov täckts av kärnkraft. Japans strålskyddsmyndighet kunde inte säga om det skett något radioaktivt utsläpp i samband med explosionen. Personalen vid det havererade kärnkraftverket Fukushima evakuerades tillfälligt på grund av höjd radioaktivitet men återvände senare. Detta meddelar regeringskällor i Tokyo enligt nyhetsbyrån Kyodo vid midnatt svensk tid. Nyhetsbyrån Kyodo uppger att morgonens explosion var en vätgasexplosion. En liknande explosion inträffade i lördags i reaktor 1 i samma kärnkraftverk. Enligt chefen för atomenergiorganet IAEA , Yukiya Amano , kan reaktor nummer 2 ha fått skador på reaktorinneslutningen. 86 TRITA-CSC-E 2012:087 ISRN-KTH/CSC/E--12/087-SE ISSN-1653-5715 www.kth.se
Similar documents
Lösningar 5/2014
heller med i SAOL. Följande ord saknas också: korsordsbekymmer, korsordskväll, korsordslängtan och korsordsord. Ordet språksnack finns inte heller med. Det behöver inte vara med, vi fattar ändå. Ib...
More information