…Pattern Recognition…


…habe gerade eine super seite zum Thema Mustererkennung in Text Dokumenten gefunfen. Nennt sich Tagcrowd. Funktioniert wie folgt: man lädt eine Internet Site oder ein Textdokument hoch oder alternativ gibt man einen Text frei ein. Tagcrowd macht dann eine Analyse und zeigt die häufigsten Begriffe an (Standardmässig 50 Begriffe). Interessant wird es dadurch, das man eigene „Stoplisten“ erstellen kann, das sind Listen, die festlegen welche Wörter man nciht in der entstehenden WordCloud haben möchte. Hier bieten sich zum Beispiel die häufigsten deutschen Füllwörter an, für englisch sind diese Wörter standardmässig ausgeblendet. Ich habe testweise mal den folgenden Artikel zum Satellitenabschuß der Amerikan von CNN reingeladen: „Pentagon confident satellite’s toxic fuel destroyed„, hier das ergebnis:

tagcloud.jpg

Kommentare

Hinterlasse einen Kommentar