🗞 Новият брой на Капитал е онлайн >>

Как са разчетени грамите на WikiLeaks

Журналистите на AP извличат ценното съдържание по техника, взета назаем от онлайн търсачките

Бюлетин: Вечерни новини Вечерни новини

Всяка делнична вечер получавате трите най-четени статии от деня, заедно с още три, препоръчани от редакторите на "Капитал"

За да извлекат важната информация от хилядите грами на WikiLeaks, журналистите на Associated Press (AP) се вдъхновяват от работата на онлайн търсачките, обяснява Джонатан Стрей, интерактивен редактор в AP, в презентация пред националния институт за прилагане на компютърни технологии в журналистиката.

За да открият ценното в грамите, журналистите на AP дават рейтинг за всяка дума. Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ.

След това репортерите сравняват документи, които имат близки рейтинги, и ги визуализират, за да открият връзки. Така те бързо си създават представа за събитията в Ирак например според това колко пъти се среща ключовата дума "убийство" например.

В опит да намалят времето, в което анализират документите, от AP използват алгоритъм, разработен от Стивън Инграм и Тамара Мунцнер от университета на Британска Колумбия. Чрез него, теобработват стотици хиляди документи за минути.

Техниката има много приложения. Екипът на Джонатан Стрей може да раздели всички документи по признаци. В случая файловете се сортират по трите ключови думи, които се повтарят най-често в тях. Например - "със завързани очи", "крака, ръце" и "отвлечен". След това се визуализират връзките между различните категории.

Те се базират на теми от речника на военните като:

- криминално действие (44.61%)

- вражеско действие (29.47%) - опасност от взрив (16.72%) - приятелско действие (6.06%) - доклад за заплаха (1.18%)

- други (1.11%)

След това изследователите задълбават във всяка категория и търсят ключовите думи, които се повтарят най-често в нея. За криминално действие това са: "със завързани очи", "със завързани ръце", "труп" и "изстрел".

Едно от интересните открития са няколко десетки документи, съдържащи "автомобил-цистерна". От AP сверяват статиите на своите журналисти в същия период, от който датират грамите, и откриват едва четири-пет, съдържащи същата ключова дума. Т.е медиите не са успели да обърнат внимание на всички атентати.

Желанието на Джонатан Стрей е да отвори достъпа до компютърния алгоритъм, така че повече разследващи журналисти да се възползват от методите на AP и така да вършат работата си по-ефективно.

3 коментара
  • Най-харесваните
  • Най-новите
  • Най-старите
  • 1
    geoprofi avatar :-|
    Geo
    • - 3
    • + 7

    Открили са топлата вода, и? Търсачка, базирана на BM25 ползват почти всички сайтове, в които опцията "търси", а това е, което описвате в статията. Поддържа се стандартно във всички бази данни от повече от десетилетие. По-усъвършенстваните варианти - BM25 + Proximity Match + Custom решения също навлязоха доста масово последните години и работят перфектно навсякъде, където трябва да се търси в база данни. Не виждам новината...

    Нередност?
  • 2
    pavka14 avatar :-|
    Павел
    • + 2

    "журналистите на AP дават рейтинг за всяка дума. Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ." - TF-IDF съществува от доста пред журналистите на AP да го "открият".

    Нередност?
  • 3
    epoc avatar :-|
    epoc

    Е сега на гугъл ще им припари под задниците......

    Нередност?
Нов коментар