Text Summarization
Text Summarization
Text summarization adalah proses mengurangi
dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang
mempertahankan poin yang paling penting dari dokumen asli. Metode Ekstraksi
bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam
teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi membangun
sebuah representasi semantik internal dan kemudian menggunakan teknik bahasa
generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas secara
manual . Metode The state-of-the-art abstraktif masih cukup lemah, sehingga
sebagian besar penelitian telah difokuskan pada metode ekstraktif.
Suatu artikel yang memiliki ukuran yang panjang,
akan mengakibatkan pembaca akan sangat kesulitan bila harus membaca dan
menyerap semua informasi dari artikel tersebut. Text Summarization akan
menghasilkan suatu produk teks yang tetap memiliki/ mengandung bagian-bagian
yang penting dari artikel asli. Hasil pengujian menunjukkan bahwa proses
summary sangat bergantung pada jenis dan struktur dari artikel. Sistem akan
menghasilkan summary yang baik bila jenis artikel yang diproses adalah jenis
ilmiah argumentasi. Sedangkan untuk struktur artikel, bila suatu artikel
memiliki banyak paragraf dan disetiap paragraf memiliki lebih dari dua kalimat
maka mendapatkan hasil summary yang baik.
Sedangkan menurut Hovy,
ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang
mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari
setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks
otomatis (automatic text
summarization) dengan menggunakan
berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn.
Banyak teknik yang digunakan dalam summarization ini, seperti
teknik pendekatan statistika yaitu teknik word frequency (Luhn,
1958), position in text (Baxendale, 1958), cue words and
heading (Edmudson, 1969), sentence position (Lin dan Hoovy,
1997). Teknik pendekatan dengannatural language analysis yaitu inverse
term frequency and NLP technique (Aone, 1990), lexical chain (Mc
Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).
Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks,
yaitu ekstraksi (shallower approaches) dan abstraksi (deeper
approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang
dianggap paling penting atau paling informatif dari teks sumber menjadi
ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat
utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase
dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber,
kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang
merepresentasikan intisari teks sumber dalam bentuk berbeda dengan
kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks
lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena
mengaplikasikan teknologi natural language generation yang
merupakan bahasan yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya, sebuah ringkasan
dapat dihasilkan dari satu sumber (single-document) atau dari banyak
sumber (multi-document). Peringkasan single-document masukannya berupa sebuah
teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada
peringkasan multi-document, masukan adalah beberapa dokumen
teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian
akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum
informasi-informasi utama pada klaster masukan.
Suatu ringkasan dapat bersifat general, yaitu
ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu
menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil
untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna
sistem. Queryoriented atau user-oriented summarization mencoba
mengambil informasi yang relevan dengan query pengguna dan
menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat
memiliki sifat indicative, informative, atau evaluative. Ringkasan
informativeberfungsi menyajikan informasi utama atau yang paling penting dari
teks sumber. Ringkasan indicative memberikan saran untuk
pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks. Sedangkan
ringkasanevaluative memberi komentar atau evaluasi terhadap
informasi utama pada teks sumber.
Compression rate pada proses peringkasan akan menentukan
panjang ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari
teks sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber.
Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan
ringkasan sepanjang 100 kata. Biasanya, panjang ringkasan tidak lebih dari
setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat
tinggi peringkasan teks otomatis. Masukan berupa teks dengan berbagai
karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.
Metode Secara Umum
Metode dalam penerapan Text Summarization ini
adalah menggunakan metode TF-IDF (Terms Frequency – Inverse Document Frequency)
dan Exhaustive algorithm. Metode TF-IDF berfungsi untuk menghitung bobot nilai
dari setiap kalimat dan relasi antar kalimat. Sedangkan Exhaustive algorithm
berfungsi untuk menghasilkan path dari setiap penelusuran titik-titik pada
graph. Dan kemudian hasil path tersebut akan menjadi suatu summary.
Metode Text Summarization terdapat 3 metode secara umum yaitu :
1. Extraction-based summarization
2. Abstraction-based summarization
3. Maximum entropy-based summarization
Extraction-based summarization
Dua jenis summarization sering dibahas dalam
literatur adalah ekstraksi keyphrase, di mana tujuannya adalah untuk memilih kata-kata
individu atau frase untuk “tag” sebuah dokumen, dan summarization dokumen, di
mana tujuannya adalah untuk memilih seluruh kalimat untuk membuat ringkasan
paragraf pendek.
Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.
Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.
Abstraction-based summarization
Teknik ekstraksi hanya menyalin informasi yang
dianggap paling penting oleh sistem untuk ringkasan (misalnya, klausa kunci,
kalimat atau paragraf), sedangkan abstraksi melibatkan parafrase bagian dari
dokumen sumber. Secara umum, abstraksi dapat menyingkat teks lebih kuat dari
ekstraksi, tetapi program yang bisa melakukan hal ini lebih sulit untuk
mengembangkan karena mereka memerlukan penggunaan teknologi natural language
generation.
Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).
Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).
Maximum entropy-based summarization
Meskipun automating abstractive summarization
adalah tujuan dari penelitian summarization, sistem yang paling praktis
didasarkan pada beberapa bentuk adalah summarization ekstraktif. Maximum
entropy-based summarization telah berhasil diterapkan untuk summarization dalam
domain siaran berita.
Metode Text Summarization
1. Ranked Positional Weight
Lokasi
tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung
mengandung informasi penting. Metode sederhana dengan mengambil paragraf
pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada
artikel berita. Ranked Positional Weight adalah metode yang diusulkan
oleh Helgeson dan Birnie sebagai pendekatan untuk memecahkan permasalahan
pada keseimbangan lini dan menemukan solusi dengan cepat. Konsep dari
metode ini adalah menentukan jumlah stasiun kerja minimal dan melakukan
pembagian task ke dalam stasiun kerja dengan cara memberikan bobot posisi
kepada setiap task sehingga semua task telah ditempatkan kepada sebuah
stasiun kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang
dibutuhkan untuk melakukan task ke-i ditambah dengan waktu untuk
mengeksekusi semua task yang akan dijalankan setelah task ke-i tersebut.
Urutan langkah-langkah pada metode Ranked Positional Weight adalah
sebagai berikut:
1. Lakukan penghitungan bobot posisi untuk setiap
task. Bobot posisi setiap task dihitung dari bobot suatu task
ditambah dengan bobot task-tasksetelahnya.
2. Lakukan pengurutan task-task berdasarkan bobot
posisi, yaitu dari bobot posisi besar ke bobot posisi kecil.
3. Tempatkan task dengan bobot terbesar ke sebuah
stasiun kerja sepanjang tidak melanggar precedence constraint dan waktu stasiun
kerja tidak melebihi waktu siklus.
4. Lakukan langkah 3 hingga semua task
telah ditempatkan kepada suatu stasiun kerja.
2. Cue phrase indicator criteria
Pada beberapa genre teks, kata dan frasa
tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat
tersebut. Daftar cue phrase beserta (positif dan negatif) ‘goodness score’
biasanya dibangun manual.
3. Word and phrase frequency criteria
Secara umum feature yang digunakan untuk
mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi
kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang
diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari
kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda
hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad.
Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa
melibatkan frasa dalam feature dapat meningkatkna kinerja clustering.
Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah
cukup banyak dilakukan. Metode seleksi beragam mulai dengan pendekatan
statistik sampai pendekatan natural language processing (NLP).
Untuk kasus bahasa Indonesia penelitian di
bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini
frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna
tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya “kambing
hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan
penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti
pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi
dilakukan untuk melakukan seleksi. sebagai persamaan berikut:
dengan qi adalah variansi jika frekuensi minimal kata/frasa
muncul dalam analisis adalah I (i=0,1,2,...).
Luhn memakai distribusi kata Zipf’s law untuk
mengembangkan kriteria ekstraksi: jika sebuah teks mengandung beberapa kata
yang biasanya jarang muncul, maka kalimatkalimat yang mengandung kata-kata
tersebut mungkin penting.
4. Query and title overlap criteria
Metoda sederhana tapi berguna adalah dengan
memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada
judul, heading, atau query.
5. Cohesive or lexical connectedness criteria
Kohesi leksikal, yaitu efek kohesif yang
dicapai melalui pemilihan kosakata. Kedua, berdasarkan asal hubungannya, kohesi
diklasifikasi lebih jauh berdasarkan tiga hal, yaitu.
1. Keterkaitan bentuk yang meliputi substitusi,
elipsis, dan kolokasi leksikal;
2. Keterkaitan referensi yang meliputi referensi
dan reiterasi leksikal;
3. Hubungan semantik yang diperantai oleh
konjungsi.
Menurut Untung Yuwono dalam
bukunya yang berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan
sendirinya, tetapi diciptakan secara formal oleh alat bahasa yang disebut
pemarkah kohesi, misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang
diulang. Pemarkah kohesi yang digunakan secara tepat menghasilkan kohesi
leksikal dan kohesi gramatikal. Kohesi leksikal adalah hubungan semantis
antarunsur pembentuk wacana dengan memanfaatkan unsur leksikal atau kata yang
dapat diwujudkan dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan
kata-kata pada kalimat berikutnya untuk memberikan penekanan bahwa kata-kata
tersebut merupakan fokus pembicaraan. Reiterasi dapat berupa repetisi,
sinonimi, hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan
antarkata yang berada pada lingkungan atau bidang yang sama. Contohnya,
[petani] di Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap
terendam banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis
antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan
dalam kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi,
substitusi, elipsis, dan konjungsi.
Kata-kata dapat dihubungkan dengan berbagai cara,
meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri.
Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan
kata-katanya; semakin terkoneksi diasumsikan semakin penting.
6. Discourse structure criteria
Pembuatan struktur discourse teks dan memberi skor kalimat
berdasarkan wacana sentralitas.
7. Peringkasan Teks Otomatis Berbasis Graf
Metode
berbasis graf tergolong baru dalam peringkasan teks otomatis.
Metode ini memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit
teks sebagai vertex dan menambahkan edges pada graf
berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex,
kemudian menentukan tingkat pentingnya setiap vertex berdasarkan
struktur graf keseluruhan.
Konsep perankingan halaman web dengan pagerank yang telah
dijelaskan akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual.
Graf tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan
PageRank untuk melakukan perankingan halaman-halaman web, penerapan perankingan
graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari
hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi
penyusun ringkasan ekstraktif.
Pada perankingan graf tekstual,
teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf tekstual
adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata,
kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge/link dalam grafmenunjukkan
keterhubungan yang bermakna antar vertex/node. Keterhubungan
tersebut dapat berupa similarity antar kalimat ataupun
hubungan leksikal atau gramatikal antar kata/frasa.
Pemilihan jenis unit teks untuk
dijadikan vertex bergantung pada tujuan aplikasi yang akan
dicapai. Misalnya untuk ekstraksikeyphrase biasanya frasa atau kata-kata
menjadivertex, sedangkan untuk ringkasan ekstraktif biasanya
kalimat ataupun paragraf dipilih sebagai vertex.
Edge yang menghubungkan vertex juga disesuaikan dengan
kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk
menyatakan hubungan suatu vertex denganvertex lain,
atau dengan kata lain, antara kalimat/paragraf satu dengan kalimat/paragraf
lain. Jenis similarity yang diterapkan juga beragam dan dapat
didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan dibangun, di
antaranya cosine similarity dan simple word overlap.
8. Term Frequency-Inverse Document Frequency
Metode
Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot
hubungan suatu kata ( term) terhadap dokumen. Untuk dokumen tunggal tiap
kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk
perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan
kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya klaimat
dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang
diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut.
Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata
tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan
semakin kecil jika muncul dalam banyak dokumen (Robertson, 2005). Pada Metode
ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF
dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat
(TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen ( IDF).
Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam
suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak
dokumen ( Grossman, 1998) . Nilai IDF sebuah term dihitung menggunakan
persamaan di bawah:
Menghitung bobot (W) masing-masing dokumen dengan persamaan di
bawah:
Kemudian baru melakukan proses pengurutan
(sorting) nilai kumulatif dari W untuk setiap kalimat. Tiga kalimat dengan
nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output
dari peringkasan teks otomatis.
Aplikasi
Ada berbagai jenis ringkasan tergantung pada
tujuan program summarization untuk membuat ringkasan teks, misalnya generic
summaries atau query relevant summaries. Sistem summarization dapat membuat
kedua ringkasan teks query yang relevan dan generik mesin yang dihasilkan
ringkasan tergantung pada apa kebutuhan pengguna. Summarization dokumen
multimedia, misalnya gambar atau film bisa juga memungkinkan.
Beberapa sistem akan menghasilkan ringkasan
didasarkan pada dokumen sumber tunggal, sementara yang lain dapat menggunakan
dokumen beberapa sumber (misalnya, sekelompok berita pada topik yang sama).
Terdapat sepotong teks, seperti artikel jurnal, dan terdapat hasilk daftar kata
kunci atau Frase unik yang menangkap topik utama yang dibahas dalam teks.
Sebaliknya, sistem keyphrase abstraktif akan menginternalisasi konten dan
menghasilkan Frase unik yang mungkin lebih deskriptif dan lebih seperti apa
yang manusia akan menghasilkan, seperti “kelalaian politik” atau “perlindungan
yang memadai dari banjir”. Perhatikan bahwa istilah-istilah ini tidak muncul
dalam teks dan memerlukan pemahaman yang mendalam, yang membuatnya sulit bagi
komputer untuk menghasilkan Frase unik tersebut. Pertandingan antara Frase unik
yang diusulkan dan Frase unik yang dikenal dapat diperiksa setelah berasal atau
menerapkan beberapa normalisasi teks lain.
Unsupervised keyphrase extraction: TextRank
Sementara supervised methods memiliki beberapa
kelebihan, seperti mampu menghasilkan aturan ditafsirkan untuk apa fitur ciri
keyphrase, namun juga memerlukan sejumlah besar pelatihan data. Alih-alih
mencoba untuk mempelajari fitur eksplisit yang menjadi ciri Frase unik,
algoritma TextRank memanfaatkan struktur teks itu sendiri untuk menentukan
Frase unik yang muncul “pusat” untuk teks dalam cara yang sama bahwa PageRank
memilih halaman Web yang penting. Setelah grafik dibangun, digunakan untuk
membentuk matriks stokastik, dikombinasikan dengan faktor redaman (seperti
dalam “model surfer acak”), dan peringkat atas simpul diperoleh dengan mencari
yang sesuai eigenvektor ke eigenvalue 1 (yaitu, distribusi stasioner dari
random walk pada grafik).
Unsupervised approaches: TextRank and LexRank
Unsupervised approach untuk summarization juga
memiliki model yang sama ekstraksi unsupervised keyphrase dan mendapatkan
masalah sekitar pelatihan data. Kedua metode tersebut dikembangkan oleh
kelompok-kelompok yang berbeda pada saat yang sama, dan LexRank hanya terfokus
pada summarization, tapi hanya bisa dengan mudah digunakan untuk ekstraksi
keyphrase atau tugas NLP peringkat lainnya.
Perbedaan TextRank and LexRank
Perlu dicatat bahwa TextRank yang diterapkan
untuk summarization persis seperti yang dijelaskan di sini, sementara LexRank
digunakan sebagai bagian dari sistem yang lebih besar summarization yang
menggabungkan skor LexRank (probabilitas stasioner) dengan fitur-fitur lain
seperti posisi kalimat dan panjang menggunakan kombinasi linear dengan baik
bobot yang ditentukan pengguna atau secara otomatis disetel. Dalam hal ini, beberapa
dokumen pelatihan mungkin diperlukan, meskipun hasil TextRank menunjukkan fitur
tambahan yang tidak mutlak diperlukan.
Perbedaan penting lainnya adalah TextRank yang
digunakan untuk summarization dokumen tunggal, sementara LexRank telah
diterapkan untuk multi-dokumen summarization. Namun, ketika meringkas beberapa
dokumen, ada risiko yang lebih besar dari memilih kalimat duplikat atau sangat
berlebihan untuk menempatkan dalam ringkasan yang sama. Untuk mengatasi masalah
ini, LexRank menerapkan langkah pengolahan pasca heuristik yang membangun
ringkasan dengan menambahkan kalimat dalam urutan peringkat, tetapi membuang
setiap kalimat yang terlalu mirip dengan yang sudah ditempatkan dalam
ringkasan.
Sumber : Berbagai Sumber
No comments:
Write komentar